독서/서평

[Data Catalog] 데이터의 활용성을 높이는 첫걸음

Dibrary 2022. 11. 7. 09:50
반응형

데이터 카탈로그가 뭔지 1도 모른 상태에서 보게 된 책이다. 
우선 이 책을 본다는 것은 '데이터 관련 업종'에 관심이 있거나, 종사하고 있을 가능성이 높다고 생각된다.

특히 데이터를 다루던 방식이 바뀌어야 할 필요가 있다고 해서 찾아보던 와중에 이런 '개념'을 알게되었고, 해당 내용의 깊이를 더하고자 책을 읽게 되었다.

 


'데이터 카탈로그'는 '데이터 레이크'와 뗄래야 뗄 수 없는 개념이다.

이 책에서도 초반에 데이터 카탈로그라는 개념이 나오게 된 배경을 소개하는데, 여기에 데이터 레이크가 나온다.

초반에는 ETL로 데이터를 적재해놓고 사용해 나가는것이 많이 보편화 되었으나, 이제는 그보다도 더 많은 데이터, 비정형 데이터가 쏟아지고 있어서 이 방식보다 좀 더 '경제적'이고 '효율적'인 방법이 나오게 되었는데, 그 방식이 ELT다.

근데, ELT는 결국 가공 없이 적재를 먼저 해버리므로 DB나 DW가 아닌 데이터 레이크라고 부르는 것이다.

 

데이터 레이크는 말 그대로 '모든' 데이터가 있기 때문에 여기서 데이터를 '쉽게' 찾을 수 없다면 아무런 쓸모도 없는게 되어버린다. 

바로 이 때 '쉽게' 찾게 하고자 만드는 것이 '데이터 카탈로그'다.

 

카탈로그라는 단어로 유추해서 책의 '인덱스'같은 용도로 알고 있었는데, 그 개념은 맞으나 정확도가 약간 부족한 개념이었다.

단순히 빠르게 찾는 용도 뿐 아니라 '메타데이터'를 가지고 있고, 더 깊게 찾아보기 전에 카탈로그의 정보만으로도 파악할 수 있는 수준이 존재하게 구성해야 한다는 것이 책에 설명되어있다. 

예시를 들고, 해당 예시에 어떤 항목들이 구성되는지를 소개한다. 

 


결국 이 책은 '개념'을 좀 더 상세하게 설명해준 개괄서에 불과하다고 생각한다.

실제로 회사에 다닌다면 각 회사에 맞는 형태로 각기 다르게 구현이 될텐데, 그 와중에 아예 아무것도 모르는 맨땅에서 시작하기 보다 그래도 '다른 사람이 했던 내용'의 키워드를 참고하는 형태가 필요할 때 이 책이 그런 용도다.

물론, 어떻게 구현하고 만들어 나가는지를 모조리 설명하진 않기 때문에 스스로 정리 해 나가면서 중간중간 이 책을 참고하는 것이 좋은 활용이지 않을까 싶다.

728x90
반응형