데이터 카탈로그가 뭔지 1도 모른 상태에서 보게 된 책이다.
우선 이 책을 본다는 것은 '데이터 관련 업종'에 관심이 있거나, 종사하고 있을 가능성이 높다고 생각된다.
특히 데이터를 다루던 방식이 바뀌어야 할 필요가 있다고 해서 찾아보던 와중에 이런 '개념'을 알게되었고, 해당 내용의 깊이를 더하고자 책을 읽게 되었다.
'데이터 카탈로그'는 '데이터 레이크'와 뗄래야 뗄 수 없는 개념이다.
이 책에서도 초반에 데이터 카탈로그라는 개념이 나오게 된 배경을 소개하는데, 여기에 데이터 레이크가 나온다.
초반에는 ETL로 데이터를 적재해놓고 사용해 나가는것이 많이 보편화 되었으나, 이제는 그보다도 더 많은 데이터, 비정형 데이터가 쏟아지고 있어서 이 방식보다 좀 더 '경제적'이고 '효율적'인 방법이 나오게 되었는데, 그 방식이 ELT다.
근데, ELT는 결국 가공 없이 적재를 먼저 해버리므로 DB나 DW가 아닌 데이터 레이크라고 부르는 것이다.
데이터 레이크는 말 그대로 '모든' 데이터가 있기 때문에 여기서 데이터를 '쉽게' 찾을 수 없다면 아무런 쓸모도 없는게 되어버린다.
바로 이 때 '쉽게' 찾게 하고자 만드는 것이 '데이터 카탈로그'다.
카탈로그라는 단어로 유추해서 책의 '인덱스'같은 용도로 알고 있었는데, 그 개념은 맞으나 정확도가 약간 부족한 개념이었다.
단순히 빠르게 찾는 용도 뿐 아니라 '메타데이터'를 가지고 있고, 더 깊게 찾아보기 전에 카탈로그의 정보만으로도 파악할 수 있는 수준이 존재하게 구성해야 한다는 것이 책에 설명되어있다.
예시를 들고, 해당 예시에 어떤 항목들이 구성되는지를 소개한다.
결국 이 책은 '개념'을 좀 더 상세하게 설명해준 개괄서에 불과하다고 생각한다.
실제로 회사에 다닌다면 각 회사에 맞는 형태로 각기 다르게 구현이 될텐데, 그 와중에 아예 아무것도 모르는 맨땅에서 시작하기 보다 그래도 '다른 사람이 했던 내용'의 키워드를 참고하는 형태가 필요할 때 이 책이 그런 용도다.
물론, 어떻게 구현하고 만들어 나가는지를 모조리 설명하진 않기 때문에 스스로 정리 해 나가면서 중간중간 이 책을 참고하는 것이 좋은 활용이지 않을까 싶다.
'독서 > 서평' 카테고리의 다른 글
[영어독해 개념이해] 글 구조파악 가이드북 (0) | 2024.02.06 |
---|---|
망그러진 만화 (0) | 2023.07.17 |
[구글 빅쿼리] 빅쿼리에 대해 입문할 수 있는 책 (0) | 2022.10.24 |
[JIRA] 쉽게 따라하며 익힐 수 있는 지라 책 (0) | 2022.10.14 |
[모던 자바스크립트] 자바스크립트 문법 종합책 (1) | 2022.10.07 |