반응형

데이터레이크 3

[Data Catalog] 데이터의 활용성을 높이는 첫걸음

데이터 카탈로그가 뭔지 1도 모른 상태에서 보게 된 책이다. 우선 이 책을 본다는 것은 '데이터 관련 업종'에 관심이 있거나, 종사하고 있을 가능성이 높다고 생각된다. 특히 데이터를 다루던 방식이 바뀌어야 할 필요가 있다고 해서 찾아보던 와중에 이런 '개념'을 알게되었고, 해당 내용의 깊이를 더하고자 책을 읽게 되었다. '데이터 카탈로그'는 '데이터 레이크'와 뗄래야 뗄 수 없는 개념이다. 이 책에서도 초반에 데이터 카탈로그라는 개념이 나오게 된 배경을 소개하는데, 여기에 데이터 레이크가 나온다. 초반에는 ETL로 데이터를 적재해놓고 사용해 나가는것이 많이 보편화 되었으나, 이제는 그보다도 더 많은 데이터, 비정형 데이터가 쏟아지고 있어서 이 방식보다 좀 더 '경제적'이고 '효율적'인 방법이 나오게 되었..

독서/서평 2022.11.07

[엔터프라이즈 데이터 레이크 구축] 쉬운 빅데이터 흐름 구축 설명서

읽게 된 계기 데이터 파이프라인 구축관련 개인 프로젝트를 진행해 보고자 하는데 하나하나 인터넷을 찾기에는 너무 관련 정보가 없어서 찾다가 발견한 책. 이 책의 목차를 보니 내용들의 목표는 '데이터 레이크'라는 것을 만드는 데 있는데, 이 데이터레이크는 간단하지 않아서 데이터 수집 부터 설명해 나가는 것으로 보였다. 그 과정에서 수집, 적재, 처리 라는 단계가 있는 것을 보고 데이터 파이프라인과 맞겠다 싶어서 읽기로 결정했다. 이 책의 특징 먼저 데이터 레이크가 뭔지 '개념'에 대해 소개하고, 기존에 우리가 아는 저장소(DB) 와는 무슨 차이가 있는지를 비교해 가며 설명해준다. 또한, 데이터 레이크를 만들기 위해 알아 둬야 하는 배치방식, 실시간 스트리밍 방식 이 2가지의 차이와 각 방법별 구축 아키텍처에..

독서/서평 2022.05.27

[데이터 레이크] 데이터 저장의 모든 기술 집약체

읽게 된 계기 데이터와 관련된 자격증을 취득하면서 문득 Data Warehouse와 Data Lake라는 단어는 많이 보이는데 명확한 구별이 어려웠다. 아무래도 시험관련공부로 접한 내용은 핵심만을 짚어놓았으니까. 그럼에도 처음에는 Lake라는 단어에 끌려 이 책을 보게 되었다. 말 그대로 잔잔한 호수를 생각하며 읽었지만, 내용은 정말 유용하다는 깨달음을 얻었다. 이 책의 특징 데이터레이크에 대해 소개한 책이 몇 없는데, 그 중에 하나. 내용은 전공서적 같은 전문 개념들이 나오는데 반해 처음부터 끝까지 설명체로 이어진다. 그래서 흐름을 이해하기가 용이함. 중간중간 이미지도 있어서 이해하기 어렵지 않다. 간단 내용 정리 데이터 레이크는 '누구든지 사용할 수 있게 제공할 데이터를 모아놓는 저장소' 개념으로 사..

독서/서평 2022.05.25
반응형