반응형

데이터엔지니어 2

데이터 플랫폼 설계와 구축 - 1장(소개) 정리

안녕하세요 Dibrary입니다. 앞으로 차츰 이 책의 내용에서 주관적으로 중요하다 생각되는 개념을 정리함과 동시에 '제 생각'도 같이 정리해 둘 예정입니다. 클라우드 데이터 플랫폼 = 모든 유형의 데이터를, 거의 무제한의 장소에서 비용효과적인 클라우드 네이티브 방식으로 수집, 통합, 변환, 분석, 관리되는 데이터 플랫폼 무슨말인가 하면, 데이터가 들어오는 것 부터 사용하는 단계까지 모두 클라우드에서 사용하는 것을 의미한다. 데이터 관련 기술을 처음 접하기 시작하면 대부분 로컬에 VM등을 사용해서 여러 PC환경을 갖춘 후에 실행해봐야 하는 경우가 대부분이다. 이런 거 말고 그 단계를 클라우드에 있는 걸 사용하거나 한다는 말. 단일 시스템 아키텍처는 유연성이 크게 떨어진다. ETL (혹은 ELT) 각 단계별..

[Data Catalog] 데이터의 활용성을 높이는 첫걸음

데이터 카탈로그가 뭔지 1도 모른 상태에서 보게 된 책이다. 우선 이 책을 본다는 것은 '데이터 관련 업종'에 관심이 있거나, 종사하고 있을 가능성이 높다고 생각된다. 특히 데이터를 다루던 방식이 바뀌어야 할 필요가 있다고 해서 찾아보던 와중에 이런 '개념'을 알게되었고, 해당 내용의 깊이를 더하고자 책을 읽게 되었다. '데이터 카탈로그'는 '데이터 레이크'와 뗄래야 뗄 수 없는 개념이다. 이 책에서도 초반에 데이터 카탈로그라는 개념이 나오게 된 배경을 소개하는데, 여기에 데이터 레이크가 나온다. 초반에는 ETL로 데이터를 적재해놓고 사용해 나가는것이 많이 보편화 되었으나, 이제는 그보다도 더 많은 데이터, 비정형 데이터가 쏟아지고 있어서 이 방식보다 좀 더 '경제적'이고 '효율적'인 방법이 나오게 되었..

독서/서평 2022.11.07
반응형