독서/서평

[엔터프라이즈 데이터 레이크 구축] 쉬운 빅데이터 흐름 구축 설명서

Dibrary 2022. 5. 27. 09:50
반응형

 

읽게 된 계기

 

데이터 파이프라인 구축관련 개인 프로젝트를 진행해 보고자 하는데 하나하나 인터넷을 찾기에는 너무 관련 정보가 없어서 찾다가 발견한 책.

이 책의 목차를 보니 내용들의 목표는 '데이터 레이크'라는 것을 만드는 데 있는데, 이 데이터레이크는 간단하지 않아서 데이터 수집 부터 설명해 나가는 것으로 보였다.
그 과정에서 수집, 적재, 처리 라는 단계가 있는 것을 보고 데이터 파이프라인과 맞겠다 싶어서 읽기로 결정했다.

 


이 책의 특징

먼저 데이터 레이크가 뭔지 '개념'에 대해 소개하고, 기존에 우리가 아는 저장소(DB) 와는 무슨 차이가 있는지를 비교해 가며 설명해준다.

또한, 데이터 레이크를 만들기 위해 알아 둬야 하는 배치방식, 실시간 스트리밍 방식 이 2가지의 차이와 각 방법별 구축 아키텍처에 대해 소개한다.

여러 빅데이터 도구들 외에도 Flink, Hadoop, Elasticsearch를 사용하는 방법도 같이 소개된다.
그리고 저장소로는 Hadoop과 Elasticsearch 를 설명한다.

 


간단 내용 정리

요약하면, 데이터 레이크는 누구나 쓸 수 있게 만든 '모든 데이터의 집합소' 다.

데이터의 집합소인데 누구나 쓸 수 있어야 하기에 데이터 수집 자체도 프로그래밍으로 구성되어있다.

데이터 수집은 Sqoop, Flume과 Kafka를 이용해서 수집한다.

플룸은 파일이 생성되면 해당 파일을 읽어들여 다음 단계로 넘기고, 카프카는 각 목적에 맞는 토픽으로 분류한다.

저장소는 Hadoop(HDFS)와 Elasticsearch를 사용해서 NoSQL 데이터를 처리한다.

 


(나에게) 이 책의 장점

1. 내가 원하던 ETL 과정에 어떤 도구를 써야 하고, 어떻게 사용해야 하는지에 대한 개략적 개괄, 실마리를 얻을 수 있었다.

2. 또한, 각 챕터 마다 말미에 '해당 도구를 써야 하는 경우/ 쓰지 말아야 하는 경우'를 정리해 둬서 각 도구들의 차이를 명확히 알 수 있었다.

3. 코드와 글자만 넘쳐나는 것이 아니라 전체 책의 50% 가량은 이미지로 구성되어있다. 따라서 이해하기가 훨씬 쉽다.

4. 이 책을 통해서 적어도 내가 원하는 토이 프로그램 구조를 생각해 볼 수 있었다.

 


이 책의 단점

1. 많은 도구들이 설명 되는 대신 당연하게도(?) 도구의 사용방법이 엄청 자세하지는 않다.

 


결과

아예 빅데이터 처리에 대해 잘 모른다면, 이 책을 찬찬히 읽어 나간다면 여러 기술과 해당 기술들이 어떻게 협업해 나가는지 알 수 있는 좋은 책이다.

다만 전체적인 개괄 및 구성을 파악하고, 각 도구별 정확한 설정 및 사용방법은 공식문서나 좀 더 상세한 책을 찾으면서 같이 겸하면 좋을 것이다.

728x90
반응형