반응형
읽게 된 계기
데이터 파이프라인 구축관련 개인 프로젝트를 진행해 보고자 하는데 하나하나 인터넷을 찾기에는 너무 관련 정보가 없어서 찾다가 발견한 책.
이 책의 목차를 보니 내용들의 목표는 '데이터 레이크'라는 것을 만드는 데 있는데, 이 데이터레이크는 간단하지 않아서 데이터 수집 부터 설명해 나가는 것으로 보였다.
그 과정에서 수집, 적재, 처리 라는 단계가 있는 것을 보고 데이터 파이프라인과 맞겠다 싶어서 읽기로 결정했다.
이 책의 특징
먼저 데이터 레이크가 뭔지 '개념'에 대해 소개하고, 기존에 우리가 아는 저장소(DB) 와는 무슨 차이가 있는지를 비교해 가며 설명해준다.
또한, 데이터 레이크를 만들기 위해 알아 둬야 하는 배치방식, 실시간 스트리밍 방식 이 2가지의 차이와 각 방법별 구축 아키텍처에 대해 소개한다.
여러 빅데이터 도구들 외에도 Flink, Hadoop, Elasticsearch를 사용하는 방법도 같이 소개된다.
그리고 저장소로는 Hadoop과 Elasticsearch 를 설명한다.
간단 내용 정리
요약하면, 데이터 레이크는 누구나 쓸 수 있게 만든 '모든 데이터의 집합소' 다.
데이터의 집합소인데 누구나 쓸 수 있어야 하기에 데이터 수집 자체도 프로그래밍으로 구성되어있다.
데이터 수집은 Sqoop, Flume과 Kafka를 이용해서 수집한다.
플룸은 파일이 생성되면 해당 파일을 읽어들여 다음 단계로 넘기고, 카프카는 각 목적에 맞는 토픽으로 분류한다.
저장소는 Hadoop(HDFS)와 Elasticsearch를 사용해서 NoSQL 데이터를 처리한다.
(나에게) 이 책의 장점
1. 내가 원하던 ETL 과정에 어떤 도구를 써야 하고, 어떻게 사용해야 하는지에 대한 개략적 개괄, 실마리를 얻을 수 있었다.
2. 또한, 각 챕터 마다 말미에 '해당 도구를 써야 하는 경우/ 쓰지 말아야 하는 경우'를 정리해 둬서 각 도구들의 차이를 명확히 알 수 있었다.
3. 코드와 글자만 넘쳐나는 것이 아니라 전체 책의 50% 가량은 이미지로 구성되어있다. 따라서 이해하기가 훨씬 쉽다.
4. 이 책을 통해서 적어도 내가 원하는 토이 프로그램 구조를 생각해 볼 수 있었다.
이 책의 단점
1. 많은 도구들이 설명 되는 대신 당연하게도(?) 도구의 사용방법이 엄청 자세하지는 않다.
결과
아예 빅데이터 처리에 대해 잘 모른다면, 이 책을 찬찬히 읽어 나간다면 여러 기술과 해당 기술들이 어떻게 협업해 나가는지 알 수 있는 좋은 책이다.
다만 전체적인 개괄 및 구성을 파악하고, 각 도구별 정확한 설정 및 사용방법은 공식문서나 좀 더 상세한 책을 찾으면서 같이 겸하면 좋을 것이다.
728x90
반응형
'독서 > 서평' 카테고리의 다른 글
[마이크로서비스 개발] MSA 입문으로 최적화된 책 (0) | 2022.06.08 |
---|---|
[소로스 투자 특강] 경제학에 숨어있는 교묘한 함정을 찾은 귀재 (0) | 2022.05.31 |
[데이터 레이크] 데이터 저장의 모든 기술 집약체 (0) | 2022.05.25 |
[아파트 값 5차 파동] 집값 파동의 역사를 통해 미래를 예측하자 (0) | 2022.05.23 |
[빅데이터 저장 및 분석을 위한 Redis] 레디스를 위한 기초 교재 (0) | 2022.05.21 |