[엔터프라이즈 데이터 레이크 구축] 쉬운 빅데이터 흐름 구축 설명서

독서/서평

[엔터프라이즈 데이터 레이크 구축] 쉬운 빅데이터 흐름 구축 설명서

Dibrary 2022. 5. 27. 09:50

읽게 된 계기

데이터 파이프라인 구축관련 개인 프로젝트를 진행해 보고자 하는데 하나하나 인터넷을 찾기에는 너무 관련 정보가 없어서 찾다가 발견한 책.

이 책의 목차를 보니 내용들의 목표는 '데이터 레이크'라는 것을 만드는 데 있는데, 이 데이터레이크는 간단하지 않아서 데이터 수집 부터 설명해 나가는 것으로 보였다.
그 과정에서 수집, 적재, 처리 라는 단계가 있는 것을 보고 데이터 파이프라인과 맞겠다 싶어서 읽기로 결정했다.

이 책의 특징

먼저 데이터 레이크가 뭔지 '개념'에 대해 소개하고, 기존에 우리가 아는 저장소(DB) 와는 무슨 차이가 있는지를 비교해 가며 설명해준다.

또한, 데이터 레이크를 만들기 위해 알아 둬야 하는 배치방식, 실시간 스트리밍 방식 이 2가지의 차이와 각 방법별 구축 아키텍처에 대해 소개한다.

여러 빅데이터 도구들 외에도 Flink, Hadoop, Elasticsearch를 사용하는 방법도 같이 소개된다.
그리고 저장소로는 Hadoop과 Elasticsearch 를 설명한다.

간단 내용 정리

요약하면, 데이터 레이크는 누구나 쓸 수 있게 만든 '모든 데이터의 집합소' 다.

데이터의 집합소인데 누구나 쓸 수 있어야 하기에 데이터 수집 자체도 프로그래밍으로 구성되어있다.

데이터 수집은 Sqoop, Flume과 Kafka를 이용해서 수집한다.

플룸은 파일이 생성되면 해당 파일을 읽어들여 다음 단계로 넘기고, 카프카는 각 목적에 맞는 토픽으로 분류한다.

저장소는 Hadoop(HDFS)와 Elasticsearch를 사용해서 NoSQL 데이터를 처리한다.

(나에게) 이 책의 장점

1. 내가 원하던 ETL 과정에 어떤 도구를 써야 하고, 어떻게 사용해야 하는지에 대한 개략적 개괄, 실마리를 얻을 수 있었다.

2. 또한, 각 챕터 마다 말미에 '해당 도구를 써야 하는 경우/ 쓰지 말아야 하는 경우'를 정리해 둬서 각 도구들의 차이를 명확히 알 수 있었다.

3. 코드와 글자만 넘쳐나는 것이 아니라 전체 책의 50% 가량은 이미지로 구성되어있다. 따라서 이해하기가 훨씬 쉽다.

4. 이 책을 통해서 적어도 내가 원하는 토이 프로그램 구조를 생각해 볼 수 있었다.

이 책의 단점

1. 많은 도구들이 설명 되는 대신 당연하게도(?) 도구의 사용방법이 엄청 자세하지는 않다.

결과

아예 빅데이터 처리에 대해 잘 모른다면, 이 책을 찬찬히 읽어 나간다면 여러 기술과 해당 기술들이 어떻게 협업해 나가는지 알 수 있는 좋은 책이다.

다만 전체적인 개괄 및 구성을 파악하고, 각 도구별 정확한 설정 및 사용방법은 공식문서나 좀 더 상세한 책을 찾으면서 같이 겸하면 좋을 것이다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'독서 > 서평' 카테고리의 다른 글

[마이크로서비스 개발] MSA 입문으로 최적화된 책 (0)	2022.06.08
[소로스 투자 특강] 경제학에 숨어있는 교묘한 함정을 찾은 귀재 (0)	2022.05.31
[데이터 레이크] 데이터 저장의 모든 기술 집약체 (0)	2022.05.25
[아파트 값 5차 파동] 집값 파동의 역사를 통해 미래를 예측하자 (0)	2022.05.23
[빅데이터 저장 및 분석을 위한 Redis] 레디스를 위한 기초 교재 (0)	2022.05.21

현재글[엔터프라이즈 데이터 레이크 구축] 쉬운 빅데이터 흐름 구축 설명서

Dh + library = Dibrary 잡학도서관 코딩 다이어리

백준, PYTHON, 자료구조, 파이썬, 데이터분석, install, BOJ, gui, 한빛미디어, 알고리즘, 설치, 빅데이터, 클린코드, 길벗, PyQt5, PS, 머신러닝, Python3, 서평, 데이터,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

코딩개발로 물장구치는 개발자