독서/서평

[빅데이터를 지탱하는 기술] - 빅데이터 기술 개괄서

Dibrary 2022. 8. 23. 09:50
반응형

읽게 된 계기

데이터 처리 분야에 관심이 있어서 읽게 된 책이다. 이 책이 나온지가 좀 되었는데, 그때의 기술 처리와 지금과 얼마나 달라졌을지 그리고 각 기술분야별로 주된 도구의 변화가 있는지를 볼 수 있겠다 싶어서 이 책을 읽었다.
(다행이도 동네 도서관에 있었다.)

 


이 책의 특징

빅데이터를 다루기 위해 필요한 도구들이 소개 되며, 도구에 대한 설명, 사용방법 등이 나와있다. 
하나의 도구에 대해 모든 것을 설명하는 방식이 아닌 전체적인 '업무' 즉, 데이터 처리하는 과정에 있어서 어떤 방법이 필요했고, 그 방법에 적합한 도구가 이것이다~ 는 설명방식을 띄고 있다. 그래서 흐름 대로 따라가면 데이터를 이렇게 다루고, 가공하고 한다는 개념이 잡힌다.

 


간단 내용 정리

 

먼저 빅데이터라는 개념이 왜 나오게 되었는지 산업 현장에서의 문제점 등을 언급한다. 
그 뒤에 데이터를 왜 분석해야 하는지도 같이 설명한다. 데이터를 분석할 때 시각화 기능으로 '사람이 깨닫는 것'이 중요하다는 점을 알려준다.

그리고 나서 각 데이터의 처리 과정이 하나의 챕터별로 구성된다.

탐색 과정에서는 데이터라는 것 자체에 대한 파악을 하는 것으로 이뤄진다. 통계치를 뽑아보거나, 결측치, 이상치 등을 확인해보거나 범주 등등 여러가지를 확인해보면서 데이터를 다룰 때 어느 정도까지로 다뤄야 하는지를 알아볼 수 있다.

그 다음에 분산 처리 및 축적에 필요한 도구들이 소개되며 각각이 어떤 기능을 가지는지, 특장점이 뭔지를 설명한다.

Hadoop, Spark, Hive, Presto 등등 설명되는 도구는 많다.

그리고 이런 도구를 사용한 데이터 흐름을 하나로 만드는 파이프라인에 대해 소개한다. 대표적으로 airflow 및 nifi가 있다.

 


(나에게) 이 책의 장점

1. 아무래도 영어 번역서가 아니다 보니 읽히는데 편하다.

2. 아예 데이터 처리에 대해 모르는 경우 흐름을 파악하는 데 좋다.

3. 각 개념설명 마다 도식화된 이미지가 있어서 이해하기 좋다.

4. 지금도 중심이 되는 기술이 과거에 어떤 생각으로 도입하기 시작했는지 알 수 있다.


 책의 단점

1. 각 도구의 사용 방법이 아주 얕은 수준이다. 그래서 기본 개괄을 잡은 후에 각 필요한 도구는 이 책만으론 안되고 별개로 공부를 따로 해야 한다.

2. 책이 좀 나온지 되어서 관련 내용을 검색하면 지금은 더 많은 기술들이 찾아진다. 선택지의 폭을 넓히려면 스스로 해야 함. 

 


결과

 

흔히 빅데이터라고 불리는 데이터 엔지니어 혹은 데이터 처리 분야 직업에 생각이 있는데 아무것도 모른다면 볼 만 하다.

다만, 중간중간 프로그래밍 언어를 쓰는 부분이 있기 때문에 약간의 Python과 Linux를 다룰 수 있으면 좋다.

진짜 깊이 있는 개념을 찾아볼 '목차' 같은 책이라고 생각한다.

728x90
반응형