이 책은 과거 국비교육을 들을 때 받은 책이다. 당연히 빅데이터에 관심이 많았던 나는 받자마자 곧장 읽어보았는데, 아무래도 그때 당시에는 잘 모르는 내용이 훨씬 많았던 책이다.
지금 하둡까지를 공부하고 나서 다시 읽어보니 꽤 괜찮은 책이다.
먼저 빅데이터가 왜 대두 되었는지, 빅데이터를 쓸 수 밖에 없는 환경은 무엇인지 이런 산업 발전을 차례대로 설명한다.
대표적인 사례는 스마트폰으로 인한 데이터 생산량의 폭증이다. 각자 데이터를 무한대로 발생하는 단말기를 가지고 생활하는 시대가 되어서 해당 데이터를 활용하기에 적합한 사회가 되었으나, 이 데이터를 다루려면 기존 방식으로는 불가능하다는 것이다.
특히, 음성이나 이미지 관련 비정형 데이터가 더 많이 사용되어감에 따라 기존 데이터베이스로 다루려면 더 복잡한 관계 및 SELECT까지 시간이 많이 걸릴 수 있는 점을 소개한다.
단순 산업 분야 변화만 소개하는 것이 아니라 현재 거대 기업으로 성장한 아마존이나 소셜미디어기업을 실사례로 소개한다.
두 번째 챕터에서는 빅데이터라는 '자원'의 성질에 대해 설명한다. 우선 데이터의 크기가 굉장히 큰 것은 기본이고 매우 빠른 속도로 들어와서 결국 큰 데이터를 구성하는 것 역시 빅데이터다.
이러한 빅데이터를 처리하려면 결국 고속으로 데이터 수집이 가능해야 하고 많은 저장용량을 가지는 저장소가 필요한데 저장용량을 늘리는 방법으로는 scale-up, scale-out이 있다.
scale-up은 하나의 장비에 성능을 높이는 것이고, scale-out은 병렬 연결을 통해 용량을 늘리는 것이다. 그래서 최근에 분산, 병렬 처리 관련 개념이 많이 나오는 것이고 그 개념의 대표이자 시초가 '하둡'인 것이다.
하둡으로 빅데이터의 저장이 가능해지니 이제는 데이터를 저장하기 까지의 관문, 데이터를 저장한 후에 처리하는 방법 이 2가지에 대한 개발도 같이 이뤄지면서 여러 도구들이 탄생하게 되었다. (flume, kafka, spark 등등)
각각 데이터를 수집하는 단계별 어떤 도구를 사용할 수 있는지에 대한 소개도 나와있다.
그 뒤부터 이 책에 나온 내용은 전부 실무와 관련된 내용들이 들어있다.
- 데이터를 수집하고 분석하는 사례
- 실제 데이터 분석시 마주할 수 있는 이슈들
- 빅데이터를 통해 인사이트를 얻기 위해서는 어떤 방향의 주제를 선정해야 하는지
- 각 데이터 분석 단계별 업무는 무엇이 있고 어떻게 수행되는지
그다지 두껍지 않은 책이지만, '빅데이터를 처음 도입해볼까' 하는 고민을 가진 사람이라면 읽었을 때 얻어가는 내용이 많을 책이다.
빅데이터를 실제 현업에 도입하기까지 전체적인 개괄, 절차를 숙지할 수 있다.
'독서 > 서평' 카테고리의 다른 글
[한국형 원전 후쿠시마는 없다] 탈원전을 소재로 정치질 하는 책 (0) | 2022.05.11 |
---|---|
[날치기 국회사] 국회에서 말을 안 들었던 진짜 집단들 (0) | 2022.04.28 |
[Django 파이썬 웹 프로그래밍] 내가 아는 가장 쉬운 장고(Django)책 (0) | 2022.04.13 |
[초격차] 세계1위 기업을 만들어 본 리더의 관점 (0) | 2022.03.31 |
[NoSQL철저입문] NoSQL에 대한 전반적인 요약본 (0) | 2022.03.30 |