[빅데이터로 일하는 기술] 빅데이터 실무 가이드 사례

독서/서평

Dibrary 2022. 4. 18. 09:50

이 책은 과거 국비교육을 들을 때 받은 책이다. 당연히 빅데이터에 관심이 많았던 나는 받자마자 곧장 읽어보았는데, 아무래도 그때 당시에는 잘 모르는 내용이 훨씬 많았던 책이다.

지금 하둡까지를 공부하고 나서 다시 읽어보니 꽤 괜찮은 책이다.

먼저 빅데이터가 왜 대두 되었는지, 빅데이터를 쓸 수 밖에 없는 환경은 무엇인지 이런 산업 발전을 차례대로 설명한다.

대표적인 사례는 스마트폰으로 인한 데이터 생산량의 폭증이다. 각자 데이터를 무한대로 발생하는 단말기를 가지고 생활하는 시대가 되어서 해당 데이터를 활용하기에 적합한 사회가 되었으나, 이 데이터를 다루려면 기존 방식으로는 불가능하다는 것이다.

특히, 음성이나 이미지 관련 비정형 데이터가 더 많이 사용되어감에 따라 기존 데이터베이스로 다루려면 더 복잡한 관계 및 SELECT까지 시간이 많이 걸릴 수 있는 점을 소개한다.

단순 산업 분야 변화만 소개하는 것이 아니라 현재 거대 기업으로 성장한 아마존이나 소셜미디어기업을 실사례로 소개한다.

두 번째 챕터에서는 빅데이터라는 '자원'의 성질에 대해 설명한다. 우선 데이터의 크기가 굉장히 큰 것은 기본이고 매우 빠른 속도로 들어와서 결국 큰 데이터를 구성하는 것 역시 빅데이터다.

이러한 빅데이터를 처리하려면 결국 고속으로 데이터 수집이 가능해야 하고 많은 저장용량을 가지는 저장소가 필요한데 저장용량을 늘리는 방법으로는 scale-up, scale-out이 있다.

scale-up은 하나의 장비에 성능을 높이는 것이고, scale-out은 병렬 연결을 통해 용량을 늘리는 것이다. 그래서 최근에 분산, 병렬 처리 관련 개념이 많이 나오는 것이고 그 개념의 대표이자 시초가 '하둡'인 것이다.

하둡으로 빅데이터의 저장이 가능해지니 이제는 데이터를 저장하기 까지의 관문, 데이터를 저장한 후에 처리하는 방법 이 2가지에 대한 개발도 같이 이뤄지면서 여러 도구들이 탄생하게 되었다. (flume, kafka, spark 등등)

각각 데이터를 수집하는 단계별 어떤 도구를 사용할 수 있는지에 대한 소개도 나와있다.

그 뒤부터 이 책에 나온 내용은 전부 실무와 관련된 내용들이 들어있다.

그다지 두껍지 않은 책이지만, '빅데이터를 처음 도입해볼까' 하는 고민을 가진 사람이라면 읽었을 때 얻어가는 내용이 많을 책이다.

빅데이터를 실제 현업에 도입하기까지 전체적인 개괄, 절차를 숙지할 수 있다.

728x90

[한국형 원전 후쿠시마는 없다] 탈원전을 소재로 정치질 하는 책 (0)	2022.05.11
[날치기 국회사] 국회에서 말을 안 들었던 진짜 집단들 (0)	2022.04.28
[Django 파이썬 웹 프로그래밍] 내가 아는 가장 쉬운 장고(Django)책 (0)	2022.04.13
[초격차] 세계1위 기업을 만들어 본 리더의 관점 (0)	2022.03.31
[NoSQL철저입문] NoSQL에 대한 전반적인 요약본 (0)	2022.03.30

Dh + library = Dibrary 잡학도서관 코딩 다이어리

PyQt5, 서평, 백준, 자료구조, 머신러닝, 데이터, 파이썬, 한빛미디어, Python3, install, 설치, PS, 알고리즘, gui, PYTHON, BOJ, 빅데이터, 클린코드, 데이터분석, 길벗,

코딩개발로 물장구치는 개발자