독서/서평

[빅데이터로 일하는 기술] 빅데이터 실무 가이드 사례

Dibrary 2022. 4. 18. 09:50
반응형

이 책은 과거 국비교육을 들을 때 받은 책이다. 당연히 빅데이터에 관심이 많았던 나는 받자마자 곧장 읽어보았는데, 아무래도 그때 당시에는 잘 모르는 내용이 훨씬 많았던 책이다. 

지금 하둡까지를 공부하고 나서 다시 읽어보니 꽤 괜찮은 책이다.


먼저 빅데이터가 왜 대두 되었는지, 빅데이터를 쓸 수 밖에 없는 환경은 무엇인지 이런 산업 발전을 차례대로 설명한다.

대표적인 사례는 스마트폰으로 인한 데이터 생산량의 폭증이다. 각자 데이터를 무한대로 발생하는 단말기를 가지고 생활하는 시대가 되어서 해당 데이터를 활용하기에 적합한 사회가 되었으나, 이 데이터를 다루려면 기존 방식으로는 불가능하다는 것이다.

특히, 음성이나 이미지 관련 비정형 데이터가 더 많이 사용되어감에 따라 기존 데이터베이스로 다루려면 더 복잡한 관계 및 SELECT까지 시간이 많이 걸릴 수 있는 점을 소개한다.

단순 산업 분야 변화만 소개하는 것이 아니라 현재 거대 기업으로 성장한 아마존이나 소셜미디어기업을 실사례로 소개한다.

 

 

두 번째 챕터에서는 빅데이터라는 '자원'의 성질에 대해 설명한다. 우선 데이터의 크기가 굉장히 큰 것은 기본이고 매우 빠른 속도로 들어와서 결국 큰 데이터를 구성하는 것 역시 빅데이터다.

이러한 빅데이터를 처리하려면 결국 고속으로 데이터 수집이 가능해야 하고 많은 저장용량을 가지는 저장소가 필요한데 저장용량을 늘리는 방법으로는 scale-up, scale-out이 있다. 

scale-up은 하나의 장비에 성능을 높이는 것이고, scale-out은 병렬 연결을 통해 용량을 늘리는 것이다. 그래서 최근에 분산, 병렬 처리 관련 개념이 많이 나오는 것이고 그 개념의 대표이자 시초가 '하둡'인 것이다.

하둡으로 빅데이터의 저장이 가능해지니 이제는 데이터를 저장하기 까지의 관문, 데이터를 저장한 후에 처리하는 방법 이 2가지에 대한 개발도 같이 이뤄지면서 여러 도구들이 탄생하게 되었다. (flume, kafka, spark 등등)

각각 데이터를 수집하는 단계별 어떤 도구를 사용할 수 있는지에 대한 소개도 나와있다.

 


그 뒤부터 이 책에 나온 내용은 전부 실무와 관련된 내용들이 들어있다.

  • 데이터를 수집하고 분석하는 사례
  • 실제 데이터 분석시 마주할 수 있는 이슈들
  • 빅데이터를 통해 인사이트를 얻기 위해서는 어떤 방향의 주제를 선정해야 하는지
  • 각 데이터 분석 단계별 업무는 무엇이 있고 어떻게 수행되는지

 

그다지 두껍지 않은 책이지만, '빅데이터를 처음 도입해볼까' 하는 고민을 가진 사람이라면 읽었을 때 얻어가는 내용이 많을 책이다. 

빅데이터를 실제 현업에 도입하기까지 전체적인 개괄, 절차를 숙지할 수 있다.

728x90
반응형