독서/서평

[실무로 배우는 빅데이터기술] 교양서가 아닌 직접하는 빅데이터 처리

Dibrary 2022. 1. 17. 10:00
반응형

우선 결과부터 말하자면 '강! 추!'

4차산업 트렌드 중에 하나인 빅데이터에 대해 많은 사람들이 인지하고 있다. 또한, 해당 분야를 경험해보고 싶어하는 사람도 늘어나고 있다. 여기에 발맞췄는지 서점에 가면 빅데이터와 관련된 책이 굉장히 늘어난게 체감이 된다.

그러나, 읽고 나면 두리뭉실하게 '데이터'에 대한 내용만 남아있고, 실제로 데이터를 어떻게 다루는지, 뭘로 하는지에 대해 나와있는 책은 없었다. 개발업무를 하면서도 사실 궁금해서 이런저런 책들을 읽어나갔지만 실질적인 궁금증은 해결되지 않았다.

그때 이 책이 실마리가 되어주었다. 

이 책을 읽으면 전체적으로 빅데이터를 '어떻게' 처리하는지에 대해 '직접' 프로그램을 구성하고 실행 해 볼 수 있다. 그저 개념과 추상적인 생각만 하는것에 그치는 다른 책들과 다른점이다. 

가장 먼저 임시 데이터를 만들고, flume이라는 도구를 사용해서 실시간으로 많은 데이터를 받아들이고, kafka를 이용해서 적절하게 저장소(Hadoop)로 가게 한다. 그 이후 제플린을 이용해 분석을 하든, spark를 이용해서 분석을 하든 마음대로 하면 된다. 같은 업무를 진행하는데에도 도구가 여러 개가 있다. 이 책은 해당 도구들의 장단점도 같이 언급해 주고 있다.

중요한 것은, 실제 개념만 아는 사람이라면 해당 개념을 실현하기 위해 어떤 도구를 쓰고, 어떤 방법으로 연결해야 하는지를 알 수 있는 셈이다. 물론, 일일이 설정파일을 수정해 나가면서 하는 것은 어렵기 때문에 '클라우데라'라는 관리 프로그램을 이용해서 다룬다.

지금의 나는 모든 내용을 다 기억하고 있지도 않을 뿐 더러, 모든 기능을 다 쓰지 않는다. flume, kafka, hdfs, spark정도만을 사용하는데 해당 기술을 사용할 수 있는 시작점이 이 책이었다. 아예 이 책을 몰랐다면 지금도 그저 '빅데이터가 어쩌구~'하는 망망대해에서 멈춰있었을지도 모른다.

 

728x90
반응형