독서/서평

[카프카, 데이터 플랫폼의 최강자] 데이터 파이프 라인 구축의 기틀

Dibrary 2021. 7. 19. 10:04
반응형

 

요즘 들을 수 있는 미래 기술들 중에 빅데이터는 굉장히 흔하다. 게다가, 모든 사람들이 스마트폰을 들고 다니는 것을 다 알고 있기에 데이터의 양이 많아진다는 것도 누구나 알고 있다.

이 책은 바로 이 빅데이터 기술에 있어서 데이터 처리의 핵심으로 작동시킬 수 있는 Kafka에 대해 다루고 있다. 사실 데이터는 별개 없다. 말 그대로 문자혹은 숫자로 이뤄진 것들일 뿐이다. 그러나, 이 데이터의 양이 굉장히 방대하고, 빠른 속도, 가공이 필요하다면 쉬운 작업이 아니라는 것도 예상이 된다.

데이터를 다루기 위해서는 먼저 데이터를 받아들여야 하는데 바로 그 부분에서 Kafka를 활용할 수 있다. 데이터를 받아들이고, 내보내는 과정이 핵심이고 중간에 목적에 맞는 가공을 할 수도 있다.

이 책은 개인적인 느낌으로 Kafka의 초급 교과서라고 느꼈다. 이 책의 서두부분은 여느 책들과 마찬가지로 설치과정을 소개하고 있다. 빅데이터 관련 도구들은 거진 대부분이 Linux라는 검은 화면을 기본으로 한다. 그렇기에 초심자가 따라하기엔 굉장히 어렵다고 느끼는 경우가 많다. 특히, 책에 실린 내용을 똑같이 입력 했지만 전혀 다른 결과가 나올 때 그 절망감은 이루 말할 수 없다.

직접 모든 코드를 실행 해 본 결과, 모두 잘 된다. 이 점이 가장 책을 선택하는데 있어서 손꼽힌 요소가 아닐까 싶다.

그 다음으로는 Kafka의 모델을 설명해 나간다. 어떻게 동작하는지를 알고 다루는 것과 모르고 다루는 것의 차이는 굉장하기에 이 부분을 가장 신중하게 읽어 나갔다. 이러한 내용은 차후 응용 측면에 있어서 많은 도움을 줄 수 있을 것이다.

그리고 Linux에서 실행만 하는 것이 아니라 Python이나 JAVA같은 언어를 사용해서 Kafka의 데이터를 입출력 할 수 있는 코드도 같이 소개를 하고 있어서 굉장히 유용했다.

아마 개발자들은 공식문서를 참고하는 것이 더 나은 선택이 아니냐라고 반문할 수 있겠지만, 프로그래밍을 해 보지 않은 초보자 입장에서는 공식문서를 보는 것 자체가 굉장한 진입장벽임을 잘 몰라서 하는 말이다. 이 책의 일부 내용은 공식문서에 나온 내용도 굉장히 쉽게 설명해주고 있다. 또한, 모든 코드가 하나의 예시를 토대로 진행이 되고 있기 때문에 어떠한 목적으로 코드를 사용해 나갔는지 변화를 파악하기에도 유용했다.

나는 애초에 빅데이터 처리 단계에 대해 어느정도 감은 있었지만, 이 책을 읽고 그 단계 중 Kafka라는 단계는 굉장히 굳건하게 잘 완성이 되었다고 할 수 있다.

728x90
반응형