반응형

kafka 4

Kafka 기본 개념 및 아키텍처

안녕하세요 Dibrary입니다. 이번에는 Data처리에 핵심 기술인 Apache Kafka에 대해 정리해보겠습니다. 분산 스트리밍 플랫폼. 데이터를 유실없이 안전하게 전달하는 것이 주 목적인 ‘메시지 시스템’에서 데이터를 처리할 수 있습니다. 분산 스트리밍 플랫폼. 데이터를 유실없이 안전하게 전달하는 것이 주 목적인 ‘메시지 시스템’에서 데이터를 처리할 수 있습니다. 기본 아이디어는 Pub / Sub 모델 입니다. 메시지를 관리하는 Queue가 중앙에 있고, 독립적으로 발행, 소비가 이뤄집니다. 카프카의 특징 1. Pub / Sub 모델 2. 확장성 3. 메시지 순차처리 4. 분산처리 Producer는 데이터를 push , Consumer는 데이터를 pull 합니다. Foo와 Bar는 각각 3개의 Par..

[데이터 공학] 직접 구현하며 배우는 데이터 파이프라인

개인적으로 책 표지에 파이썬으로 한다는 말에 끌렸다. 원래 JAVA를 배웠으나 지금은 Python을 거의 주력으로 쓰고 간간이 JAVA나 Scala, Javascript를 쓰곤 하니.. 이 책은 제목 그대로 '실무 예제'를 배울 수 있다. 우선 데이터 엔지니어링을 하려면 알아야 하는 도구가 많다는 것은 어느정도 찾아본 사람이라면 알 것이다. 하둡부터 kafka, flink, flume, nifi, spark, impala, zeppline, sqoop, storm 등등 휘유... 무지하게 많다. 다 배우면 당연히 좋은데... 사람은 한계가 있기 때문에 '최소한의 투입으로 최고의 효율'을 내고 싶어한다. 바로 그런 측면에서 이 책이 딱이다. 이 책을 통해 배울 수 있는 기술은 nifi, airflow, e..

독서/서평 2022.06.29

[실무로 배우는 빅데이터기술] 교양서가 아닌 직접하는 빅데이터 처리

우선 결과부터 말하자면 '강! 추!' 4차산업 트렌드 중에 하나인 빅데이터에 대해 많은 사람들이 인지하고 있다. 또한, 해당 분야를 경험해보고 싶어하는 사람도 늘어나고 있다. 여기에 발맞췄는지 서점에 가면 빅데이터와 관련된 책이 굉장히 늘어난게 체감이 된다. 그러나, 읽고 나면 두리뭉실하게 '데이터'에 대한 내용만 남아있고, 실제로 데이터를 어떻게 다루는지, 뭘로 하는지에 대해 나와있는 책은 없었다. 개발업무를 하면서도 사실 궁금해서 이런저런 책들을 읽어나갔지만 실질적인 궁금증은 해결되지 않았다. 그때 이 책이 실마리가 되어주었다. 이 책을 읽으면 전체적으로 빅데이터를 '어떻게' 처리하는지에 대해 '직접' 프로그램을 구성하고 실행 해 볼 수 있다. 그저 개념과 추상적인 생각만 하는것에 그치는 다른 책들과..

독서/서평 2022.01.17

[카프카, 데이터 플랫폼의 최강자] 데이터 파이프 라인 구축의 기틀

요즘 들을 수 있는 미래 기술들 중에 빅데이터는 굉장히 흔하다. 게다가, 모든 사람들이 스마트폰을 들고 다니는 것을 다 알고 있기에 데이터의 양이 많아진다는 것도 누구나 알고 있다. 이 책은 바로 이 빅데이터 기술에 있어서 데이터 처리의 핵심으로 작동시킬 수 있는 Kafka에 대해 다루고 있다. 사실 데이터는 별개 없다. 말 그대로 ‘문자’ 혹은 ‘숫자’로 이뤄진 것들일 뿐이다. 그러나, 이 데이터의 양이 굉장히 방대하고, 빠른 속도, 가공이 필요하다면 쉬운 작업이 아니라는 것도 예상이 된다. 데이터를 다루기 위해서는 먼저 데이터를 받아들여야 하는데 바로 그 부분에서 Kafka를 활용할 수 있다. 데이터를 받아들이고, 내보내는 과정이 핵심이고 중간에 목적에 맞는 가공을 할 수도 있다. 이 책은 개인적인 ..

독서/서평 2021.07.19
반응형