반응형

카프카 3

Kafka 기본 개념 및 아키텍처

안녕하세요 Dibrary입니다. 이번에는 Data처리에 핵심 기술인 Apache Kafka에 대해 정리해보겠습니다. 분산 스트리밍 플랫폼. 데이터를 유실없이 안전하게 전달하는 것이 주 목적인 ‘메시지 시스템’에서 데이터를 처리할 수 있습니다. 분산 스트리밍 플랫폼. 데이터를 유실없이 안전하게 전달하는 것이 주 목적인 ‘메시지 시스템’에서 데이터를 처리할 수 있습니다. 기본 아이디어는 Pub / Sub 모델 입니다. 메시지를 관리하는 Queue가 중앙에 있고, 독립적으로 발행, 소비가 이뤄집니다. 카프카의 특징 1. Pub / Sub 모델 2. 확장성 3. 메시지 순차처리 4. 분산처리 Producer는 데이터를 push , Consumer는 데이터를 pull 합니다. Foo와 Bar는 각각 3개의 Par..

[엔터프라이즈 데이터 레이크 구축] 쉬운 빅데이터 흐름 구축 설명서

읽게 된 계기 데이터 파이프라인 구축관련 개인 프로젝트를 진행해 보고자 하는데 하나하나 인터넷을 찾기에는 너무 관련 정보가 없어서 찾다가 발견한 책. 이 책의 목차를 보니 내용들의 목표는 '데이터 레이크'라는 것을 만드는 데 있는데, 이 데이터레이크는 간단하지 않아서 데이터 수집 부터 설명해 나가는 것으로 보였다. 그 과정에서 수집, 적재, 처리 라는 단계가 있는 것을 보고 데이터 파이프라인과 맞겠다 싶어서 읽기로 결정했다. 이 책의 특징 먼저 데이터 레이크가 뭔지 '개념'에 대해 소개하고, 기존에 우리가 아는 저장소(DB) 와는 무슨 차이가 있는지를 비교해 가며 설명해준다. 또한, 데이터 레이크를 만들기 위해 알아 둬야 하는 배치방식, 실시간 스트리밍 방식 이 2가지의 차이와 각 방법별 구축 아키텍처에..

독서/서평 2022.05.27

[카프카, 데이터 플랫폼의 최강자] 데이터 파이프 라인 구축의 기틀

요즘 들을 수 있는 미래 기술들 중에 빅데이터는 굉장히 흔하다. 게다가, 모든 사람들이 스마트폰을 들고 다니는 것을 다 알고 있기에 데이터의 양이 많아진다는 것도 누구나 알고 있다. 이 책은 바로 이 빅데이터 기술에 있어서 데이터 처리의 핵심으로 작동시킬 수 있는 Kafka에 대해 다루고 있다. 사실 데이터는 별개 없다. 말 그대로 ‘문자’ 혹은 ‘숫자’로 이뤄진 것들일 뿐이다. 그러나, 이 데이터의 양이 굉장히 방대하고, 빠른 속도, 가공이 필요하다면 쉬운 작업이 아니라는 것도 예상이 된다. 데이터를 다루기 위해서는 먼저 데이터를 받아들여야 하는데 바로 그 부분에서 Kafka를 활용할 수 있다. 데이터를 받아들이고, 내보내는 과정이 핵심이고 중간에 목적에 맞는 가공을 할 수도 있다. 이 책은 개인적인 ..

독서/서평 2021.07.19
반응형