반응형

airflow 5

Airflow에서 보기 편하게 Task를 묶어주는 - TaskGroup

안녕하세요 Dibrary입니다. Airflow 책을 보면서 Task를 구성하고 연결하는 것 까지는 해보았는데, 갯수가 많은 경우는 보기가 복잡할 수 있겠다~ 싶은 점이 있었습니다. 아니나 다를까, 최근 Airflow는 TaskGroup이라는 기능이 있어서 graph에서 보기 편하게 해 주는 기능이 있었습니다. graph를 사용하지 않은 기본 코드를 먼저 작성 해 보겠습니다. 위 코드의 graph를 보면 아래와 같이 나옵니다. 말 그대로 task_0에서 2가지 task로 분기가 되고, task_1_2에서 3가지로 분기가 되었다가 task_1_3_4에서 다시 모입니다. Task의 흐름을 보여드리고자 DummyOperator만 사용했습니다. BashOperator 및 PythonOperator를 사용하셔도 볼..

[빅데이터를 지탱하는 기술] - 빅데이터 기술 개괄서

읽게 된 계기 데이터 처리 분야에 관심이 있어서 읽게 된 책이다. 이 책이 나온지가 좀 되었는데, 그때의 기술 처리와 지금과 얼마나 달라졌을지 그리고 각 기술분야별로 주된 도구의 변화가 있는지를 볼 수 있겠다 싶어서 이 책을 읽었다. (다행이도 동네 도서관에 있었다.) 이 책의 특징 빅데이터를 다루기 위해 필요한 도구들이 소개 되며, 도구에 대한 설명, 사용방법 등이 나와있다. 하나의 도구에 대해 모든 것을 설명하는 방식이 아닌 전체적인 '업무' 즉, 데이터 처리하는 과정에 있어서 어떤 방법이 필요했고, 그 방법에 적합한 도구가 이것이다~ 는 설명방식을 띄고 있다. 그래서 흐름 대로 따라가면 데이터를 이렇게 다루고, 가공하고 한다는 개념이 잡힌다. 간단 내용 정리 먼저 빅데이터라는 개념이 왜 나오게 되었..

독서/서평 2022.08.23

CentOS 에서 Airflow 설치할 때 주의점

안녕하세요 Dibrary입니다. 데이터 처리에 있어서 굉장히 핫한 Airflow를 VirtualBOX(Centos)에 설치해보겠습니다. 굳이 글을 작성하는 이유는, Airflow를 설치하는데 있어서 그냥 pip install apache-airflow 만 하면 된다고 하는 포스팅이나 책이 많았는데, 막상 안되더라구요. 다행이도 해결방법을 찾아냈습니다. 물론, 한 번에 설치가 된다면 굉장히 다행이구요. 제가 실행한 Linux 환경은 CentOS 7이고, 파이썬은 원래 2.7이 깔려있었으나, 3.6으로 설치했습니다. 먼저 각종 책에서 나오는 pip install apache-airflow를 입력하고, pip list로 확인했을 때, 이렇게, apache-airflow 가 있어야 합니다. apache-airf..

[Apache Airflow] 에어플로우를 상세히 배울 수 있는 책

빅데이터에 관심이 많아서 관련된 책들을 보는데, 빈번하게 나오던 글자가 'apache airflow'였다. 자세히 알아보니 데이터 흐름을 자동화 할 수 있는 도구였다. 기존에 공부하던 빅데이터 도구들이랑은 약간 다르기도 해서 관심이 갔던 찰나에 이 책을 만났다. 이 책에 나온 내용은 굉장히 상세하고 또 자주 읽어서 익혀야 할만한 내용들로 가득 차 있다. 이 책은 크게 4가지 파트로 나눠져 있으며, 처음에는 정말 기본적인 개념 소개 및 실행을 해 볼 수 있다. 점진적으로 파트가 넘어가면서 더 세부적인 사항들에 대해 소개하며 각 기능을 사용할 때 주의해야할 점도 같이 짚어준다. 에어플로우를 사용해서 데이터를 가져오는 것 뿐 아니라, 데이터 가공 및 변환 등을 시간에 맞춰서 할 수 있다는 것에 놀랐고, 파이썬..

독서/서평 2022.07.19

[데이터 공학] 직접 구현하며 배우는 데이터 파이프라인

개인적으로 책 표지에 파이썬으로 한다는 말에 끌렸다. 원래 JAVA를 배웠으나 지금은 Python을 거의 주력으로 쓰고 간간이 JAVA나 Scala, Javascript를 쓰곤 하니.. 이 책은 제목 그대로 '실무 예제'를 배울 수 있다. 우선 데이터 엔지니어링을 하려면 알아야 하는 도구가 많다는 것은 어느정도 찾아본 사람이라면 알 것이다. 하둡부터 kafka, flink, flume, nifi, spark, impala, zeppline, sqoop, storm 등등 휘유... 무지하게 많다. 다 배우면 당연히 좋은데... 사람은 한계가 있기 때문에 '최소한의 투입으로 최고의 효율'을 내고 싶어한다. 바로 그런 측면에서 이 책이 딱이다. 이 책을 통해 배울 수 있는 기술은 nifi, airflow, e..

독서/서평 2022.06.29
반응형