반응형

에어플로우 3

Airflow에서 보기 편하게 Task를 묶어주는 - TaskGroup

안녕하세요 Dibrary입니다. Airflow 책을 보면서 Task를 구성하고 연결하는 것 까지는 해보았는데, 갯수가 많은 경우는 보기가 복잡할 수 있겠다~ 싶은 점이 있었습니다. 아니나 다를까, 최근 Airflow는 TaskGroup이라는 기능이 있어서 graph에서 보기 편하게 해 주는 기능이 있었습니다. graph를 사용하지 않은 기본 코드를 먼저 작성 해 보겠습니다. 위 코드의 graph를 보면 아래와 같이 나옵니다. 말 그대로 task_0에서 2가지 task로 분기가 되고, task_1_2에서 3가지로 분기가 되었다가 task_1_3_4에서 다시 모입니다. Task의 흐름을 보여드리고자 DummyOperator만 사용했습니다. BashOperator 및 PythonOperator를 사용하셔도 볼..

CentOS 에서 Airflow 설치할 때 주의점

안녕하세요 Dibrary입니다. 데이터 처리에 있어서 굉장히 핫한 Airflow를 VirtualBOX(Centos)에 설치해보겠습니다. 굳이 글을 작성하는 이유는, Airflow를 설치하는데 있어서 그냥 pip install apache-airflow 만 하면 된다고 하는 포스팅이나 책이 많았는데, 막상 안되더라구요. 다행이도 해결방법을 찾아냈습니다. 물론, 한 번에 설치가 된다면 굉장히 다행이구요. 제가 실행한 Linux 환경은 CentOS 7이고, 파이썬은 원래 2.7이 깔려있었으나, 3.6으로 설치했습니다. 먼저 각종 책에서 나오는 pip install apache-airflow를 입력하고, pip list로 확인했을 때, 이렇게, apache-airflow 가 있어야 합니다. apache-airf..

[Apache Airflow] 에어플로우를 상세히 배울 수 있는 책

빅데이터에 관심이 많아서 관련된 책들을 보는데, 빈번하게 나오던 글자가 'apache airflow'였다. 자세히 알아보니 데이터 흐름을 자동화 할 수 있는 도구였다. 기존에 공부하던 빅데이터 도구들이랑은 약간 다르기도 해서 관심이 갔던 찰나에 이 책을 만났다. 이 책에 나온 내용은 굉장히 상세하고 또 자주 읽어서 익혀야 할만한 내용들로 가득 차 있다. 이 책은 크게 4가지 파트로 나눠져 있으며, 처음에는 정말 기본적인 개념 소개 및 실행을 해 볼 수 있다. 점진적으로 파트가 넘어가면서 더 세부적인 사항들에 대해 소개하며 각 기능을 사용할 때 주의해야할 점도 같이 짚어준다. 에어플로우를 사용해서 데이터를 가져오는 것 뿐 아니라, 데이터 가공 및 변환 등을 시간에 맞춰서 할 수 있다는 것에 놀랐고, 파이썬..

독서/서평 2022.07.19
반응형