독서/서평

[Apache Airflow] 에어플로우를 상세히 배울 수 있는 책

Dibrary 2022. 7. 19. 09:50
반응형

빅데이터에 관심이 많아서 관련된 책들을 보는데, 빈번하게 나오던 글자가 'apache airflow'였다. 자세히 알아보니 데이터 흐름을 자동화 할 수 있는 도구였다. 

기존에 공부하던 빅데이터 도구들이랑은 약간 다르기도 해서 관심이 갔던 찰나에 이 책을 만났다.

이 책에 나온 내용은 굉장히 상세하고 또 자주 읽어서 익혀야 할만한 내용들로 가득 차 있다. 

 


이 책은 크게 4가지 파트로 나눠져 있으며, 처음에는 정말 기본적인 개념 소개 및 실행을 해 볼 수 있다. 점진적으로 파트가 넘어가면서 더 세부적인 사항들에 대해 소개하며 각 기능을 사용할 때 주의해야할 점도 같이 짚어준다.

에어플로우를 사용해서 데이터를 가져오는 것 뿐 아니라, 데이터 가공 및 변환 등을 시간에 맞춰서 할 수 있다는 것에 놀랐고, 파이썬을 사용한다는 사실에 더 놀랐다.

대부분의 빅데이터 도구들은 JAVA기반이라 자바에 대한 이해가 필요한데, airflow는 처리할 때, 주된 언어가 파이썬이어서 개인적으로 꽤나 편리했다.

물론, 파이썬만 사용할 줄 알면 다 될거라고 생각하면 안된다. 주로 사용하는 Operator가 BashOperator, PythonOperator인데, BashOperator를 사용하려면 쉘 스크립트도 어느정도 알고 있어야 한다.

 

처음에 책에 나온 소스 코드를 실행해보고 정말 결과가 똑같이 나오는 것을 보고 자신감이 생겨서 내마음대로 코드를 수정도 해보고 옮겨보고 가공도 해보고 있다.

기존에 알고 있던 빅데이터 도구와 같이 겸해서 사용하기에 딱 좋았고, 시간을 정해두면 스스로 알아서 하기에 굉장히 편리했다. 이 책을 보고 실제 해보면서 airflow가 빅데이터 분야에서 왜 계속 언급되었는지를 깨닫게 되었다.

 


이 책의 유일한 단점으로는 airflow 설치 과정이 너무나 '심플'한데... 현실은 그렇지 않았다. airflow를 설치함에 있어서 실행하기 위해 요구했던 내용들이 너무 많았기에 이 부분에 대해서는 따로 정리를 해둘까 한다.

게다가, 이 책에서 airflow는 Docker를 사용해서 소개 되어 있기 때문에 도커를 모르면 더 난감할 수 있다.

 

그렇지만, 설치만 잘 끝내면 이 책만큼 잘 해볼 수 있는 책이 또 없는 것 같다.

728x90
반응형