반응형

데이터 파이프라인 2

CentOS 에서 Airflow 설치할 때 주의점

안녕하세요 Dibrary입니다. 데이터 처리에 있어서 굉장히 핫한 Airflow를 VirtualBOX(Centos)에 설치해보겠습니다. 굳이 글을 작성하는 이유는, Airflow를 설치하는데 있어서 그냥 pip install apache-airflow 만 하면 된다고 하는 포스팅이나 책이 많았는데, 막상 안되더라구요. 다행이도 해결방법을 찾아냈습니다. 물론, 한 번에 설치가 된다면 굉장히 다행이구요. 제가 실행한 Linux 환경은 CentOS 7이고, 파이썬은 원래 2.7이 깔려있었으나, 3.6으로 설치했습니다. 먼저 각종 책에서 나오는 pip install apache-airflow를 입력하고, pip list로 확인했을 때, 이렇게, apache-airflow 가 있어야 합니다. apache-airf..

[데이터 공학] 직접 구현하며 배우는 데이터 파이프라인

개인적으로 책 표지에 파이썬으로 한다는 말에 끌렸다. 원래 JAVA를 배웠으나 지금은 Python을 거의 주력으로 쓰고 간간이 JAVA나 Scala, Javascript를 쓰곤 하니.. 이 책은 제목 그대로 '실무 예제'를 배울 수 있다. 우선 데이터 엔지니어링을 하려면 알아야 하는 도구가 많다는 것은 어느정도 찾아본 사람이라면 알 것이다. 하둡부터 kafka, flink, flume, nifi, spark, impala, zeppline, sqoop, storm 등등 휘유... 무지하게 많다. 다 배우면 당연히 좋은데... 사람은 한계가 있기 때문에 '최소한의 투입으로 최고의 효율'을 내고 싶어한다. 바로 그런 측면에서 이 책이 딱이다. 이 책을 통해 배울 수 있는 기술은 nifi, airflow, e..

독서/서평 2022.06.29
반응형