개인적으로 책 표지에 파이썬으로 한다는 말에 끌렸다.
원래 JAVA를 배웠으나 지금은 Python을 거의 주력으로 쓰고 간간이 JAVA나 Scala, Javascript를 쓰곤 하니..
이 책은 제목 그대로 '실무 예제'를 배울 수 있다.
우선 데이터 엔지니어링을 하려면 알아야 하는 도구가 많다는 것은 어느정도 찾아본 사람이라면 알 것이다.
하둡부터 kafka, flink, flume, nifi, spark, impala, zeppline, sqoop, storm 등등 휘유... 무지하게 많다.
다 배우면 당연히 좋은데... 사람은 한계가 있기 때문에 '최소한의 투입으로 최고의 효율'을 내고 싶어한다.
바로 그런 측면에서 이 책이 딱이다.
이 책을 통해 배울 수 있는 기술은 nifi, airflow, elasticsearch, kibana, postgresql, spark, kafka 등이다.
단순히 'A는 B다' 형식으로 가르쳐주는 게 아니라, 기본 문법 및 사용 방법을 소개하고 실제로 도구를 '연결'한다.
이 '연결' 부분이 중요한데, 데이터 엔지니어링은 결국 데이터라는 '가치 있는 상품'을 어떻게 효율적으로 보내는지, 적재하는지, 변환하는지 등과 관련이 있기 때문이다.
제조업 처럼 매번 일일이 손으로 이을 순 없다.
각 기술마다 직접 이어보는 내용이 들어 있어서 따라하면서 꽤나 희열을 느꼈던 책이다. 왜냐면? 진짜 되니까.
애초에 이런 책들은 따라하면 잘 안되는 경우가 허다하다... (슬프게도)
이 책은 100% 잘 된다고는 말하지는 못하겠다, 그러나 직접 찾아가면서 극복해 낼 수 있는 정도다.
airflow를 공부하긴 했지만 실제로 동작 시켜보고, 연결해보고, 변환 해볼 수 있어서 너무 만족한 책이다.
단순히 '~해야 한다' 는 형식이 아니라, 실제 현장을 간략히 소개 하면서 '그렇기 때문에 이렇게 한다'는 설명방법을 취하고 있다. 그래서인지 더 쉽게 이해가 된다.
마침 파이썬을 비교적 능숙하게 할 수 있어서, 단순히 코드가 주어진 것 뿐 아니라 내가 마음대로 변형해서 다르게는 어떻게 동작하는지, 안될 수도 있는지 등을 마음껏 탐색해보았다.
간단한 ETL 파이프라인을 구축해서 데이터 엔지니어링을 경험해 보고 싶다면 이 책을 추천한다. 매우 추천한다.
'독서 > 서평' 카테고리의 다른 글
[파이썬 알고리즘 인터뷰] 파이썬으로 다각도로 풀어보기 모음집 (0) | 2022.07.04 |
---|---|
[ElasticSearch 운영 노하우] ElasticSearch 익힘책 (0) | 2022.07.01 |
[함께 자라기] 개발자로써 가져야 할 마음가짐 간편서 (0) | 2022.06.27 |
[대규모 서비스를 지탱하는 기술] 실제 좌충우돌 실무집 (0) | 2022.06.09 |
[마이크로서비스 개발] MSA 입문으로 최적화된 책 (0) | 2022.06.08 |