이 책은 이미 Spark 관련 책을 하나 가지고 있었기에 여느 스파크 책과 뭐가 다를까~ 싶어서 도서관에서 빌려서 본 책이다. Spark는 Scala로 배워야 가장 최근 경향을 빠르게 따라갈 수 있고, 더 많은 기능이 지원된다고 알고 있는데, 그럼에도 파이썬이라는 언어의 '간결하고 명료함'을 포기할 수 없다면, PySpark를 사용하는 것도 하나의 방법이다. 다만, Spark는 JVM을 기반으로 실행되기 때문에 Python을 사용하면 JVM에서 Python으로 통신하는 부분이 하나 더 추가되는 꼴이라서 Scala보다 당연히? 느릴 수 밖에 없다. 책의 초반에는 이런 개념적인 내용과 스파크의 아키텍쳐 및 실행 흐름을 설명하고있다. 여느 스파크 책과 마찬가지로 간단한 연산 및 메서드를 배우고 그 다음에 어느..