반응형

스파크 5

[PySpark 배우기] PySpark 기본 다루기 초급서

이 책은 이미 Spark 관련 책을 하나 가지고 있었기에 여느 스파크 책과 뭐가 다를까~ 싶어서 도서관에서 빌려서 본 책이다. Spark는 Scala로 배워야 가장 최근 경향을 빠르게 따라갈 수 있고, 더 많은 기능이 지원된다고 알고 있는데, 그럼에도 파이썬이라는 언어의 '간결하고 명료함'을 포기할 수 없다면, PySpark를 사용하는 것도 하나의 방법이다. 다만, Spark는 JVM을 기반으로 실행되기 때문에 Python을 사용하면 JVM에서 Python으로 통신하는 부분이 하나 더 추가되는 꼴이라서 Scala보다 당연히? 느릴 수 밖에 없다. 책의 초반에는 이런 개념적인 내용과 스파크의 아키텍쳐 및 실행 흐름을 설명하고있다. 여느 스파크 책과 마찬가지로 간단한 연산 및 메서드를 배우고 그 다음에 어느..

독서/서평 2022.09.27

전체적인 스파크를 사용해 볼 수 있는 맛보기 좋은 책

교육기관에서 받았지만, 정작 Hadoop 설치 까지만 나가고 이 책은 1쪽도 펴보지 못한 책... 하지만 이미 받았고, 나는 빅데이터 기술에 관심이 많기 때문에 혼자서 독파해보기로 결정했었다. 쉬웠냐면 전혀 그렇지 않았다... 처음부터 Vagrant를 써서 학습용 가상환경을 설치해야 한다. 이제 막 코딩을 시작한 사람에게 가상환경은 녹록치 않다. 그럼에도 Vagrant에 대해 공부하고 꾸역꾸역 설치에만 약 3일을 썼다. 설치 하고 나서는 일사천리인 듯 싶지만, 또 그것도 아니었다. 리눅스를 잘 다루지 못했으니까... 리눅스도 공부를 할 겸 검색해보니 마침 윈도우에서 단독클러스터 버전으로 돌릴수가 있는게 아닌가? 덕분에 이 책의 진도는 확확 나갔다. 서론이 길었는데, 이 책은 Spark를 사용해서 데이터를..

독서/서평 2022.09.20

[빅데이터를 지탱하는 기술] - 빅데이터 기술 개괄서

읽게 된 계기 데이터 처리 분야에 관심이 있어서 읽게 된 책이다. 이 책이 나온지가 좀 되었는데, 그때의 기술 처리와 지금과 얼마나 달라졌을지 그리고 각 기술분야별로 주된 도구의 변화가 있는지를 볼 수 있겠다 싶어서 이 책을 읽었다. (다행이도 동네 도서관에 있었다.) 이 책의 특징 빅데이터를 다루기 위해 필요한 도구들이 소개 되며, 도구에 대한 설명, 사용방법 등이 나와있다. 하나의 도구에 대해 모든 것을 설명하는 방식이 아닌 전체적인 '업무' 즉, 데이터 처리하는 과정에 있어서 어떤 방법이 필요했고, 그 방법에 적합한 도구가 이것이다~ 는 설명방식을 띄고 있다. 그래서 흐름 대로 따라가면 데이터를 이렇게 다루고, 가공하고 한다는 개념이 잡힌다. 간단 내용 정리 먼저 빅데이터라는 개념이 왜 나오게 되었..

독서/서평 2022.08.23

[Spark] 파일 읽어 RDD 객체 만들기 및 값 확인해보기

안녕하세요 Dibrary입니다. Spark를 설치 완료 하셨다면, 이후 데이터 파일을 불러와서 간단한 확인을 해 보겠습니다. 먼저 cmd로 spark-shell을 실행 해 줍니다. 간단하게 임의의 데이터를 만들었습니다. 굳이 순서대로 하지 않아도 되는데, 갯수를 알기 쉽게 이렇게 작성했습니다. 11은 4개, 17은 8개, 15는 6개, 13은 2개, 2는 10개죠. 파일 읽어오기 = sc.textFile textFile을 사용하면 파일을 읽어올 수 있습니다. 저는 경로가 다른 곳에 넣어두었기 때문에, 절대경로를 입력했습니다. 파일을 읽어서 values라는 객체에 담았고, 해당 객체는 RDD[String] 임을 알 수 있습니다. RDD는 Spark에서 다루는 기본 추상화 객체입니다. 특징으로는 불변성 - ..

[Spark] Windows 에 Apache Spark 설치하기

안녕하세요 Dibrary입니다. 분산처리 환경인 Apache Spark를 사용하려면 당연히 설치를 해야겠죠? 문제는, 처음부터 클러스터 환경을 구성하려면 굉장히 힘들다는 것입니다. 따라서, 먼저 Spark를 연습할 생각이시라면 컴퓨터에 단일 클러스터로 구성하는 것을 추천합니다. 저는 Windows에 설치해서 연습을 해 볼 생각입니다. 아래 사이트를 방문해 주세요. Downloads | Apache Spark Download Apache Spark™ Choose a Spark release: Choose a package type: Download Spark: Verify this release using the and project release KEYS. Note that Spark 3 is pre-b..

반응형