반응형

rdd 2

전체적인 스파크를 사용해 볼 수 있는 맛보기 좋은 책

교육기관에서 받았지만, 정작 Hadoop 설치 까지만 나가고 이 책은 1쪽도 펴보지 못한 책... 하지만 이미 받았고, 나는 빅데이터 기술에 관심이 많기 때문에 혼자서 독파해보기로 결정했었다. 쉬웠냐면 전혀 그렇지 않았다... 처음부터 Vagrant를 써서 학습용 가상환경을 설치해야 한다. 이제 막 코딩을 시작한 사람에게 가상환경은 녹록치 않다. 그럼에도 Vagrant에 대해 공부하고 꾸역꾸역 설치에만 약 3일을 썼다. 설치 하고 나서는 일사천리인 듯 싶지만, 또 그것도 아니었다. 리눅스를 잘 다루지 못했으니까... 리눅스도 공부를 할 겸 검색해보니 마침 윈도우에서 단독클러스터 버전으로 돌릴수가 있는게 아닌가? 덕분에 이 책의 진도는 확확 나갔다. 서론이 길었는데, 이 책은 Spark를 사용해서 데이터를..

독서/서평 2022.09.20

[Spark] 파일 읽어 RDD 객체 만들기 및 값 확인해보기

안녕하세요 Dibrary입니다. Spark를 설치 완료 하셨다면, 이후 데이터 파일을 불러와서 간단한 확인을 해 보겠습니다. 먼저 cmd로 spark-shell을 실행 해 줍니다. 간단하게 임의의 데이터를 만들었습니다. 굳이 순서대로 하지 않아도 되는데, 갯수를 알기 쉽게 이렇게 작성했습니다. 11은 4개, 17은 8개, 15는 6개, 13은 2개, 2는 10개죠. 파일 읽어오기 = sc.textFile textFile을 사용하면 파일을 읽어올 수 있습니다. 저는 경로가 다른 곳에 넣어두었기 때문에, 절대경로를 입력했습니다. 파일을 읽어서 values라는 객체에 담았고, 해당 객체는 RDD[String] 임을 알 수 있습니다. RDD는 Spark에서 다루는 기본 추상화 객체입니다. 특징으로는 불변성 - ..

반응형