반응형

apache 3

전체적인 스파크를 사용해 볼 수 있는 맛보기 좋은 책

교육기관에서 받았지만, 정작 Hadoop 설치 까지만 나가고 이 책은 1쪽도 펴보지 못한 책... 하지만 이미 받았고, 나는 빅데이터 기술에 관심이 많기 때문에 혼자서 독파해보기로 결정했었다. 쉬웠냐면 전혀 그렇지 않았다... 처음부터 Vagrant를 써서 학습용 가상환경을 설치해야 한다. 이제 막 코딩을 시작한 사람에게 가상환경은 녹록치 않다. 그럼에도 Vagrant에 대해 공부하고 꾸역꾸역 설치에만 약 3일을 썼다. 설치 하고 나서는 일사천리인 듯 싶지만, 또 그것도 아니었다. 리눅스를 잘 다루지 못했으니까... 리눅스도 공부를 할 겸 검색해보니 마침 윈도우에서 단독클러스터 버전으로 돌릴수가 있는게 아닌가? 덕분에 이 책의 진도는 확확 나갔다. 서론이 길었는데, 이 책은 Spark를 사용해서 데이터를..

독서/서평 2022.09.20

[Spark] 파일 읽어 RDD 객체 만들기 및 값 확인해보기

안녕하세요 Dibrary입니다. Spark를 설치 완료 하셨다면, 이후 데이터 파일을 불러와서 간단한 확인을 해 보겠습니다. 먼저 cmd로 spark-shell을 실행 해 줍니다. 간단하게 임의의 데이터를 만들었습니다. 굳이 순서대로 하지 않아도 되는데, 갯수를 알기 쉽게 이렇게 작성했습니다. 11은 4개, 17은 8개, 15는 6개, 13은 2개, 2는 10개죠. 파일 읽어오기 = sc.textFile textFile을 사용하면 파일을 읽어올 수 있습니다. 저는 경로가 다른 곳에 넣어두었기 때문에, 절대경로를 입력했습니다. 파일을 읽어서 values라는 객체에 담았고, 해당 객체는 RDD[String] 임을 알 수 있습니다. RDD는 Spark에서 다루는 기본 추상화 객체입니다. 특징으로는 불변성 - ..

[Spark] Windows 에 Apache Spark 설치하기

안녕하세요 Dibrary입니다. 분산처리 환경인 Apache Spark를 사용하려면 당연히 설치를 해야겠죠? 문제는, 처음부터 클러스터 환경을 구성하려면 굉장히 힘들다는 것입니다. 따라서, 먼저 Spark를 연습할 생각이시라면 컴퓨터에 단일 클러스터로 구성하는 것을 추천합니다. 저는 Windows에 설치해서 연습을 해 볼 생각입니다. 아래 사이트를 방문해 주세요. Downloads | Apache Spark Download Apache Spark™ Choose a Spark release: Choose a package type: Download Spark: Verify this release using the and project release KEYS. Note that Spark 3 is pre-b..

반응형