프로그래밍/Data process

[Spark] Windows 에 Apache Spark 설치하기

Dibrary 2022. 5. 6. 09:50
반응형

안녕하세요 Dibrary입니다.

분산처리 환경인 Apache Spark를 사용하려면 당연히 설치를 해야겠죠?

 

문제는, 처음부터 클러스터 환경을 구성하려면 굉장히 힘들다는 것입니다.

따라서, 먼저 Spark를 연습할 생각이시라면 컴퓨터에 단일 클러스터로 구성하는 것을 추천합니다.

 


저는 Windows에 설치해서 연습을 해 볼 생각입니다.  아래 사이트를 방문해 주세요.

 

Downloads | Apache Spark

Download Apache Spark™ Choose a Spark release: Choose a package type: Download Spark: Verify this release using the and project release KEYS. Note that Spark 3 is pre-built with Scala 2.12 in general and Spark 3.2+ provides additional pre-built distribut

spark.apache.org

 

그러면 아래와 같은 화면이 나올텐데, 다운받을 파일을 선택하시면 됩니다.

 

그리고 받은 파일을 압축 해제 해 주시면 됩니다.

 

Spark는 아시다시피 Hadoop이 있어야 됩니다. 분산 처리 환경으로부터 데이터를 '하나의 실행환경'에서 다루는 것 처럼 해 주는 것이니까요.

 

그러면 Windows에서 Hadoop인 척을 해보겠습니다. 아래 깃허브로 가시면 굉장히 많은 버전의 파일이 있습니다.

 

GitHub - cdarlint/winutils: winutils.exe hadoop.dll and hdfs.dll binaries for hadoop windows

winutils.exe hadoop.dll and hdfs.dll binaries for hadoop windows - GitHub - cdarlint/winutils: winutils.exe hadoop.dll and hdfs.dll binaries for hadoop windows

github.com

 

아까 다운 받은 Spark 파일 뒤에 적힌 Hadoop 버전과 같은 것을 다운로드 하기위해 눌러서 들어가줍니다.

 

들어가셔서 winutils.exe 파일만 다운로드를 하시면 됩니다.

 

그리고 임의의 경로에 Hadoop 폴더를 만든 후에 그 안에 bin 폴더를 하나 더 만들고 그 안에 winutils.exe 파일을 넣어 주세요.

 

 

자 이제 환경변수만 등록해 주면 됩니다. 환경변수 창으로 들어가서,

SPARK_HOME과 HADOOP_HOME으로 아래 경로를 등록 해 줍니다.

 

그리고 path를 수정하기 하신 후에, 아래 내용을 입력해 주시면 됩니다.

 

path는 시스템 변수 안에 같이 있으니까 금방 찾으실 수 있습니다.

 

 

이상으로 Windows 환경에서 Apache Spark 설치를 완료했습니다.

정상적으로 설치가 되었는지 확인 해 볼까요?

 

cmd를 열고, spark-shell 을 입력 해 주세요. 그리고 아래와 같은 화면이 나오면 성공적으로 설치 된 것입니다.

 

 

이상으로 Spark 설치를 마칩니다.

728x90
반응형