Python을 이용해서 HDFS의 파일 읽어오기

프로그래밍/Data process

Python을 이용해서 HDFS의 파일 읽어오기

Dibrary 2022. 8. 17. 09:50

안녕하세요 Dibrary입니다.

이번에는 제가 하둡 클러스터에 올린 파일을 파이썬으로 읽어보겠습니다.

참고로 사용하실 파이썬에는 미리 hdfs 라이브러리가 있어야 하므로 pip install hdfs 를 해 주세요.

제가 사용한 hdfs 버전은 2.7.0 이네요.

해당 라이브러리를 더 상세하게 익히고 사용하고자 하는 분들은 아래 사이트를 참고해주세요.

API reference — HdfsCLI 2.5.8 documentation

Parameters: url – Hostname or IP address of HDFS namenode, prefixed with protocol, followed by WebHDFS port on namenode. mutual_auth – Whether to enforce mutual authentication or not (possible values: 'REQUIRED', 'OPTIONAL', 'DISABLED'). max_concurrenc

hdfscli.readthedocs.io

는 하둡을 virtualBOX로 실행해 놓았습니다. 각 virtualBOX는 centos 7 버전을 사용하고있고, 하둡은 2.7.2 버전을 사용했습니다.