반응형

HADOOP 5

Hadoop 기본 구조 및 원리

안녕하세요 Dibrary입니다. 하둡은 조금 검색만 해도 수두룩히 많은 내용이 나오는 클러스터로 분산 저장, 처리를 할 수 있게 해 주는 프레임워크죠. 제 나름대로 이해하고 찾은 내용을 여기에 정리해보겠습니다. 처음 접하는 분들에게 도움이 되었으면 좋겠네요. 하둡의 특징 1. 데이터를 Block 단위로 나눠서 저장한다. (분산 저장 가능) 2. Scalability하다. 즉, 클러스터에 Node가 더 필요하면 추가하거나 줄일 수 있다. 3. 처리하던 Node가 실패하면, 다른 Node로 작업을 할 수 있다. 간단하게 보면 위와 같은기능을 가지고 있습니다. 그럼 이 기능들이 어떻게 동작할 수 있는지 보죠. 하둡은 크게 Version1과 Version2로 나눌 수 있습니다. (Version3이 최근거지만, ..

[빅데이터를 지탱하는 기술] - 빅데이터 기술 개괄서

읽게 된 계기 데이터 처리 분야에 관심이 있어서 읽게 된 책이다. 이 책이 나온지가 좀 되었는데, 그때의 기술 처리와 지금과 얼마나 달라졌을지 그리고 각 기술분야별로 주된 도구의 변화가 있는지를 볼 수 있겠다 싶어서 이 책을 읽었다. (다행이도 동네 도서관에 있었다.) 이 책의 특징 빅데이터를 다루기 위해 필요한 도구들이 소개 되며, 도구에 대한 설명, 사용방법 등이 나와있다. 하나의 도구에 대해 모든 것을 설명하는 방식이 아닌 전체적인 '업무' 즉, 데이터 처리하는 과정에 있어서 어떤 방법이 필요했고, 그 방법에 적합한 도구가 이것이다~ 는 설명방식을 띄고 있다. 그래서 흐름 대로 따라가면 데이터를 이렇게 다루고, 가공하고 한다는 개념이 잡힌다. 간단 내용 정리 먼저 빅데이터라는 개념이 왜 나오게 되었..

독서/서평 2022.08.23

Python을 이용해서 HDFS의 파일 읽어오기

안녕하세요 Dibrary입니다. 이번에는 제가 하둡 클러스터에 올린 파일을 파이썬으로 읽어보겠습니다. 참고로 사용하실 파이썬에는 미리 hdfs 라이브러리가 있어야 하므로 pip install hdfs 를 해 주세요. 제가 사용한 hdfs 버전은 2.7.0 이네요. 해당 라이브러리를 더 상세하게 익히고 사용하고자 하는 분들은 아래 사이트를 참고해주세요. API reference — HdfsCLI 2.5.8 documentation Parameters: url – Hostname or IP address of HDFS namenode, prefixed with protocol, followed by WebHDFS port on namenode. mutual_auth – Whether to enforce mu..

Flume으로 Hadoop에 데이터 보내기

안녕하세요 Dibrary입니다. 이번에는 Flume을 이용해서 Hadoop에 데이터를 보내보겠습니다. 참고로 Flume은 아래와 같이 설치하실 수 있습니다. [Flume] 데이터 로그 수집기 플룸, 설치하기 안녕하세요 Dibrary입니다. 이번에는 Apache Flume을 설치해보겠습니다. Flume은 로그 같은 데이터를 수집할 때 사용하기 좋은 툴 입니다. 아주 간단하게 주요 컴포넌트를 소개하자면 Source / Channel / Sink dibrary.tistory.com 데이터를 보내기 위해서는 당연하게도, Hadoop cluster는 실행 중이어야 합니다. 먼저, 제가 사용한 Flume 버전은 1.9.0이고, Hadoop 버전은 2.7.2 입니다. Hadoop cluster에서 namenode가 ..

[Spark] Windows 에 Apache Spark 설치하기

안녕하세요 Dibrary입니다. 분산처리 환경인 Apache Spark를 사용하려면 당연히 설치를 해야겠죠? 문제는, 처음부터 클러스터 환경을 구성하려면 굉장히 힘들다는 것입니다. 따라서, 먼저 Spark를 연습할 생각이시라면 컴퓨터에 단일 클러스터로 구성하는 것을 추천합니다. 저는 Windows에 설치해서 연습을 해 볼 생각입니다. 아래 사이트를 방문해 주세요. Downloads | Apache Spark Download Apache Spark™ Choose a Spark release: Choose a package type: Download Spark: Verify this release using the and project release KEYS. Note that Spark 3 is pre-b..

반응형