반응형

프로그래밍/Data process 20

[공공데이터포털] 사용해보기

안녕하세요 Dibrary입니다. 이번에는 공공데이터포털을 사용해서 데이터를 확인해 보겠습니다. 단순히 확인에 그치지 않고, 해당 API를 잘 활용해서 파싱후에 분석하는데 활용해도 괜찮겠죠. 먼저 사이트는 아래와 같습니다. 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase www.data.go.kr 들어가면 이런 화면이 나옵니다. 사용하려면 당연하게도? 회원가입을 해야 합니다. 그리고, 검색창에 저는 '고속버스도착정보'를 검색했습니다. 그랬더니 이렇게 엄청많이 나오네요. 그 중에 전 맨 위에 것을 선택해보았습니다. 활용신청 버튼을 누르면 아래 화면..

[Spark] 파일 읽어 RDD 객체 만들기 및 값 확인해보기

안녕하세요 Dibrary입니다. Spark를 설치 완료 하셨다면, 이후 데이터 파일을 불러와서 간단한 확인을 해 보겠습니다. 먼저 cmd로 spark-shell을 실행 해 줍니다. 간단하게 임의의 데이터를 만들었습니다. 굳이 순서대로 하지 않아도 되는데, 갯수를 알기 쉽게 이렇게 작성했습니다. 11은 4개, 17은 8개, 15는 6개, 13은 2개, 2는 10개죠. 파일 읽어오기 = sc.textFile textFile을 사용하면 파일을 읽어올 수 있습니다. 저는 경로가 다른 곳에 넣어두었기 때문에, 절대경로를 입력했습니다. 파일을 읽어서 values라는 객체에 담았고, 해당 객체는 RDD[String] 임을 알 수 있습니다. RDD는 Spark에서 다루는 기본 추상화 객체입니다. 특징으로는 불변성 - ..

[Spark] Windows 에 Apache Spark 설치하기

안녕하세요 Dibrary입니다. 분산처리 환경인 Apache Spark를 사용하려면 당연히 설치를 해야겠죠? 문제는, 처음부터 클러스터 환경을 구성하려면 굉장히 힘들다는 것입니다. 따라서, 먼저 Spark를 연습할 생각이시라면 컴퓨터에 단일 클러스터로 구성하는 것을 추천합니다. 저는 Windows에 설치해서 연습을 해 볼 생각입니다. 아래 사이트를 방문해 주세요. Downloads | Apache Spark Download Apache Spark™ Choose a Spark release: Choose a package type: Download Spark: Verify this release using the and project release KEYS. Note that Spark 3 is pre-b..

파이썬으로 Redis 데이터 베이스 값 읽고 쓰기

안녕하세요 Dibrary입니다. 이번에는 Python을 이용해서 Redis의 값을 읽거나 써보겠습니다. 우선 윈도우에 설치한 Redis를 실행 해 놓겠습니다. 파이썬에서 Redis를 사용하려면 Redis모듈을 설치 하셔야 합니다. pip install redis 를 입력해서 설치 하시면 됩니다. 저는 이미 설치를 해 둬서 already satisfied 라고 나오네요. 그리고 파이썬에서 코드를 아래와 같이 작성 했습니다. 실행을 해 보겠습니다. 우선 print문까지 진행이 완료 되었기 때문에 Redis안에 들어갔을거라고 생각해야겠죠? 과연 Redis안에 들어 있는지 확인을 직접 해 보겠습니다. 엇? 입력을 했는데 안 나옵니다. 네 이는 위에 파이썬 코드에서 db=1 이라고 해 놓았기 때문에 못 읽는 것입..

Redis 설치 (Windows에 설치하기)

안녕하세요 Dibrary입니다. 이번엔 Redis를 설치해보겠습니다. Redis는 리눅스를 토대로 동작하는 것인데, 윈도우에도 설치 할 수 있습니다. 주로 데이터를 producer-consumer 형태로 다룰 때는 리눅스에 설치해서 사용하면 더 편하지만, 우선 Redis를 다루는 연습을 하기에는 윈도우에 설치해서 연습하는 것도 나쁘지 않습니다. 먼저 윈도우에 설치할 수 있는 Redis를 받으려면 아래 깃허브로 이동 하셔야 합니다. GitHub - microsoftarchive/redis: Redis is an in-memory database that persists on disk. The data model is key-value, but many dif Redis is an in-memory data..

[Flume] 데이터 로그 수집기 플룸, 설치하기

안녕하세요 Dibrary입니다. 이번에는 Apache Flume을 설치해보겠습니다. Flume은 로그 같은 데이터를 수집할 때 사용하기 좋은 툴 입니다. 아주 간단하게 주요 컴포넌트를 소개하자면 Source / Channel / Sink 로 구성됩니다. 분류 기능 Source 데이터를 로드한다. Channel 데이터를 임시 저장한다. Source와 Sink를 연결한다. Sink 최종 목적지로 전달하기 위한 기능 이외에도 Interceptor 같이 데이터를 가공할 수 있는 기능도 있다. 당연히 VirtualBOX 가상환경에 설치 할 것이구요, 먼저 다운을 받습니다. 아래 사이트에서 받을 수 있습니다. Welcome to Apache Flume — Apache Flume Welcome to Apache Fl..

VirtualBOX(CentOS) 가상환경에 네트워크 되게 하기

안녕하세요 Dibrary입니다. 앞의 두 글을 따라 오셨다면, VirtualBOX 및 가상환경까지 설치가 완료 되었을 겁니다. 2022.03.07 - [프로그래밍/Data process] - VirtualBOX에 OS 설치해서 가상환경 구성하기 VirtualBOX에 OS 설치해서 가상환경 구성하기 안녕하세요 Dibrary입니다. 지난 시간에 이어, 이번에는 설치 완료 한 VirtualBOX에 OS를 구성해보겠습니다. 2022.03.04 - [프로그래밍/Data process] - VirtualBOX 설치하기 먼저 설치할 OS를 다운로드 받아야 합. dibrary.tistory.com 이번에는 네트워크를 연결해 보겠습니다. (네트워크가 호스트 전용 어댑터로 되어 있어야 합니다.) 먼저 로그인을 해 줍니다...

VirtualBOX에 OS 설치해서 가상환경 구성하기

안녕하세요 Dibrary입니다. 지난 시간에 이어, 이번에는 설치 완료 한 VirtualBOX에 OS를 구성해보겠습니다. 2022.03.04 - [프로그래밍/Data process] - VirtualBOX 설치하기 VirtualBOX 설치하기 안녕하세요 Dibrary입니다. 이번에는 VirtualBOX를 설치 해보겠습니다. VirtualBOX는 빅데이터 관련 툴 들을 사용할 때 유용합니다. 또한, 간단한 테스트를 하기에 적합하죠. 먼저 아래 사이트를 방문해 dibrary.tistory.com 먼저 설치할 OS를 다운로드 받아야 합니다. Download Home Download Architectures Packages Others x86_64 RPMs Cloud | Containers | Vagrant A..

VirtualBOX 설치하기

안녕하세요 Dibrary입니다. 이번에는 VirtualBOX를 설치 해보겠습니다. VirtualBOX는 빅데이터 관련 툴 들을 사용할 때 유용합니다. 또한, 간단한 테스트를 하기에 적합하죠. 먼저 아래 사이트를 방문해 주세요. Oracle VM VirtualBox Welcome to VirtualBox.org! News Flash Important January 13th, 2022We're hiring! Looking for a new challenge? We're hiring a System Administrator/Quality Engineer (Germany). Important May 17th, 2021We're hiring! Looking for a new challenge? We're hiri..

Windows에서 RabbitMQ 를 설치해 보자.

안녕하세요 Dibrary입니다. 개인적으로 실시간 데이터 처리를 구현하는데 너무 어려워서 이것 저것을 찾던 와중 MQTT로 통신하는 프로토콜을 찾게되었습니다. 생각보다 간단하고, 굉장히 편하게 실시간으로 그릴 수 있어서 이왕 사용해본 김에 여기에 정리해보고자 합니다. 간단히 MQTT는 '큐'라는 형태에 한쪽은 보내기만 하고, 한쪽은 받기만 하면 끝입니다. 쉽죠? 아무렴 실시간으로 웹서버간에 연동해서 하는 것 보다 어렵겠나요. 암튼, 설치부터 차근차근히 해 보죠. 먼저 아래 사이트로 가주세요 Messaging that just works — RabbitMQ Developer Experience Deploy with BOSH, Chef, Docker and Puppet. Develop cross-langua..

반응형