반응형

데이터분석 8

SQL로 데이터를 다채롭게 뽑아보는 연습에 딱좋은 책

읽게 된 계기 데이터 분석 이나 데이터 엔지니어에게 SQL은 필수라고 한다. 그러나, 나는 SQL은 기본적인 CRUD만 할 줄 알았고 그것만 잘 하면 된다고 착각하고 있었다. 한 번은 코딩테스트에 SQL 문제가 나왔었는데 이게 그냥 CRUD만 가지고 안되는 수준이었어서 관심을 갖고 SQL을 다채롭게 활용해볼 수 있는 방법을 배우는 책을 찾았다. 그게 이 책이다. 이 책의 특징 PostgreSQL, Hive, SparkSQL, Redshift, BigQuery 5개의 DB에 대한 쿼리문을 제공한다. 즉, 같은 결과를 내기 위해 쿼리문이 조금씩 다를 순 있지만, 그 쿼리문을 모두 확인할 수 있다. 그리고, 데이터를 실제에는 어떻게 분석하고 바라보는지에 대한 설명과, 그 설명의 근거 자료를 찾기 위한 SQL문..

독서/서평 2022.09.05

파이썬으로 XML파일 파싱해서 사용하기

안녕하세요 Dibrary입니다. 이번에는 파이썬으로 XML파일을 파싱해보겠습니다. XML파일은 JSON파일과 마찬가지로 설정하는 부분에서 굉장히 많이 쓰이고, 또 각종 산업 현장에서 태그들을 XML파일로 정의해서 쓰거나, 로그를 XML꼴로 저장하기도 합니다. 이럴 경우 airflow를 사용해서 해당 파일을 파싱하게 해서 정리하면 꽤 유용합니다. 파이썬은 Jupyter를 사용하고, XML파일은 임의로 아래와 같은 파일을 만들었습니다. (실제 플랜트 산업에서 쓰는 것과 같진 않지만, 유사하게 말이죠) 참고로 저는 파일 이름을 sample.xml 이라고 지었습니다. xml을 파싱하려면 lxml 모듈이 있어야 합니다. 늘 그렇듯, pip install lxml을 하시면 자동으로 설치가 됩니다. 먼저 root의 ..

파이썬으로 주택 매수 지수 확인해보기

안녕하세요 Dibrary입니다. 최근 2년간 부동산 난리가 끝나고 서서히 하락세로 돌연 변해가는 것 같습니다. 뭐든 흥망성쇠가 따르는 법인데, 마침 이런 기사가 있었습니다. 매물 늘어나는데..꿈쩍 않는 매수 | Daum 부동산 [아시아경제 황서율 기자] 윤석열 정부 출범 이후 매물은 증가세를 보이고 있지만 매수자들은 좀처럼 움직이지 않고 있다. 집값 고점 인식과 매수자의 관망세가 이어지면서 일부 지역에선 매매 realestate.daum.net 과연 매수는 꿈쩍 않는지 살펴보고자 합니다. 물론, 한명한명 물어보는게 제일 정확한데, 그럴 순 없으니까 지표를 제공해주는 사이트를 통해 확인해 보겠습니다. 저는 통계청의 자료를 사용하기로 했습니다. KOSIS 국가통계포털 내가 본 통계표 최근 본 통계표 25개가..

파이썬 데이터 분석 라이브러리 - Pandas (Series편)

안녕하세요 Dibrary입니다. 파이썬으로 데이터 분석을 할 때 Numpy와 더불어 굉장히 많이 쓰는 라이브러리가 있습니다. 바로 Pandas죠. Pandas의 모든 기능을 알려면... 한 900페이지에 달하는 책을 달달 외우고 공부해야 하는데, 막상 데이터 분석을 간단히 수행하다 보면 쓰는 기능만 쓰는 것을 알 수 있습니다. 그래서 간단하게 라이브러리 사용하는 방법을 정리해 두겠습니다. 사용하려면 여느 라이브러리와 마찬가지로 pip install pandas 하는거 잊으시면 안되용~ Series 가장 먼저 다루기 쉬운 Pandas의 자료구조인 Series를 보겠습니다. 이름 그대로 1차원의 배열 꼴 자료구조입니다. 먼저 라이브러리를 pd라는 별칭으로 불러와서 Series를 만들었습니다. type을 확인..

[Spark] 파일 읽어 RDD 객체 만들기 및 값 확인해보기

안녕하세요 Dibrary입니다. Spark를 설치 완료 하셨다면, 이후 데이터 파일을 불러와서 간단한 확인을 해 보겠습니다. 먼저 cmd로 spark-shell을 실행 해 줍니다. 간단하게 임의의 데이터를 만들었습니다. 굳이 순서대로 하지 않아도 되는데, 갯수를 알기 쉽게 이렇게 작성했습니다. 11은 4개, 17은 8개, 15는 6개, 13은 2개, 2는 10개죠. 파일 읽어오기 = sc.textFile textFile을 사용하면 파일을 읽어올 수 있습니다. 저는 경로가 다른 곳에 넣어두었기 때문에, 절대경로를 입력했습니다. 파일을 읽어서 values라는 객체에 담았고, 해당 객체는 RDD[String] 임을 알 수 있습니다. RDD는 Spark에서 다루는 기본 추상화 객체입니다. 특징으로는 불변성 - ..

파이썬 데이터 분석 준비! - Numpy배열 다루기 - 3(배열 응용하기)

안녕하세요 Dibrary입니다. 이번에는 그동안 배운 Numpy배열을 응용해 볼 것입니다. Numpy를 사용할 때 중요한 점은, 배열 단위로 연산을 한다는 것 이게 중요합니다. Numpy배열로 만들어놓고, 기존 list 처럼 계산 하면 Numpy의 장점이 드러나지 않습니다. 먼저 임의의 Numpy배열을 만들고, Numpy배열에 곧바로 비교 연산자를 사용하니 True, False로 결과가 나오죠? True인 것만 데이터가 있다는 의미 입니다. 그러면, 이렇게 True / False로 나오는 결과를 활용할 수 있습니다. 예를 들어, 각 회사마다 매출액이 Numpy배열로 만들어져 있다고 할 때, 특정 회사의 매출액만 볼 수 있는 것입니다. 바로 이렇게요. 지금 names == 'samsung' 문장은 위에서 ..

파이썬 데이터 분석 준비! - Numpy배열 다루기 - 2(배열 데이터 다루기)

안녕하세요 Dibrary입니다. 저번 글에 이어서 이번에는 배열의 데이터를 다뤄보겠습니다. 혹시 Numpy배열을 만드는 방법을 모르신다면 이전 글을 참고해 주세요. 파이썬 데이터 분석 준비! - Numpy배열 다루기 - 1(객체 만들어보기) 안녕하세요 Dibrary입니다. 최근 화두가 되는 데이터 분석 및 빅데이터 등등 데이터가 들어가는 것에 파이썬이 안쓰이는 곳이 없습니다. 데이터를 다루려면 Numpy와 Pandas를 다룰 줄 아는 것이 거진 dibrary.tistory.com Numpy를 사용하려면 당연히 import부터 해 주셔야 합니다. 먼저 데이터의 자료형을 바꿔보겠습니다. astype 함수를 사용해서 자료형을 입력하면, 구성 데이터가 해당 자료형으로 변경됩니다. 자료형은 Numpy 자료형을 써..

파이썬 데이터 분석 준비! - Numpy배열 다루기 - 1(객체 만들어보기)

안녕하세요 Dibrary입니다. 최근 화두가 되는 데이터 분석 및 빅데이터 등등 데이터가 들어가는 것에 파이썬이 안쓰이는 곳이 없습니다. 데이터를 다루려면 Numpy와 Pandas를 다룰 줄 아는 것이 거진 필수가 되었죠. 그래서, Numpy를 사용하는 방법을 간단하게 정리 해 두고자 합니다. 먼저 따라해보기 위해서는 Jupyter를 실행 해 주세요. 그리고, 터미널을 열어서 pip install numpy를 해 주시면 됩니다. 그러면 알아서 설치가 완료 됩니다. 이제 준비는 끝났습니다. 본격적으로 Numpy를 익혀보겠습니다. 제일 먼저 numpy모듈을 불러들어와야 합니다. 아래와 같이 입력 해 주세요. 위 입력에서 as np는 'numpy라는 명칭을 np라는 별칭으로 앞으로 사용하겠다~' 고 컴퓨터에게..

반응형