반응형

데이터 9

데이터 플랫폼 설계와 구축 - 1장(소개) 정리

안녕하세요 Dibrary입니다. 앞으로 차츰 이 책의 내용에서 주관적으로 중요하다 생각되는 개념을 정리함과 동시에 '제 생각'도 같이 정리해 둘 예정입니다. 클라우드 데이터 플랫폼 = 모든 유형의 데이터를, 거의 무제한의 장소에서 비용효과적인 클라우드 네이티브 방식으로 수집, 통합, 변환, 분석, 관리되는 데이터 플랫폼 무슨말인가 하면, 데이터가 들어오는 것 부터 사용하는 단계까지 모두 클라우드에서 사용하는 것을 의미한다. 데이터 관련 기술을 처음 접하기 시작하면 대부분 로컬에 VM등을 사용해서 여러 PC환경을 갖춘 후에 실행해봐야 하는 경우가 대부분이다. 이런 거 말고 그 단계를 클라우드에 있는 걸 사용하거나 한다는 말. 단일 시스템 아키텍처는 유연성이 크게 떨어진다. ETL (혹은 ELT) 각 단계별..

구글 트렌드로 IT기술 검색량 비교해보기

안녕하세요 Dibrary입니다. 구글에서 검색량을 살펴보고자 할 때, Trends 라는 것을 사용할 수 있습니다. Google 트렌드 trends.google.co.kr 들어가면 아래와 같은 화면이 나올겁니다. 우선 그냥 한국에 국한해서 확인해보고자 하면 검색어에 곧바로 입력하시면 됩니다. 전 빅데이터 기술 중에 어떤게 많이 쓰이는지 궁금해서 하나씩 차례대로 입력해보았습니다. 평균 검색량을 보면 Spark가 가장 많은 것을 알 수 있습니다. 그 뒤로 kafka, airflow가 있네요. 오른쪽 차트를 보면 최근에 kafka 검색량이 늘어난 것도 같이 볼 수 있습니다. 근데 과연 Spark 라고 검색한게 제가 '머리속에서 떠올린' 그 빅데이터 분석도구 Spark 가 맞을까요?? 밑으로 내려가보니 관련 검색..

파이썬으로 임의 데이터 생성, 데이터파일 만들기

안녕하세요 Dibrary입니다. 데이터 분석이나, 데이터 엔지니어링을 할 때 생각보다 많은 양의 데이터가 필요한데 구하기가 마땅치 않을 때가 많죠. 이럴 때 파이썬을 이용해서 임의 데이터 파일을 만들어서 '동작여부, 기능 상태 확인'등을 진행해볼 수는 있습니다. 데이터를 임의로 생성할 때 필요한 것은 faker 모듈입니다. tmp라는 Faker 객체를 만든 후에, name을 불러보니 제가 입력한 적도 없는 데이터가 마치 '이름'처럼 나왔죠? 그럼 이 Faker 객체로 어떤 것들을 만들 수 있는지는 dir(tmp) 를 해 보시면 알 수 있습니다. 아주 많은 것을 만들 수 있죠. 그럼, 이제 임의로 제가 csv 파일 꼴의 데이터를 생성해 보겠습니다. 날짜, 시간, 이름, 지역 이렇게 구성된 데이터를 한 번 ..

[공공데이터포털] 사용해보기

안녕하세요 Dibrary입니다. 이번에는 공공데이터포털을 사용해서 데이터를 확인해 보겠습니다. 단순히 확인에 그치지 않고, 해당 API를 잘 활용해서 파싱후에 분석하는데 활용해도 괜찮겠죠. 먼저 사이트는 아래와 같습니다. 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase www.data.go.kr 들어가면 이런 화면이 나옵니다. 사용하려면 당연하게도? 회원가입을 해야 합니다. 그리고, 검색창에 저는 '고속버스도착정보'를 검색했습니다. 그랬더니 이렇게 엄청많이 나오네요. 그 중에 전 맨 위에 것을 선택해보았습니다. 활용신청 버튼을 누르면 아래 화면..

[데이터마이닝] 1장 - 개요 (기본 개념 및 용어 몇가지)

안녕하세요 Dibrary입니다. 데이터 마이닝 책의 내용을 간략하게나마 정리해 둘 생각입니다. 1장은 데이터 마이닝이란 무엇인지, 왜 필요한지, 어떻게 하는지에 대한 개괄적 내용을 담고 있습니다. Q. 왜 데이터 마이닝이 필요하게 되었는가? A. 전산화가 이뤄지면서 엄청난 양의 데이터가 수집됨. 이 데이터에서 가치있는 정보를 발견하고 체계적인 지식으로 변환하기 위해 탄생하게 되었다. 고급 데이터분석은 1980년대 후반 이후부터 생겨났다. Q. 데이터 웨어하우스란? A. 경영 의사결정을 위해 단일 사이트에서 통합 스키마에 의해 구성된 여러 이기종 데이터를 저장하는 장소. 데이터 웨어하우스 = 데이터 정제 + 통합 + OLAP Q. OLAP란? A. 요약, 통합, 합산 및 다양한 각도에서 정보를 볼 수 있게..

데이터 마이닝 2022.05.24

[Scala] 데이터 및 변수 타입

안녕하세요 Dibrary입니다. scala를 본격적으로 사용하면서 java랑 비슷하지만 약간의 차이가 있는데, 이 내용을 자주 까먹곤 합니다. 그래서 scala 언어를 다룰 때 꼭 기억해 둬야 하는 기본적인 변수 타입 관련 내용을 정리해 보겠습니다. 먼저 cmd로 scala REPL 창을 열어줍니다. 이제 간단한 입력들을 통해 scala 언어 문법을 확인해 보겠습니다. 1. 값 정의 scala의 값은 val [이름] : [타입] = 리터럴 로 정의됩니다. 정석은 위 문법 꼴로 입력하는 것이지만, 제가 아래에서 생성한 y변수 처럼 : [타입] 을 넣지 않더라도 자동으로 타입을 맞춰 줍니다. 소수점을 넣어보니 Double 꼴로 맞춰준 것을 보실 수 있습니다. 근데, 정석대로 입력하려 하는데 자료형이 안 맞으..

[C#] WinForm에 MySQL 연동하기

안녕하세요 Dibrary입니다. C#으로 만드는 Winform 프로그램에 MySQL을 연동해보겠습니다. 먼저 Visual Studio를 실행하시고 프로젝트를 생성해주세요. C#을 사용한 Winform GUI - 본격적으로 C# 시작하기 안녕하세요, Dibrary입니다. 다들 아시다시피 GUI는 사실 이 기능, 저 기능들을 구현 해 두면 편리합니다. C#에도 GUI를 만들 수 있는 기능이 있습니다. 윈도우와 리눅스에서도 쓸 수 있는 GUI를 만들 dibrary.tistory.com 오른쪽에 솔루션탐색기를 보시면 프로젝트에 참조가 있을 겁니다. 참조 부분에서 마우스 오른쪽을 누르고 Nuget 패키지 관리를 눌러주세요. 그러면 아래와 같은 화면이 나올겁니다. 검색창에 mysql 을 입력하면 MySql.Data..

프로그래밍/C# 2022.05.02

사회조사분석사 자격증은 빅데이터랑 관련이 있을까?

안녕하세요. Dibrary입니다. 이번에는 제가 취득한 자격증 중에 '사회조사분석사2급'에 대한 내용입니다. 최근에 자격증을 따면 좋을 것이라는 막연한 기대감에 조금이라도 관련이 있다 싶으면 자격증을 취득하려는 사람들이 늘고 있습니다. 미래가 더 불안하기에 그런 경향이 많아지는 것도 같네요. 빅데이터가 큰 화두가 되면서 이 자격증 역시 나름? 관심을 받고 있습니다. 사실 원래는 통계직 공무원에 갈 사람이 따는 기본 자격증 취급이었는데, 요즘은 개발자들도 꽤나 관심을 가지고 있죠. 저는 취득한지는 좀 되었네요. (밑에껀 관련이 없습니다.) 우선 제가 '사회조사분석사2급'자격증을 시험 본 계기는 단순합니다. 대학교 다니면서 '졸업 전에 반드시 배우고 나가야 겠다' 싶은 과목은 타과 전공들을 추가신청해서 수강..

기상기사 합격 및 후기

안녕하세요 Dibrary입니다. 조금 늦은 후기입니다. 이왕 공부한 김에 시험이나 한번 봐 보자는 취지가 결과까지 나왔네요. 원래 기상과는 전혀 관련이 없었습니다. 전공도 그렇고, 하는 일도 그렇고... ... 저는 프로그래밍을 하다가 데이터분석 (python을 활용한) 책을 보면서 테스트 데이터들을 이용해서 사용했었죠. 근데 도서관에서도 책을 빌려보고 하다보면 그 데이터가 그 데이터인 경우가 많았습니다. (대표적으로 타이타닉.) 그래서 실제 현실의 데이터를 좀 활용할 수는 없을까? 싶은 마음이 들었었죠. 그때 눈에 들어온 것이 2개입니다. 하나는 작년까지 화두였던 '부동산 데이터'였고, 나머지는 '기상 데이터'. 부동산 데이터는 생각보다 양이 많지 않았어서 굳이 프로그래밍 언어를 쓰지 않아도 됐었죠. ..

반응형