반응형

빅데이터 9

[구글 빅쿼리] 빅쿼리에 대해 입문할 수 있는 책

데이터 직무의 자격요건 혹은 기술스택을 보면 어지간해서는 꼭 빅쿼리가 있었다. 처음에는 AWS Athena처럼 클라우드에서 쿼리문 날려서 결과를 받아보는 것이지 않나 하는 생각이었지만, 그래도 기술스택에 '명시'가 되어 있기에 간단하게 봐 두자는 생각으로 이 책을 집었다. 우선 책이 매우 얇다. 250페이지 정도. 그렇기 때문에 약간 클라우드를 안써본 사람이라면 조금 버벅댈 부분이 몇 군데 있다. 처음에 빅쿼리 콘솔 화면을 보여준 후에 곧바로 데이터를 넣고, 꺼내고, 쿼리 작성 등을 해 나간다. 빅쿼리에서 사용하는 SQL문은 여느 DB의 SQL문하고 크게 다르지 않다. 물론, 빅쿼리에서만 쓸 수 있는 ARRAY나 STRUCT 등의 다른 점은 있다. 책을 따라 데이터를 로딩시키려고 하다 보면 안 될 것이다..

독서/서평 2022.10.24

[빅데이터를 지탱하는 기술] - 빅데이터 기술 개괄서

읽게 된 계기 데이터 처리 분야에 관심이 있어서 읽게 된 책이다. 이 책이 나온지가 좀 되었는데, 그때의 기술 처리와 지금과 얼마나 달라졌을지 그리고 각 기술분야별로 주된 도구의 변화가 있는지를 볼 수 있겠다 싶어서 이 책을 읽었다. (다행이도 동네 도서관에 있었다.) 이 책의 특징 빅데이터를 다루기 위해 필요한 도구들이 소개 되며, 도구에 대한 설명, 사용방법 등이 나와있다. 하나의 도구에 대해 모든 것을 설명하는 방식이 아닌 전체적인 '업무' 즉, 데이터 처리하는 과정에 있어서 어떤 방법이 필요했고, 그 방법에 적합한 도구가 이것이다~ 는 설명방식을 띄고 있다. 그래서 흐름 대로 따라가면 데이터를 이렇게 다루고, 가공하고 한다는 개념이 잡힌다. 간단 내용 정리 먼저 빅데이터라는 개념이 왜 나오게 되었..

독서/서평 2022.08.23

Python을 이용해서 HDFS의 파일 읽어오기

안녕하세요 Dibrary입니다. 이번에는 제가 하둡 클러스터에 올린 파일을 파이썬으로 읽어보겠습니다. 참고로 사용하실 파이썬에는 미리 hdfs 라이브러리가 있어야 하므로 pip install hdfs 를 해 주세요. 제가 사용한 hdfs 버전은 2.7.0 이네요. 해당 라이브러리를 더 상세하게 익히고 사용하고자 하는 분들은 아래 사이트를 참고해주세요. API reference — HdfsCLI 2.5.8 documentation Parameters: url – Hostname or IP address of HDFS namenode, prefixed with protocol, followed by WebHDFS port on namenode. mutual_auth – Whether to enforce mu..

[Apache Airflow] 에어플로우를 상세히 배울 수 있는 책

빅데이터에 관심이 많아서 관련된 책들을 보는데, 빈번하게 나오던 글자가 'apache airflow'였다. 자세히 알아보니 데이터 흐름을 자동화 할 수 있는 도구였다. 기존에 공부하던 빅데이터 도구들이랑은 약간 다르기도 해서 관심이 갔던 찰나에 이 책을 만났다. 이 책에 나온 내용은 굉장히 상세하고 또 자주 읽어서 익혀야 할만한 내용들로 가득 차 있다. 이 책은 크게 4가지 파트로 나눠져 있으며, 처음에는 정말 기본적인 개념 소개 및 실행을 해 볼 수 있다. 점진적으로 파트가 넘어가면서 더 세부적인 사항들에 대해 소개하며 각 기능을 사용할 때 주의해야할 점도 같이 짚어준다. 에어플로우를 사용해서 데이터를 가져오는 것 뿐 아니라, 데이터 가공 및 변환 등을 시간에 맞춰서 할 수 있다는 것에 놀랐고, 파이썬..

독서/서평 2022.07.19

[엔터프라이즈 데이터 레이크 구축] 쉬운 빅데이터 흐름 구축 설명서

읽게 된 계기 데이터 파이프라인 구축관련 개인 프로젝트를 진행해 보고자 하는데 하나하나 인터넷을 찾기에는 너무 관련 정보가 없어서 찾다가 발견한 책. 이 책의 목차를 보니 내용들의 목표는 '데이터 레이크'라는 것을 만드는 데 있는데, 이 데이터레이크는 간단하지 않아서 데이터 수집 부터 설명해 나가는 것으로 보였다. 그 과정에서 수집, 적재, 처리 라는 단계가 있는 것을 보고 데이터 파이프라인과 맞겠다 싶어서 읽기로 결정했다. 이 책의 특징 먼저 데이터 레이크가 뭔지 '개념'에 대해 소개하고, 기존에 우리가 아는 저장소(DB) 와는 무슨 차이가 있는지를 비교해 가며 설명해준다. 또한, 데이터 레이크를 만들기 위해 알아 둬야 하는 배치방식, 실시간 스트리밍 방식 이 2가지의 차이와 각 방법별 구축 아키텍처에..

독서/서평 2022.05.27

[데이터마이닝] 1장 - 개요 (기본 개념 및 용어 몇가지)

안녕하세요 Dibrary입니다. 데이터 마이닝 책의 내용을 간략하게나마 정리해 둘 생각입니다. 1장은 데이터 마이닝이란 무엇인지, 왜 필요한지, 어떻게 하는지에 대한 개괄적 내용을 담고 있습니다. Q. 왜 데이터 마이닝이 필요하게 되었는가? A. 전산화가 이뤄지면서 엄청난 양의 데이터가 수집됨. 이 데이터에서 가치있는 정보를 발견하고 체계적인 지식으로 변환하기 위해 탄생하게 되었다. 고급 데이터분석은 1980년대 후반 이후부터 생겨났다. Q. 데이터 웨어하우스란? A. 경영 의사결정을 위해 단일 사이트에서 통합 스키마에 의해 구성된 여러 이기종 데이터를 저장하는 장소. 데이터 웨어하우스 = 데이터 정제 + 통합 + OLAP Q. OLAP란? A. 요약, 통합, 합산 및 다양한 각도에서 정보를 볼 수 있게..

데이터 마이닝 2022.05.24

[빅데이터로 일하는 기술] 빅데이터 실무 가이드 사례

이 책은 과거 국비교육을 들을 때 받은 책이다. 당연히 빅데이터에 관심이 많았던 나는 받자마자 곧장 읽어보았는데, 아무래도 그때 당시에는 잘 모르는 내용이 훨씬 많았던 책이다. 지금 하둡까지를 공부하고 나서 다시 읽어보니 꽤 괜찮은 책이다. 먼저 빅데이터가 왜 대두 되었는지, 빅데이터를 쓸 수 밖에 없는 환경은 무엇인지 이런 산업 발전을 차례대로 설명한다. 대표적인 사례는 스마트폰으로 인한 데이터 생산량의 폭증이다. 각자 데이터를 무한대로 발생하는 단말기를 가지고 생활하는 시대가 되어서 해당 데이터를 활용하기에 적합한 사회가 되었으나, 이 데이터를 다루려면 기존 방식으로는 불가능하다는 것이다. 특히, 음성이나 이미지 관련 비정형 데이터가 더 많이 사용되어감에 따라 기존 데이터베이스로 다루려면 더 복잡한 ..

독서/서평 2022.04.18

사회조사분석사 자격증은 빅데이터랑 관련이 있을까?

안녕하세요. Dibrary입니다. 이번에는 제가 취득한 자격증 중에 '사회조사분석사2급'에 대한 내용입니다. 최근에 자격증을 따면 좋을 것이라는 막연한 기대감에 조금이라도 관련이 있다 싶으면 자격증을 취득하려는 사람들이 늘고 있습니다. 미래가 더 불안하기에 그런 경향이 많아지는 것도 같네요. 빅데이터가 큰 화두가 되면서 이 자격증 역시 나름? 관심을 받고 있습니다. 사실 원래는 통계직 공무원에 갈 사람이 따는 기본 자격증 취급이었는데, 요즘은 개발자들도 꽤나 관심을 가지고 있죠. 저는 취득한지는 좀 되었네요. (밑에껀 관련이 없습니다.) 우선 제가 '사회조사분석사2급'자격증을 시험 본 계기는 단순합니다. 대학교 다니면서 '졸업 전에 반드시 배우고 나가야 겠다' 싶은 과목은 타과 전공들을 추가신청해서 수강..

[실무로 배우는 빅데이터기술] 교양서가 아닌 직접하는 빅데이터 처리

우선 결과부터 말하자면 '강! 추!' 4차산업 트렌드 중에 하나인 빅데이터에 대해 많은 사람들이 인지하고 있다. 또한, 해당 분야를 경험해보고 싶어하는 사람도 늘어나고 있다. 여기에 발맞췄는지 서점에 가면 빅데이터와 관련된 책이 굉장히 늘어난게 체감이 된다. 그러나, 읽고 나면 두리뭉실하게 '데이터'에 대한 내용만 남아있고, 실제로 데이터를 어떻게 다루는지, 뭘로 하는지에 대해 나와있는 책은 없었다. 개발업무를 하면서도 사실 궁금해서 이런저런 책들을 읽어나갔지만 실질적인 궁금증은 해결되지 않았다. 그때 이 책이 실마리가 되어주었다. 이 책을 읽으면 전체적으로 빅데이터를 '어떻게' 처리하는지에 대해 '직접' 프로그램을 구성하고 실행 해 볼 수 있다. 그저 개념과 추상적인 생각만 하는것에 그치는 다른 책들과..

독서/서평 2022.01.17
반응형