반응형

에이콘 4

데이터 플랫폼 설계와 구축 - 1장(소개) 정리

안녕하세요 Dibrary입니다. 앞으로 차츰 이 책의 내용에서 주관적으로 중요하다 생각되는 개념을 정리함과 동시에 '제 생각'도 같이 정리해 둘 예정입니다. 클라우드 데이터 플랫폼 = 모든 유형의 데이터를, 거의 무제한의 장소에서 비용효과적인 클라우드 네이티브 방식으로 수집, 통합, 변환, 분석, 관리되는 데이터 플랫폼 무슨말인가 하면, 데이터가 들어오는 것 부터 사용하는 단계까지 모두 클라우드에서 사용하는 것을 의미한다. 데이터 관련 기술을 처음 접하기 시작하면 대부분 로컬에 VM등을 사용해서 여러 PC환경을 갖춘 후에 실행해봐야 하는 경우가 대부분이다. 이런 거 말고 그 단계를 클라우드에 있는 걸 사용하거나 한다는 말. 단일 시스템 아키텍처는 유연성이 크게 떨어진다. ETL (혹은 ELT) 각 단계별..

[PySpark 배우기] PySpark 기본 다루기 초급서

이 책은 이미 Spark 관련 책을 하나 가지고 있었기에 여느 스파크 책과 뭐가 다를까~ 싶어서 도서관에서 빌려서 본 책이다. Spark는 Scala로 배워야 가장 최근 경향을 빠르게 따라갈 수 있고, 더 많은 기능이 지원된다고 알고 있는데, 그럼에도 파이썬이라는 언어의 '간결하고 명료함'을 포기할 수 없다면, PySpark를 사용하는 것도 하나의 방법이다. 다만, Spark는 JVM을 기반으로 실행되기 때문에 Python을 사용하면 JVM에서 Python으로 통신하는 부분이 하나 더 추가되는 꼴이라서 Scala보다 당연히? 느릴 수 밖에 없다. 책의 초반에는 이런 개념적인 내용과 스파크의 아키텍쳐 및 실행 흐름을 설명하고있다. 여느 스파크 책과 마찬가지로 간단한 연산 및 메서드를 배우고 그 다음에 어느..

독서/서평 2022.09.27

[엔터프라이즈 데이터 레이크 구축] 쉬운 빅데이터 흐름 구축 설명서

읽게 된 계기 데이터 파이프라인 구축관련 개인 프로젝트를 진행해 보고자 하는데 하나하나 인터넷을 찾기에는 너무 관련 정보가 없어서 찾다가 발견한 책. 이 책의 목차를 보니 내용들의 목표는 '데이터 레이크'라는 것을 만드는 데 있는데, 이 데이터레이크는 간단하지 않아서 데이터 수집 부터 설명해 나가는 것으로 보였다. 그 과정에서 수집, 적재, 처리 라는 단계가 있는 것을 보고 데이터 파이프라인과 맞겠다 싶어서 읽기로 결정했다. 이 책의 특징 먼저 데이터 레이크가 뭔지 '개념'에 대해 소개하고, 기존에 우리가 아는 저장소(DB) 와는 무슨 차이가 있는지를 비교해 가며 설명해준다. 또한, 데이터 레이크를 만들기 위해 알아 둬야 하는 배치방식, 실시간 스트리밍 방식 이 2가지의 차이와 각 방법별 구축 아키텍처에..

독서/서평 2022.05.27

[데이터마이닝] 1장 - 개요 (기본 개념 및 용어 몇가지)

안녕하세요 Dibrary입니다. 데이터 마이닝 책의 내용을 간략하게나마 정리해 둘 생각입니다. 1장은 데이터 마이닝이란 무엇인지, 왜 필요한지, 어떻게 하는지에 대한 개괄적 내용을 담고 있습니다. Q. 왜 데이터 마이닝이 필요하게 되었는가? A. 전산화가 이뤄지면서 엄청난 양의 데이터가 수집됨. 이 데이터에서 가치있는 정보를 발견하고 체계적인 지식으로 변환하기 위해 탄생하게 되었다. 고급 데이터분석은 1980년대 후반 이후부터 생겨났다. Q. 데이터 웨어하우스란? A. 경영 의사결정을 위해 단일 사이트에서 통합 스키마에 의해 구성된 여러 이기종 데이터를 저장하는 장소. 데이터 웨어하우스 = 데이터 정제 + 통합 + OLAP Q. OLAP란? A. 요약, 통합, 합산 및 다양한 각도에서 정보를 볼 수 있게..

데이터 마이닝 2022.05.24
반응형