반응형

서평 56

전체적인 스파크를 사용해 볼 수 있는 맛보기 좋은 책

교육기관에서 받았지만, 정작 Hadoop 설치 까지만 나가고 이 책은 1쪽도 펴보지 못한 책... 하지만 이미 받았고, 나는 빅데이터 기술에 관심이 많기 때문에 혼자서 독파해보기로 결정했었다. 쉬웠냐면 전혀 그렇지 않았다... 처음부터 Vagrant를 써서 학습용 가상환경을 설치해야 한다. 이제 막 코딩을 시작한 사람에게 가상환경은 녹록치 않다. 그럼에도 Vagrant에 대해 공부하고 꾸역꾸역 설치에만 약 3일을 썼다. 설치 하고 나서는 일사천리인 듯 싶지만, 또 그것도 아니었다. 리눅스를 잘 다루지 못했으니까... 리눅스도 공부를 할 겸 검색해보니 마침 윈도우에서 단독클러스터 버전으로 돌릴수가 있는게 아닌가? 덕분에 이 책의 진도는 확확 나갔다. 서론이 길었는데, 이 책은 Spark를 사용해서 데이터를..

독서/서평 2022.09.20

SQL로 데이터를 다채롭게 뽑아보는 연습에 딱좋은 책

읽게 된 계기 데이터 분석 이나 데이터 엔지니어에게 SQL은 필수라고 한다. 그러나, 나는 SQL은 기본적인 CRUD만 할 줄 알았고 그것만 잘 하면 된다고 착각하고 있었다. 한 번은 코딩테스트에 SQL 문제가 나왔었는데 이게 그냥 CRUD만 가지고 안되는 수준이었어서 관심을 갖고 SQL을 다채롭게 활용해볼 수 있는 방법을 배우는 책을 찾았다. 그게 이 책이다. 이 책의 특징 PostgreSQL, Hive, SparkSQL, Redshift, BigQuery 5개의 DB에 대한 쿼리문을 제공한다. 즉, 같은 결과를 내기 위해 쿼리문이 조금씩 다를 순 있지만, 그 쿼리문을 모두 확인할 수 있다. 그리고, 데이터를 실제에는 어떻게 분석하고 바라보는지에 대한 설명과, 그 설명의 근거 자료를 찾기 위한 SQL문..

독서/서평 2022.09.05

[빅데이터를 지탱하는 기술] - 빅데이터 기술 개괄서

읽게 된 계기 데이터 처리 분야에 관심이 있어서 읽게 된 책이다. 이 책이 나온지가 좀 되었는데, 그때의 기술 처리와 지금과 얼마나 달라졌을지 그리고 각 기술분야별로 주된 도구의 변화가 있는지를 볼 수 있겠다 싶어서 이 책을 읽었다. (다행이도 동네 도서관에 있었다.) 이 책의 특징 빅데이터를 다루기 위해 필요한 도구들이 소개 되며, 도구에 대한 설명, 사용방법 등이 나와있다. 하나의 도구에 대해 모든 것을 설명하는 방식이 아닌 전체적인 '업무' 즉, 데이터 처리하는 과정에 있어서 어떤 방법이 필요했고, 그 방법에 적합한 도구가 이것이다~ 는 설명방식을 띄고 있다. 그래서 흐름 대로 따라가면 데이터를 이렇게 다루고, 가공하고 한다는 개념이 잡힌다. 간단 내용 정리 먼저 빅데이터라는 개념이 왜 나오게 되었..

독서/서평 2022.08.23

동사트레이닝 - 회화연습할 때 동사만 반복하기 좋은 책

영어를 어학원 다니면서 회화 위주로 공부했던 게 벌써 몇 년 전이 되었다. 그래도 완전 다 까먹은건 아니라서 어느정도 말은 할 수 있으나, 기억나는 단어가 부족해서 표현에 한계를 느끼곤 했다. 곰곰히 내가 뭘 어려워하는지 생각해보면 단순히 단어를 모르는게 문제가 아니라, 동사와 전치사를 적재적소에 알맞는 의미로 못쓰는 것으로 판단되었다. 그래서 이 책을 보게 되었다. 물론, 이 책을 보기 전에도 동사 및 전치사에 대해 많은 책들을 살펴보았다. 하지만 대부분의 책들은 결국 '암기'로 귀결되었다. 내 공부방법은 수시로 많이 보고 익히는 것인데, 꾸준히 암기를 해야 하는 것과는 조금 다르다. 바로 이 책이 적합한 책이었다. 정말 책에 수록된 문장이 심플하면서 시제별로도 바꿔서 연습해 볼 수 있고, 수시로 말하..

독서/서평 2022.08.22

[CentOS7 예비학교] Centos 에서 기본적인 서버 구축

예전에 리눅스를 공부하긴 해야하겠는데, 뭐부터 공부해야 할 지 모르는 상태에서 아는 친구가 이 책으로 자기는 공부했대서 보게 되었다. 물론, 책을 처음 볼 때는 애초에 프로그래밍에 대한 지식이 별로 없었고, (특히, OS 같은 CS지식이 전무했다) 가뜩이나 검은 화면에서만 다뤄야 해서 아주 불편하다는 생각 + 너무 어렵다는 생각이 들었었다. 어떻게든 꾸역꾸역 끝까지 1회 독은 했지만, 머리에 남는 것이 없었다. 시간이 지나서 리눅스에 대한 거부감이 옅어지고, 안되면 되게 하다보면 된다는 그 '인식'이 자리잡은 후에 다시 이 책을 보았다. 아주 깊이가 있는 그런 책은 아니지만, 리눅스 초보자에게 리눅스로 여러 서버들을 구축하고자 할 때 참고할만한 내용이 많이 있었다. 제목 자체에서도 '예비학교'라는 글자가..

독서/서평 2022.07.21

[Apache Airflow] 에어플로우를 상세히 배울 수 있는 책

빅데이터에 관심이 많아서 관련된 책들을 보는데, 빈번하게 나오던 글자가 'apache airflow'였다. 자세히 알아보니 데이터 흐름을 자동화 할 수 있는 도구였다. 기존에 공부하던 빅데이터 도구들이랑은 약간 다르기도 해서 관심이 갔던 찰나에 이 책을 만났다. 이 책에 나온 내용은 굉장히 상세하고 또 자주 읽어서 익혀야 할만한 내용들로 가득 차 있다. 이 책은 크게 4가지 파트로 나눠져 있으며, 처음에는 정말 기본적인 개념 소개 및 실행을 해 볼 수 있다. 점진적으로 파트가 넘어가면서 더 세부적인 사항들에 대해 소개하며 각 기능을 사용할 때 주의해야할 점도 같이 짚어준다. 에어플로우를 사용해서 데이터를 가져오는 것 뿐 아니라, 데이터 가공 및 변환 등을 시간에 맞춰서 할 수 있다는 것에 놀랐고, 파이썬..

독서/서평 2022.07.19

[구글을 지탱하는 기술] 쉽게 풀어쓴 구글의 시스템

Hadoop을 공부하다가, 분산저장 기술은 구글의 논문을 보고 만들어낸 것이라는 글을 보았다. 그래서 GFS 라는 것이 있음을 알게 되었는데, 이 내용이 쉽지 않았다. 다행이 해당 기술을 설명하는 책이 이 책이다. 물론, GFS 만 설명하진 않는다. 먼저 분산처리 기술이 왜 필요해졌는지에 대해 설명하며 시작한다. 구글도 처음에는 지금같은 거대한 규모가 아니었으나, 검색엔진 특성상 크롤러가 저장해야 할 데이터가 기하급수적으로 늘어나게 되었고, 그 필요성으로 저장소를 늘려 나가다가 GFS를 고안해낸 것이다. 구글의 분산 스토리지는 크게 3가지를 설명한다. GFS, Bigtable, Chubby. 저장하는 것 외에, 분산형태로 데이터를 처리하기 위한 기술도 소개한다. 맵리듀스는 Hadoop에서 익히들어 알고 ..

독서/서평 2022.07.07

[파이썬 알고리즘 인터뷰] 파이썬으로 다각도로 풀어보기 모음집

파이썬을 비교적 다른 언어에 비해 능숙하게 다룰 수 있게 된 후에, 각종 알고리즘 사이트 (백준, leetcode 등)에서 파이썬으로 문제를 풀어 왔었다. 다만 그 '효율'에 있어서 의문은 계속 풀리지 않고 있었다. 특히나, 문제를 오롯이 내가 시간을 들여 풀어내는 방식위주로 하다 보니 비슷한 문제는 거의 대부분 풀이 코드가 비슷했다. 이런 고민을 가지고 있던 찰나, 이 책을 만났다. 우선 결론부터 말하자면 책이 좋다. 다만 무겁다. 왜 좋냐면, 우선 정말 많은 문제가 수록되어 있다. 물론, 해당 문제는 거진 대부분 leetcode의 문제다. 바로 이 부분에서 나는 만족했다. 시중에 나온 알고리즘 책은 정말 '학교'에서나 쓸 법한 개념 위주 혹은 '대회용' 이렇게 2가지로 나뉜다. 물론, 코딩테스트와 관..

독서/서평 2022.07.04

[ElasticSearch 운영 노하우] ElasticSearch 익힘책

ElasticSearch가 궁금해서 볼 용도로 읽은 책이다. NoSQL들 중에 MongoDB와 Redis는 이미 공부해서 간간히 써먹곤 하는데, ElasticSearch는 뭔지 궁금했다. 또 알아둬서 나쁠건 없으니까~ 찾아보면 ElasticSearch의 정의는 이렇게 설명이 나온다. 일래스틱서치는 루씬 기반의 검색 엔진이다. HTTP 웹 인터페이스와 스키마에서 자유로운 JSON 문서와 함께 분산 멀티테넌트 지원 전문 검색 엔진을 제공한다. 여기서 제일 먼저 궁금했던 내용은 '검색 엔진이다' 라는 내용이다. '검색 엔진' 하면 google이 대표적으로 떠오르는데, 과연 그런 검색 엔진을 내가 써볼 수 있는 것인가? 하는 의문이 들었다. 또, JSON 문서를 사용한다는 내용을 알 수 있다. JSON이라 하믄..

독서/서평 2022.07.01

[데이터 공학] 직접 구현하며 배우는 데이터 파이프라인

개인적으로 책 표지에 파이썬으로 한다는 말에 끌렸다. 원래 JAVA를 배웠으나 지금은 Python을 거의 주력으로 쓰고 간간이 JAVA나 Scala, Javascript를 쓰곤 하니.. 이 책은 제목 그대로 '실무 예제'를 배울 수 있다. 우선 데이터 엔지니어링을 하려면 알아야 하는 도구가 많다는 것은 어느정도 찾아본 사람이라면 알 것이다. 하둡부터 kafka, flink, flume, nifi, spark, impala, zeppline, sqoop, storm 등등 휘유... 무지하게 많다. 다 배우면 당연히 좋은데... 사람은 한계가 있기 때문에 '최소한의 투입으로 최고의 효율'을 내고 싶어한다. 바로 그런 측면에서 이 책이 딱이다. 이 책을 통해 배울 수 있는 기술은 nifi, airflow, e..

독서/서평 2022.06.29
반응형