독서/서평

[데이터 레이크] 데이터 저장의 모든 기술 집약체

Dibrary 2022. 5. 25. 09:50
반응형

읽게 된 계기

데이터와 관련된 자격증을 취득하면서 문득 Data Warehouse와 Data Lake라는 단어는 많이 보이는데 명확한 구별이 어려웠다. 아무래도 시험관련공부로 접한 내용은 핵심만을 짚어놓았으니까.

그럼에도 처음에는 Lake라는 단어에 끌려 이 책을 보게 되었다.
말 그대로 잔잔한 호수를 생각하며 읽었지만, 내용은 정말 유용하다는 깨달음을 얻었다.

 


이 책의 특징

데이터레이크에 대해 소개한 책이 몇 없는데, 그 중에 하나.

내용은 전공서적 같은 전문 개념들이 나오는데 반해 처음부터 끝까지 설명체로 이어진다.
그래서 흐름을 이해하기가 용이함.

중간중간 이미지도 있어서 이해하기 어렵지 않다.

 


간단 내용 정리

데이터 레이크는 '누구든지 사용할 수 있게 제공할 데이터를 모아놓는 저장소' 개념으로 사용한다고 한다.

여기서 '누구든지'는 말 그대로 회사 내부에 국한될 수도 있고, 외부로 오픈될 수도 있다.

회사 내부에서 오픈된 경우를 보면 굳이 IT직무를 가진 사람이 아니더라도, 필요에 의해 관련 데이터를 써야 할 때가 있다. 이때 타 부서에 협업 요청 및 관련 절차를 거치지 않고, 직접 Data Lake로부터 데이터를 가져와서 insight를 구한 뒤 업무를 해결하는 것을 도모하는게 Data Lake다.

문제는, '기존에 DB도 데이터를 모조리 모아두고 필요할 때 꺼내면 되지 않느냐~' 하는 생각이 들 수 있다. 

최근 빅데이터라는 단어가 자주 쓰이고, 그 데이터 중에 정형 데이터는 일부에 지나지 않는 다는 것을 쉽게 알 수 있다. 정형, 비정형, 반정형 모든 것을 통틀고 + 로우 데이터 뿐 아니라, 해당 데이터를 활용한 결과 데이터 도 다시 저장할 수 있는 말 그대로 모든 기록의 보고 그 자체가 Data Lake 인 셈이다.

Data Lake는 데이터 수집, 저장, 제공, 재저장 등 데이터가 이동하는 골목골목에서 현황을 파악할 수 있어야 하고, 해당 데이터를 저장까지 같이 겸할 수 있어야 한다.

문제는, 그 기술이 만만치 않다.

 


(나에게) 이 책의 장점

1.  우선 책 두께가 얇다. 부담감이 덜함.

2. 개념, 설명 방식이라 '이과' 출신인 나에게 아주 이해가 잘 되는 설명방식이었다.

 


이 책의 단점

1. 이 책은 여러 도구의 사용법에 대해서 자세하게 설명하지는 않는다. 다만, 도구들을 연결해서 하나의 기능을 구현할 때 주의할 점을 몇 가지 알려준다. 

 


기억할 만한 내용

그 중에 주의깊게 본 내용은 '전체 데이터 파이프 라인 구성 기술 중 한 개가 느리다면 전체가 느린 거나 마찬가지다' 라는 내용이다.

가용성 및 효율성을 따져보아야 하는 개발자 입장에서 꼭 명심해야 할 문장이었다.

 


결과

전체적으로 Data Lake라는 개념, 기능, 구성, 활용 들을 간단히 정리하기에 용이한 책이다.

물론, 지금의 내가 곧바로 구현하기는 쉽지 않겠지만, 적어도 무엇을 구현해야 하는지를 알 수 있게 되었다.

빅데이터 분야로 취업을 생각하거나, 관련 기술에 대해 잘 모르는 사람에게는 추천하는 책이다.

728x90
반응형