독서/서평

[구글을 지탱하는 기술] 쉽게 풀어쓴 구글의 시스템

Dibrary 2022. 7. 7. 09:50
반응형

Hadoop을 공부하다가, 분산저장 기술은 구글의 논문을 보고 만들어낸 것이라는 글을 보았다. 그래서 GFS 라는 것이 있음을 알게 되었는데, 이 내용이 쉽지 않았다. 

다행이 해당 기술을 설명하는 책이 이 책이다. 물론, GFS 만 설명하진 않는다.

 


먼저 분산처리 기술이 왜 필요해졌는지에 대해 설명하며 시작한다.
구글도 처음에는 지금같은 거대한 규모가 아니었으나, 검색엔진 특성상 크롤러가 저장해야 할 데이터가 기하급수적으로 늘어나게 되었고, 그 필요성으로 저장소를 늘려 나가다가 GFS를 고안해낸 것이다.

구글의 분산 스토리지는 크게 3가지를 설명한다. GFS, Bigtable, Chubby.

저장하는 것 외에, 분산형태로 데이터를 처리하기 위한 기술도 소개한다.
맵리듀스는 Hadoop에서 익히들어 알고 있었지만, Sawzall은 처음본 개념이었다.

기술에 대한 설명이 끝나고 나면, 해당 분산 처리한 '하드웨어'들이 모여있는 데이터 센터에 대한 내용을 소개한다.
데이터 센터 구축에 평균적으로 들어가는 비용, 해당 비용을 줄이기 위해 고려해야할 것들, 반도체 기술력이 좋아짐에 따른 하드웨어 선택등 상세하게 나와있다.

이 점이 이 책의 장점이라고 생각한다. 소프트웨어에 대한 설명만 나와있는 책은 비교적 많다. 그러나, 실제 분산환경을 구성한 후에 운용할 때 고려해야 할 점 및 비용에 대해서 나와있는 책은 이 책이 처음이다.

 


아예 아무런 기반이 없는 사람이 읽는다면 이 책의 내용은 쉽지 않을 수도 있을 것 같다.

나도 Hadoop이라는 것을 먼저 공부했던 터라, 마스터노드, 네임노드, 데이터노드 등의 개념이 나와도 익숙하고 마침 GFS와 Hadoop이 정말 비슷했다.

그러나 태블릿 및 각종 문제 상황을 대비해서 어떤 전략을 구성하는지 부분은 어려웠다.

 

한빛미디어에서 나오는 책들 처럼 교과서 같은 타입은 아니지만, 들어있는 내용은 교과서에서도 볼 수 없는 '실무' 그 자체라고 생각한다.

그래서 이 책의 내용이 전부 이해되지 않았더라도 계속 읽어볼 가치가 있다고 확신한다.

728x90
반응형