반응형

datalake 3

파이썬으로 AWS S3에 있는 파일 GET, PUT하기

안녕하세요 Dibrary입니다. 저번에 만든 AWS S3에 파이썬을 사용해서 파일을 넣고, 꺼내보겠습니다. 이번에 할 파일은 CSV파일로 간단히 해 볼건데, 주의할 점은 각 행마다 column갯수가 같아야 합니다. 즉, 각 행마다 콤마 갯수가 같아야 하는 것이죠. 다르면 어떻게 되냐구요? 이런 tokenizing data 에러를 마주할 수 있습니다. 파이썬으로 AWS를 연동하고 싶으면 boto3 모듈을 설치해야 합니다. 찾아보니 boto3는 AWS를 사용하게 해 주는 SDK라고 합니다. 그리고 aws_access_key_id와 aws_secret_access_key를 가지고 있어야 하는데, 이는 보안이 굉장히 중요하므로 별도로 저는 만들어서 사용했습니다. 위 코드에서 제것의 값은 가렸습니다. 해당 함수를..

AWS - S3 프리티어로 사용해보기 (버킷생성)

안녕하세요 Dibrary입니다. 이번에는 Data Lake로 많이들 사용하는 AWS의 S3 를 사용해보겠습니다. 돈을 내야 할 수 있는데, S3도 프리티어를 사용해서 간단한 개인 프로젝트 정도는 진행할 수 있습니다. 프리티어로 할 수 있는 기능은 아래와 같습니다. 1년간 매 달마다 5GB의 스토리지 사용 가능 20000건의 get요청, 2000건의 put, delete 요청 가능 즉, 너무 큰 데이터를 다뤄버리면 원치 않게도 영수증을 받아보게 될 수 있습니다. (실제로 전... 경험이 있어요 ㅠ.ㅜ 물론 다행이도 전화 통화에 이메일까지 죄다 써서 '공부'한 것임을 어필해서 0원으로 만들어주는 크레딧을 받았답니다.) 먼저 aws에 로그인 한 후에 s3를 검색해서 찾아갑니다. 그러면 아래와 같은 화면이 나올..

[데이터 레이크] 데이터 저장의 모든 기술 집약체

읽게 된 계기 데이터와 관련된 자격증을 취득하면서 문득 Data Warehouse와 Data Lake라는 단어는 많이 보이는데 명확한 구별이 어려웠다. 아무래도 시험관련공부로 접한 내용은 핵심만을 짚어놓았으니까. 그럼에도 처음에는 Lake라는 단어에 끌려 이 책을 보게 되었다. 말 그대로 잔잔한 호수를 생각하며 읽었지만, 내용은 정말 유용하다는 깨달음을 얻었다. 이 책의 특징 데이터레이크에 대해 소개한 책이 몇 없는데, 그 중에 하나. 내용은 전공서적 같은 전문 개념들이 나오는데 반해 처음부터 끝까지 설명체로 이어진다. 그래서 흐름을 이해하기가 용이함. 중간중간 이미지도 있어서 이해하기 어렵지 않다. 간단 내용 정리 데이터 레이크는 '누구든지 사용할 수 있게 제공할 데이터를 모아놓는 저장소' 개념으로 사..

독서/서평 2022.05.25
반응형