안녕하세요 Dibrary입니다.
데이터 분석이나, 데이터 엔지니어링을 할 때 생각보다 많은 양의 데이터가 필요한데 구하기가 마땅치 않을 때가 많죠.
이럴 때 파이썬을 이용해서 임의 데이터 파일을 만들어서 '동작여부, 기능 상태 확인'등을 진행해볼 수는 있습니다.
데이터를 임의로 생성할 때 필요한 것은 faker 모듈입니다.

tmp라는 Faker 객체를 만든 후에, name을 불러보니 제가 입력한 적도 없는 데이터가 마치 '이름'처럼 나왔죠?
그럼 이 Faker 객체로 어떤 것들을 만들 수 있는지는 dir(tmp) 를 해 보시면 알 수 있습니다.

아주 많은 것을 만들 수 있죠.
그럼, 이제 임의로 제가 csv 파일 꼴의 데이터를 생성해 보겠습니다.

날짜, 시간, 이름, 지역 이렇게 구성된 데이터를 한 번 만들어 보았습니다. 문제 없이 출력되는 것을 볼 수 있죠.
그래서 저는 context manager를 사용해서 test_datas.csv라는 파일을 만들고, 100개를 넣어보는 코드를 작성했습니다.
출력 결과는 어떨까요?

아주 잘 원하는대로 들어갔네요.
이렇게 생성한 데이터를 pandas로 불러오는 것 역시 문제 없습니다.

즉, 로그성 데이터를 임의로 만들어서 데이터 엔지니어링 테스트를 해 본다거나,
데이터 분석용 데이터를 만들어서 분석을 해본다거나 하는데 faker 모듈은 굉장히 유용한 셈이죠.

제가 해본 name, date, time 외에도 dir로 확인해 보시면 더 많은 종류를 사용해볼 수 있습니다.
'프로그래밍 > Python' 카테고리의 다른 글
파이썬으로 XML파일 파싱해서 사용하기 (0) | 2022.07.18 |
---|---|
[혼공머신러닝] 3장(최근접 이웃회귀, 선형회귀) 정리 (0) | 2022.07.15 |
파이썬으로 JSON 파일에서 필요한 것만 뽑아내기 (2) | 2022.07.11 |
[혼공머신러닝] 1장, 2장 정리 (0) | 2022.07.08 |
[디자인 패턴] 싱글톤 (0) | 2022.07.05 |