프로그래밍/Python

파이썬으로 임의 데이터 생성, 데이터파일 만들기

Dibrary 2022. 7. 14. 09:50
반응형

안녕하세요 Dibrary입니다.

데이터 분석이나, 데이터 엔지니어링을 할 때 생각보다 많은 양의 데이터가 필요한데 구하기가 마땅치 않을 때가 많죠.

이럴 때 파이썬을 이용해서 임의 데이터 파일을 만들어서 '동작여부, 기능 상태 확인'등을 진행해볼 수는 있습니다.

 


데이터를 임의로 생성할 때 필요한 것은 faker 모듈입니다.

tmp라는 Faker 객체를 만든 후에, name을 불러보니 제가 입력한 적도 없는 데이터가 마치 '이름'처럼 나왔죠?

그럼 이 Faker 객체로 어떤 것들을 만들 수 있는지는 dir(tmp) 를 해 보시면 알 수 있습니다.

아주 많은 것을 만들 수 있죠.

 

그럼, 이제 임의로 제가 csv 파일 꼴의 데이터를 생성해 보겠습니다.

날짜, 시간, 이름, 지역 이렇게 구성된 데이터를 한 번 만들어 보았습니다. 문제 없이 출력되는 것을 볼 수 있죠.

그래서 저는 context manager를 사용해서 test_datas.csv라는 파일을 만들고, 100개를 넣어보는 코드를 작성했습니다.

 

출력 결과는 어떨까요?

아주 잘 원하는대로 들어갔네요.

 

이렇게 생성한 데이터를 pandas로 불러오는 것 역시 문제 없습니다.

즉, 로그성 데이터를 임의로 만들어서 데이터 엔지니어링 테스트를 해 본다거나,
데이터 분석용 데이터를 만들어서 분석을 해본다거나 하는데 faker 모듈은 굉장히 유용한 셈이죠.

 

 

제가 해본 name, date, time 외에도 dir로 확인해 보시면 더 많은 종류를 사용해볼 수 있습니다.

728x90
반응형