데이터 마이닝

[데이터마이닝] 1장 - 개요 (기본 개념 및 용어 몇가지)

Dibrary 2022. 5. 24. 09:50
반응형

안녕하세요 Dibrary입니다.

데이터 마이닝 책의 내용을 간략하게나마 정리해 둘 생각입니다.

 

1장은 데이터 마이닝이란 무엇인지, 왜 필요한지, 어떻게 하는지에 대한 개괄적 내용을 담고 있습니다.


Q. 왜 데이터 마이닝이 필요하게 되었는가?
A. 전산화가 이뤄지면서 엄청난 양의 데이터가 수집됨. 이 데이터에서 가치있는 정보를 발견하고 체계적인 지식으로 변환하기 위해 탄생하게 되었다.

 

고급 데이터분석은 1980년대 후반 이후부터 생겨났다.

 

Q. 데이터 웨어하우스란?
A. 경영 의사결정을 위해 단일 사이트에서 통합 스키마에 의해 구성된 여러 이기종 데이터를 저장하는 장소.

데이터 웨어하우스 = 데이터 정제 + 통합 + OLAP

 

Q. OLAP란?
A. 요약, 통합, 합산 및 다양한 각도에서 정보를 볼 수 있게 해 주는 분석기법

 

데이터를 정리해 두지 않으면 데이터를 저장만 해 놓고 쳐다보지도 않는 데이터 무덤이 되기 쉽다.

 

데이터 마이닝 단계

  1. 데이터 정제
  2. 데이터 통합
  3. 데이터 선택
  4. 데이터 변환
  5. 데이터 마이닝 = 분석 대상에서 숨겨진 패턴을 밝혀내기 위한 분석이 이뤄진다.
  6. 패턴 평가
  7. 지식 프레젠테이션

 

Q. 어떤 데이터를 마이닝 할 수 있는가?
A. 데이터가 목표로 하는 바에 의미가 있다면 어떤 종류의 데이터에도 적용 가능하다.
    (시계열, 공간, 하이퍼텍스트, 그래프, 네트워크, 정형, 비정형, 반정형, 설계 데이터 등등)

 

데이터 입력 = 클래스나 개념과 연관될 수 있다.

데이터 특성화 = 타깃 데이터의 일반적 특징에 대한 요약.

데이터 차별화 = 타깃 클래스 데이터 객체의 일반적인 특성을 한 개 이상의 비교대상 클래스 객체의 일반적인 특성과 비교.

빈발 패턴 = 자주 발생하는 패턴. 빈발 패턴을 마이닝 하면 데이터 내의 연관성이나 상관성을 발견할 수 있다.

분류 = 데이터 클래스 혹은 개념을 설명하거나 차별화한(구분지어지는) 모형을 찾아내는 과정.
분류는 카테고리 라벨을 예측한다.

회귀 = 연속형 값을 예측한다.

군집화 = 내부 클래스 간 유사도를 높이고 외부 클래스 간 유사도를 최소하 하는 원칙으로 그룹화

아노말리 마이닝 = 이상치 데이터 분석

 

A. 모든 것이 관심 대상인가?
Q. 잠정적으로 생성된 패턴의 일부분이 특정 사용자에게 관심대상이 된다.

 

데이터 마이닝에는 통계학, 기계학습, 패턴인식, 시각화, 알고리즘, 데이터베이스 시스템, 데이터 웨어하우스, 정보수집, 애플리케이션 등의 기술을 사용한다.

728x90
반응형