정의
|
- 대용량 데이터로부터 알려지지 않은 정보, 패턴을 찾아 의사결정에 활용하려는 데이터 분석 및 지식발견 프로세스
- 대용량의 데이터 안에서 체계적인 통계적 규칙 이나 패턴을 탐색하고 이를 의미 있는 정보로 변환함으로써 기업의 의사결정에 적용하는 일련의 과정
- KDD(Knowledge discovery in database
|
구조
|
- 의사결정나무(Decision Tree) - 과거 레코드 분석으로 나무형태 패턴 모형
- 신경망(Neural Network) - 세포를 모방한 개념, 반복적 학습
- 연관성(Association) - 데이터 항목 간의 종속관계 분석, 강도, 방향분석
- 군집(Clustering) - 유사한 특성을 지닌 데이터를 그룹화 시킴
|
추진절차
|
- 요구사항 분석 및 데이터 선택 - 분석목적 및 범위식별, 데이터 파악
- 데이터 정제 : 충실도 분석 후 모호성과 중복성 제거, 오류 값 보정
- 데이터 보강 및 변환 : 외부 데이터 수집, 파생 데이터 생성 등
- 마이닝 및 해석 : 마이닝 기법 선택, 결과해석, 마케팅 등에 활용 및 평가
|
특징
|
- 대용량의 관측 가능한 자료를 다루고 컴퓨터 중심의 기법.
- 경험적 방법이 중시
- 현재의 자료보다 미래의 자료를 잘 설명할 수 있는 모형을 추구
|
등장배경
|
- 고도의 전문적인 의사결정 시스템의 필요성 증가
- Datawarehouse활성화에 따라 Data Mining구축인식 확산
|
주요기능
|
- 검증 - 사용자 응용시스템의 가설 입증
- 발견 - 관계 및 패턴 발견
- 예측 - 특정객체의 미래행위 예측
- 묘사 - 사용자가 이용 가능한 형태로 표현/변환
|
구축절차
|
- Data 선택 - 필요 Data의 위치, 형태, 완전성 등을 파악하여 확보/통합하는 과정
- Data 정제 - 확보된 데이터의 완성도를 높이는 작업
- Data 보완 - 데이터의 양과 깊이를 늘리는 작업
- Data 변환 - 불필요한 레코드, 항목삭제, 파생 항목을 만들거나 항목의 값을 세분화 또는 그룹핑하는 작업
- Data Mining 적용 및 평가 - 구축된 Data 에 대한 Data Mining 적용기술을 적용하여 도출된 결과를 해석
|
고려사항
|
- 사용자 편리성 : 사용하기 쉽고 통계자료 등의 사용이 용이해야 함
- DB접근 개방성 : 다양한 Source Data에 독립적으로 접근이 용이해야하며 EAI, BI 등과의 통합 연동 서비스 제공
- 운영 환경 : 다양한 플랫폼에서 적용 가능
- 다양한 Data Mining 알고리즘 제공 : 데이터 추출을 위한 반복 적용 및 측정에 용이 해야 하며, 기본적인 추출 알고리즘 제공
|
활용분야
|
- 유통분야: 매출,수익성분석, 광고효과분석, 고객패턴분석
- 통신분야: 고객성향 변동관리(이용시간, 지역)
- 금융분야: 고객구매 패턴 및 시기, 신용도 분석
- 치안분야: 범인의 행동패턴, 심리분석
- 의료분야: 과거자료로 판별 및 분류분석
|
전망
|
- Data Mining을 위한 통합된 환경을 제공하고 다양한 업무에 지속적으로 적용 가능한지 고려하여 Tool을 선택
- 경험과 지식을 갖춘 Data Mining 전문가와 이를 활용할 수 있는 조직 프로세스 정립 필수웹을 통한 채널의 증대로 Web Mining을 적용하는 기술의 연계
|