기술용어/데이터베이스

데이터 마이닝(Data Mining)

아이티신비 2024. 6. 10. 09:00

효율적인 의사결정을 위한 유용한 정보의 추출, Data Mining

정의
  • 대용량 데이터로부터 알려지지 않은 정보, 패턴을 찾아 의사결정에 활용하려는 데이터 분석 및 지식발견 프로세스
  • 대용량의 데이터 안에서 체계적인 통계적 규칙 이나 패턴을 탐색하고 이를 의미 있는 정보로 변환함으로써 기업의 의사결정에 적용하는 일련의 과정
  • KDD(Knowledge discovery in database
구조
  • 의사결정나무(Decision Tree) - 과거 레코드 분석으로 나무형태 패턴 모형
  • 신경망(Neural Network) - 세포를 모방한 개념, 반복적 학습
  • 연관성(Association) - 데이터 항목 간의 종속관계 분석, 강도, 방향분석
  • 군집(Clustering) - 유사한 특성을 지닌 데이터를 그룹화 시킴
추진절차
  • 요구사항 분석 및 데이터 선택 - 분석목적 및 범위식별, 데이터 파악
  • 데이터 정제 : 충실도 분석 후 모호성과 중복성 제거, 오류 값 보정
  • 데이터 보강 및 변환 : 외부 데이터 수집, 파생 데이터 생성 등
  • 마이닝 및 해석 : 마이닝 기법 선택, 결과해석, 마케팅 등에 활용 및 평가
특징
  • 대용량의 관측 가능한 자료를 다루고 컴퓨터 중심의 기법.
  • 경험적 방법이 중시
  • 현재의 자료보다 미래의 자료를 잘 설명할 수 있는 모형을 추구
등장배경
  • 고도의 전문적인 의사결정 시스템의 필요성 증가
  • Datawarehouse활성화에 따라 Data Mining구축인식 확산
주요기능
  • 검증 - 사용자 응용시스템의 가설 입증
  • 발견 - 관계 및 패턴 발견
  • 예측 - 특정객체의 미래행위 예측
  • 묘사 - 사용자가 이용 가능한 형태로 표현/변환
구축절차
  • Data 선택 - 필요 Data의 위치, 형태, 완전성 등을 파악하여 확보/통합하는 과정
  • Data 정제 - 확보된 데이터의 완성도를 높이는 작업
  • Data 보완 - 데이터의 양과 깊이를 늘리는 작업
  • Data 변환 - 불필요한 레코드, 항목삭제, 파생 항목을 만들거나 항목의 값을 세분화 또는 그룹핑하는 작업
  • Data Mining 적용 및 평가 - 구축된 Data 에 대한 Data Mining 적용기술을 적용하여 도출된 결과를 해석
고려사항
  • 사용자 편리성 : 사용하기 쉽고 통계자료 등의 사용이 용이해야 함
  • DB접근 개방성 : 다양한 Source Data에 독립적으로 접근이 용이해야하며 EAI, BI 등과의 통합 연동 서비스 제공
  • 운영 환경 : 다양한 플랫폼에서 적용 가능
  • 다양한 Data Mining 알고리즘 제공 : 데이터 추출을 위한 반복 적용 및 측정에 용이 해야 하며, 기본적인 추출 알고리즘 제공
활용분야
  • 유통분야: 매출,수익성분석, 광고효과분석, 고객패턴분석
  • 통신분야: 고객성향 변동관리(이용시간, 지역)
  • 금융분야: 고객구매 패턴 및 시기, 신용도 분석
  • 치안분야: 범인의 행동패턴, 심리분석
  • 의료분야: 과거자료로 판별 및 분류분석
전망
  • Data Mining을 위한 통합된 환경을 제공하고 다양한 업무에 지속적으로 적용 가능한지 고려하여 Tool을 선택
  • 경험과 지식을 갖춘 Data Mining 전문가와 이를 활용할 수 있는 조직 프로세스 정립 필수웹을 통한 채널의 증대로 Web Mining을 적용하는 기술의 연계


 

공감과 댓글은 아이티신비에게 큰 힘이 됩니다.

블로그 글이 유용하다면 블로그를 구독해주세요.♥

 

 

'기술용어 > 데이터베이스' 카테고리의 다른 글

데이터베이스 성능 튜닝  (0) 2024.06.11
데이터베이스 보안  (0) 2024.06.10
OLAP(OnLine Analyical Processing)  (0) 2024.06.09
MDM(Master Date Management)  (0) 2024.06.09
K-means  (1) 2024.06.08