마이닝( Mining )이란?
Mining = 채굴. 땅에 파묻힌 광물을 캐낸다는 뜻
데이터 분야의 Mining 이란
땅이 아니라 문헌매체나 데이터베이스 등과 같은 분석대상 데이터에서
관계형성의 규칙을 적용하여 광물대신 관계 데이터를 추출하는 것
즉 유용한 정보를 추출하는 것
[빅데이터 분야에서 마이닝은 크게 두가지 영역으로 구분됨]
텍스트 마이닝
데이터 마이닝
데이터 마이닝과 텍스트 마이닝의 차이점
데이터 마이닝
보유한 데이터를 다양한 관점에서 분석하고 그 결과를 유용한 정보로 조합하는 일
정형화된 형태의 데이터가 주 대상임
구조적인 데이터를 대상으로 유용하고 잠재적인 패턴을 끌어내는 것
데이터베이스로 축적된 상품 또는 서비스 거래 기록 데이터로부터 연관된 상품 또는 서비스를 분석하는것
KDD ( Knowledge Discovery in Databases )
데이터로부터 유용한 지식을 찾아낸 과정을
분석에 필요한 데이터를 추출해 사전처리와 변환과정을 거쳐
분석하고 결과를 해석하는 과정
데이터 마이닝은 KDD의 전과정을 포괄하는 개념
1. 우선 데이터를 선택하고 정제한다.
2. 정제된 데이터를 특정 형태로 변형
3. 데이터 마이닝을 수행
4. 해석
데이터 마이닝 표준처리 과정 6단계
1. 비즈니스 이해
2. 데이터 이해
3. 데이터 준비
4. 모형 구축
5. 평가
6. 적용
활용범위
분류
추정
예측
연관성 규칙
군집화
프로파일링
텍스트 마이닝
자연어로 구성된 비구조적인 텍스트 안에서 패턴 또는 관계를 추출하여 지식을 발견하는 것
지식 매체, 언어 매체를 구성하는 텍스트에 나타는 단어를 분석하여 특정한 지식을 이해하고 언어로 나타나는 메시지를 분석하는 것
텍스트 마이닝은 비정형 및 반정형 데이터에 대하여 자연어 처리 기술과 문서 처리 기술을 적용하여
유용한 정보를 추출, 가공하는 것이 목적.
비정형, 반정형, 정형 데이터란?
[정형 데이터]
Structured 즉 구조화 되어있는 데이터
엑셀, 데이터 베이스 등과 같이 텍스트 형태로 저장되어 있는 데이터
[반정형 데이터]
형태가 있으며 연산이 불가능한 데이터
XML, HTML, JSON 과 같은것이 반정형 데이터
[비정형 데이터]
형태가 없으며, 연산도 불가능한 데이터
트위치, 페이스북, 영상, 이미지, 음성, word, ppt 등
자연어처리 기술이란?
사람이 일상생활에서 자연스럽게 말하는 언어 즉 자연어를
형태 분석과 의미 분석, 대화 분석 등의 과정을 통해 컴퓨터가 이해하고 처리할 수 있도록 변화시키고
이 결과물을 사람의 편의성에 입각해 텍스트나, 음성, 그래픽 등으로 생성하는 작업
즉 컴퓨터가 사람말을 알아들을 수 있도록 하는 과정
텍스트 마이닝은 자연어 처리 도구에 매우 많이 의존하고 있음
문서처리(문서 분류) 기술이란?
임의의 텍스트 문서를 이미 정해진 범주에 따라 분류하는 것
정보의 분류
대량의 온라인 문서들과 함께 중요한 텍스트 마이닝 작업으로
주어진 문서에 대해서 그 문서가 속하는 클래스를 결정하는 기술
문서들 사이 또는 문서 집합에서의 유사성을 측정할 수 있음
문서 처리 기술 중 하나는 자동 문서 분류가 있음
[자동문서분류란?]
미리 분류된 문서들의 집합을 시험 집합으로 구성한 후
시험 집합은 분류 체계를 구성하기 위해 분석함.
그리고 생성된 문서 분류 체계는 다른 온라인 서류들의 분류에 사용됨
활용범위
문서요약
문서분류
문서군집
특징추출