데이터마이닝 개념과 기법 개요

2018. 3. 15. 20:49

by. 위지원

데이터 마이닝 개념과 기법을 보고 공부한 내용

이 책은

다양한 분야의 데이터로부터 흥미 있는 패턴을 발견하기 위한 데이터 마이닝의 기본 개념과 기술에 초점을 맞추어 효과적이고 효율적이며 스케일 변환이 가능한 데이터 마이닝 툴을 개발하기 위한 주요 기술에 대해 강조하여 설명하고 있다.

1장은 아래와 같이 이루어져있다.

1. 왜 데이터 마이닝에 대한 수요가 증가하는지?

어떻게 IT 발전과정의 일부가 되었는지?

2. 지식 발견 프로세스 관점에서 데이터마이닝이란?

3. 마이닝 데이터

4. 지식

5. 사용 기술

6. 적용 분야

7. 주요 데이터 마이닝 연구와 개발 이슈사항

1.1 왜 데이터 마이닝인가?

책에서 바로 아래에 이렇게 적혀있다 " 필요는 발명의 어머니다. " - 플라톤

데이터는 누구나 알듯이 굉장히 많이 쌓여간다. 우리가 흔히 아는 유투브는 1분마다 400시간 분량의 영상이 올라오고 페이스북에는 매일 수억장의 이미지가 업로드 된다고 한다. 시장조사 업체 IDC에 따르면 데이터양은 매녕 30%씩 오르고 있으며 2025년에는 163ZB(제타바이트)에 이를정도라고 한다. (더 자세한 내용은 이 기사를 참조)

관련 이미지 데이터마이닝에 대한 이미지 검색결과

그림 출처 : http://ansonalex.com/infographics/what-happens-on-the-internet-in-1-minute-infographic/

이렇게 증가하는 데이터에서 가치 있는 정보를 발견하고 지식으로 변환하기 위한 도구들이 필요하게 되었고 그 필요에 의해 데이터 마이닝은 탄생하게 되었다.

책에서 예제로 나온 내용은 사용자의 검색 질의어에서 발견된 일부 패턴들은 개별 데이터 항목을 참고함으로써 얻을 수 없는 중요한 지식을 밝혀낼 수 있으며 그 예로 구글의 독감트렌드를 들었다.

실제로 기존 시스템보다 2주정도 빠르게 독감활동을 예측하여 굉장한 주목을 받았지만 09년도에 신종플루를 놓치고, 13년도에는 실제 독감률의 2배를 예측하여 신뢰도가 떨어지며 구글은 서비스를 종료할 수 밖에 없었다고 한다. 현재에도 해당 서비스는 빅데이터를 통한 미래 예측 실패 사례로 많이 언급된다고 한다. (출처 : http://techneedle.com/archives/30628)

이와 비슷한 연구로는 트위터에서 부정적인 표현과 관상동맥 질환 발병률의 관계, 개인 SNS의 단어 작성과 약물중독의 상관관계를 알아보는 등의 연구가 많이 진행되었다.

데이터 마이닝은 정보기술의 자연스러운 진화의 결과로 볼 수 있다고 한다.아래 그림처럼 몇가지 중요한 기능 측면에서 발전해 왔다.

70년대 이후로 DB 시스템 연구배발은 계층적 네트워크 데이터 베이스에서 관계형으로,데이터모델링,인덱싱으로 발전해왔다.온라인 트랜잭션처리는 질의어가 읽기 전용 트랜잭션 view되는 상당한 양의 데이터 관리와 효율적인 저장,검색을 위한 주요툴로서 관계형 기술이 널리 채택되고 발전하는 데 상당한 기여를 했다.(..?)

80년대 후반 이후부터 발생한 고급 데이터 분석은 데이터 베이스 및 정보 산업에 붐을 일으켰고, 대용량의 데이터를 저장할 수 있는 장소가 생겨나도록 했다.

데이터 웨어 하우스는 새롭게 등장한 데이터 저장 아키텍쳐로 경영 의사 결정을 촉진하기 위하여 단일 사이트에서 통합 스키마에 의해 구성된 여러 이기종 데이터를 저장하는 장소이다.

웨어하우스를 사용하면 의사결정 응용프로그램이 필요한 데이터를 operational DB에서 직접 가져오는게 아니라 웨어하우스에서 가져온다.

1.2 데이터 마이닝의 의미

데이터 마이닝은 여러 학문이 연관된 분야이기 때문에 다양한 방변에서 정의될 수 있다. 예를들면 데이터에서 지식채굴, 지식 추출, 데이터/패턴 분석, 데이터 고고학, 데이터 꺼내기등..

지식의 발견은 아래와 같이 여러단계로 이루어져 순서대로 반복되며 진행된다. 발견된 지식은 다시 데이터로 사용이 가능하고 패턴을 찾을때 도움을 다시 줄수 있다.

1.3 데이터 마이닝이 가능한 종류

일반적으로 데이터 마이닝은 스트림 데이터,시퀀스 데이터,그래프,네트워크 데이터,공간 데이터등 어떠한 데이터에도 가능하다. 다만 이 책에서는 DB, 데이터웨어하우스, 트랜잭션의 데이터를 중점으로 다룬다.

1) 데이터 베이스의 데이터

DBMS로 호칭되는 데이터 베이스 시스템은 상호 관련 있는 데이터의 수집과 데이터를 관리 및 접근할 수 있는 소프트 웨어 프로그램의 집합으로 구성된다.

소프트웨어는 DB구조와 스토리지를 정의하고 동시에 공유,배포 데이터의 접근을 지정 및 관리한다. 또한 시스템 충돌이나 접근제한을 둘 수 있으며 저장된 정보의 일관성과 보안을 보장하는 기능까지도 제공한다.

관계형 데이터 베이스는 고유한 이름이 각각 할당된 테이블의 집합이다. 우리가 잘 알고 있듯이 컬럼으로 테이블이 구성되어있으며 KEY값으로 식별되어지며 속성 값의 집합에 의해 설명되는 객체를 나타낸다.

관계형 데이터베이스 아이콘 무료에 대한 이미지 검색결과

ER 데이터 모델은 관계형 데이터베이스를 위해 구현한다. 아래의 그림처럼 여러가지 도형으로 객체와 객체간의 관계를 묘사한다.

관련 이미지

ㄷ. 반지도 학습 : 라벨이 있는 것과 없는 것을 같이 사용

한 가지 접근 법으로는

- 라벨이 있는 예제 : 클래스 모형을 학습하기 위해 사용

- 라벨이 없는 예제 : 클래스간의 경계 영역을 정의하기 위해 사용

아래 그림에서 라벨이 없는 사례의 사용 여부에 따라 의사 결정 경계가 달라진다. A,B 두개의 클래스에 대해서 A클래스에 속하는 사례를 양의 사례 B클래스에 속하는 사례를 음의 사례라고 하자. 라벨링이 없는 사례를 고려하는 경우에는 실선으로 그렇지 않으면 점선으로 나뉜다. 라벨링 하였음에도 불구하고 오른쪽 코너에 있는 양의 사례는 노이즈나,이상치가 되기 쉽다는 점을 알 수 있다(이렇게 끝나는데 어쩌라는건지모르겠..)

ㄹ. 능동 학습 : 사용자가 학습 과정에서 능동적인 역할을 하도록 하는 방법

사용자에게 1개 사례에 대해 라벨링할 것을 요청하며 해당 사례는 라벨링이 안 된 예제에서 가져올 수 있거나 학습 프로그램 의해 합성된다. 사용자로부터 이렇게 지식을 능동적으로 습득함으로써 모델 품질을 최적화 하는것이 목적이다.

3) 데이터 베이스 시스템과 데이터웨어하우스

데이터 베이스 시스템 연구는 다음과 같은 특징을 지닌다.

- 조직과 최종 사용자를 위해 데이터 베이스의 생성, 유지, 사용기술에 중점

- 질의어 처리, 최적화, 데이터 저장소, 인덱싱, 접근 방법에 대한 원칙 수립

- 매우 크고 상대적으로 정형화가 잘 되어 있는 데이터 집합을 처리하는 데 있어 확정성이 높음

마이닝 작업은 대용량 데이터 집합에 해당하는 실시간의 빠른 스트리밍 데이터를 다를 수 있어야 하며, 고효율과 확장성을 확보 할 수 있도록 기술을 활용하여야 한다. 또한 마이닝 작업은 복잡한 DB에 대해서 요구사항 처리를 위해 시스템 능력을 확장하는데 사용 할 수 있다.

최근 데이터베이스 시스템은 데이터 웨어 하우징과 마이닝 솔루션을 사용하여 체계적인 분석 기능을 갖추어 왔다.

데이터 웨어 하우스는 다양한 장소와 시간대에서 발생한 데이터를 통합한다.

데이터 큐브

- 데이터를 부분적으로 재료화한 것으로 다차원 공간의 데이터를 통합

- 다차원 데이터 베이스 상에서 OLAP 기능을 제공

- 다차원 데이터 마이닝 작업 지원

4) 정보 검색

정보 검색과 데이터 베이스 시스템의 차이점

1) 검색 대상 데이터는 비구조화 되어있다고 가정

2) 질의어는 DB 시스템에서 질의어와는 달리 간단한 구조를 갖고 있는 키워드에 의해 주로 형성

정보 검색의 일반적인 방법은 확률적 모델을 채택한다.

텍스트 문서는 다양한 단어로 이루어진 집합으로 보고 문서의 언어 모델은 문서 내에 있는 단어를 생성하는 확률 밀도 함수이다.

두 문서간의 유사성은 모델간의 유사도로 측정 할 수 있고 문서의 주제는 단어의 확률 분포로 알아 볼 수 있다.

1.4 어떤 종류의 애플리케이션을 대상으로 하는가?

"데이터가 있는 곳에 데이터 마이닝 응용프로그램이 있다"라고 할정도로 너무 많고 그중에서 잘 알려진 비즈니스 인텔리전스, 검색엔진 두가지를 책에선 설명하고 있다.

1) 비즈니스 인텔리전스

비즈니스 인텔리전스 기술은 비즈니스 운영에 대한 과거, 현재, 미래의 모습을 제공한다. 데이터 마이닝은 인텔리전스 기술의 핵심이다.

분류 및 예측 기술은 예측 분석 분야의 핵심이다. 시장, 공급, 판매를 분석할때 적용할 수 있고 군집 분석은 유사성에 기반한 고객 관계 관리의 중심 역할을 한다.

데이터 마이닝은 효과적인 시장분석, 경쟁사 분석, 고객 응대등 스마트한 비즈니스를 위한 핵심 기술로 작용하고 있다.

2) 웹 검색 엔진

웹 검색 엔진은 웹상의 정보를 탐색하는 특화된 컴퓨터 서버이다. 검색 결과를 hits라고 부르는 리스트로 리턴되며 웹페이지, 이미지, 다른 종류의 파일로 구성되어 있다. 검색 엔진은 알고리즘에 의해 자동 운영되거나 알고리즘과 담당자의 관리를 통하여 운영된다.

웹 검색 엔진 종류에 대한 이미지 검색결과

웹 검색 엔진은 매우 큰 데이터 마이닝 응용 프로그램이다. 크롤링, 인덱싱, 검색등 다양한 측면에서 사용된다.

검색 엔진은 다음과 같은 이유로 데이터 마이닝에 있어 큰 도전 분야 이다.

ㄱ. 검색엔진은 계속해서 불어나는 데이터를 처리해야 한다.

한대의 컴퓨터로 해결할 수 없기때문에 수천만대의 컴퓨터로 이루어진 클라우드 컴퓨터를 이용하여 대용량 데이터를 마이닝한다.

관련 이미지 Azure에 대한 이미지 검색결과

ㄴ. 검색 엔진은 종종 실시간 데이터를 처리해야한다.

대규모 데이터를 이용하여 검색 엔진 모형을 구축하고 이를 위해 사전에 검색되었던 질의어를 이용하여 질의어 분류기를 구축해야 한다. 사용자의 질의에 빠르게 답변을 할 수 있도록 해야한다. 또한 계속해서 생겨나는 질의를 처리하기 위하여 질의 분류기를 지속적으로 업데이트하여 관리할 수 있어야한다.

SPARK에 대한 이미지 검색결과 관련 이미지

ㄷ. 검색엔진은 종종 매우 작은 횟수만으로 질의를 해야한다.

사용자가 질의를 실핼할 때, 사용자의 프로파일과 질의 의력을 사용하여 짧은 시간에 사용자에게 특화된 답을 제공할 수 있어야 한다.

1.7 데이터 마이닝의 주요 이슈

데이터 마이닝은 엄첨난 장점을 갖는 역동적이고 빠르게 확장하는 분야로써 이 분야에서 발생되는 주요 이슈 사항에 대해 책에서 간략하게 살펴 보고 있다.

1) 마이닝 방법

ㄱ. 다양한 종류의 지식을 마이닝하기

다양한 종류의 데이터 베이스를 다양한 방법으로 사용하여 수많은 데이터 마이닝 기술의 개발을 한다.

ㄴ. 다차원 공간 지식 마이닝

탐색형 다차원 데이터 마이닝이라고도 하며 다차원 공간에 대한 데이터를 탐색 할 수 있다.

ㄷ. 데이터 마이닝의 학제적 노력

여러 분야의 새로운 방법을 흡수하고 통합함으로써 마이닝의 파워가 강화될 수 있따.

ㄹ. 네트워크로 연결된 환경에서 발견의 파워를 강화

다양한 데이터 객체에 대한 시맨틱 연결은 데이터마이닝에서 긴요하게 사용될 수 있다.

ㅁ. 불확실성, 노이즈, 불완전한 데이터를 다루기

대부분의 데이터는 노이즈,불확실성을 포함하여 완벽하지 않는 경우가 있다. 데이터의 전처리,이상치 감지 및 제거는 마이닝 프로세스와 통합되어야하는 기술이다.

ㅂ. 패턴 또는 제약 조건에 의한 마이닝 및 패턴 평가

주관적인 측정기준에 근거하여 패턴의 관심 정도를 평가하기 위한 기술이 필요하며 사

용자 특화 제한 조건을 사용하여 보다 많은 흥미 있는 패턴을 만들고 검색 공간을 더 축소할 수 있다.

2) 사용자 상호작용

사용자는 데이터 마이닝에서 중요한 역할을 한다.

ㄱ. 인터랙티브 마이닝

데이터 마이닝 프로세스는 고도의 상호작용을 가지고 있어야 한다. 유연한 사용자 인터페이스와 탐색적 마이닝 환경을 구축해 시스템 사용자간의 상호작용을 가능케 하는것이 중요하다. 사용자의 요청에 따라 시스템은 요청을 처리 할 수 있어야 한다.

ㄴ. 배경 지식의 통합

배경 지식, 제한 조건, 규칙 등은 지식 발견 프로세스로 통합되어야한다.

ㄷ. 임시 데이터 마이닝과 데이터 마이닝 질의 언어

높은 수준의 데이터 마이닝 질의 언어, 인터페이스는 사용자의 요구사항에 맞게 자유롭게 임시 데이터 마이닝 작업을 정의할 수 있도록 최적화 되는 것은 주목받고 있는 연구분야이다.

ㄹ. 데이터 마이닝 결과를 제공하고 시각화함

발견된 지식을 사람이 쉽게 이해할 수 있도록 결과를 시각화해야 한다.

R에 대한 이미지 검색결과

3) 효율성과 확장성

ㄱ. 데이터 마이닝 알고리즘의 효율성과 확장성

많은 양의 데이터에서 정보를 효과적으로 추출하려면 데이터 마이닝 알고리즘은 효율성(실행시간은 예측 가능해야하며 짧고)과 확장성(여러 응용프로그램에서 사용 가능 해야)이 있어야 한다.

ㄴ. 병렬, 분산, 증분 마이닝 알고리즘

동일한 사이즈의 대용량 데이터, 광범위한 데이터 분포, 마이닝의 계산 복잡도로 인하여 병렬 및 분산 데이터 집약적 마이닝 알고리즘이 탄생했다.

데이터를 조각으로 분해하여 조각별로 패턴을 검색하고 병렬로 처리되며 병렬 프로세스는 서로 상호 작용하여 후에 조각의 패턴을 합친다.

클라우드, 클러스터 컴퓨팅은 분산 및 협업을 통하여 대규모 계산 작업을 처리한다.

4) 데이터 베이스 유형의 다양성

ㄱ. 복합 유형의 데이터를 다루기

다양한 응용 분야는 정형화된 데이터로부터 폭넓은 범위의 신규 데이터 유형을 생성한다. 단순한 데이터 객체부터 시간, 곤간 데이터등 다양한 데이터를 다룬다. 이들 모두를 한번에 처리할 수 있는 마이닝 시스템을 기대하는 것은 비현실적이기 때문에 다양한 응용을 위해 효과적이고 효율적인 마이닝 툴 구축은 활발하게 진행되는 연구 분야이다.

ㄴ. 동적, 네트워크화된, 글로벌 데이터 저장소를 마이닝하기

데이터의 원천은 다양한 종류와 의미 그리고 상호 연결된 데이터일 수도 있다. 이런 연결된 데이터들은 다양한 패턴과 지식을 갖을 수 있으며 정보 네트워크 마이닝은 지금까지 계속해서 도전되는 연구 분야이다.

1.7 데이터 마이닝 관련 모임

1) 데이터 마이닝의 사회적 파급성

" 어떻게 하면 마이닝 기술을 이용하여 사회에 기여를 할 수 있을까? "

" 어떻게 하면 개인 관련 정보의 오용에 대처할 수 있을까? "

2) 프라이버시를 지키는 데이터 마이닝

마이닝은 과학적 발전, 경영 관리, 경제회복, 안전과 보안을 돕지만 개인 정보를 노출 시킬 위험을 초래하기도 한다. 그러므로 프라이버시를 보호하는 수준에서의 데이터 공개가 필요하다.

3) 눈에 보이지 않는 데이터 마이닝

점점 더 많은 시스템이 데이터 마이닝 기술을 내장하고 사용자가 마이닝에 대한 지식이 없어도 마이닝을 실행하고 마우스 클릭등을 통해 알고리즘에 대한 지식 없이 결과를 이용할 수 있게 해야한다.

1.8 정리

데이터 마이닝은 엄첨나게 쌓이는 데이터를 효과적으로 확장가능하며 유연한 데이터 분석

방법이 필요함에 따라 등장했다.

데이터 마이닝은 데이터를 분석하여 데이터에 존재하는 일종의 패턴을 발견해내는 것이다.

이 과정에는 데이터 정제, 통합, 선택, 변환, 패턴 발견 및 평가, 지식 표현이 있다.

신뢰성 있는 테스트 데이터에 대해 패턴이 유효하다면 이는 관심 대상이 될 것이다. 관심도의 측정은 객관적이거나 주관적이며 발견 과정을 가이드 하기 위해 사용할 수 있다.

데이터 마이닝은 다차원 뷰를 제시하며 주요 차원은 데이터, 지식, 기술, 응용프로그램이다.

데이터 마이닝은 모든 종류의 데이터를 대상으로 실행 할 수 있다. 대신 분석 대상 분야에서 의미가 있어야 한다.

데이터 웨어 하우스는 다양한 소스에서 획득한 장기간 데이터 스토리지의 저장소이며 경영의사 결정을 지원할 수 있또록 평성하였다.

멀티미디어 데이터 마이닝은 OLAP 기반 다차원 분석으로 핵심 데이터 마이닝 기술을 통합하였다.

데이터 마이닝 기능은 다른 많은 영역으로부터의 기술을 통합하였다.( DW,통계학,ML등 )

데이터 마이닝은 많은 성공적인 적용사례가 있으며 아직 많은 과제가 남아있다.

하..정말 더럽게 안읽히는 책이였다. 나에게 수고의 박수를 짝짝짝***

위지원

데이터 엔지니어로 근무 중에 있으며 데이터와 관련된 일을 모두 좋아합니다!. 특히 ETL 부분에 관심이 가장 크며 데이터를 빛이나게 가공하는 일을 좋아한답니다 ✨

저작자표시

'2018년 > DataBase' 카테고리의 다른 글

3장 클라이언트 API : 기본기능 - Put 메서드 (0)	2018.08.10
험난한 HBASE 설치기 (0)	2018.07.17
“NoSQL부터 FaaS까지” 현대적인 데이터 아키텍처를 위한 7가지 핵심 기술"을 읽어보자 (0)	2018.02.27
join sum() 중복문제 (0)	2018.01.08
데이터 베이스 Advanced2 (0)	2018.01.05

잠깐만요~! 읽으신김에 이런 글들은 어떠세요? 👀

맨 위로

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터를 사랑하고 궁금해하는 기록쟁이입니다! 😉 Super Data Girl이 되는 그날까지🏃‍♀️ 화이팅!

데이터마이닝 개념과 기법 개요

'2018년 > DataBase' 카테고리의 다른 글

티스토리툴바

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역