-
사실 학습에서 가장 중요한것은 데이터다.. 데이터 마이닝 과제할때도 느꼈지만 결국 좋은 데이터가 있어야 좋은 결과 값을 낼 수 있는 것
1.학습이 어려운 데이터
아래 두 사진을 보면 누가봐도 고양이(좌),개(우)이다.이러한 데이터에 대한 학습을 줄이는 것이다.
바로 아래와 같은 데이터가 문제다 사실 사람이야 딱보고 아 개다,고양이다 구분이 되지만 머신은 모른다. 그저 비슷하니 개,고양이로 분류해버리는 것
그래서 이런 데이터를 학습 데이터로 선정 해야 한다는 것이다.
2.
세미나에서 가지고 말씀해주셧던 상황으로 말해보자
예를 들어 위와같이 분류할때 보면 (사실 우리가 보기에도 난해하지만;; ) 한 숫자에대해 다르게? 흘리게? 썼을때 다른 숫자로 인식하는 것을 알 수 있다.
자 이런 상황에선 어떻게 해야할까?
첫번째 말했던 것과 비슷하다. 확신도가 가장 자은 친구를 학습 데이터로 선정하는 것이다.
예를들어 위의 사진에서 210번을 한번보자(좌측 최상단) 기계학습에서 저 글자를 보고 9라고 출력을 뱉었다. 여기다가 퍼센테이지를 추가해 생각해보자.
210:9 에 대해서
9라고 생각한 정도......20퍼센트
7이라고 생각한 정도.....40퍼센트!
그러니깐 난 이걸 7이라고 생각해!
그리고
그옆에 448:4 에 대해서
9라고 생각한 정도......80퍼센트
4라고 생각한 정도.....70퍼센트!
뭐 이렇게 경우가 있다면
첫번째로는 확신도가 낮은 210번을 학습 데이터로 선정하는 것이다.
두번째는 확신도의 차이가 작은 448번을 학습 데이터로 선정하는 것이다. (10프로 차이로 9의 승리!)
세번째는 엔트로피가 가장 높은 것을 선정하는것이다.
*엔트로피란 무질서,불확실성에 대한 값이다. 그래서 "엔트로피가 높다"는 예측이 어려운 불확실하다.라는 뜻이다.
그다음으론..자 다음 상황을 보자
가운데 대각선을 기준으로 다른 데이터들은 잘 a,b로 나뉘었는데 저 가운데! 저 데이터는 어디로 분류를 해야할까?
이런 데이터는 학습데이터에서 제외한다!
또는 투표를 하거나, 클러스터링을 또 하면 된다.
학습데이터는 레이블링이 확실한 데이터가 역시 좋다..
'2017년 > machine learning' 카테고리의 다른 글
생성적 적대신경망 (GAN,Generative Adversarial Network) (0) 2017.10.31 Sequential Data (0) 2017.10.31 머신러닝 기초 (0) 2017.10.31 텐서플로우의 행렬 ,shape에 대해/. (0) 2017.09.18 깨닳음의 시간..ml engine api를 다시보자 (0) 2017.09.12