• 기계학습 학습데이터에 대해서

    2017. 10. 31. 16:07

    by. 위지원

    사실 학습에서 가장 중요한것은 데이터다.. 데이터 마이닝 과제할때도 느꼈지만 결국 좋은 데이터가 있어야 좋은 결과 값을 낼 수 있는 것



    1.학습이 어려운 데이터


    아래 두 사진을 보면 누가봐도 고양이(좌),개(우)이다.이러한 데이터에 대한 학습을 줄이는 것이다.



    바로 아래와 같은 데이터가 문제다 사실 사람이야 딱보고 아 개다,고양이다 구분이 되지만 머신은 모른다. 그저 비슷하니 개,고양이로 분류해버리는 것

    그래서 이런 데이터를 학습 데이터로 선정 해야 한다는 것이다.



    머핀과 치와와, 고양이와 아이스크림 사진을 놓고 인간은 한눈에 알아차리지만, 인공지능은 헷갈려 한다. 사진은 페이스북이 만든 인공지능이 구별에 실패한 머핀과 치와와, 고양이와 아이스크림이다.   페이스북 제공




    2.


    세미나에서 가지고 말씀해주셧던 상황으로 말해보자


    Fig. 8. All of the misclassified MNIST test digits using our method (63 out of 10,000). The text above each digit indicates the example number followed by the true label and the assigned label. 


    사진 출처 : https://www.researchgate.net/figure/2528210_fig4_Fig-8-All-of-the-misclassified-MNIST-test-digits-using-our-method-63-out-of-10000



    예를 들어 위와같이 분류할때 보면 (사실 우리가 보기에도 난해하지만;; ) 한 숫자에대해 다르게? 흘리게? 썼을때 다른 숫자로 인식하는 것을 알 수 있다.

    자 이런 상황에선 어떻게 해야할까?


    첫번째 말했던 것과 비슷하다. 확신도가 가장 자은 친구를 학습 데이터로 선정하는 것이다.


    예를들어 위의 사진에서 210번을 한번보자(좌측 최상단) 기계학습에서 저 글자를 보고 9라고 출력을 뱉었다. 여기다가 퍼센테이지를 추가해 생각해보자.


    210:9 에 대해서


    9라고 생각한 정도......20퍼센트

    7이라고 생각한 정도.....40퍼센트!


    그러니깐 난 이걸 7이라고 생각해!


    그리고

    그옆에 448:4 에 대해서


    9라고 생각한 정도......80퍼센트

    4라고 생각한 정도.....70퍼센트!


    뭐  이렇게 경우가 있다면


    첫번째로는 확신도가 낮은 210번을 학습 데이터로 선정하는 것이다.

    두번째는 확신도의 차이가 작은 448번을 학습 데이터로 선정하는 것이다. (10프로 차이로 9의 승리!)

    세번째는 엔트로피가 가장 높은 것을 선정하는것이다.

    *엔트로피란 무질서,불확실성에 대한 값이다. 그래서 "엔트로피가 높다"는 예측이 어려운 불확실하다.라는 뜻이다.




    그다음으론..자 다음 상황을 보자


    가운데 대각선을 기준으로 다른 데이터들은 잘 a,b로 나뉘었는데 저 가운데! 저 데이터는 어디로 분류를 해야할까?

    이런 데이터는 학습데이터에서 제외한다!


    또는 투표를 하거나, 클러스터링을 또 하면 된다.


    학습데이터는 레이블링이 확실한 데이터가 역시 좋다..