위지원의 데이터 일기 🐈
Home
  • 분류 전체보기 (563)
    • ✎ 2025년 (4)
    • 2024년 (16)
    • 2023년 (6)
    • 2022년 (35)
      • Developement (22)
      • Error (9)
    • 2021년 (68)
      • ERROR (9)
      • 알고리즘 (11)
      • 개발공부 (21)
      • Data (15)
      • 21.下 (12)
    • 2020년 (164)
      • 코테 (84)
      • Development (29)
      • 정처기 (41)
    • 2019년 (27)
    • 2018년 (89)
      • English Speaking (8)
      • Error (12)
      • C, Java, FileSystem (13)
      • DataBase (15)
      • Java (2)
      • 지식 (16)
      • Go (3)
      • spark (9)
      • 영어 (5)
      • 알고리즘 (6)
    • 2017년 (143)
      • Error (17)
      • machine learning (16)
      • Spark (20)
      • Database (19)
      • Python (17)
      • Spring (9)
      • etc. (10)
      • 백준 (5)
      • Google Platform (12)
      • web Development (7)
      • Docker (3)
      • Linux (8)
Home
  • 분류 전체보기 (563)
    • ✎ 2025년 (4)
    • 2024년 (16)
    • 2023년 (6)
    • 2022년 (35)
      • Developement (22)
      • Error (9)
    • 2021년 (68)
      • ERROR (9)
      • 알고리즘 (11)
      • 개발공부 (21)
      • Data (15)
      • 21.下 (12)
    • 2020년 (164)
      • 코테 (84)
      • Development (29)
      • 정처기 (41)
    • 2019년 (27)
    • 2018년 (89)
      • English Speaking (8)
      • Error (12)
      • C, Java, FileSystem (13)
      • DataBase (15)
      • Java (2)
      • 지식 (16)
      • Go (3)
      • spark (9)
      • 영어 (5)
      • 알고리즘 (6)
    • 2017년 (143)
      • Error (17)
      • machine learning (16)
      • Spark (20)
      • Database (19)
      • Python (17)
      • Spring (9)
      • etc. (10)
      • 백준 (5)
      • Google Platform (12)
      • web Development (7)
      • Docker (3)
      • Linux (8)
블로그 내 검색
포트폴리오

위지원의 데이터 일기 🐈

데이터를 사랑하고 궁금해하는 기록쟁이입니다! 😉 Super Data Girl이 되는 그날까지🏃‍♀️ 화이팅!

  • 🖥 깃블로그
  • 🌍 위키원
  • 📑 내맘대로 스크랩
  • 💌 메일
  • 2017년/machine learning

    분류 알고리즘 KNN , 로지스틱회귀에 대한 고찰

    2017. 8. 28. 17:11

    by. 위지원



    K-NN 알고리즘


    -분류되었거나, 분류되지 않은 객체가 있을때 아직 분류되지 않은 객체를 자동으로 분류하려는 객체와 유사한 속성을 가진 객체들을 참고하여 분류하는것


    -선형회귀의 결과값은 연속적인 값이기 때문에 범주형값(그렇다,아니다..등등)의 결과값을 받기 어려울때 사용한다.

    결과값의 경계를 두는것이다. 없음<100<보통<200<많음 이런식으로



    -K값은 이미 분류된 객체들에게 새로운 객체를 분류시킬것을 부탁한다치면 K개의 객체에게 분류를 부탁하는 것

    이 K값을 변경해가면서 평가척도(좋은 모델인지 평가함)가 가장 좋을 때의 K값을 찾는것이다.



    그러나 

    KNN 알고리즘은 실행시간이 길다. 반면에 선형모형에 대한 작업은 완성된 선형모형에 대해서 Y=X에 맞춘 결과만 내면 되기 때문에 빠르다





    로지스틱 회귀


    선형회귀분석과는 다르게 결과가 [범주형]일때 사용 확률이라는 개념이 추가되었다.


    Y=xw+b 이 식에서 y를 확률에 관한 식으로 만들고 이항하여 로지스틱 함수를 얻어낸다. 그럼 아래와같은 그래프가 나오고 (1이다 위에꺼..)

    x값의 증가/감소에 무관하게 f(x)는 0~1의 값을 가져서 확률로서 사용할 수 있다. (시그모이드 함수)


    로지스틱회귀에서 코스트 함수가 좀 다른데

    *코스트함수는 실제값과 예측값의 차이에대한 평균이다

    선형회귀분석에서의 코스트함수 그래프는 U자 모양의 매끄러운 모양이였으나 시그모이드 함수에서는 W이런형태의 매끄럽지 못한 cost함수 그래프가 나온다. 근데 이러면 경사하강법을 쓸 수 없다. 원래최소값에 오기전에 다른곳에서 수렴을 해버릴테니까 ... 아래사진처럼 


    **이때 u자형은 convex 함수형태 non-convex 함수형태라고 한다.

    구별기준은 local minimum이 다수로 존재한다/안한다의 차이 ( local minimum이 ww형태에서 

    그래서 저 www거리는 그래프를 옆에처럼 u로 만들어야할필요가 있다. 그러므로...새로운 cost함수가 필요하다!

    실제의 값이 0,1인경우에 대해 log를 취해 u자형태로 만드는것이다.

    이 cost가 낮을수록 학습이 정확하다.(차이값이니깐)


    옵티마이저는 똑같이 경사하강법을 쓰면된다. 학습속도를 조절해가면서 사용하고

    최종적으로 나온w,b값을 사용한다.


    수학적인게 많아서 개념만 알아보았다..




    https://brunch.co.kr/@crescent702/15

    https://medium.com/mathpresso/mathpresso-%EB%A8%B8%EC%8B%A0-%EB%9F%AC%EB%8B%9D-%EC%8A%A4%ED%84%B0%EB%94%94-4-%ED%9A%8C%EA%B7%80-%EB%B6%84%EC%84%9D-regression-2-4f938f1f1c2d

    http://bcho.tistory.com/1142


    저작자표시 (새창열림)

    '2017년 > machine learning' 카테고리의 다른 글

    텐서플로우 서빙에 대해  (0) 2017.09.05
    텐서플로우의 그래프,세션,자료형  (0) 2017.09.02
    머신런닝에관해 좋은글  (0) 2017.08.21
    텐서플로우 선형회귀에 대해 알아보자  (0) 2017.08.16
    tensorflow csv file 불러오기  (0) 2017.08.07

    잠깐만요~! 읽으신김에 이런 글들은 어떠세요? 👀

    • 텐서플로우 서빙에 대해 2017.09.05
    • 텐서플로우의 그래프,세션,자료형 2017.09.02
    • 머신런닝에관해 좋은글 2017.08.21
    • 텐서플로우 선형회귀에 대해 알아보자 2017.08.16
    맨 위로
전체 글 보기
Tistory 로그인
Tistory 로그아웃
로그아웃 글쓰기 관리

열정! 열정! 열정! 🔥

Designed by Nana
블로그 이미지
위지원
데이터 엔지니어로 근무 중에 있으며 데이터와 관련된 일을 모두 좋아합니다!. 특히 ETL 부분에 관심이 가장 크며 데이터를 빛이나게 가공하는 일을 좋아한답니다 ✨

티스토리툴바

티스토리툴바