위지원의 데이터 일기 🐈
Home
  • 분류 전체보기 (563)
    • ✎ 2025년 (4)
    • 2024년 (16)
    • 2023년 (6)
    • 2022년 (35)
      • Developement (22)
      • Error (9)
    • 2021년 (68)
      • ERROR (9)
      • 알고리즘 (11)
      • 개발공부 (21)
      • Data (15)
      • 21.下 (12)
    • 2020년 (164)
      • 코테 (84)
      • Development (29)
      • 정처기 (41)
    • 2019년 (27)
    • 2018년 (89)
      • English Speaking (8)
      • Error (12)
      • C, Java, FileSystem (13)
      • DataBase (15)
      • Java (2)
      • 지식 (16)
      • Go (3)
      • spark (9)
      • 영어 (5)
      • 알고리즘 (6)
    • 2017년 (143)
      • Error (17)
      • machine learning (16)
      • Spark (20)
      • Database (19)
      • Python (17)
      • Spring (9)
      • etc. (10)
      • 백준 (5)
      • Google Platform (12)
      • web Development (7)
      • Docker (3)
      • Linux (8)
Home
  • 분류 전체보기 (563)
    • ✎ 2025년 (4)
    • 2024년 (16)
    • 2023년 (6)
    • 2022년 (35)
      • Developement (22)
      • Error (9)
    • 2021년 (68)
      • ERROR (9)
      • 알고리즘 (11)
      • 개발공부 (21)
      • Data (15)
      • 21.下 (12)
    • 2020년 (164)
      • 코테 (84)
      • Development (29)
      • 정처기 (41)
    • 2019년 (27)
    • 2018년 (89)
      • English Speaking (8)
      • Error (12)
      • C, Java, FileSystem (13)
      • DataBase (15)
      • Java (2)
      • 지식 (16)
      • Go (3)
      • spark (9)
      • 영어 (5)
      • 알고리즘 (6)
    • 2017년 (143)
      • Error (17)
      • machine learning (16)
      • Spark (20)
      • Database (19)
      • Python (17)
      • Spring (9)
      • etc. (10)
      • 백준 (5)
      • Google Platform (12)
      • web Development (7)
      • Docker (3)
      • Linux (8)
블로그 내 검색
포트폴리오

위지원의 데이터 일기 🐈

데이터를 사랑하고 궁금해하는 기록쟁이입니다! 😉 Super Data Girl이 되는 그날까지🏃‍♀️ 화이팅!

  • 🖥 깃블로그
  • 🌍 위키원
  • 📑 내맘대로 스크랩
  • 💌 메일
  • 2020년/Development

    캐글을 써보자

    2020. 12. 8. 00:18

    by. 위지원

    아래 영상을 따라했다.

    programmers.co.kr/learn/courses/21/lessons/937#note

     

    실습으로 배우는 데이터 사이언스 - 설문조사 응답 분석 1

    설문조사 응답 분석 1 참고 URL : Data Science FAQ | Kaggle Novice to Grandmaster | Kaggle 캐글을 시작한 지 두 달 정도 된 초보자로, 이 설문조사의 결과를 바탕으로 데이터 사이언스와 머신러닝과 관련된 인

    programmers.co.kr

     

    우선 시작에 앞서 캐글에 가입하고 API키를 다운받아준다. My Account가면 있다.

     

    캐글 API를 설치해줘야한다. 나같은 경우는 경로를 쉽게 알아보기 위해 그냥 경고 메세지를 일부로 띄었다. 해당 경로에 다운로드 받은 json파일을 옮겨준다.

     

    ubuntu@2897f29dd20d:~$ kaggle

    Traceback (most recent call last):

      File "/home/ubuntu/anaconda3/bin/kaggle", line 6, in <module>

        from kaggle.cli import main

      File "/home/ubuntu/anaconda3/lib/python3.7/site-packages/kaggle/__init__.py", line 23, in <module>

        api.authenticate()

      File "/home/ubuntu/anaconda3/lib/python3.7/site-packages/kaggle/api/kaggle_api_extended.py", line 166, in authenticate

        self.config_file, self.config_dir))

    OSError: Could not find kaggle.json. Make sure it's located in /home/ubuntu/.kaggle. Or use the environment method.

     

    나는 도커를 사용중이라 cp를 이용해 로컬에서 도커로 전송했다.

     

    jiwonwee@Jiwonui-MacBookPro Downloads % docker ps

    CONTAINER ID        IMAGE               COMMAND             CREATED             STATUS              PORTS                    NAMES

    2897f29dd20d        ubuntu:18.04        "/bin/bash"         6 days ago          Up 22 minutes       0.0.0.0:8888->8888/tcp   vigorous_brahmagupta

    jiwonwee@Jiwonui-MacBookPro Downloads % docker cp kaggle.json 2897f29dd20d:/home/ubuntu/.kaggle

     

    사용한 데이터는 아래에서 받을 수 있다.

    www.kaggle.com/kaggle/kaggle-survey-2017

     

    2017 Kaggle ML & DS Survey

    A big picture view of the state of data science and machine learning.

    www.kaggle.com

     

    아래 사이트에 접속하면 다음과 같이 Copy API Command가 있다. 카피해서 데이터 파일을 저장할 곳을 선택하여 붙여주면 된다.

    나는 주피터의 터미널을 이용했다.

    주피터에서 사용하는 터미널

     

    ubuntu@2897f29dd20d:~/project$ mkdir data

    ubuntu@2897f29dd20d:~/project$ cd data


    위의 강의에서 얻어낸 몇가지 유용한 시각화 방법을 기록하려 한다.

     

    1. nan 비율 시각화

    2. 추세선과 함께있는 bargraph와 countplot

    3. subplot으로 그래프 두개 나타내기 및 이쁜색 !😍

    아래에는 많은게 담겨있다. dropna()도 유용해 보인다. 또한 dp[이름].loc[dp[이름]==뭐뭐뭐] 로 찾는게 더 깔끔하고 보기 좋은 것 같다. 

     

    4. 요거는 시각화는 아니지만 , Normalize를 이용하면 비율을 산정할 수 있다. 

     

    저작자표시 (새창열림)

    '2020년 > Development' 카테고리의 다른 글

    그래프 데이터에 대한 고찰  (0) 2020.12.18
    딥러닝 공부 #3  (0) 2020.12.13
    딥러닝 공부 #2  (0) 2020.12.07
    사이킷런을 사용해보자  (0) 2020.12.02
    Tensorflow 2.0 , Keras를 이용하여 선형회귀 코드 작성하기  (3) 2020.12.02

    잠깐만요~! 읽으신김에 이런 글들은 어떠세요? 👀

    • 그래프 데이터에 대한 고찰 2020.12.18
    • 딥러닝 공부 #3 2020.12.13
    • 딥러닝 공부 #2 2020.12.07
    • 사이킷런을 사용해보자 2020.12.02
    맨 위로
전체 글 보기
Tistory 로그인
Tistory 로그아웃
로그아웃 글쓰기 관리

열정! 열정! 열정! 🔥

Designed by Nana
블로그 이미지
위지원
데이터 엔지니어로 근무 중에 있으며 데이터와 관련된 일을 모두 좋아합니다!. 특히 ETL 부분에 관심이 가장 크며 데이터를 빛이나게 가공하는 일을 좋아한답니다 ✨

티스토리툴바

티스토리툴바