본문 바로가기
AI_basic/ML

[ML] 사이킷런(Scikit-learn)으로 머신러닝 맛보기(붓꽃 품종 예측)

by hits_gold 2021. 7. 6.
반응형

사이킷런이란?

      - 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리로, 많은 데이터 분석가가

        의존하는 대표적인 파이썬 ML 라이브러리다.

 

사이킷런의 특징

      - 쉽고 파이썬스러운 API를 제공한다.

      - 머신러닝을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API를 제공한다.

      - 오랜 기간 실전 환경에서 검증됐으며, 매우 많은 환경에서 사용되는 성숙한 라이브러리이다. 

 

 

 

붗꽃 데이터 세트로 분류 예측하기

   프로세스

         1. 데이터 세트 분리 : 데이터를 학습 데이터와 테스트 데이터로 분리한다

         2. 모델 학습 : 학습 데이터를 기반으로 ML 알고리즘을 적용해 모델을 학습시킨다.

         3. 예측 수행 : 학습된 ML모뎅릉 이용해 테스트 데이터의 분류를 예측한다.

         4. 평가 : 이렇게 예측된 결괏값과 테스트 데이터의 실제 결괏값을 비교해 ML 모델 성능을 평가한다.

 

 

1. 필요 모듈 import

 

2. 데이터 불러오기 및 살펴보기

      

3. 학습데이터와 테스트 데이터 나누기

첫 번째 인자는 피처 데이터세트, 두 번째 인자는 레이블 데이터 세트입니다.

test_size = 0.2의 의미는 train_dataset과 test_dataset을 2:8의 비율로 나눈다는 뜻입니다.

  random_state = 11의 의미는 데이터를 학습용과 테스트용으로 나눌 때 나오는 여러가지 경우의 수 중

10이라는 번호로 한가지 경우의 수로 고정시킨 것입니다. random_state 값을 지정해 주지 않을 경우

분리를 수행할 때 마다 다른 데이터셋이 만들어집니다.

 

4. 학습 및 예측

위의 코드로 pred라는 X_test(X 검증데이터)의 예측값을 추출했습니다. 이제 pred와 y_test(X_test의 실제값)이

얼마나 일치하는지 확인하겠습니다.

 

5. 정확도 측정

학습한 의사결정트리의 알고리즘 예측 정확도가 약 97%로 측정됐습니다.

 

 

 

 

#본 글은 위키북스의 "파이썬 머신러닝 완벽 가이드"를 베이스로 저의 학습을 정리한 글로,

 제가 어떻게 이해했느냐에 따라 책의 내용과 달라질 수 있습니다.

반응형