본문 바로가기

데이터분석11

[ML] 분류모델의 성능 평가 지표 Part.1 오차행렬과 정확도,정밀도,재현율 머신러닝의 프로세스는 데이터 가공/변환 -> 모델 학습/예측 -> 평가(Evaluation)로 구성됩니다. 분류모델에서의 특정 성능 평가 지표를 특정 모델에 중요하다고 할 순 있으나, 한 지표만을 보고 평가했다가는 잘못된 결과에 빠질 수 있습니다. 따라서 여러가지 지표들의 특성을 이해해야합니다. 분류는 결정 클래스 값 종류의 유형에 따라 이진분류와 여러 개의 결정 클래스 값을 가지는 멀티 분류 나뉠 수 있습니다. 본 글에서 볼 성능 지표는 모두 적용되는 지표이지만, 이진 분류에서 더욱 중요하게 강조되는 지표입니다. 지표에 대해 하나하나 정리한 후, 지표를 불러오는 코드를 마지막 순서로 작성하겠습니다! 1. 오차행렬(confusion matrix) 오차행렬이란? - 학습된 분류 모델이 예측을 수행하면서 얼.. 2021. 7. 6.
[ML] 사이킷런(Scikit-learn)으로 머신러닝 맛보기(붓꽃 품종 예측) 사이킷런이란? - 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리로, 많은 데이터 분석가가 의존하는 대표적인 파이썬 ML 라이브러리다. 사이킷런의 특징 - 쉽고 파이썬스러운 API를 제공한다. - 머신러닝을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API를 제공한다. - 오랜 기간 실전 환경에서 검증됐으며, 매우 많은 환경에서 사용되는 성숙한 라이브러리이다. 붗꽃 데이터 세트로 분류 예측하기 프로세스 1. 데이터 세트 분리 : 데이터를 학습 데이터와 테스트 데이터로 분리한다 2. 모델 학습 : 학습 데이터를 기반으로 ML 알고리즘을 적용해 모델을 학습시킨다. 3. 예측 수행 : 학습된 ML모뎅릉 이용해 테스트 데이터의 분류를 예측한다. 4. 평가 : 이렇게 예측된 결괏값과.. 2021. 7. 6.