본문 바로가기
python

[Python] scatter-matrix - 산점도와 히스토그램을 한 번에

by hits_gold 2021. 8. 5.
반응형

  데이터 프레임 상에서 열(feature)들의 상관관계에 대한 시각화를 할 때 heatmap을 많이 써왔는데, 항상 같은 열들이 매칭되는 대각선이 낭비된다고 생각했었습니다. 

  

  그런데 파이썬 판다스 패키지에는 scatter-matrix라는 함수가 있습니다. 대각선 외의 행렬에는 상관관계의 산점도를, 대각선 행렬에는 수치형 특성의 히스토그램을 출력해줍니다. feature 간의 관계와 feature의 분포를 동시에 시각적으로 파악하는데 상당히 효율적인 함수라는 생각이 들었습니다.

 

corr()함수를 적용시킨 뒤 heatmap으로 시각화하는 과정

데이터는 캘리포니아 주택가격 데이터를 사용하였습니다. 상관관계 도출 후 시각화하는 두 번의 과정을 거칩니다.(물론 corr()함수를 heatmap()내에 넣을 수 있습니다.)

 

Pandas scatter-matrix

코드를 보시면 시각화 함수가 상관관계를 바로 나타내주고, 낭비된다고 생각되었던 대각선 행렬에는 해당 열의 히스토그램까지 출력해줍니다.

 

내 생각

  효율적인 함수를 알아가며 재미를 느끼고, 더 많이 쓰게되니 더 익숙해질 수 있는 것 같다.

반응형

'python' 카테고리의 다른 글

[Python][Pandas] 함수 매핑  (0) 2021.05.01