반응형
데이터 프레임 상에서 열(feature)들의 상관관계에 대한 시각화를 할 때 heatmap을 많이 써왔는데, 항상 같은 열들이 매칭되는 대각선이 낭비된다고 생각했었습니다.
그런데 파이썬 판다스 패키지에는 scatter-matrix라는 함수가 있습니다. 대각선 외의 행렬에는 상관관계의 산점도를, 대각선 행렬에는 수치형 특성의 히스토그램을 출력해줍니다. feature 간의 관계와 feature의 분포를 동시에 시각적으로 파악하는데 상당히 효율적인 함수라는 생각이 들었습니다.
corr()함수를 적용시킨 뒤 heatmap으로 시각화하는 과정
데이터는 캘리포니아 주택가격 데이터를 사용하였습니다. 상관관계 도출 후 시각화하는 두 번의 과정을 거칩니다.(물론 corr()함수를 heatmap()내에 넣을 수 있습니다.)
Pandas scatter-matrix
코드를 보시면 시각화 함수가 상관관계를 바로 나타내주고, 낭비된다고 생각되었던 대각선 행렬에는 해당 열의 히스토그램까지 출력해줍니다.
내 생각
효율적인 함수를 알아가며 재미를 느끼고, 더 많이 쓰게되니 더 익숙해질 수 있는 것 같다.
반응형
'python' 카테고리의 다른 글
[Python][Pandas] 함수 매핑 (0) | 2021.05.01 |
---|