히스토그램
-
5. 판다스를 활용한 로그변환Data & ML & AI/Pandas & Scikit-Learn 2022. 5. 30. 21:24
지난 포스트에서는 IQR을 기준으로 이상치를 제거했지만, 250개 데이터 중 173개의 데이터만 살아남는 안타까운 모습을 보였습니다. 단 2개의 칼럼에 대해서만 이상치 제거를 진행했을 뿐인데 말이죠. scale의 문제가 발생한겁니다. 그래서 이번에는 무작정 제거하는 것이 아닌, 데이터의 분포를 변형시켜 scale의 문제를 해결해 이상치 문제를 해결해보도록 하겠습니다. 1. 히스토그램 확인하기 # matplotlib import matplotlib as mpl import matplotlib.pyplot as plt import matplotlib.font_manager as fm plt.rcParams['axes.unicode_minus'] = False # matplotlib 마이너스기호 표시 plt...
-
4. 판다스를 활용한 이상치 처리(boxplot, IQR)Data & ML & AI/Pandas & Scikit-Learn 2022. 5. 29. 14:56
데이터 분석과 모델학습에 있어 이상치(outlier)가 단 한개라 하더라도 큰 영향을 미칠 수 있기 때문에 처리해줄 필요가 있습니다. 일반적으로 이상치는 제거하는 방식으로 처리합니다. 이상치를 확인할 수 있는 가장 쉬운 방식 중 하나는 boxplot을 그려보는 것입니다. 1. box plot으로 이상치 확인하기 # matplotlib import matplotlib as mpl import matplotlib.pyplot as plt import matplotlib.font_manager as fm plt.rcParams['axes.unicode_minus'] = False # matplotlib 마이너스기호 표시 plt.rc('font', family='NanumGothic') # matplotlib ..