판다스
-
5. 판다스를 활용한 로그변환Data & ML & AI/Pandas & Scikit-Learn 2022. 5. 30. 21:24
지난 포스트에서는 IQR을 기준으로 이상치를 제거했지만, 250개 데이터 중 173개의 데이터만 살아남는 안타까운 모습을 보였습니다. 단 2개의 칼럼에 대해서만 이상치 제거를 진행했을 뿐인데 말이죠. scale의 문제가 발생한겁니다. 그래서 이번에는 무작정 제거하는 것이 아닌, 데이터의 분포를 변형시켜 scale의 문제를 해결해 이상치 문제를 해결해보도록 하겠습니다. 1. 히스토그램 확인하기 # matplotlib import matplotlib as mpl import matplotlib.pyplot as plt import matplotlib.font_manager as fm plt.rcParams['axes.unicode_minus'] = False # matplotlib 마이너스기호 표시 plt...
-
4. 판다스를 활용한 이상치 처리(boxplot, IQR)Data & ML & AI/Pandas & Scikit-Learn 2022. 5. 29. 14:56
데이터 분석과 모델학습에 있어 이상치(outlier)가 단 한개라 하더라도 큰 영향을 미칠 수 있기 때문에 처리해줄 필요가 있습니다. 일반적으로 이상치는 제거하는 방식으로 처리합니다. 이상치를 확인할 수 있는 가장 쉬운 방식 중 하나는 boxplot을 그려보는 것입니다. 1. box plot으로 이상치 확인하기 # matplotlib import matplotlib as mpl import matplotlib.pyplot as plt import matplotlib.font_manager as fm plt.rcParams['axes.unicode_minus'] = False # matplotlib 마이너스기호 표시 plt.rc('font', family='NanumGothic') # matplotlib ..
-
3. 판다스를 활용한 Null값 대체(특정값, 평균, 특정함수)Data & ML & AI/Pandas & Scikit-Learn 2022. 5. 24. 19:32
지난 포스트에서는 데이터에 존재하는 결측값(Null값)을 일방적으로 제거했습니다. 2. 판다스를 활용한 Null값 제거 (결측행, 결측열 제거) 지난번 다루었던 주식데이터, stock_market.csv의 몇 칼럼에서 결측값(null값, NaN)이 발견되었습니다. 오늘은 결측값(missing value)들을 몇가지 방법으로 처리해 보겠습니다. 결측값를 처리하는 방법은 brain-nim.tistory.com 이번에는 그 대신, 비어있는 자리에 다른 값을 넣어 활용 가능한 형태로 만들어 보겠습니다. stock_market.csv는 칼럼 개수가 많아 한눈에 보기 힘드므로, 지난 포스트에서처럼 몇개의 칼럼만 선택해 사용해보겠습니다. # pandas import pandas as pd # data df = pd...
-
2. 판다스를 활용한 Null값 제거 (결측행, 결측열 제거)Data & ML & AI/Pandas & Scikit-Learn 2022. 5. 23. 21:37
지난번 다루었던 주식데이터, stock_market.csv의 몇 칼럼에서 결측값(null값, NaN)이 발견되었습니다. 오늘은 결측값(missing value)들을 몇가지 방법으로 처리해 보겠습니다. 결측값를 처리하는 방법은 크게 두가지로 나눌 수 있습니다. 결측값 제거 결측값 대체 이 중, 먼저 결측값을 제거해보겠습니다. 하지만 그 전에, 먼저 데이터를 살펴본 뒤에 결측치 처리 방향을 정해보겠습니다. 1. 결측여부 확인 먼저 지난번 사용했던 방법으로 다시 전체 칼럼의 상태를 살펴보겠습니다. # pandas import pandas as pd # data df = pd.read_csv('stock_market.csv') df.info() RangeIndex: 250 entries, 0 to 249 Dat..
-
1. 판다스를 활용한 자료탐색 기초(+그래프그리기)Data & ML & AI/Pandas & Scikit-Learn 2022. 5. 15. 22:21
회사 자료를 직접 활용해서 글을 작성하는건 아쉽게도(?) 불가능하니 모두가 관심이 많은 주식 관련 데이터를 만져볼까 합니다. kiwoom API로 데이터를 수집할까 했다가 반년쯤 전에 네이버 주식페이지 크롤러를 만들어놨던게 생각나서 그걸 다시 돌려봤습니다. 짧게 종목코드(000000)~(005000)사이의 250개 종목만 들어있는 csv 파일입니다. # matplotlib import matplotlib as mpl import matplotlib.pyplot as plt import matplotlib.font_manager as fm plt.rcParams['axes.unicode_minus'] = False # matplotlib 마이너스기호 표시 plt.rc('font', family='Nanum..
-
0. 들어가는 말Data & ML & AI/Pandas & Scikit-Learn 2022. 5. 14. 14:40
회사에서 여러가지 바우처 사업을 많이 진행하게 되고 일손이 부족해지면서 거의 연구보고서와 AI나 기타 알고리즘 위주로 작업하던 저도 데이터 집중분석 업무에 참여하는 일이 많아졌습니다. 그런데 (특히 matplotlib나 기타 시각화 도구는) 너무 오랜만에 사용하는지라 분명 쉬운 작업임에도 불구하고 '이게 뭐더라'하면서 서치하고 시간을 낭비하는 일이 잦았습니다. 그래서 이번 기회에 차라리 처음부터 판다스, matplotlib, 기타 시각화 도구 등등을 기초부터 다시 공부하며 정리해볼까 합니다.