Data & ML & AI
-
3. 판다스를 활용한 Null값 대체(특정값, 평균, 특정함수)Data & ML & AI/Pandas & Scikit-Learn 2022. 5. 24. 19:32
지난 포스트에서는 데이터에 존재하는 결측값(Null값)을 일방적으로 제거했습니다. 2. 판다스를 활용한 Null값 제거 (결측행, 결측열 제거) 지난번 다루었던 주식데이터, stock_market.csv의 몇 칼럼에서 결측값(null값, NaN)이 발견되었습니다. 오늘은 결측값(missing value)들을 몇가지 방법으로 처리해 보겠습니다. 결측값를 처리하는 방법은 brain-nim.tistory.com 이번에는 그 대신, 비어있는 자리에 다른 값을 넣어 활용 가능한 형태로 만들어 보겠습니다. stock_market.csv는 칼럼 개수가 많아 한눈에 보기 힘드므로, 지난 포스트에서처럼 몇개의 칼럼만 선택해 사용해보겠습니다. # pandas import pandas as pd # data df = pd...
-
2. 판다스를 활용한 Null값 제거 (결측행, 결측열 제거)Data & ML & AI/Pandas & Scikit-Learn 2022. 5. 23. 21:37
지난번 다루었던 주식데이터, stock_market.csv의 몇 칼럼에서 결측값(null값, NaN)이 발견되었습니다. 오늘은 결측값(missing value)들을 몇가지 방법으로 처리해 보겠습니다. 결측값를 처리하는 방법은 크게 두가지로 나눌 수 있습니다. 결측값 제거 결측값 대체 이 중, 먼저 결측값을 제거해보겠습니다. 하지만 그 전에, 먼저 데이터를 살펴본 뒤에 결측치 처리 방향을 정해보겠습니다. 1. 결측여부 확인 먼저 지난번 사용했던 방법으로 다시 전체 칼럼의 상태를 살펴보겠습니다. # pandas import pandas as pd # data df = pd.read_csv('stock_market.csv') df.info() RangeIndex: 250 entries, 0 to 249 Dat..
-
1. 판다스를 활용한 자료탐색 기초(+그래프그리기)Data & ML & AI/Pandas & Scikit-Learn 2022. 5. 15. 22:21
회사 자료를 직접 활용해서 글을 작성하는건 아쉽게도(?) 불가능하니 모두가 관심이 많은 주식 관련 데이터를 만져볼까 합니다. kiwoom API로 데이터를 수집할까 했다가 반년쯤 전에 네이버 주식페이지 크롤러를 만들어놨던게 생각나서 그걸 다시 돌려봤습니다. 짧게 종목코드(000000)~(005000)사이의 250개 종목만 들어있는 csv 파일입니다. # matplotlib import matplotlib as mpl import matplotlib.pyplot as plt import matplotlib.font_manager as fm plt.rcParams['axes.unicode_minus'] = False # matplotlib 마이너스기호 표시 plt.rc('font', family='Nanum..
-
0. 들어가는 말Data & ML & AI/Pandas & Scikit-Learn 2022. 5. 14. 14:40
회사에서 여러가지 바우처 사업을 많이 진행하게 되고 일손이 부족해지면서 거의 연구보고서와 AI나 기타 알고리즘 위주로 작업하던 저도 데이터 집중분석 업무에 참여하는 일이 많아졌습니다. 그런데 (특히 matplotlib나 기타 시각화 도구는) 너무 오랜만에 사용하는지라 분명 쉬운 작업임에도 불구하고 '이게 뭐더라'하면서 서치하고 시간을 낭비하는 일이 잦았습니다. 그래서 이번 기회에 차라리 처음부터 판다스, matplotlib, 기타 시각화 도구 등등을 기초부터 다시 공부하며 정리해볼까 합니다.