PANDAS
-
[Pandas] pd.merge 속도 빠르게 바꾸기Data & ML & AI/Pandas & Scikit-Learn 2023. 3. 2. 12:16
새로 서비스를 개발하는데 request에 대한 반응이 너무 느린 문제가 발생하였습니다. 모델 돌아가는게 느린가? 모델을 더 경량화 해야하나? 했는데 pd.merge 가 압도적으로 가장 많은 시간을 잡아먹고 있음을 확인할 수 있었습니다. pd.merge에 소요되는 시간을 줄여봅시다. 아래의 글을 참조했습니다. FAST PANDAS LEFT JOIN (357x faster than pd.merge) Explore and run machine learning code with Kaggle Notebooks | Using data from Riiid Answer Correctness Prediction www.kaggle.com 1) 매우 기본적인 형태의 pd.merge() df_test.merge(df_use..
-
3. 판다스를 활용한 Null값 대체(특정값, 평균, 특정함수)Data & ML & AI/Pandas & Scikit-Learn 2022. 5. 24. 19:32
지난 포스트에서는 데이터에 존재하는 결측값(Null값)을 일방적으로 제거했습니다. 2. 판다스를 활용한 Null값 제거 (결측행, 결측열 제거) 지난번 다루었던 주식데이터, stock_market.csv의 몇 칼럼에서 결측값(null값, NaN)이 발견되었습니다. 오늘은 결측값(missing value)들을 몇가지 방법으로 처리해 보겠습니다. 결측값를 처리하는 방법은 brain-nim.tistory.com 이번에는 그 대신, 비어있는 자리에 다른 값을 넣어 활용 가능한 형태로 만들어 보겠습니다. stock_market.csv는 칼럼 개수가 많아 한눈에 보기 힘드므로, 지난 포스트에서처럼 몇개의 칼럼만 선택해 사용해보겠습니다. # pandas import pandas as pd # data df = pd...
-
2. 판다스를 활용한 Null값 제거 (결측행, 결측열 제거)Data & ML & AI/Pandas & Scikit-Learn 2022. 5. 23. 21:37
지난번 다루었던 주식데이터, stock_market.csv의 몇 칼럼에서 결측값(null값, NaN)이 발견되었습니다. 오늘은 결측값(missing value)들을 몇가지 방법으로 처리해 보겠습니다. 결측값를 처리하는 방법은 크게 두가지로 나눌 수 있습니다. 결측값 제거 결측값 대체 이 중, 먼저 결측값을 제거해보겠습니다. 하지만 그 전에, 먼저 데이터를 살펴본 뒤에 결측치 처리 방향을 정해보겠습니다. 1. 결측여부 확인 먼저 지난번 사용했던 방법으로 다시 전체 칼럼의 상태를 살펴보겠습니다. # pandas import pandas as pd # data df = pd.read_csv('stock_market.csv') df.info() RangeIndex: 250 entries, 0 to 249 Dat..
-
0. 들어가는 말Data & ML & AI/Pandas & Scikit-Learn 2022. 5. 14. 14:40
회사에서 여러가지 바우처 사업을 많이 진행하게 되고 일손이 부족해지면서 거의 연구보고서와 AI나 기타 알고리즘 위주로 작업하던 저도 데이터 집중분석 업무에 참여하는 일이 많아졌습니다. 그런데 (특히 matplotlib나 기타 시각화 도구는) 너무 오랜만에 사용하는지라 분명 쉬운 작업임에도 불구하고 '이게 뭐더라'하면서 서치하고 시간을 낭비하는 일이 잦았습니다. 그래서 이번 기회에 차라리 처음부터 판다스, matplotlib, 기타 시각화 도구 등등을 기초부터 다시 공부하며 정리해볼까 합니다.