DataFrame Iteration 속도 비교
·
Python
수백만 row가 넘는 데이터를 전처리하는데 전처리가 조금 복잡하여 iterrows를 돌렸더니 시간이 너무 오래 걸려 쓰게 된 글입니다. 다음과 같이 dataframe이 있을 때 각각의 iteration방법들을 비교해 보겠습니다. 1. for loop %%timeit for row in range(len(df)): tmp = df.iloc[row,0]+df.iloc[row,1]+df.iloc[row,2] 1min 21s ± 6.04 s per loop (mean ± std. dev. of 7 runs, 1 loop each) 2. iterrows %%timeit for _, row in df.iterrows(): tmp = (row['A']+row['B']+row['C']) 48.1 s ± 2.11 s p..