周志洋

个人站

持续学习 才能不被淘汰


Python数据分析-大数据处理

Dask 基础

import dask.dataframe as dd

# 读取大文件
df = dd.read_csv('large_file.csv')

# 延迟计算
result = df.groupby('category').sum().compute()

分块处理

# 分块读取
chunk_size = 10000
for chunk in pd.read_csv('large_file.csv', chunksize=chunk_size):
   # 处理每个块
   processed_chunk = process_data(chunk)
   # 保存结果
   processed_chunk.to_csv('output.csv', mode='a', header=False)


转载请注明:周志洋的博客 » Python数据分析-大数据处理

打赏一个呗

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码支持
扫码打赏,你说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦