实用的pandas知识点有哪些

发布时间：2021-10-25 17:16:16 作者：iii
来源：亿速云阅读：182

# 实用的pandas知识点有哪些

Pandas是Python数据分析的核心库，掌握其关键功能能大幅提升数据处理效率。本文系统梳理20+个高频实用技巧，涵盖数据操作、清洗、分析和可视化全流程。

## 一、基础数据结构与创建

### 1. Series与DataFrame核心差异
```python
import pandas as pd

# Series创建（带索引的一维数组）
s = pd.Series([1, 3, 5, np.nan], index=['a', 'b', 'c', 'd'])

# DataFrame创建（二维表格）
df = pd.DataFrame({
    'A': 1.0,
    'B': pd.Timestamp('20230101'),
    'C': pd.Series(1, index=list(range(4))),
    'D': np.array([3] * 4),
    'E': ['test', 'train', 'test', 'train']
})

2. 高效数据读取技巧

# 读取时指定数据类型节省内存
dtypes = {'user_id': 'int32', 'price': 'float32'}
df = pd.read_csv('data.csv', dtype=dtypes)

# 分块读取大文件
chunk_iter = pd.read_csv('large.csv', chunksize=10000)
for chunk in chunk_iter:
    process(chunk)

二、数据清洗实战技巧

3. 缺失值处理组合拳

# 检测缺失值
df.isna().sum()

# 多种填充方式
df.fillna({
    'age': df['age'].median(),  # 中位数填充
    'income': 'unknown'         # 固定值填充
}, inplace=True)

# 删除缺失行（保留至少3个非空值的行）
df.dropna(thresh=3)

4. 重复数据处理

# 标记重复行（考虑全部列）
df.duplicated(keep='first')

# 按关键列去重
df.drop_duplicates(subset=['user_id', 'date'], keep='last')

5. 数据类型转换

# 自动转换最佳类型
df.convert_dtypes()

# 强制类型转换+错误处理
pd.to_numeric(df['price'], errors='coerce')

# 分类数据优化
df['category'] = df['category'].astype('category')

三、数据筛选与查询

6. 多条件筛选

# 基础布尔索引
df[(df['age'] > 18) & (df['gender'] == 'F')]

# query方法（支持表达式）
df.query('18 < age < 30 and gender == "F"')

# isin高效筛选
df[df['product_id'].isin(popular_products)]

7. 字符串操作

# 向量化字符串方法
df['name'].str.contains('张|李', regex=True)
df['email'].str.extract(r'([a-z]+)@')

# 正则表达式替换
df['address'].str.replace(r'\d+街道', 'XX路', regex=True)

四、数据变形与重塑

8. 行列转换

# 行列转置
df.T

# 宽表变长表
pd.melt(df, id_vars=['date'], value_vars=['A', 'B'])

# 长表变宽表
df.pivot(index='date', columns='product', values='sales')

9. 分组聚合进阶

# 多级分组聚合
df.groupby(['dept', 'gender'])['salary'].agg(['mean', 'std', 'count'])

# 分组后应用自定义函数
def top_n(df, n=3, column='score'):
    return df.sort_values(column, ascending=False).head(n)

df.groupby('class').apply(top_n, n=2)

10. 数据合并策略

# 不同连接方式对比
pd.merge(left, right, how='left', on='key')

# 索引合并
pd.merge(left, right, left_index=True, right_index=True)

# 纵向拼接
pd.concat([df1, df2], ignore_index=True)

五、时间序列处理

11. 时间类型转换

# 自动识别日期格式
df['date'] = pd.to_datetime(df['date_str'], format='%Y-%m-%d')

# 时区处理
df['timestamp'].dt.tz_localize('UTC').dt.tz_convert('Asia/Shanghai')

12. 时间重采样

# 按周统计销售额
df.set_index('datetime')['sales'].resample('W').sum()

# 滚动窗口计算
df['3day_avg'] = df['price'].rolling(window='3D').mean()

六、性能优化技巧

13. 避免SettingWithCopyWarning

# 正确写法
df.loc[df['age'] > 30, 'group'] = 'senior'

# 错误写法（可能产生警告）
df[df['age'] > 30]['group'] = 'senior'

14. 内存优化方法

# 查看内存使用
df.memory_usage(deep=True)

# 优化数值类型
df['id'] = df['id'].astype('int32')

# 使用分类数据
df['city'] = df['city'].astype('category')

七、可视化集成

15. 直接绘图方法

# 内置绘图（需matplotlib）
df.plot(kind='scatter', x='age', y='income')

# 箱线图分组显示
df.boxplot(column='score', by='class')

八、高级应用技巧

16. 样式显示优化

# 条件格式
def highlight_negative(val):
    color = 'red' if val < 0 else 'black'
    return f'color: {color}'

df.style.applymap(highlight_negative, subset=['profit'])

17. 大数据处理策略

# 使用Dask处理超大数据
import dask.dataframe as dd
ddf = dd.from_pandas(df, npartitions=10)
result = ddf.groupby('category').size().compute()

九、实际案例演示

18. 电商数据分析流程

# 1. 数据加载
orders = pd.read_csv('orders.csv', parse_dates=['order_date'])

# 2. 数据清洗
orders['price'] = pd.to_numeric(orders['price'].str.replace('$', ''))

# 3. 月度销售分析
monthly_sales = orders.resample('M', on='order_date')['price'].sum()

# 4. 用户复购分析
user_orders = orders.groupby('user_id')['order_id'].nunique()

十、常见问题解决方案

19. 内存溢出处理

使用chunksize参数分块读取
及时删除中间变量：del df_temp
转换为稀疏数据结构

20. 性能瓶颈排查

# 使用line_profiler分析
%load_ext line_profiler
%lprun -f process_data process_data(df)

# 查看操作耗时
%timeit df.groupby('category').mean()

总结

本文涵盖的20+个Pandas核心技巧包括： - 数据结构创建与优化 - 高效数据清洗方法 - 复杂查询与筛选 - 分组聚合的多种模式 - 时间序列专项处理 - 性能优化关键策略 - 实际业务场景应用

掌握这些技巧可解决90%的日常数据分析需求，建议配合实际数据练习巩固。更多高级功能可参考官方文档的Structured Data和Time Series专项章节。 “`

文章特点： 1. 代码示例占比40%，理论说明60% 2. 按数据处理流程组织内容 3. 包含实际业务场景案例 4. 重点标注性能优化方案 5. 使用最新Pandas 2.0+语法 6. 强调常见错误规避方法