常用的python Pandas函数有哪些

发布时间：2021-11-17 11:53:50 作者：iii
来源：亿速云阅读：253

# 常用的Python Pandas函数有哪些

Pandas是Python数据分析的核心库，提供高效的数据结构和数据处理工具。本文将全面介绍Pandas中最常用的函数，涵盖数据读取、清洗、转换、分析和可视化等全流程操作。

## 一、数据读取与写入函数

### 1. 数据读取函数

#### pd.read_csv()
```python
import pandas as pd
df = pd.read_csv('data.csv', encoding='utf-8', sep=',', header=0)

参数说明： - filepath_or_buffer: 文件路径或URL - sep: 分隔符，默认为’,’ - header: 指定作为列名的行号 - index_col: 指定索引列 - dtype: 指定列数据类型 - na_values: 指定哪些值应被视为NA

pd.read_excel()

df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

特有参数： - sheet_name: 指定工作表名称或序号 - engine: 指定引擎(‘openpyxl’或’xlrd’)

pd.read_sql()

import sqlite3
conn = sqlite3.connect('database.db')
df = pd.read_sql('SELECT * FROM table', conn)

2. 数据写入函数

df.to_csv()

df.to_csv('output.csv', index=False, encoding='utf-8')

df.to_excel()

df.to_excel('output.xlsx', sheet_name='Data', index=False)

二、数据查看与检查函数

1. 基础查看函数

df.head() / df.tail()

df.head(10)  # 查看前10行
df.tail()    # 默认查看后5行

df.info()

显示DataFrame的简明摘要：

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       1000 non-null   int64  
 1   B       950 non-null    float64
 2   C       1000 non-null   object 
dtypes: float64(1), int64(1), object(1)
memory usage: 39.2+ KB

df.describe()

生成描述性统计：

               A          B
count  1000.0000  950.00000
mean     50.1234   25.56789
std      15.4321    5.12345
min       1.0000   10.00000
25%      38.0000   22.00000
50%      51.0000   25.00000
75%      63.0000   28.00000
max     100.0000   40.00000

2. 数据检查函数

df.isnull() / df.notnull()

df.isnull().sum()  # 每列缺失值计数

df.duplicated()

df[df.duplicated()]  # 显示重复行

df.nunique()

df['column'].nunique()  # 返回唯一值数量

三、数据清洗函数

1. 缺失值处理

df.dropna()

df.dropna(axis=0, how='any', subset=['col1', 'col2'])

参数： - axis: 0为行，1为列 - how: ‘any’（任何NA）或’all’（全部NA） - subset: 考虑的列子集

df.fillna()

df.fillna(value=0)  # 用0填充
df.fillna(method='ffill')  # 前向填充

2. 重复值处理

df.drop_duplicates()

df.drop_duplicates(subset=['col1', 'col2'], keep='first')

3. 数据类型转换

pd.to_numeric()

df['col'] = pd.to_numeric(df['col'], errors='coerce')

pd.to_datetime()

df['date'] = pd.to_datetime(df['date'], format='%Y-%m-%d')

四、数据筛选与排序

1. 数据筛选

布尔索引

df[df['age'] > 30]
df[(df['age'] > 30) & (df['gender'] == 'M')]

df.query()

df.query('age > 30 and gender == "M"')

df.loc[] / df.iloc[]

df.loc[df['age'] > 30, ['name', 'age']]  # 标签索引
df.iloc[10:20, 2:5]  # 位置索引

2. 数据排序

df.sort_values()

df.sort_values(by=['col1', 'col2'], ascending=[True, False])

df.sort_index()

df.sort_index(ascending=False)

五、数据分组与聚合

1. 分组操作

df.groupby()

grouped = df.groupby('category')
grouped.size()  # 每组大小

2. 聚合函数

agg()方法

df.groupby('category').agg({
    'sales': ['sum', 'mean', 'max'],
    'profit': 'median'
})

常用聚合函数

sum(): 求和
mean(): 平均值
median(): 中位数
std(): 标准差
count(): 非NA计数
nunique(): 唯一值计数

六、数据合并与连接

1. 合并函数

pd.concat()

pd.concat([df1, df2], axis=0, ignore_index=True)

pd.merge()

pd.merge(df1, df2, on='key', how='inner')

合并方式： - inner: 内连接 - outer: 外连接 - left: 左连接 - right: 右连接

2. 连接函数

df.join()

df1.join(df2, how='left')

七、时间序列处理

1. 时间转换

pd.to_datetime()

df['timestamp'] = pd.to_datetime(df['time_string'])

dt访问器

df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month_name()

2. 重采样

df.resample()

df.set_index('date').resample('M').mean()  # 按月重采样

八、字符串处理

1. str访问器

常用字符串方法

df['name'].str.upper()  # 转为大写
df['email'].str.contains('@')  # 包含检测
df['address'].str.split(',', expand=True)  # 分割

九、数据透视表

pd.pivot_table()

pd.pivot_table(df, 
               values='sales',
               index='region',
               columns='quarter',
               aggfunc='sum',
               margins=True)

十、可视化函数

1. 基本绘图

df.plot()

df.plot(kind='line', x='date', y='value')

常用图表类型

kind='line': 折线图
kind='bar': 柱状图
kind='hist': 直方图
kind='scatter': 散点图
kind='box': 箱线图

十一、高效计算函数

1. 向量化操作

df.apply()

df['new_col'] = df['col'].apply(lambda x: x*2)

df.applymap()

df.applymap(lambda x: len(str(x)))

2. 性能优化

pd.eval()

pd.eval('df1 + df2 * df3')

十二、高级功能

1. 分类数据

pd.Categorical()

df['grade'] = pd.Categorical(df['grade'], 
                            categories=['A','B','C','D'],
                            ordered=True)

2. 多级索引

pd.MultiIndex

df.set_index(['col1', 'col2'])

总结

本文详细介绍了Pandas中最常用的六大类函数：

数据I/O函数：读写各种格式的数据
数据检查函数：快速了解数据结构
数据清洗函数：处理缺失值和异常值
数据转换函数：重塑和变换数据
数据分析函数：分组聚合和统计分析
数据可视化函数：快速生成图表

掌握这些核心函数，能够高效完成80%以上的数据分析任务。建议读者结合实际项目练习这些函数的使用，并参考官方文档深入了解各函数的参数细节。

提示：Pandas函数通常有多个参数，使用help(pd.function_name)可以查看完整帮助文档。 “`

注：本文实际约3200字，要达到5150字需要进一步扩展每个函数的参数说明、使用场景、示例和注意事项等内容。受限于回答长度，这里提供了主要框架和核心内容，您可以根据需要扩展以下部分：

每个函数的参数详解
更多实际应用示例
性能优化技巧
常见错误及解决方案
与其他库的集成使用
实际案例分析
函数底层原理说明
版本更新变化对比

常用的python Pandas函数有哪些

pd.read_excel()

pd.read_sql()

2. 数据写入函数

df.to_csv()

df.to_excel()

二、数据查看与检查函数

1. 基础查看函数

df.head() / df.tail()

df.info()

df.describe()

2. 数据检查函数

df.isnull() / df.notnull()

df.duplicated()

df.nunique()

三、数据清洗函数

1. 缺失值处理

df.dropna()

df.fillna()

2. 重复值处理

df.drop_duplicates()

3. 数据类型转换

pd.to_numeric()

pd.to_datetime()

四、数据筛选与排序

1. 数据筛选

布尔索引

df.query()

df.loc[] / df.iloc[]

2. 数据排序

df.sort_values()

df.sort_index()

五、数据分组与聚合

1. 分组操作

df.groupby()

2. 聚合函数

agg()方法

常用聚合函数

六、数据合并与连接

1. 合并函数

pd.concat()

pd.merge()

2. 连接函数

df.join()

七、时间序列处理

1. 时间转换

pd.to_datetime()

dt访问器

2. 重采样

df.resample()

八、字符串处理

1. str访问器

常用字符串方法

九、数据透视表

pd.pivot_table()

十、可视化函数

1. 基本绘图

df.plot()

常用图表类型

十一、高效计算函数

1. 向量化操作

df.apply()

df.applymap()

2. 性能优化

pd.eval()

十二、高级功能

1. 分类数据

pd.Categorical()

2. 多级索引

pd.MultiIndex

总结

相关阅读