常用的python Pandas函数有哪些

发布时间:2021-11-17 11:53:50 作者:iii
来源:亿速云 阅读:237
# 常用的Python Pandas函数有哪些

Pandas是Python数据分析的核心库,提供高效的数据结构和数据处理工具。本文将全面介绍Pandas中最常用的函数,涵盖数据读取、清洗、转换、分析和可视化等全流程操作。

## 一、数据读取与写入函数

### 1. 数据读取函数

#### pd.read_csv()
```python
import pandas as pd
df = pd.read_csv('data.csv', encoding='utf-8', sep=',', header=0)

参数说明: - filepath_or_buffer: 文件路径或URL - sep: 分隔符,默认为’,’ - header: 指定作为列名的行号 - index_col: 指定索引列 - dtype: 指定列数据类型 - na_values: 指定哪些值应被视为NA

pd.read_excel()

df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

特有参数: - sheet_name: 指定工作表名称或序号 - engine: 指定引擎(‘openpyxl’或’xlrd’)

pd.read_sql()

import sqlite3
conn = sqlite3.connect('database.db')
df = pd.read_sql('SELECT * FROM table', conn)

2. 数据写入函数

df.to_csv()

df.to_csv('output.csv', index=False, encoding='utf-8')

df.to_excel()

df.to_excel('output.xlsx', sheet_name='Data', index=False)

二、数据查看与检查函数

1. 基础查看函数

df.head() / df.tail()

df.head(10)  # 查看前10行
df.tail()    # 默认查看后5行

df.info()

显示DataFrame的简明摘要:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       1000 non-null   int64  
 1   B       950 non-null    float64
 2   C       1000 non-null   object 
dtypes: float64(1), int64(1), object(1)
memory usage: 39.2+ KB

df.describe()

生成描述性统计:

               A          B
count  1000.0000  950.00000
mean     50.1234   25.56789
std      15.4321    5.12345
min       1.0000   10.00000
25%      38.0000   22.00000
50%      51.0000   25.00000
75%      63.0000   28.00000
max     100.0000   40.00000

2. 数据检查函数

df.isnull() / df.notnull()

df.isnull().sum()  # 每列缺失值计数

df.duplicated()

df[df.duplicated()]  # 显示重复行

df.nunique()

df['column'].nunique()  # 返回唯一值数量

三、数据清洗函数

1. 缺失值处理

df.dropna()

df.dropna(axis=0, how='any', subset=['col1', 'col2'])

参数: - axis: 0为行,1为列 - how: ‘any’(任何NA)或’all’(全部NA) - subset: 考虑的列子集

df.fillna()

df.fillna(value=0)  # 用0填充
df.fillna(method='ffill')  # 前向填充

2. 重复值处理

df.drop_duplicates()

df.drop_duplicates(subset=['col1', 'col2'], keep='first')

3. 数据类型转换

pd.to_numeric()

df['col'] = pd.to_numeric(df['col'], errors='coerce')

pd.to_datetime()

df['date'] = pd.to_datetime(df['date'], format='%Y-%m-%d')

四、数据筛选与排序

1. 数据筛选

布尔索引

df[df['age'] > 30]
df[(df['age'] > 30) & (df['gender'] == 'M')]

df.query()

df.query('age > 30 and gender == "M"')

df.loc[] / df.iloc[]

df.loc[df['age'] > 30, ['name', 'age']]  # 标签索引
df.iloc[10:20, 2:5]  # 位置索引

2. 数据排序

df.sort_values()

df.sort_values(by=['col1', 'col2'], ascending=[True, False])

df.sort_index()

df.sort_index(ascending=False)

五、数据分组与聚合

1. 分组操作

df.groupby()

grouped = df.groupby('category')
grouped.size()  # 每组大小

2. 聚合函数

agg()方法

df.groupby('category').agg({
    'sales': ['sum', 'mean', 'max'],
    'profit': 'median'
})

常用聚合函数

六、数据合并与连接

1. 合并函数

pd.concat()

pd.concat([df1, df2], axis=0, ignore_index=True)

pd.merge()

pd.merge(df1, df2, on='key', how='inner')

合并方式: - inner: 内连接 - outer: 外连接 - left: 左连接 - right: 右连接

2. 连接函数

df.join()

df1.join(df2, how='left')

七、时间序列处理

1. 时间转换

pd.to_datetime()

df['timestamp'] = pd.to_datetime(df['time_string'])

dt访问器

df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month_name()

2. 重采样

df.resample()

df.set_index('date').resample('M').mean()  # 按月重采样

八、字符串处理

1. str访问器

常用字符串方法

df['name'].str.upper()  # 转为大写
df['email'].str.contains('@')  # 包含检测
df['address'].str.split(',', expand=True)  # 分割

九、数据透视表

pd.pivot_table()

pd.pivot_table(df, 
               values='sales',
               index='region',
               columns='quarter',
               aggfunc='sum',
               margins=True)

十、可视化函数

1. 基本绘图

df.plot()

df.plot(kind='line', x='date', y='value')

常用图表类型

十一、高效计算函数

1. 向量化操作

df.apply()

df['new_col'] = df['col'].apply(lambda x: x*2)

df.applymap()

df.applymap(lambda x: len(str(x)))

2. 性能优化

pd.eval()

pd.eval('df1 + df2 * df3')

十二、高级功能

1. 分类数据

pd.Categorical()

df['grade'] = pd.Categorical(df['grade'], 
                            categories=['A','B','C','D'],
                            ordered=True)

2. 多级索引

pd.MultiIndex

df.set_index(['col1', 'col2'])

总结

本文详细介绍了Pandas中最常用的六大类函数:

  1. 数据I/O函数:读写各种格式的数据
  2. 数据检查函数:快速了解数据结构
  3. 数据清洗函数:处理缺失值和异常值
  4. 数据转换函数:重塑和变换数据
  5. 数据分析函数:分组聚合和统计分析
  6. 数据可视化函数:快速生成图表

掌握这些核心函数,能够高效完成80%以上的数据分析任务。建议读者结合实际项目练习这些函数的使用,并参考官方文档深入了解各函数的参数细节。

提示:Pandas函数通常有多个参数,使用help(pd.function_name)可以查看完整帮助文档。 “`

注:本文实际约3200字,要达到5150字需要进一步扩展每个函数的参数说明、使用场景、示例和注意事项等内容。受限于回答长度,这里提供了主要框架和核心内容,您可以根据需要扩展以下部分:

  1. 每个函数的参数详解
  2. 更多实际应用示例
  3. 性能优化技巧
  4. 常见错误及解决方案
  5. 与其他库的集成使用
  6. 实际案例分析
  7. 函数底层原理说明
  8. 版本更新变化对比
推荐阅读:
  1. 分享一下Python数据分析常用的8款工具
  2. Python pandas常用函数详解

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

python pandas

上一篇:m3u8文件格式的示例分析

下一篇:jquery如何获取tr里面有几个td

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》