python的xlrd模块怎么使用

发布时间：2022-01-24 16:24:45 作者：zzz
来源：亿速云阅读：219

# Python的xlrd模块怎么使用

## 一、xlrd模块简介

xlrd是Python中一个专门用于读取Excel文件（.xls和.xlsx格式）的第三方库，它提供了丰富的API来提取Excel文件中的数据、格式和元信息。这个库的名字来源于"Excel Reader"的缩写。

### 主要功能特点：
- 支持.xls和.xlsx格式（1.2.0版本后支持xlsx）
- 可以提取单元格数据（文本、数字、日期等）
- 能获取工作表信息（名称、数量、行列数等）
- 支持单元格格式信息读取
- 内存效率高，适合处理大文件
- 跨平台支持（Windows/Linux/Mac）

### 安装方法
在命令行中使用pip安装：
```bash
pip install xlrd

注意：xlrd 2.0.0及以上版本移除了对.xlsx文件的支持，如果需要处理.xlsx文件，建议使用1.2.0版本：

pip install xlrd==1.2.0

二、基本使用流程

1. 导入模块

import xlrd

2. 打开Excel文件

# 打开工作簿
workbook = xlrd.open_workbook('example.xlsx')

# 带异常处理的打开方式
try:
    workbook = xlrd.open_workbook('example.xlsx')
except FileNotFoundError:
    print("文件未找到")
except xlrd.XLRDError:
    print("文件格式错误或损坏")

3. 获取工作表信息

# 获取所有工作表名称
sheet_names = workbook.sheet_names()
print(f"工作表列表: {sheet_names}")

# 通过索引获取工作表（从0开始）
sheet = workbook.sheet_by_index(0)

# 通过名称获取工作表
sheet = workbook.sheet_by_name('Sheet1')

# 获取工作表数量
sheet_count = workbook.nsheets
print(f"工作表数量: {sheet_count}")

4. 读取单元格数据

# 获取工作表行数和列数
nrows = sheet.nrows
ncols = sheet.ncols
print(f"行数: {nrows}, 列数: {ncols}")

# 获取单元格值
cell_value = sheet.cell_value(rowx=0, colx=0)  # 第1行第1列
print(f"A1单元格值: {cell_value}")

# 获取整行数据
row_data = sheet.row_values(rowx=0)  # 获取第1行
print(f"第1行数据: {row_data}")

# 获取整列数据
col_data = sheet.col_values(colx=0)  # 获取第1列
print(f"第1列数据: {col_data}")

三、高级功能详解

1. 处理不同数据类型

Excel单元格可能包含多种数据类型，xlrd可以正确处理：

# 获取单元格类型
cell_type = sheet.cell_type(rowx=0, colx=0)

# xlrd数据类型常量：
# xlrd.XL_CELL_EMPTY    -> 0 (空)
# xlrd.XL_CELL_TEXT     -> 1 (文本)
# xlrd.XL_CELL_NUMBER   -> 2 (数字)
# xlrd.XL_CELL_DATE     -> 3 (日期)
# xlrd.XL_CELL_BOOLEAN  -> 4 (布尔)
# xlrd.XL_CELL_ERROR    -> 5 (错误)

if cell_type == xlrd.XL_CELL_TEXT:
    print("这是一个文本单元格")
elif cell_type == xlrd.XL_CELL_NUMBER:
    print("这是一个数字单元格")
elif cell_type == xlrd.XL_CELL_DATE:
    print("这是一个日期单元格")

2. 处理日期数据

Excel中的日期是以浮点数形式存储的，需要特殊处理：

# 判断是否为日期
if sheet.cell_type(rowx=0, colx=0) == xlrd.XL_CELL_DATE:
    excel_date = sheet.cell_value(rowx=0, colx=0)
    # 将Excel日期转换为Python datetime
    date_tuple = xlrd.xldate_as_tuple(excel_date, workbook.datemode)
    print(f"日期元组: {date_tuple}")
    
    # 转换为datetime对象
    from datetime import datetime
    py_date = datetime(*date_tuple)
    print(f"Python日期对象: {py_date}")

3. 读取合并单元格

# 获取所有合并单元格
merged_cells = sheet.merged_cells
print(f"合并单元格: {merged_cells}")

# 示例输出: [(row_start, row_end, col_start, col_end), ...]

# 判断单元格是否在合并区域内
def is_merged(row, col):
    for (rs, re, cs, ce) in sheet.merged_cells:
        if rs <= row < re and cs <= col < ce:
            return True
    return False

# 获取合并单元格的值（取左上角单元格的值）
if is_merged(0, 0):
    print("A1是合并单元格")

4. 读取单元格格式

# 获取单元格的XF（扩展格式）索引
xf_index = sheet.cell_xf_index(rowx=0, colx=0)
xf = workbook.xf_list[xf_index]

# 获取字体信息
font = workbook.font_list[xf.font_index]
print(f"字体名称: {font.name}")
print(f"字体大小: {font.height}")
print(f"是否加粗: {font.bold}")

# 获取背景颜色
bg_color = xf.background.pattern_colour_index
print(f"背景颜色索引: {bg_color}")

# 获取对齐方式
alignment = xf.alignment
print(f"水平对齐: {alignment.hor_align}")
print(f"垂直对齐: {alignment.vert_align}")

四、实际应用示例

示例1：读取整个工作表数据

def read_whole_sheet(file_path, sheet_index=0):
    workbook = xlrd.open_workbook(file_path)
    sheet = workbook.sheet_by_index(sheet_index)
    
    data = []
    for row_idx in range(sheet.nrows):
        row_data = []
        for col_idx in range(sheet.ncols):
            cell_value = sheet.cell_value(row_idx, col_idx)
            # 处理日期类型
            if sheet.cell_type(row_idx, col_idx) == xlrd.XL_CELL_DATE:
                cell_value = xlrd.xldate_as_tuple(cell_value, workbook.datemode)
            row_data.append(cell_value)
        data.append(row_data)
    
    return data

# 使用示例
excel_data = read_whole_sheet('data.xlsx')
for row in excel_data:
    print(row)

示例2：将Excel转换为字典列表

def excel_to_dict_list(file_path, sheet_index=0, header_row=0):
    workbook = xlrd.open_workbook(file_path)
    sheet = workbook.sheet_by_index(sheet_index)
    
    # 获取标题行
    headers = sheet.row_values(header_row)
    
    data = []
    for row_idx in range(header_row + 1, sheet.nrows):
        row_data = {}
        for col_idx, header in enumerate(headers):
            cell_value = sheet.cell_value(row_idx, col_idx)
            # 处理日期类型
            if sheet.cell_type(row_idx, col_idx) == xlrd.XL_CELL_DATE:
                cell_value = xlrd.xldate_as_tuple(cell_value, workbook.datemode)
            row_data[header] = cell_value
        data.append(row_data)
    
    return data

# 使用示例
dict_list = excel_to_dict_list('employees.xlsx')
for item in dict_list:
    print(item)

示例3：处理大型Excel文件（内存优化）

def process_large_excel(file_path, chunk_size=1000):
    workbook = xlrd.open_workbook(file_path, on_demand=True)
    try:
        sheet = workbook.sheet_by_index(0)
        
        # 分批处理行
        for start_row in range(0, sheet.nrows, chunk_size):
            end_row = min(start_row + chunk_size, sheet.nrows)
            chunk_data = []
            
            for row_idx in range(start_row, end_row):
                row_data = sheet.row_values(row_idx)
                chunk_data.append(row_data)
            
            # 处理当前批次数据
            process_chunk(chunk_data)
    finally:
        workbook.release_resources()

def process_chunk(data):
    # 这里添加你的数据处理逻辑
    print(f"处理了 {len(data)} 行数据")

# 使用示例
process_large_excel('large_data.xlsx')

五、常见问题与解决方案

1. 文件格式不支持

问题：xlrd 2.0.0+版本不支持.xlsx文件
解决方案： - 降级到1.2.0版本：pip install xlrd==1.2.0 - 或使用openpyxl处理.xlsx文件

2. 日期显示为浮点数

问题：读取的日期显示为浮点数（如44562.0）
解决方案：

if sheet.cell_type(row, col) == xlrd.XL_CELL_DATE:
    date_tuple = xlrd.xldate_as_tuple(sheet.cell_value(row, col), workbook.datemode)

3. 内存不足处理大文件

解决方案： - 使用on_demand=True参数打开文件 - 分批读取数据 - 及时释放资源

4. 编码问题

问题：读取的中文显示乱码
解决方案：

# 尝试不同的编码
workbook = xlrd.open_workbook('file.xls', encoding_override='utf-8')
# 或
workbook = xlrd.open_workbook('file.xls', encoding_override='gbk')

六、xlrd与其他Excel处理库的比较

特性	xlrd	openpyxl	pandas	xlwings
读取支持	.xls, .xlsx	.xlsx	.xls, .xlsx	.xls, .xlsx
写入支持	否	是	是	是
大文件处理	较好	一般	一般	较差
功能复杂度	简单	中等	高级	高级
依赖Excel	否	否	否	是
最佳场景	只读操作	读写.xlsx	数据分析	Excel交互

七、总结

xlrd是Python中处理Excel文件的强大工具，特别适合只需要读取Excel数据的场景。通过本文的介绍，你应该已经掌握了：

xlrd的基本安装和使用方法
如何读取单元格数据、处理不同类型的数据
高级功能如日期处理、合并单元格和格式读取
实际应用中的代码示例
常见问题的解决方案

虽然xlrd不支持写入操作，但结合xlwt或openpyxl等库，可以构建完整的Excel处理流程。对于数据分析任务，也可以将xlrd读取的数据直接转换为pandas DataFrame进行进一步处理。

”`