python实现从PDF中提取数据

发布时间：2020-11-02 15:39:26 作者：Leah
来源：亿速云阅读：230

python实现从PDF中提取数据？很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。

使用Python从PDF文件中提取一个表格

a)将表复制到Excel并保存为table_1_raw.csv

python实现从PDF中提取数据

数据以一维格式存储，必须进行重塑、清理和转换。

b)导入必要的库

import pandas as pd
import numpy as np

c)导入原始数据，重新定义数据

df=pd.read_csv("table_1_raw.csv", header=None)
df.values.shape
df2=pd.DataFrame(df.values.reshape(25,10))
column_names=df2[0:1].values[0]
df3=df2[1:]
df3.columns = df2[0:1].values[0]
df3.head()

python实现从PDF中提取数据

d)使用字符串处理工具进行数据纠缠

我们从上面的表格中注意到，x5、x6和x7列是用百分比表示的，所以我们需要去掉percent(%)符号:

df4['x5']=list(map(lambda x: x[:-1], df4['x5'].values))
df4['x6']=list(map(lambda x: x[:-1], df4['x6'].values))
df4['x7']=list(map(lambda x: x[:-1], df4['x7'].values))

e)将数据转换为数字形式

我们注意到列x5、x6和x7的列值数据类型为string，因此我们需要将它们转换为数值数据，如下所示:

df4['x5']=[float(x) for x in df4['x5'].values]
df4['x6']=[float(x) for x in df4['x6'].values]
df4['x7']=[float(x) for x in df4['x7'].values]

f)查看转换数据的最终形式

df4.head(n=5)

python实现从PDF中提取数据

g)导出最终数据到一个csv文件

df4.to_csv('table_1_final.csv',index=False)

看完上述内容是否对您有帮助呢？如果还想对相关知识有进一步的了解或阅读更多相关文章，请关注亿速云行业资讯频道，感谢您对亿速云的支持。

python实现从PDF中提取数据

相关阅读