python怎么批量处理PDF文档输出自定义关键词的出现次数

发布时间：2023-04-11 14:54:14 作者：iii
来源：亿速云阅读：226

Python怎么批量处理PDF文档输出自定义关键词的出现次数

在日常工作和学习中，我们经常需要处理大量的PDF文档，并从中提取特定的信息。例如，我们可能需要统计某个关键词在多个PDF文档中出现的次数。手动处理这些文档不仅耗时，而且容易出错。幸运的是，Python提供了强大的工具和库，可以帮助我们自动化这一过程。本文将介绍如何使用Python批量处理PDF文档，并输出自定义关键词的出现次数。

1. 准备工作

在开始之前，我们需要安装一些必要的Python库。这些库包括：

PyPDF2：用于读取PDF文档内容。
os：用于遍历目录中的文件。
re：用于正则表达式匹配。

你可以使用以下命令安装这些库：

pip install PyPDF2

2. 读取PDF文档内容

首先，我们需要编写一个函数来读取PDF文档的内容。PyPDF2库提供了一个PdfFileReader类，可以用来读取PDF文件。

import PyPDF2

def read_pdf_content(file_path):
    with open(file_path, 'rb') as file:
        reader = PyPDF2.PdfFileReader(file)
        content = ''
        for page_num in range(reader.numPages):
            page = reader.getPage(page_num)
            content += page.extract_text()
        return content

这个函数接受一个PDF文件的路径作为参数，并返回该文件的所有文本内容。

3. 统计关键词出现次数

接下来，我们需要编写一个函数来统计关键词在文本中出现的次数。我们可以使用Python的re模块来进行正则表达式匹配。

import re

def count_keyword_occurrences(text, keyword):
    pattern = re.compile(r'\b' + re.escape(keyword) + r'\b', re.IGNORECASE)
    matches = pattern.findall(text)
    return len(matches)

这个函数接受文本内容和关键词作为参数，并返回关键词在文本中出现的次数。

4. 批量处理PDF文档

现在，我们可以编写一个函数来批量处理目录中的所有PDF文档，并输出每个文档中关键词的出现次数。

import os

def process_pdf_directory(directory, keyword):
    results = {}
    for filename in os.listdir(directory):
        if filename.endswith('.pdf'):
            file_path = os.path.join(directory, filename)
            content = read_pdf_content(file_path)
            count = count_keyword_occurrences(content, keyword)
            results[filename] = count
    return results

这个函数接受一个目录路径和关键词作为参数，并返回一个字典，其中键是PDF文件名，值是该文件中关键词出现的次数。

5. 示例代码

下面是一个完整的示例代码，展示了如何使用上述函数来处理一个目录中的所有PDF文档，并输出关键词的出现次数。

import os
import re
import PyPDF2

def read_pdf_content(file_path):
    with open(file_path, 'rb') as file:
        reader = PyPDF2.PdfFileReader(file)
        content = ''
        for page_num in range(reader.numPages):
            page = reader.getPage(page_num)
            content += page.extract_text()
        return content

def count_keyword_occurrences(text, keyword):
    pattern = re.compile(r'\b' + re.escape(keyword) + r'\b', re.IGNORECASE)
    matches = pattern.findall(text)
    return len(matches)

def process_pdf_directory(directory, keyword):
    results = {}
    for filename in os.listdir(directory):
        if filename.endswith('.pdf'):
            file_path = os.path.join(directory, filename)
            content = read_pdf_content(file_path)
            count = count_keyword_occurrences(content, keyword)
            results[filename] = count
    return results

if __name__ == "__main__":
    directory = 'path/to/your/pdf/directory'
    keyword = 'your_keyword'
    results = process_pdf_directory(directory, keyword)
    for filename, count in results.items():
        print(f"{filename}: {count} occurrences of '{keyword}'")

6. 总结

通过使用Python和PyPDF2库，我们可以轻松地批量处理PDF文档，并统计自定义关键词的出现次数。这种方法不仅高效，而且可以大大减少手动处理文档的时间和错误。希望本文对你有所帮助，祝你在处理PDF文档时一切顺利！