在Java中,我们可以使用Apache PDFBox库来读取PDF文件。以下是一个简单的示例代码来演示如何使用PDFBox来读取PDF文件:
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFReader {
public static void main(String[] args) {
try {
// 创建一个PDDocument对象
PDDocument document = PDDocument.load(new File("example.pdf"));
// 创建一个PDFTextStripper对象
PDFTextStripper pdfTextStripper = new PDFTextStripper();
// 从PDF文档中提取文本
String text = pdfTextStripper.getText(document);
// 输出提取的文本
System.out.println(text);
// 关闭PDDocument对象
document.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
在上面的代码中,我们首先通过PDDocument.load()
方法加载要读取的PDF文件。然后创建一个PDFTextStripper
对象来提取PDF中的文本内容。最后,我们使用getText()
方法从PDF文档中提取文本,并将其打印到控制台上。
请注意,以上代码只是一个简单的示例,实际上PDF文件可能包含更复杂的内容,如图形、表单等。您可以根据实际需求进一步处理和解析PDF文件中的内容。