利用Java怎么对PDF中的文本与图片进行读取

发布时间:2021-01-16 10:34:10 作者:Leah
来源:亿速云 阅读:264

利用Java怎么对PDF中的文本与图片进行读取?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

Jar文件获取导入:

方法1:通过官网下载jar文件包。下载后,解压文件,并将lib文件夹下的Spire.Pdf.jar文件导入java程序。导入后如下图:

利用Java怎么对PDF中的文本与图片进行读取

方法2: 可通过maven仓库安装导入。

Java代码示例

import com.spire.pdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
public class ExtractText {
  public static void main(String[]args) throws Exception {
    //加载测试文档
    PdfDocument pdf = new PdfDocument("sample.pdf");
    //实例化StringBuilder类
    StringBuilder sb = new StringBuilder();
    //定义一个int型变量
    int index = 0;
    //遍历PDF文档中每页
    PdfPageBase page;
    for (int i= 0; i<pdf.getPages().getCount();i++) {
      page = pdf.getPages().get(i);
      //调用extractText()方法提取文本
      sb.append(page.extractText(true));
      FileWriter writer;
      try {
        //将StringBuilder对象中的文本写入到txt
        writer = new FileWriter("ExtractText.txt");
        writer.write(sb.toString());
        writer.flush();
      } catch (IOException e) {
        e.printStackTrace();
      }
      //调用extractImages方法获取图片
      for (BufferedImage image : page.extractImages()) {
          //指定输出图片名,指定图片格式
          File output = new File(String.format("Image_%d.png", index++));
          ImageIO.write(image, "PNG", output);
      }
    }
    pdf.close();
  }
}

关于利用Java怎么对PDF中的文本与图片进行读取问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注亿速云行业资讯频道了解更多相关知识。

推荐阅读:
  1. Java 读取PDF中的文本和图片
  2. 如何使用Java读取PPT文本和图片

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

java pdf

上一篇:Java中SPI机制的原理是什么

下一篇:ThinkPHP5.1中域名绑定模块的使用示例

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》