如何在Linux上从图像和PDF中提取文本

发布时间:2021-08-24 21:34:44 作者:chen
来源:亿速云 阅读:264

本篇内容介绍了“如何在Linux上从图像和PDF中提取文本”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

gImageReader是Tesseract开源OCR引擎的前端。Tesseract最初是由HP开发的,然后于2006年开源。

基本上,OCR(Optical Character Recognition光学字符识别)引擎使您可以扫描图片或文件(PDF)中的文本。默认情况下,它可以检测多种语言,并且还支持通过Unicode字符进行扫描。

但是,Tesseract本身就是没有任何GUI的命令行工具。因此,在这里,gImageReader可以帮助任何用户利用它来从图像和文件中提取文本。

让我重点介绍一些有关它的内容,同时提及我在测试期间的使用经验。

gImageReader:Tesseract OCR的跨平台前端

为了简化工作,gImageReader可以方便地从PDF文件或包含任何类型文本的图像中提取文本。

无论是拼写检查还是翻译都需要它,它对于特定的用户组应该很有用。

gImageReader功能介绍:

在Linux上安装gImageReader

注意:您需要显式安装Tesseract语言包以从软件管理器中的图像/文件中进行检测。

您可以在某些Linux发行版(例如Fedora和Debian)的默认存储库中找到gImageReader。

对于Ubuntu,您需要添加一个PPA,然后再安装它。为此,您需要在终端中输入以下内容:

linuxmi@linuxmi:~/www.linuxmi.com$ sudo add-apt-repository ppa:sandromani/gimagereader  linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt update linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt install gimagereader tesseract-ocr tesseract-ocr-eng tesseract-ocr-chi-sim tesseract-ocr-chi-tra -y  linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt install tesseract-ocr-chi-sim-vert tesseract-ocr-chi-tra-vert -y

您还可以从其构建服务中为openSUSE找到它,AUR将成为Arch Linux用户的地方。

到存储库和软件包的所有链接都可以在其GitHub页面中找到。

使用gImageReader的经验

gImageReader是一个非常有用的工具,可以在需要时从图像中提取文本。当您尝试使用PDF文件时,它的效果很好。

为了从智能手机拍摄的照片中提取图像,检测很接近,但是有点不准确。也许当您扫描某些内容时,从文件中识别字符可能会更好。

因此,您必须自己尝试一下,看看它在您的用例中的效果如何。我在Ubuntu 20.04.2 LTS上进行了尝试。

操作步骤

打开 gImageReader

添加pdf

识别语言选择 多种语言 ==> 简体字[chi_sim]+ English[eng]

如何在Linux上从图像和PDF中提取文本

复制或保存识别文本

操作结果参照下图:

如何在Linux上从图像和PDF中提取文本

我只是在管理设置中的语言时遇到了一个问题,但没有得到快速的解决方案。如果遇到此问题,则可能需要对其进行故障排除,并进一步了解如何解决该问题。

如何在Linux上从图像和PDF中提取文本

“如何在Linux上从图像和PDF中提取文本”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注亿速云网站,小编将为大家输出更多高质量的实用文章!

推荐阅读:
  1. 如何在python中提取PDF文本
  2. 怎么在Python中利用get_text()方法从html中提取文本

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

linux

上一篇:mysqlimport导入数据库的步骤

下一篇:如何在Linux下找到被误删除的文件

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》