Python提取图片中的文字信息

使用的Python库

Python tesseract是Python的一个光学字符识别（OCR）工具。也就是说，它将识别并“读取”嵌入图像中的文本。

Python tesseract是Google tesseract OCR引擎的包装器。它还可用作tesseract的独立调用脚本，因为它可以读取Pillow和Leptonica图像库支持的所有图像类型，包括jpeg、png、gif、bmp、tiff等。此外，如果用作脚本，Python tesseract将打印识别的文本，而不是将其写入文件。

程序如下

import pytesseract
from PIL import Imageprint(pytesseract.image_to_string(Image.open('./1A2737EC36534A6636E062FF17838D99.jpg'), lang='chi_sim'))

安装识别引擎tesseract-ocr

如果有以下报错：
在这里插入图片描述
则还需要安装识别引擎tesseract-ocr
网上下载安装包，然后直接点击安装即可
因为tesseract-ocr默认不支持中文识别，所以解压安装tesseract-ocr后还需下载对应的语言包

安装完成tesseract-ocr后，我们还需配置一下
在C:\Users\ASUS\AppData\Local\Programs\Python\Python38\Lib\site-packages\pytesseract中找到pytesseract.py
打开后做如下操作:

# tesseract_cmd = 'tesseract'
tesseract_cmd = 'D:/Tesseract-OCR/tesseract.exe'

环境变量设置

根据这个教程设置环境变量
接下来便可以使用程序来进行文字识别提取

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://xiahunao.cn/news/253643.html

如若内容造成侵权/违法违规/事实不符，请联系瞎胡闹网进行投诉反馈，一经查实，立即删除！