你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

OCR-Engine Tesseract：如何在大量文件上自动进行文本识别

|| 我要解析大量文件。它们看起来像这些：参见示例： http://www.foundationfinder.ch/ShowDetails.php?Id=134&InterfaceLanguage=&Type=Image http://www.foundationfinder.ch/ShowDetails.php?Id=134&InterfaceLanguage=&Type=Html 好吧，我猜想使用Image :: OCR :: Tesseract可能很有趣。我想我用Tesseract（http://search.cpan.org/~leocharre/Image-OCR-Tesseract-1.24/lib/Image/OCR/Tesseract.pod）对此进行了解析。

use Image::OCR::Tesseract \'get_ocr\';

my $image = \'./hi.jpg\';

my $text = get_ocr($image);

这是正确的语法吗？

已邀请:

1 个回复

咳累录酬

您可以下载并编译最新版本的tesseract。然后，您可以编写一个（shell或Perl）脚本来馈送所有文件以进行解析。

要回复问题请先登录或注册

OCR-Engine Tesseract：如何在大量文件上自动进行文本识别

1 个回复

发起人

parsing

ocr

perl

问题状态

OCR-Engine Tesseract：如何在大量文件上自动进行文本识别

与内容相关的链接

1 个回复

发起人

parsing

ocr

perl

问题状态