OCR-Engine Tesseract:如何在大量文件上自动进行文本识别

|| 我要解析大量文件。 它们看起来像这些:参见示例: http://www.foundationfinder.ch/ShowDetails.php?Id=134&InterfaceLanguage=&Type=Image http://www.foundationfinder.ch/ShowDetails.php?Id=134&InterfaceLanguage=&Type=Html 好吧,我猜想使用Image :: OCR :: Tesseract可能很有趣。我想我用Tesseract(http://search.cpan.org/~leocharre/Image-OCR-Tesseract-1.24/lib/Image/OCR/Tesseract.pod)对此进行了解析。
use Image::OCR::Tesseract \'get_ocr\';

my $image = \'./hi.jpg\';

my $text = get_ocr($image);
这是正确的语法吗?     
已邀请:
        您可以下载并编译最新版本的tesseract。然后,您可以编写一个(shell或Perl)脚本来馈送所有文件以进行解析。     

要回复问题请先登录注册