如何在Web应用程序中将数据库搜索与pdf搜索集成?

| 我有一个带有自定义搜索引擎的jsp Web应用程序。 搜索引擎基本上是建立在SQL Server数据库的“文档”表之上的。 例如,每个文档记录都有三个字段: 文件编号 \'descripion \'(文本字段) \'attachment \',即文件系统中pdf文件的路径。 搜索引擎实际上在描述字段中搜索关键字,并在HTML页面中返回结果列表。现在,我想甚至在pdf文件内容中搜索关键字。 我正在调查Lucene,Tika和Solr,但我不明白如何使用这些框架来实现目标。 一种可能的解决方案:使用Tika提取pdf内容并将其存储在新的文档表字段中,因此我可以在该字段上编写SQL查询。 有更好的选择吗? 我可以使用Solr / Lucene索引功能作为基于SQL的搜索引擎的集成,而不是完全替代它吗? 谢谢     
已邀请:
我认为Lucene完全独立于SQL数据库,即您不会使用SQL / jdbc /任何数据库来查询Lucene,而是使用其自己的API和自己的数据存储。 您当然可以使用Tika提取pdf的全文,进行存储,然后使用您的SQL DB提供的任何内容。全文搜索能力。 如果您使用的是Hibernate,则Hibernate Search是一款出色的产品,它同时集成了SQL存储和Lucene。但是您必须采用Hibernate / JPA方式,这对于您的项目可能是过大的选择。     

要回复问题请先登录注册