如何在Web应用程序中将数据库搜索与pdf搜索集成?
|
我有一个带有自定义搜索引擎的jsp Web应用程序。
搜索引擎基本上是建立在SQL Server数据库的“文档”表之上的。
例如,每个文档记录都有三个字段:
文件编号
\'descripion \'(文本字段)
\'attachment \',即文件系统中pdf文件的路径。
搜索引擎实际上在描述字段中搜索关键字,并在HTML页面中返回结果列表。现在,我想甚至在pdf文件内容中搜索关键字。
我正在调查Lucene,Tika和Solr,但我不明白如何使用这些框架来实现目标。
一种可能的解决方案:使用Tika提取pdf内容并将其存储在新的文档表字段中,因此我可以在该字段上编写SQL查询。
有更好的选择吗?
我可以使用Solr / Lucene索引功能作为基于SQL的搜索引擎的集成,而不是完全替代它吗?
谢谢
没有找到相关结果
已邀请:
1 个回复
芯伶句餐绕