计算(很大)文本中的(大量)字符串
||
我在Stackoverflow上看到了“高效地在文件中搜索字符串”问题的几种变体,但与我的情况不太相似。
我有一个文本文件,其中包含相对大量(> 300K)的字符串。这些字符串中的绝大多数是多个单词(例如\“ Plessy v。Ferguson \”,\“ John Smith \”等)。
从那里,我需要搜索大量文本文件(一组合计> 10GB的法律文档),并计算这些字符串的实例。
由于搜索字符串的数量,具有多个单词的字符串以及搜索目标的大小,许多“标准”解决方案似乎掉到了一边。
有些事情可以简化问题-
我不需要复杂的标记化/词干提取等功能(例如,我关心的唯一实例是“ Plessy诉Ferguson”,无需担心“ Plessy”,“ Plessy等”)。 al。\“等)
会有一些重复项(例如,多个名为“ John Smith”的人),但是,对于此数据集,这在统计上不是很重要的问题,因此...如果将多个John Smith合并为一个单次统计,现在还可以。
我只需要计算这些特定实例;我不需要返回搜索结果
1个文件中的10个实例与10个文件中的每个实例中的1个实例相同
对解决此问题的快速/肮脏方法有什么建议吗?
我已经调查了NLTK,Lucene和其他公司,但是对于我要解决的问题,它们似乎过大了。我应该吸收它并将所有内容导入数据库吗? bruteforce grep 30万次? ;)
我首选的开发工具是Python。
要搜索的文档主要是这样的合法文档-http://www.lawnix.com/cases/plessy-ferguson.html
预期结果汇总了这些文档中引用案例的频率-
“ Plessey诉Ferguson:15”
没有找到相关结果
已邀请:
5 个回复
嗜蒂谷尘旱
募磷
磐乓铝举
bab
徘廷
实用程序,或使用本文中介绍的技术。 使用此技术,您“仅\”需要在索引文件中搜索目标字符串。