WikiLeaks电缆的基于容错python的解析器
||
不久前,我开始为WikiLeaks发布的电缆编写基于BNF的语法。但是我现在意识到我的方法可能不是最好的,我正在寻找一些改进。
电缆由三部分组成。头部具有一些RFC2822样式的格式。这种解析通常是正确的。文本部分具有更非正式的规范。例如,有一条REF线。应该以ѭ0开头,但是我发现了不同的版本。以下正则表达式可以捕获大多数情况:
^\\s*[Rr][Ee][Ff][Ss: ]
。所以前面有空格,不同的情况等等。文本部分主要是纯文本,带有一些特殊格式的标题。
我们要识别每个字段(日期,参考号等)并放入数据库中。我们选择了Pythons SimpleParse。目前,解析在每个无法识别的字段处停止。我们现在正在寻找一种更加容错的解决方案。所有字段都有某种顺序。当解析器无法识别字段时,它应在当前字段中添加一些“未识别” -blob并继续。 (或者也许您在这里有一些更好的方法)。
您会建议哪种解析器或其他解决方案?周围更好吗?
没有找到相关结果
已邀请:
2 个回复
捐焦
豹芜澈