通过Java提取HTML中两个链接之间的文本
|
我正在尝试使用Java从ePub文件中检索文本数据。 ePub文件的文本位于HTML文件中,该文件的格式如下:
<h2 id=\"pgepubid00001\">Chapter I</h2>
<p>Some text</p>
<p>Another line of Text</p>
<br/>
<h2 id=\"pgepubid00001\">Chapter II</h2>
etc..
在打开该文件之前,我已经知道我需要提取的章节的ID,并且也可以找到下一章的ID。因此,我认为一种逻辑方法是尝试在SAX解析器中对其进行解析并提取每个段落中的文本,直到到达下一章的链接为止。但这证明是一项艰巨的任务。
当然,所有内容都是动态的,因此没有设置链接可供访问。HTML是半严格格式的,因此我不希望解析会引起太大的问题。谁能推荐一种提取所需文本的好方法?
该解决方案只需要是JAVA,就不能使用其他语言。我希望在Android设备中实现此功能
没有找到相关结果
已邀请:
1 个回复
舶啥戚
把事情简单化。