通过Java提取HTML中两个链接之间的文本

| 我正在尝试使用Java从e​​Pub文件中检索文本数据。 ePub文件的文本位于HTML文件中,该文件的格式如下:
<h2 id=\"pgepubid00001\">Chapter I</h2>

<p>Some text</p>
<p>Another line of Text</p>

<br/>

<h2 id=\"pgepubid00001\">Chapter II</h2>

etc..
在打开该文件之前,我已经知道我需要提取的章节的ID,并且也可以找到下一章的ID。因此,我认为一种逻辑方法是尝试在SAX解析器中对其进行解析并提取每个段落中的文本,直到到达下一章的链接为止。但这证明是一项艰巨的任务。 当然,所有内容都是动态的,因此没有设置链接可供访问。HTML是半严格格式的,因此我不希望解析会引起太大的问题。谁能推荐一种提取所需文本的好方法? 该解决方案只需要是JAVA,就不能使用其他语言。我希望在Android设备中实现此功能     
已邀请:
好吧,您知道这些章节的ID,为什么不使用String.indexOf?
start = text.indexOf(\"<h2 id=\\\"pgepubid00001\\\">\");
end = text.indexOf(\"<h2 id=\\\"pgepubid00002\\\">\");

whatYoureLookingFor = text.substring(start, end-start)
把事情简单化。     

要回复问题请先登录注册