你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

通过Java提取HTML中两个链接之间的文本

| 我正在尝试使用Java从ePub文件中检索文本数据。 ePub文件的文本位于HTML文件中，该文件的格式如下：

<h2 id=\"pgepubid00001\">Chapter I</h2>

<p>Some text</p>
<p>Another line of Text</p>

<br/>

<h2 id=\"pgepubid00001\">Chapter II</h2>

etc..

在打开该文件之前，我已经知道我需要提取的章节的ID，并且也可以找到下一章的ID。因此，我认为一种逻辑方法是尝试在SAX解析器中对其进行解析并提取每个段落中的文本，直到到达下一章的链接为止。但这证明是一项艰巨的任务。当然，所有内容都是动态的，因此没有设置链接可供访问。HTML是半严格格式的，因此我不希望解析会引起太大的问题。谁能推荐一种提取所需文本的好方法？该解决方案只需要是JAVA，就不能使用其他语言。我希望在Android设备中实现此功能

已邀请:

1 个回复

舶啥戚

好吧，您知道这些章节的ID，为什么不使用String.indexOf？

start = text.indexOf(\"<h2 id=\\\"pgepubid00001\\\">\");
end = text.indexOf(\"<h2 id=\\\"pgepubid00002\\\">\");

whatYoureLookingFor = text.substring(start, end-start)

把事情简单化。

要回复问题请先登录或注册

通过Java提取HTML中两个链接之间的文本

1 个回复

发起人

java

android

xml

parsing

epub

问题状态

通过Java提取HTML中两个链接之间的文本

与内容相关的链接

1 个回复

发起人

java

android

xml

parsing

epub

问题状态