从输入流java中读取html

我正在使用java servlet的输入流读取html文件。但原始内容和阅读内容的格式不同虽然在Web浏览器中显示时它们是相同的。这是两个 html文件的链接读完输出后 http://www.fileflyer.com/view/gQREGAe 原始产出 http://www.fileflyer.com/view/mWXHVAE 有没有办法在阅读时获得原始的HTML？为什么会这样？我的java代码如下;

InputStreamReader isr = new InputStreamReader(inputStream);
     BufferedReader br = new BufferedReader(isr);
     String line = null;
     while ( (line = br.readLine()) != null)
     {
      System.out.println(line);
}

任何帮助将不胜感激！！谢谢，林蛙。

已邀请:

2 个回复

栖很钾是狠

不同格式的那个（名为extracted.html的那个）显然是由Microsoft Word生成的。

<html xmlns:v="urn:schemas-microsoft-com:vml"
      xmlns:o="urn:schemas-microsoft-com:office:office"
      xmlns:w="urn:schemas-microsoft-com:office:word"
      xmlns:m="http://schemas.microsoft.com/office/2004/12/omml"
      xmlns="http://www.w3.org/TR/REC-html40">

你的问题更多的是InputStream的来源，而不是Java或Servlet方面。如果没有您的干预，他们肯定不会随意更改InputStream的内容。您似乎使用MS Word作为HTML编辑器，您不应该这样做，它不适用于。而是使用基于文本的编辑器，如Notepad，Notepad ++，Editplus等进行HTML编辑。

漂截嘘

我见过这两个html文件。 extract.html显然有更多你似乎不感兴趣的标签/评论/ CSS信息。因此，您唯一的选择是使用以下解析器中的一个并删除您不需要的不必要的节点/属性（或者只提取您需要的内容） Mozilla html解析器 HTML解析器

要回复问题请先登录或注册

从输入流java中读取html

2 个回复

发起人

问题状态

从输入流java中读取html

与内容相关的链接

2 个回复

发起人

问题状态