从输入流java中读取html

我正在使用java servlet的输入流读取html文件。 但原始内容和阅读内容的格式不同 虽然在Web浏览器中显示时它们是相同的。这是两个 html文件的链接 读完输出后 http://www.fileflyer.com/view/gQREGAe 原始产出 http://www.fileflyer.com/view/mWXHVAE 有没有办法在阅读时获得原始的HTML?为什么会这样? 我的java代码如下;
InputStreamReader isr = new InputStreamReader(inputStream);
     BufferedReader br = new BufferedReader(isr);
     String line = null;
     while ( (line = br.readLine()) != null)
     {
      System.out.println(line);
}
任何帮助将不胜感激!! 谢谢, 林蛙。     
已邀请:
不同格式的那个(名为
extracted.html
的那个)显然是由Microsoft Word生成的。
<html xmlns:v="urn:schemas-microsoft-com:vml"
      xmlns:o="urn:schemas-microsoft-com:office:office"
      xmlns:w="urn:schemas-microsoft-com:office:word"
      xmlns:m="http://schemas.microsoft.com/office/2004/12/omml"
      xmlns="http://www.w3.org/TR/REC-html40">
你的问题更多的是
InputStream
的来源,而不是Java或Servlet方面。如果没有您的干预,他们肯定不会随意更改
InputStream
的内容。 您似乎使用MS Word作为HTML编辑器,您不应该这样做,它不适用于。而是使用基于文本的编辑器,如Notepad,Notepad ++,Editplus等进行HTML编辑。     
我见过这两个html文件。 extract.html显然有更多你似乎不感兴趣的标签/评论/ CSS信息。因此,您唯一的选择是使用以下解析器中的一个并删除您不需要的不必要的节点/属性(或者只提取您需要的内容) Mozilla html解析器 HTML解析器     

要回复问题请先登录注册