提取网页的HTML源代码

| 我使用以下代码提取网页htm源代码：

    private static string GetWebText(string url)
    {
        HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(url);
        request.UserAgent = \"A .NET Web Crawler\";

        WebResponse response = request.GetResponse();

        Stream stream = response.GetResponseStream();

        StreamReader reader = new StreamReader(stream);
        string htmlText = reader.ReadToEnd();
        return htmlText;
    }

在我使用此代码提取此页面的源代码之后（==>提取hrefs）： http://www.bayt.com/cn/qatar/jobs/ 当我有我的html源代码时，我没有找到很多类似的内容： \“成本优化顾问\” 是因为它是服务器端生成的内容吗？如何更改代码，以使其包含服务器端生成的内容的html源代码？

已邀请:

2 个回复

孤捷侩

当您查看源代码时，它不太可能是服务器端的原因，服务器端已经完成并呈现。也就是说，他们可能具有脚本，这些脚本可以在加载完成后动态更改页面的内容，如果在加载完成后对其进行更改，并且所有内容最初都被渲染，则您会被原始源代码所困扰之后有什么。有些浏览器具有跟上渲染和操作的能力，但是应用程序中有很多事情使浏览器能够做到这一点，而这与JavaScript毫无关系。另一个合理的概念或2是。他们在站点的某处内置了某种用于XSS检测的东西。如果引用脚本不在域本身上，则它将查看他们想要的内容。或者..您的脚本正在遭受“相同来源策略”的困扰，该策略可能会对其造成某些影响。或者像其他人所说的那样，您不解析DOM是正确的。您可以尝试将页面加载到网站上的iframe中，然后获取iframe的innerHTML，然后将其转储到文件或其他内容中。

敦肌

他们可能只是基于浏览器ID（用户代理）字符串添加了某些内容。尝试将您的用户代理设置为此

Mozilla/5.0 (Windows NT 6.1; WOW64; rv:2.0.1) Gecko/20100101 Firefox/4.0.1

要回复问题请先登录或注册

提取网页的HTML源代码

2 个回复

发起人

html

asp.net

c#

information_retrieval

问题状态

提取网页的HTML源代码

与内容相关的链接

2 个回复

发起人

html

asp.net

c#

information_retrieval

问题状态