c#html敏捷包

| 我们正在将电子商务网站移至新平台,并且由于其所有页面均为静态html,并且它们在数据库中没有所有产品信息,因此我们必须抓取其当前网站以获得产品说明。 这是页面之一:http://www.cabinplace.com/accrugsbathblackbear.htm 最好的方法是将描述放入字符串中?我应该使用HTML敏捷包吗?如果是这样,该怎么做?因为我是html敏捷包和xhtml的新手。 谢谢     
已邀请:
HTML Agility Pack是一个很好的库,可用于此类工作。 您没有指出是否所有内容都是以这种方式构造的,也没有表明您是否已经从HTML文件中获得了发布的片段的种类,因此很难进一步提出建议。 通常,如果所有页面的结构都相似,我将使用XPath表达式提取段落,然后从每个页面中选择“ 0”或“ 1”。 类似于以下内容:
var description = htmlDoc.SelectNodes(\"p[@class=\'content_txt\']\")[0].innerText;
    
也, 如果您需要一个好的工具来测试或找到HAP的Xpath,则可以使用以下工具: HTML-Agility-xpath-finder。它是使用相同的库制作的,因此,如果在此工具中找到xpath,则可以安全地在代码中使用。     

要回复问题请先登录注册