防止爬虫遵循POST表单操作
|
我的网站上有简单的表格:
<form method=\"POST\" action=\"Home/Import\"> ... </form>
我收到大量错误报告,因为抓取工具向Home/Import
发送了HEAD
请求
通知表格为POST。
问题
为什么搜寻器尝试搜寻那些动作?
我可以采取什么措施来防止这种情况发生? (我已经在robots.txt中找到了主页)
处理那些无效(但正确)的“ 1”要求的好方法是什么?
细节:
如果重要的话,我使用Post-Redirect-Get模式。
平台:IIS 7.5上的ASP.NET MVC 3.0(C#)
没有找到相关结果
已邀请:
3 个回复
祁澈盘哼颗
撵穆
您可以通过添加以下内容在robots.txt级别上进行操作:
头请求用于获取有关页面的信息,而无需获取整个页面(如上次修改时间,大小等)。这是一项高效的工作。您的脚本不应由于头请求而产生错误,而这些错误可能是由于代码中缺少验证。您的代码可以检查请求http方法是否为\'head \'并执行其他操作。
坝胺绣敝