定向梯度直方图

我一直在阅读关于对象（人类）检测的HOG描述符的理论。但我对实现有一些疑问，这可能听起来像一个微不足道的细节。关于包含块的窗口;如果窗口在每个步骤中窗口重叠的像素逐个移动，如下图所示：或者应该移动窗口而不会导致任何重叠，如下所示：到目前为止，我看到的插图使用了第二种方法。但是，考虑到检测窗口的大小为64x128，很可能通过在图像上滑动窗口，不能覆盖整个图像。如果图像大小为64x255，则最后127个像素将不检查对象。所以，第一种方法似乎更合理，但是，更多的时间和CPU消耗。有任何想法吗？先感谢您。编辑：我试着坚持Dalal和Triggs的原始论文。可以在此处找到一篇实现该算法并使用第二种方法的论文：http：//www.cs.bilkent.edu.tr/~cansin/projects/cs554-vision/pedestrian-detection/pedestrian-detection-paper.pdf

已邀请:

1 个回复

扑北爱

编辑：对不起 - 我误解了你的问题。（另外，我提供给错误问题的答案是错误的 - 我已经根据上下文调整了以下内容。）您要求使用HOG描述符进行检测，而不是生成HOG描述符。在上面引用的实现文章中，看起来它们与检测窗口重叠。窗口大小为64x128，而它们使用32像素的水平步幅和64的垂直步幅。他们还提到他们尝试较小的步幅值，但这导致更高的误报率（在其实现的上下文中）。最重要的是，他们使用输入图像的3个刻度：1,1 / 2和1/4。他们没有提到检测窗口的任何相应缩放 - 我不确定从检测角度来看会产生什么影响。似乎这也会隐含地产生重叠。原始答案（更正）：查看Dalal和Triggs论文（见6.4节），看起来他们提到i）没有块重叠，以及ii）生成HOG描述符时的半块和四分块重叠。根据他们的结果，听起来更大的重叠产生了更好的检测性能（尽管资源/处理成本更高）。

要回复问题请先登录或注册

定向梯度直方图

1 个回复

发起人

object_detection

问题状态

定向梯度直方图

与内容相关的链接

1 个回复

发起人

object_detection

问题状态