模糊匹配/分块算法

背景：我有视频剪辑和音轨，我想与所述视频同步。从视频剪辑中，我将提取参考音轨。我还有另一首曲目，我想与参考曲目同步。 desync来自编辑，它改变了每个过场动画的间隔。我需要操纵目标轨道看起来像（在这种情况下听起来像）ref轨道。这相当于在正确的位置添加或删除静音。这可以手动完成，但是非常繁琐。所以我希望能够以编程方式确定这些位置。例：

     0         1         2         
     012345678901234567890123
ref: --part1------part2------
syn: -----part1----part2-----
# (let `-` denote silence)

输出：

[(2,6), (5,9) # part1
 (13, 17), (14, 18)] # part2

我的想法是，从一开始：

Fingerprint 2 large chunks* of audio and see if they match:
    If yes: move on to the next chunk
    If not:
        Go down both tracks looking for the first non-silent portion of each
        Offset the target to match the original
        Go back to the beginning of the loop

# * chunk size determined by heuristics and modifiable

这里的主要问题是声音匹配和指纹识别是模糊且相对昂贵的操作。理想情况下，我希望尽可能少地使用它们。想法？

已邀请:

2 个回复

亲奋漏

听起来你不想花费大量时间钻研音频处理/工程，因此你想要一些你可以快速理解并且正常工作的东西。如果您愿意选择更复杂的东西，请参阅此处以获得非常好的参考。在这种情况下，我希望简单的响度和零交叉措施足以识别声音的部分。这很好，因为您可以使用类似于rsync的技术。选择一些样本作为块大小，并定期浏览参考音频数据。（我们称之为'块大小'。）计算过零度量（您可能需要一个简单的过零计数的对数（或快速近似））。根据时间和过零度量将块存储在2D空间结构中。然后一步一步地浏览您的实际音频数据。（可能不需要像一个样本一样小。）请注意，您不必重新计算整个块大小的度量 - 只需在块中不再删除过零点并添加新块那是。（您仍然需要计算对数或其近似值。）寻找具有足够接近频率的“下一个”块。请注意，由于您要查找的是从头到尾的顺序，因此没有理由查看-all-块。事实上，我们不希望因为我们更容易得到误报。如果块匹配得足够好，看它是否匹配到沉默。唯一的关注点是2D空间结构，但老实说，如果你愿意原谅一个严格的近似窗口，这可以变得更容易。然后你可以只有重叠的箱子。这样你需要做的就是在一段时间后检查所有值的两个箱 - 实际上是通过搜索结构进行的两次二进制搜索。所有这一切的缺点是它可能需要一些调整才能正确，并且不是一种经过验证的方法。

粳饶瓢部

如果你可以像你建议的那样可靠地区分沉默与非沉默，如果唯一的区别是沉默的插入，那么似乎唯一不平凡的情况是在没有之前没有插入沉默的地方：

ref: --part1part2--
syn: ---part1---part2----

如果你可以使你的块大小适应沉默，你的算法应该没问题。也就是说，如果你的块大小相当于上面例子中的两个字符，你的算法将识别“pa”匹配“pa”和“rt”匹配“rt”但是对于第三个块它必须识别syn中的沉默并且适应块大小比较“1”到“1”而不是“1p”到“1-”。对于更复杂的编辑，您可能能够调整加权最短编辑距离算法，删除静默有0成本。

要回复问题请先登录或注册

模糊匹配/分块算法

2 个回复

发起人

fuzzy_comparison

chunks

sliding_window

问题状态

模糊匹配/分块算法

与内容相关的链接

2 个回复

发起人

fuzzy_comparison

chunks

sliding_window

问题状态