模糊匹配/分块算法
背景:我有视频剪辑和音轨,我想与所述视频同步。
从视频剪辑中,我将提取参考音轨。
我还有另一首曲目,我想与参考曲目同步。 desync来自编辑,它改变了每个过场动画的间隔。
我需要操纵目标轨道看起来像(在这种情况下听起来像)
ref
轨道。这相当于在正确的位置添加或删除静音。这可以手动完成,但是非常繁琐。所以我希望能够以编程方式确定这些位置。
例:
0 1 2
012345678901234567890123
ref: --part1------part2------
syn: -----part1----part2-----
# (let `-` denote silence)
输出:
[(2,6), (5,9) # part1
(13, 17), (14, 18)] # part2
我的想法是,从一开始:
Fingerprint 2 large chunks* of audio and see if they match:
If yes: move on to the next chunk
If not:
Go down both tracks looking for the first non-silent portion of each
Offset the target to match the original
Go back to the beginning of the loop
# * chunk size determined by heuristics and modifiable
这里的主要问题是声音匹配和指纹识别是模糊且相对昂贵的操作。
理想情况下,我希望尽可能少地使用它们。想法?
没有找到相关结果
已邀请:
2 个回复
亲奋漏
粳饶瓢部
如果你可以使你的块大小适应沉默,你的算法应该没问题。也就是说,如果你的块大小相当于上面例子中的两个字符,你的算法将识别“pa”匹配“pa”和“rt”匹配“rt”但是对于第三个块它必须识别
中的沉默并且适应块大小比较“1”到“1”而不是“1p”到“1-”。 对于更复杂的编辑,您可能能够调整加权最短编辑距离算法,删除静默有0成本。