音频挖掘词边界

| 我打算做: 我想发展英语口音(无需专业培训)。 我的执行摘要背后的一系列公理: 以下是故意简化的版本,对此深表歉意。我试图保持短的问题。 第1部分:如何理解学习的作品。 目前,我假设Broca \'s区域和Wernicke \'s区域必须了解该语言,并且具有现有语音字母的肌肉记忆将建立语音。口音只是自然形成了由汉语拼音字母同化时间。 使用Google我发现,语音阴影可以潜在地用于语音符号的同化。在另一方面肌肉记忆可以通过重复的动作来容易训练。如果人的年龄在23-24岁之间,并且手上有很多无法解释的时间,这是最有效的,因为失去焦点会极大地降低有效的学习曲线梯度。这种程序的内存可以或许优化,冲洗与设计的睡眠模式记忆。 第2部分:设计的行为模式 查找流利口音的人我想听起来像。 区分目标重音音素和电话。 训练肌肉记忆,产生目标的口音。 第3部分:寻找一位能说出我想要的口音的流利扬声器。 YouTube是一个功能强大的免费资源。样本音频,我强硬约采摘:
Someone Like You
- 阿黛尔(盖)在HD。 它不打扰我,它是高音调的女声。 第4部分:区分目标口音音素和电话。 这不是一项琐碎的任务-识别和判断语音电话是否正确。以及人类如何正确说出有形的文本。实际上,它看起来是如此复杂,以至于我不会费心地自动化它,而只是将IPA用作基准。 下面是在音频样本的上述美国IPA字应力的第一首诗歌: 无侵犯版权之意。然后使用upodn创建图像(替代:photransedit)。 第5部分:训练肌肉记忆以产生目标口音。 虽然尝试模拟和存档同步很有趣,但是我更喜欢构建一个工具,将单词提取为音频文件。因此,我可以用Winamp或iPod循环和随机我想的话。 我想,我可以使用MS Expression Encoder的这一点。 题 如果给定的音频文件(例如:在wav格式,大小<32MB)和它\的等效文本(字的有限NR,EX。,2000),然后如何把它分割成多个文件,每个含有1个字。 Word中可以包含一些多余的空格和边界检查可以被用户认可。如果它是不准确的,那么什么是最好的方式,以获得良好的估计单词边界。     
已邀请:
检测单词边界是一项非常复杂的任务!我不知道您是否对此进行了更多研究,但请参见Saffran等人,(1996)。分词:OD分布式线索的作用。 还有很多很多\语言生产的“语料库的\”那里的许多语言,因此而不是使用一个新的人,我\“d看看成什么\” S已经在语言学文学做了检测单词边界。     
首先,我会通过在它运行的FFT从时域到频域的信号转换。这可能让你在你的文本在FFT噪声宽带匹配某些辅音。这里的事情是,你\'再没有试图做全程语音识别,只要找到信号的文本的最佳匹配。 (我做了文档图像突出回来类似的东西,当我在大学 - 没\'吨需要诉诸OCR,因为我已经有文本)。我的猜测是,寻找逢低幅度韩元\'吨帮你这么多,因为有些字碰到对方。 这里\“S如何I \” d接近它的第一次尝试: 分析文本/ IPA为与导致在频谱中的易识别的图案辅音开始的单词。 开始具有高阈值,检测所述图案的实例。 降低门槛,直到你得到实例的正确数量以及它们之间的相对距离您从文本的距离的估计相符。 (如果可能的话,得到的分割点用户验证这里) 通过使用另一种特征检测方法拆分这些块成单词。 继续直到您只有一个字。 I \'M确保它可以推广,但\的我怎么\'d尝试。     

要回复问题请先登录注册