在家憋疯的外国人用奇怪的方法练起了口技

澎湃新闻 2020-05-30 08:41 大字

原创栗子果壳

抑制不住体内的能量，我就要爆发了（误）丨七龙珠

疫情所致，歪果仁也许久不曾出门了。

日子一长，难免开始修习奇妙的法术。

口技便是其中之一。这门古老的艺术，没有经年累月的苦练，恐怕难以运用自如。

不料谷歌众人搬出一只AI。有了它，即便是凡人发出的声响，也能变成乐器的音色。比如萨克斯风的旋律：

卖家秀来自谷歌研究员；买家秀素材来自撒贝宁《经典咏流传》，萨克斯风音色由AI合成丨DDSP

这AI叫做DDSP，已有线上试玩Demo。既然建国之后无法成精，不如就化作戏精吧：

https://colab.research.google.com/github/magenta/ddsp/blob/master/ddsp/colab/demos/timbre_transfer.ipynb

在下服用之后，表示疗效上佳。

模仿，要从源头学起

假如只懂得萨克斯风一种乐器，恐怕还称不上口技。

DDSP还支持长笛、小提琴和小号的修炼。你听，这里有长笛独奏的五环之歌：

五环之歌素材来自《鲁豫有约》，钢琴版《名侦探柯南》主题曲素材来自Lisa's Music Diary，长笛音色由AI合成丨DDSP

当然，原声不见得要人声才好，钢琴声转为长笛依然清脆悠扬。

那么，这般音色生成技能从何而来？谷歌科学家说，DDSP最独到的地方在于：关心声音是如何产生，又是如何被人体感知的。

物体振动的时候，动能和弹性势能周期性地此起彼伏，就像弹簧振子那样丨Oleg Alexandrov

世间万物，都在周期性地振动，这便是声音的来源。而人类的听觉，也在漫长的进化中，变得对周期性振动非常敏感。

那么，AI合成器也该重点学习周期性振动的特点吧？可当代拥有学习能力的AI多用神经网络打造而成，神经网络很少用到振动的周期性。而用上了这层知识的声码器（vocoder）方法，却因为表达能力不足，又难和神经网络结合起来，渐渐被冷落了。

如今，谷歌的科学家们找到新的方法DDSP，利用了声音产生和感知的规律，没有损伤表达能力，也与当代AI融为一体。于是，它登上了机器学习顶会ICLR 2020。

鱼和熊掌，如何兼得？

首先，既然要利用声音产生和感知的规律，团队想起了角落里被冷落的声码器。从前，它主要用来合成人类语音：在人讲话的声波里，有许多周期性的波形，这些周期波便被当做基本的声源信号，被声码器分析和利用起来。

图丨大话西游

声码器的合成方法，主要分为加法合成与减法合成。加法，是把许多正弦波合在一起；减法，是从原有声波里过滤掉一部分，留下的就是结果。加法比减法的表达能力更强，需要的参数也更多，因为每个正弦波都有自己随着时间变化的振幅（音量）和频率（音高）。

加法合成，就是把不同的正弦波叠加起来丨ADSR Sounds

科学家借用了一种来自1990年的音频合成模型，把加和减结合起来。这种方法的加法部分，比其他同类模型拥有更多参数，令表达能力得到了保证；减法部分则滤掉了背景音，让主角的声波能得到更好的处理。并且，最后还可以把背景音加回去，让生成的效果更自然。

更重要的是，每一个模块都是可微分（differentiable）的，这也是DDSP里第一个D的由来。而一个数字信号处理（DSP）模型可微分，表示只要投喂某种乐器演奏的音频，它的训练便能从输入到输出一气呵成；相比之下，每个模块独自训练的模型，总体成绩未必达到最佳。

心有多大，舞台就有多大

现在，来感受一下小提琴的训练成果吧。

《名侦探柯南》主题曲哼唱素材来自作者，小提琴音色由AI合成；真人小提琴演奏片段来自Louis Liao，演奏者Carol Lin丨DDSP

仿佛一只熊孩子，修习小提琴不久，手法不甚娴熟，还没完全渡过拉锯时期。不过，装饰音倒有几分调皮的神采。

练着练着，熊孩子出了一道题。妈妈，你能听出这是哪句话吗：

原句语音素材由谷歌娘TTS合成，小提琴音色由AI合成丨DDSP

妈妈深感孺子可教，并奖励他再练一会儿小号：

《少女终末旅行》插曲与《千与千寻的神隐》主题曲哼唱素材来自作者，小号音色由AI合成丨DDSP

或许气息还有些不足，但至少不会被妈妈听出是AI在吹号了（误）。

以上音频，都是用DDSP线上试玩版生成的。官方提供了四种乐器，且支持音量和音高调节。

除此之外，你也可以自行录下其他乐音（比如猫叫），投喂给DDSP去学习。

说不定哪天，你一开口便能发出你家主子的声音，岂不美哉？只待团队把这口技AI实时化，你就能和主子展开更亲切的会谈了。

一张有声音的动图（误）丨TheCatsPyjaaaamas

参考文献

[1] Engel, J., Hantrakul, L., Gu, C., & Roberts, A. (2020). DDSP: Differentiable Digital Signal Processing. arXiv preprint arXiv:2001.04643.

[2] Theunissen, F. E., & Elie, J. E. (2014). Neural processing of natural sounds. Nature Reviews Neuroscience, 15(6), 355-366.

[3] Serra, X., & Smith, J. (1990). Spectral modeling synthesis: A sound analysis/synthesis system based on a deterministic plus stochastic decomposition. Computer Music Journal, 14(4), 12-24.

作者：栗子

编辑：odette

一个AI

你可猜得出那句10字传世名言？

本文来自果壳，未经授权不得转载.

阅读原文

新闻推荐

爱奇艺龚宇：演员片酬已降到五千万以下最高时到过1.5亿

“演员片酬降到了5000万人民币以下（一个演员一部剧），现在播出的剧都是符合限定价格的。”5月19日，在财报发布后的电话会议中，...

在家憋疯的外国人 用奇怪的方法练起了口技

在家憋疯的外国人用奇怪的方法练起了口技