AI技术重现的老北京原声影像又火了 网友:这口音太过真实
机器之心报道
参与:张倩、蛋酱
「大谷的游戏创作小屋」又用AI修复了一段老北京影像,这次还带时代原声……
剃头挑子、街边地摊、京韵大鼓,多数人可能只在电影、电视剧中看过老北京的这些景象。但早在 90 年前,就有人将这些场景都拍了下来,而且完好地保存在美国南卡罗莱纳大学影像库。影片中还收录了时代原声,原汁原味地记录了当时老北京的平民生活。
90 年后,有人将这些影片翻了出来,还用 AI 进行了修复,包括上色、提高分辨率等操作。
从这段影片中,我们能看到很多非常生活化的场景,比如小学生在学校外边买饭:
小伙子找个剃头摊剃头:
在观赏修复效果的同时,我们还能听到剃头师傅和小伙子一问一答:
「疼不疼?」
「不疼。我还不哭呢外带着。」
「嘿,你家什么地方住?」
「宝坻县」
「这头剃得好,不疼。剃不好,真疼!」「剃好了咱还找你去」
「你家几口人呐?」
「十口!」
「十口人?怎么那么些人呢?」
「人多,好。」
「一天挣二毛钱够挑费不?」
「一天挣两块!」
「哦,这还不错。」
这段场景被当时的拍摄者描述为 「不用付租金的理发师」。
剃完之后,小伙子还不忘给个好评,一边拍着脑瓜一边说:「剃挺好!」 那时候的人大概没有预料到,在 90 年后的今天,现代人都忙着生发、植发、戴假发……
希望坐在电脑前的你变强变秃后也能保持这份心态。
剃完了头逛逛街吧,看看 90 年前的首都地摊长什么样:
可以看到,90 年前的北京街头也是人头攒动,有卖衣服的、卖(遛)鸟的、卖各种小商品的,其热闹程度似乎不亚于疫情前的王府井。
除了这些,街头还有一些老艺人,向我们呈现百年前的京韵大鼓:
看到这里,你或许已经猜到了这段视频的修复者,他就是前段时间很火的 B 站 up 主 「大谷」。就在不久前,大谷在他的 B 站账号「大谷的游戏创作小屋」 上发布了 。截止目前,该视频的累计播放量已经达到 200 多万,还得到了央视等权威媒体的报道。
这次的修复影像由「大谷的游戏创作小屋」和央视新闻联合发布。原视频出处为南卡罗莱纳大学影像库馆藏胶片,音效也不是后期配音,全部为时代原声。
看完之后,很多人才发现,一百年前的北京市民和现在长得一模一样,口音也如出一辙:「还在想回去要咋交流,原来一样的哈哈哈」
还有人评价说,「剃头的俩人像在说相声”。
让我们一起通过视频感受一下:
这次修复用了什么技术?
在第一期的老北京影像修复过程中,UP 主借鉴了海外 YouTube 博主 Denis Shiryae 的影像修复教程,包括上海交大 Bao Wenbo 等人提出的 DAIN 插帧技术(参见论文《Depth-Aware Video Frame Interpolation》)。
这一次,UP 主特别提到,除了上述修复技术,自己还用到了一种新技术:DeepRemaster。
论文地址:http://iizuka.cs.tsukuba.ac.jp/projects/remastering/en/index.html
这项技术由日本筑波大学和早稻田大学的两位研究者合作提出,论文被计算机图形学顶会 SIGGRAPH Asia 2019 收录。与近年来使用递归模型处理视频的方法不同,该方法对老旧影像的修复是基于全卷积网络实现的。
老旧影片的修复包含多项步骤,比如超分辨率、噪声消除和对比度增强,旨在让已经老化的影片介质恢复到原始状态。当然,由于特定时代的技术限制,许多老旧影片要么是黑白影像,要么色彩呈现质量较低,因此在修复中也常常需要着色。
在这项研究中,研究者提出了一个单一框架,以半交互的方式处理所有重制任务。该框架基于带有注意力机制的时间卷积神经网络。他们提出的 source-reference 注意力允许模型处理任意数量的彩色参考图像(reference color images),在不需要分割的情况下给长视频着色,同时保持时间一致性。与之前的方法相比,该方法的性能随着视频长度和彩色参考图像数量的增长而增长。
DeepRemaster 的网络架构如下:
输入一系列的黑白图像,通过预处理网络修复,修复的结果作为最终输出视频的亮度通道。然后,source-reference 网络将预处理网络的输出和任意数目的彩色参考图像结合,产生视频的最终色度通道。
在着色过程中,研究者使用了 source-reference 注意力,让模型依照彩色参考图像中相似区域的颜色对视频进行着色。模型输出部分就是输入视频重制后的版本。
为了测试网络的效果,研究者对一些老旧影像进行了重制,并对该方法进行了定量和定性的深入评估。
在下图中,每个视频最上面一行的图像是着色的参考图像。实验结果表明,利用 source- reference 注意力,使用少量参考图像即可高效获得稳定、一致的数千帧图像。
《Right to Health, A (Part I)》重制结果, 使用了三张参考图像。
《Freedom Highway (1956)》重制结果,使用了两张参考图像。
《The Jungle Book(1967)》重制结果,使用了 41 张参考图像。
与以往方法相比,用 DeepRemaster 重制的图像与真实世界的色彩更加一致。
在噪声消除方面,DeepRemaster 能够很好地处理各种类型的噪声,同时也能够锐化输入图像。
如果你也对影片修复感兴趣,可以参考论文中的方法。
原标题:《剃头挑子、京韵大鼓、摆地摊,AI技术重现的老北京原声影像又火了,网友:这口音太过真实》
阅读原文
新闻推荐
文学报·此刻夜读对世界各地的读者来说,陀思妥耶夫斯基这个名字并不陌生,他所写的《罪与罚》《白痴》《群魔》《卡拉马佐夫...