SenseTime利用人工智能生成极为逼真的“假视频”

  • 2020-01-19
  • 26

SenseTime曾研发出世界上第一个实现比人眼更高检测精度的计算机系统。他们一直深入学术界,为的是通过理论研究加深团队对于人工智能的理解并将其更好地利用到公司的运营和发展中去。目前,这家公司已成为全球领先的人工智能算法提供商。

2019年底,位于首尔的Hyperconnect公司的研究人员开发出一种工具(木偶),除了使用摄像头和静止图像外,其他什么也不用,就能改动历史人物、政治家或首席执行官的面部特征。

最近,来自香港的科技巨头SenseTime、南洋理工大学和中国科学院自动化研究所的一个团队提出了一种通过拍摄音频序列合成逼真的假视频的方法来编辑目标肖像片段。与木偶不同的是,SenseTime的技术是动态的,这意味着它能够更好地处理以前从未遇到过场景。

对于现在的技术水平来说,“多对多”音视频翻译的任务是具有挑战性的。通常只有很少的视频可用于训练人工智能系统,因为任何方法都必须处理对象之间的大型音视频变化,以及缺乏关于场景几何、材料、灯光和动力学的知识。

为了克服这些挑战,SenseTime团队的方法使用表达式参数空间,或者在训练开始前设置的与面部特征相关的值,作为音频到视频映射的目标空间。他们说,这有助于系统比全像素更有效地学习映射,因为表达式在语义上与音频源更相关,并且可以通过机器学习算法生成参数来操作。

他们研发的系统从人的嘴部区域提取特征点,首先将其表示为热图,然后将热图与源视频中的帧相结合,将热图和帧作为输入来完成嘴部区域,以确保每个运动都得到精确的映射。

研究人员表示,在一项研究中,100名志愿者评估了168个视频片段的真实性,其中一半是由系统合成的,而在70.1%的时间里被标记为“真实”。他们将此归因于他们的系统捕捉牙齿和面部纹理细节的卓越能力,以及嘴角和鼻唇沟等特征。

为了防止他们的系统被盗用或滥用,他们计划采取一定的“保护措施”,并制定和执行法律,强制编辑视频时贴上这样的标签。他们还鼓励公众充举报任何可疑的视频。希望在不损害公众切身利益的情况下,推广尖端和创新技术。

为了对抗“深度假视频”的蔓延,Facebook与亚马逊网络服务平台、微软以及众多高校的学者一起,率先发起了“深度假货检测计划”。去年12月,谷歌与谷歌内部技术孵化器Jigsaw合作生产的大量视觉深度赝品被纳入一个基准,供研究人员免费使用,用于合成视频检测系统的开发。在这些努力的同时,Facebook、Twitter和其他在线平台也承诺实施有关人工智能操控媒体处理的新规则。

SenseTime在香港、中国大陆、日本和新加坡都设有办事处。他们研发的深度学习和计算机视觉技术为教育、医疗、智能城市等多个领域提供了服务,目前其技术已被全球700多家客户和合作伙伴认可。



作者:Suki