互联网资料

深度合成是什么?

2020-06-30 21:07:35 新闻与传播编辑


2017年,依托于人工智能合成内容技术和生成对抗网络算法的深度合成(deep synthesis)技术逐渐进入大众视野,凭借可以实现换脸、人脸合成、语音合成、视频生成甚至数字虚拟人等诸多应用的能力,深度合成技术的商业化应用大量问世,技术应用潜力逐渐显现。

新闻与传播资料-深度合成


然而,深度合成技术强大的仿真能力也引发业界对技术作恶和技术滥用的担忧,例如金融诈骗、色情复仇、隐私侵权、商业诋毁等,甚至有可能威胁公共安全。


经历过技术初问世时的狂热追捧以及随之而来的“威胁论”和“恐慌论”,社会对深度合成技术及相关应用的认识正在逐渐趋于理性,而2020年也有望成为深度合成技术走向大规模商业化应用的元年。


那么,深度合成技术目前有哪些应用,未来发展趋势如何?深度合成技术有哪些法律挑战,又该如何应对?深度合成技术又将如何影响AI技术的治理和发展?

 

6月中旬,清华大学新传学院教授陈昌凤等被邀出席深度合成技术应用与治理”的线上研讨会,探讨深度合成技术对媒体信赖的影响,以及AI治理的影响。

 

一、“深度合成”的渊源和概念

(1)深度合成的渊源

“深度合成”作为一种AI合成内容(Al-generated media)技术,最早引起关注是在2017年,美国新闻网站Reddit的一个名为" deepfakes”的用户上传了经过数字化篡改的色情视频,即这些视频中的成人演员的脸被替换成了电影明星的脸。

此后,Reddit 网站成为了分享虚假色情视频的一个阵地。从那时起,新闻媒体开始使用deepfakes一词来描述这种基于人工智能技术的合成视频内容。尽管后来Reddit网站上的deepfake论坛因为充斥着大量合成的色情视频而被关闭,但deepfake背后的人工智能技术却引起了技术社区的广泛兴趣,开源方法和工具性的应用不断涌现,例如Faceswap. FakeAPP. face2face等。‘而后来一些涉及普京, 特朗普等政治人物的deepfake视频,更是将deeptake及其背后的技术推到了社会舆论的风口浪尖.欧美国家的政府机构开始职极跟进。


(2)深度合成的概念

深度合成( deep synthesis)被技术部门等泛指这类新型的合成内容及其背后的AI技术,取代媒体使用的deepfake(深度伪造),以表示区别。“深度合成"(deepfake synthesis)这一术语主要是指可以实现换脸、脸部表情修改、人脸和语音合成等活动的Al合成内容技术。


从技术原理上看,“深度合成”依赖于人工智能技术,尤其是可以从大量数据中自主学习的深度学习算法模型。“深度合成”背后的AI技术主要包括自动编码机(autoencodes)、和生产对抗网络(GAN)。就“深度合成”的实现过程而言,总的来看可以分为三个步骤:数据提取、数据训练和转换,过程中需要用到图片融合等技术。


(3)分类

就目前而言,典型的“深度合成”主要包括以下四种形式

一是人脸替换。主要是指将某一个人的脸部图像“缝合”到另外一个人的连上,从而覆盖目标人物的面部。

二是人脸再现。主要是利用深度合成技术改变人的面部特征,包括目标对象的面部器官,从而操纵目标对象的脸部表情。

三是人脸合成。这主要是用来创造全新的人脸图像。如Genertated Photos就是一个AI自动生成人脸的网站,该公司的免费图片可被用与网站和移动程序等,只要注明来源即可。

四是语音合成。这是指创建特定的声音模型,不仅可以将文字转为声音,还可以转化为接近真人语调和节奏的声音。

 

(4)发展趋势

深度合成当前的总体趋势是技术演进加快,商业化应用开始流行。具体来看:

一是在单一的音频、图像合成之外,深度合成技术朝着综合性的方向发展。如斯坦福大学等研究人员融合了多种深度学习方法,包括语音识别、图形搜索、人脸识别等技术,实现了根据输入的文字即可改变目标人物口型的技术效果。

二是面部合成之外,全身合成将成为新热点。2018年加州大学伯克利分校研究了新的AI算法,这种算法可用于学习源人物的舞蹈动作并映射在目标人物之上,让一个不会跳舞的人也能呈现近乎专业的舞蹈动作。

三是在2D合成之外,3D合成技术尤其是虚拟技术将是下一个阶段的重点。


标签: 深度合成