从DeepNude到TecoGAN,AI技术带给我们的惊喜和挑战

  • A+

AI深度学习软件DeepNude把清凉照,使用人工智能产生不雅照片。这个公开发售的软件,招来大家怒骂之后,DeepNude不久就下架了。

 

实现DeepNude这样程度的人工智能技术不难,但是伤害却可以很大。任何女性的泳装照,都可以在一瞬间变成以假乱真的裸照,那是多可怕的事。而且更高一层技术的,根本不用泳装照,只要一点皮肤露出就行。照这样下去,以后谁敢在街上行走?

 

因为DeepNude这样的技术不难,根本防不胜防,下架了一个DeepNude,还有更多的DeepNude在黑市流传。除了告死散播假图的人之外,我也想不出更好的办法。就在不久前,国外版微博(推特)上有位叫@deepnudeapp的用户开发出了一款名为DeepNude的软件。

 

DeepNude主要利用了神经网络技术,通过AI算法处理照片上的细节,并且“脱掉”照片中人物的衣服。在不破坏画面内容的前提下,DeepNude还真能做得有模有样。。。真是苦了霉霉

 

很多宅男争先恐后地跑去下载,只求窥探女神在AI视角下的“私密照片”。不过开发者也并不是想要将DeepNude用于勒索和犯罪,因此每张处理过的照片上都会有一个红色的FAKE水印,好证明这张照片是假的。

 

而且这个水印不是像很多美化App一样充钱就可以去除的,即便你花50美元购买了付费版,图片水印也只会变小而已。但有没有水印不是重点,重点是,AI已经可以实现这种级别的伪造了吗?

 

 

DeepNude软件只针对女性,结果被喷到下架,据开发者Alberto(化名)介绍,DeepNude是基于开源算法pix2pix所开发的软件,其中这个算法来源于美国加州大学伯克利分校的某位研究者。

 

 

关于pix2pix,艾薇在这里简单解释一下。pix2pix是近几年比较火的基于对抗生成网络(Generative Adversarial Net)的一个图像处理算法,后者被内行的人简称为GAN。

 

 

基于GAN的框架,pix2pix提供了一种输入——输出的概念。在这个过程中,pix2pix寻找“输入”与“输出”这两者之间的一种对应关系,直接与只能随机输出的GAN区别开来。

 

 

那怎么实现呢?艾薇找一大堆数据给你们肯定没人看,所以我直接找到了一个图像演示网站。

 

 

对于pix2pix这个算法来说,最重要的就是拥有“输入”和“输出”之间的数据库,而且允许所有类型的图像正确变换。

比如在这个网站上,你只输入了一只猫咪的线条,pix2pix就能通过算法,给你输出一只完整带毛的喵星人。虽然是不怎么完整啦。。。

 

或者是输入代表不同物体的色块,算法立马就给你“还原”一整栋建筑出来,输入的数据越多就越精准。而DeepNude这个软件也是一样。

 

在开发初期,为了能让算法顺利进行学习,Alberto利用一万张女性照片作为原始数据库,深度研究女性身体线条和某些敏感部位。

 

从DeepNude到TecoGAN,AI技术带给我们的惊喜和挑战

 

在处理照片时,照片上裸露的部分越多,算法越能帮你输出最相像的裸体图片,拍张裸照一对比可能真的一模一样。。。有一点要注意的是,DeepNude只针对女性的身体做了功课,只能处理女性照片,如果你输入一张男性照片,出来的照片可以说相当一言难尽了。。。

 

 

讲真,这种做法真的不是在歧视和犯罪吗?因为这件事,开发者Alberto在推特上也背上了变态偷窥男的骂名,但据其本人回应,他“只是一名技术爱好者”,并且下一步还会推出一个男性版本。不过这不可能了,他已经被全世界的网友喷到把官网都下线了。

 

 

 

美颜滤镜之后竟然是“脱衣服”,大家都知道的吧,现在用手机拍照已经越来越不真实了。AI的出现让很多拍照小白无视对焦、曝光和构图,无脑按下快门就能拍出不错的照片。

 

 

一些主打自拍功能的手机更是有AI美颜功能。通过对用户性别、面部轮廓、肤色和场景等特点的智能识别优化,为你量身定制最适合你的美颜滤镜。

 

 

就是云整容啦~

 

 

只要用过美颜的人,基本上就不会再接受没有任何美颜的自拍的,毕竟爱美之心人皆有之,美颜被炒得火热也不无道理。而且在火热的背景下,有人甚至反其道而行之,利用AI技术开发出能够一键还原美颜修图的反美颜App,博得了不少的眼球。

 

 

 

 

不过,把AI用来美颜还算无可厚非,把它拿来“脱”别人衣服,这是不是有点侵犯了别人的隐私?之前国内也有利用AI技术侵犯别人隐私的例子,比如“帮助你发现你的她有没有黑历史”的原谅宝,现在也已经被网友骂凉了。

 

 

在这里艾薇不讨论是非对错,单纯就从这个做法出发,谈谈为什么这类软件都不受欢迎。首先,与DeepNude类似,原谅宝也有属于自己的数据库,数据有100TB之多。

 

 

在这个数据库里面,保存着所有开发者从各种渠道收集来的从事敏感行业,或者有过黑历史的小姐姐的个人信息,包括照片。据说用户只要上传某个小姐姐的照片,原谅宝通过AI人脸识别技术,就能找出这个人是否有黑历史,达到保护“老实人”的目的。

 

 

 

 

当然艾薇没试过啦,毕竟我还没有女票。想法是个好想法,可是艾薇觉得,让100TB的个人数据供人查看和比对,这个贩卖个人隐私有什么不一样?

 

 

都知道个人隐私是最私密的信息,一旦被人收集起来恶意利用,这跟现实里脱光衣服赤裸裸站在别人面前没什么区别。不管是DeepNude还是原谅宝,它们会凉其实我并不意外,想想当你的手机号码被泄露的时候有多生气就知道了。是技术的错还是人的错?科技是福还是祸?这个问题,艾薇已经不想再说了。

 

 

以前我们都知道,只有图片能P,视频是P不了的,因此很多时候视频才是决定真相的唯一标准。但你肯定有听过之前的视频AI换脸软件吧。。。

 

 

 

 

画面中的黄蓉看起来是杨幂的脸,但饰演这个角色的人其实是朱茵,只不过脸被“操作”过了。

 

 

初次看的时候艾薇真是觉得好牛比,甚至还想找部大片把自己的脸给换上去。可惜啊,这只是普通人的想法,更多人背地里把它当成了色情报复的武器。

 

 

 

被换过脸的某动作片截图,你看得出破绽吗?反正艾薇是不行。。。甚至还要担心以后会不会变成岛国片的男主角。所以你要再问艾薇科技是福还是祸,我会说科技只是工具,就像菜刀一样,有人拿来切菜,有人拿来砍人。

 

 

社交网络方便了信息交流,最后却被人搞得诈骗、网络暴力、个人信息泄露满天飞,让人们防不胜防;变声软件一开始也是为了好玩,结果还有男人扮成女人,成了骗钱的工具;互联网金融可以降低金融服务门槛,提高金融普惠,提升金融服务体验,然而却被骗子们拿来卖P2P;微信支付让我们不用再带钱包出门,但也给网络诈骗提供了便利,假装美女骗红包的抠脚大汉到处都是;网络直播技术让每个人都可以成为主播,拉近人与人的距离,但也给一些色情从业者大开洞门;区块链技术可以去中心化,实现智能合约,然而却被一些人用来发币割韭菜……

 

 

“微信之父”张小龙说,“善良比聪明更重要”,AI可以很智能,但人才会聪明。认清这一点,我们就不会让AI背锅了。

最近讨论比较火视频播放器JavPlayer一直是几个月业界讨论话题,网络上发酵到现在,终于可以给大家总结下最近的马赛克破坏版影片JavPlayer到底是怎么回事?JavPlayer马赛克破坏版,简单讲就是利用AI技术,在打有马赛克影片的马赛克基础上进行修复操作,来实现去除马赛克,还原图像本质,依靠的全是大数据模型,详细的原理后面会讲!

对于 JavPlayer这样的技术,概念和之前的Deepfake换脸和DeepNude换身体的AI技术很类似。马赛克破坏版技术的发起人可能是推特上的一个叫“Javski”的用户,他发布的JavPlayer分为体验版和正式版,是一种可以降低乃至去除马赛克的软件工具!破坏马赛克的技术并不是创新,而是早有的研究技术,是基于慕尼黑工业大学的研究人员,

“Javski”提出了一种用于实现视频超分辨率的新型GAN —— TecoGAN

浏览了一下,感觉结构正大光明四平八稳,个人觉得有意思的亮点是其中体现出多个网络耦合构建复杂功能的思想。这里面用了好几个网络,估计运动,生成细节,计算特征差异等等,所以以后构建网络的基本单元就不是一层一层的,而是一个一个的了。

TecoGAN项目地址:https://github.com/thunil/TecoGAN

以及“亚像素运动补偿 + 视频超分辨(Video Super Resolution)”技术

Video Super Resolution:https://www.cnblogs.com/RyanXing/p/10010194.html

TecoGAN接管部分处理的记录模式正在测试中。TecoGAN是一种使用深度学习的视频超分辨率算法。

https://github.com/thunil/TecoGAN

下面我们就来看看这个TecoGAN算法技术原理吧:

低清视频也能快速转高清:超分辨率算法TecoGAN

来自慕尼黑工业大学的研究人员提出了一种用于实现视频超分辨率的新型 GAN——TecoGAN。利用该技术能够生成精细的细节,甚至蜘蛛背上的斑点都清晰可见,同时还能保持视频的连贯性。

图像超分辨率技术指的是根据低分辨率图像生成高分辨率图像的过程,该技术希望根据已有的图像信息重构出缺失的图像细节。视频超分辨率技术则更加复杂,不仅需要生成细节丰富的一帧帧图像,还要保持图像之间的连贯性。

在一篇名为「Temporally Coherent GANs for Video Super-Resolution (TecoGAN)」的论文中,来自慕尼黑工业大学的研究人员提出了一种用于实现视频超分辨率的新型 GAN——TecoGAN。

此前,已经有开发者利用 ESRGAN 这种视频超分辨率模型重制了很多单机游戏,包括经典的重返德军总部、马克思·佩恩和上古卷轴 III:晨风等等。重制的高清版游戏在画质上有很好的效果,而且还保留了原始纹理的美感与风格。

以下三幅动图的右半部分是用 TecoGAN 生成的,说不定用它来重制单机游戏会有更惊人的效果。该方法能够生成精细的细节,较长的生成视频序列也不会影响其时间连贯度。

有马变无马,影片去马赛克技术原理github项目:TecoGAN

图中,动物皮的网格结构、蜥蜴的图案和蜘蛛背部的斑点无不彰显该方法的效果。该方法中的时空判别器在引导生成器网络输出连贯细节方面居功至伟。

这个视频超分辨率 GAN 牛在哪里?

自然图像超分辨率是图像和视频处理领域的一大经典难题。对于单一图像超分辨率(SISR),基于深度学习的方法可以达到当前最佳的峰值信噪比(PSNR),而基于 GAN 的架构在感知质量方面实现了重大改进。

在视频超分辨率(VSR)任务中,现有的方法主要使用标准损失函数,如均方差损失,而不是对抗损失函数。类似地,对结果的评估仍然聚焦于基于向量范数的指标,如 PSNR 和结构相似性(Structural Similarity,SSIM)指标。与 SISR 相比,VSR 的主要难点在于如何获取清晰的结果,且不会出现不自然的伪影。基于均方差损失,近期的 VSR 任务使用来自低分辨率输入的多个帧 [13],或重用之前生成的结果 [28] 来改进时间连贯度。

尽管对抗训练可以改善单个图像的视觉质量,但它并不常用于视频。在视频序列案例中,我们不仅要研究任意的自然细节,还要研究可以稳定形式基于较长图像序列生成的细节。

该研究首次提出了一种对抗和循环训练方法,以监督空间高频细节和时间关系。在没有真值动态的情况下,时空对抗损失和循环结构可使该模型生成照片级真实度的细节,同时使帧与帧之间的生成结构保持连贯。研究者还发现了一种使用对抗损失的循环架构可能会出现的新型模型崩溃,并提出了一种双向损失函数用于移除对应的伪影。

该研究的核心贡献包括:

提出首个时空判别器,以获得逼真和连贯的视频超分辨率;

提出新型 Ping-Pong 损失,以解决循环伪影;

从空间细节和时间连贯度方面进行详细的评估;

提出新型评估指标,基于动态估计和感知距离来量化时间连贯度。

论文:Temporally Coherent GANs for Video Super-Resolution (TecoGAN)

有马变无马,影片去马赛克技术原理github项目:TecoGAN

论文链接:https://arxiv.org/pdf/1811.09393.pdf

摘要:对抗训练在单图像超分辨率任务中非常成功,因为它可以获得逼真、高度细致的输出结果。因此,当前最优的视频超分辨率方法仍然支持较简单的范数(如 L2)作为对抗损失函数。直接向量范数作损失函数求平均的本质可以轻松带来时间流畅度和连贯度,但生成图像缺乏空间细节。该研究提出了一种用于视频超分辨率的对抗训练方法,可以使分辨率具备时间连贯度,同时不会损失空间细节。

该研究聚焦于新型损失的形成,并基于已构建的生成器框架展示了其性能。研究者证明时间对抗学习是获得照片级真实度和时间连贯细节的关键。除了时空判别器以外,研究者还提出新型损失函数 Ping-Pong,该函数可以有效移除循环网络中的时间伪影,且不会降低视觉质量。之前的研究并未解决量化视频超分辨率任务中时间连贯度的问题。该研究提出了一组指标来评估准确率和随时间变化的视觉质量。用户调研结果与这些指标判断的结果一致。总之,该方法优于之前的研究,它能够得到更加细节化的图像,同时时间变化更加自然。

模型方法

该研究提出的 VSR 架构包含三个组件:循环生成器、流估计网络和时空判别器。生成器 G 基于低分辨率输入循环地生成高分辨率视频帧。流估计网络 F 学习帧与帧之间的动态补偿,以帮助生成器和时空判别器 D_s,t。

训练过程中,生成器和流估计器一起训练,以欺骗时空判别器 D_s,t。该判别器是核心组件,因为它既考虑空间因素又考虑时间因素,并对存在不现实的时间不连贯性的结果进行惩罚。这样,就需要 G 来生成与之前帧连续的高频细节。训练完成后,D_s,t 的额外复杂度不会有什么影响,除非需要 G 和 F 的训练模型来推断新的超分辨率视频输出。

有马变无马,影片去马赛克技术原理github项目:TecoGAN

有马变无马,影片去马赛克技术原理github项目:TecoGAN

图 2:具备动态补偿(motion compensation)的循环生成器。

该研究提出的判别器结构如图 3 所示。它接收了两组输入:真值和生成结果。

有马变无马,影片去马赛克技术原理github项目:TecoGAN

图 3:时空判别器的输入。

损失函数

为了移除不想要的细节长期漂移,研究者提出一种新型损失函数「Ping-Pong」(PP) 损失。

有马变无马,影片去马赛克技术原理github项目:TecoGAN

图 4:a)不使用 PP 损失训练出的结果。b)使用 PP 损失训练出的结果。后者成功移除了漂移伪影(drifting artifact)。

如图 4b 所示,PP 损失成功移除了漂移伪影,同时保留了适当的高频细节。此外,这种损失结构可以有效增加训练数据集的规模,是一种有用的数据增强方式。

该研究使用具备 ping-pong ordering 的扩展序列来训练网络,如图 5 所示。即最终附加了逆转版本,该版本将两个「leg」的生成输出保持一致。PP 损失的公式如下所示:

有马变无马,影片去马赛克技术原理github项目:TecoGAN

有马变无马,影片去马赛克技术原理github项目:TecoGAN

图 5:使用该研究提出的 Ping-Pong 损失,g_t 和之间的 L_2 距离得到最小化,以移除漂移伪影、改进时间连贯度。

实验结果

研究者通过控制变量研究说明了 L_(G,F) 中单个损失项的效果。

图 6:树叶场景对比。对抗模型(ENet、DsOnly、DsDt、DsDtPP、和 TecoGAN)比使用 L_2 损失训练的方法(FRVSR 和 DUF)具备更好的视觉效果。右图「temporal profiles」中,DsDt、DsDtPP 和 TecoGAN 在时间连续性上显著优于 ENet 和 DsOnly。本文提出的判别器网络的时间信息成功抑制了这些伪影。

本人一开始其实是要做video SR的课题的~但是后来几经波折还是没有做,最近看到一个有趣的报道,为此写下这篇学习笔记

图像超分辨率技术指的是根据低分辨率图像生成高分辨率图像的过程,该技术希望根据已有的图像信息重构出缺失的图像细节。视频超分辨率技术则更加复杂,不仅需要生成细节丰富的一帧帧图像,还要保持图像之间的连贯性。

对于单一图像超分辨率(SISR),基于深度学习的方法可以达到当前最佳的峰值信噪比(PSNR),而基于 GAN 的架构在感知质量方面实现了重大改进。

该论文首次提出了一种对抗和循环训练方法,以监督空间高频细节和时间关系。在没有真值动态的情况下,时空对抗损失和循环结构可使该模型生成照片级真实度的细节,同时使帧与帧之间的生成结构保持连贯。研究者还发现了一种使用对抗损失的循环架构可能会出现的新型模型崩溃,并提出了一种双向损失函数用于移除对应的伪影。

以下三幅动图的右半部分是用 TecoGAN 生成的,该方法能够生成精细的细节,较长的生成视频序列也不会影响其时间连贯度。

有马变无马,影片去马赛克技术原理github项目:TecoGAN

理论部分
摘要
对抗训练在单图像超分辨率任务中非常成功,因为它可以获得逼真、高度细致的输出结果。然而,当前最优的视频超分辨率方法仍然只用较简单的范数(如 L2)作为对抗损失函数(MSE loss)。直接向量范数作损失函数求平均的本质可以轻松带来时间流畅度和连贯度,但生成图像缺乏空间细节(不够sharp,过平滑等现象)。该研究提出了一种用于视频超分辨率的对抗训练方法,可以使分辨率具备时间连贯度,同时不会损失空间细节。

本文聚集于video SR新型的loss,并基于已构建的生成器框架展示了其性能。实验证明时间对抗学习(temporal adversarial learning)是获得照片级真实度和时间连贯细节的关键。除了时空判别器以外,作者还提出新型损失函数 Ping-Pong loss,该函数可以有效移除循环网络中的时间伪影,且不会降低视觉质量。之前的研究并未解决量化视频超分辨率任务中时间连贯度的问题。作者提出了一组指标来评估准确率和随时间变化的视觉质量。用户调研结果与这些指标判断的结果一致。总之,该方法优于之前的研究,它能够得到更加细节化的图像,同时时间变化更加自然。

introduction
For single image super-resolution (SISR), deep learning basedmethods achieve state-of-the-art peak signal-to-noise ratios (PSNR), while architectures based on Generative Adversarial Networks (GANs) achieve major improvements in terms of perceptual quality.

Although adversarial training can improve perceptual quality of single images, it is not commonly used for videos(GAN其实并不常用于video任务)在视频序列案例中,不仅要研究任意的自然细节,还要研究可以稳定形式基于较长图像序列生成的细节。

本文首次提出(adversarial and recurrent training approach)对抗性和重复性训练方法,进而同时监督高频细节于时空关系。并且没有GT,spatio-temporal adversarial loss and the recurrent structure使得我们的模型产生真实图片的细节且保证从一帧到另一帧产生连贯的结构。We also identify a new form of mode collapse that recurrent architectures with adversarial losses are prone to, and propose a bi-directional loss to remove the corresponding artifacts(我们还确定了一种新的模式崩溃形式,这种模式崩溃是具有对抗性损失的经常性体系结构容易发生的,并提出了一种双向损失来消除相应的伪影。)

论文的主要贡献包括:

提出首个时空判别器(spatio-temporal discriminator),以获得逼真和连贯的视频超分辨率;

提出新型 Ping-Pong loss,以解决循环伪影;

从空间细节和时间连贯度方面进行详细的评估;

提出新型评估指标,基于动态估计和感知距离来量化时间连贯度。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: