Select Language

AI社区

数据要素产业

深兰科技|计算机视觉+艺术处理,现实场景秒变动漫大片

深兰科技|计算机视觉+艺术处理,现实场景秒变动漫大片

近日

在深兰科技的官方抖音上

发布了这样一个视频

这是利用人工智能技术,将电影《魔兽》中的片段转成了动漫的画面。本就科幻的剧情,在动漫场景下,不禁让人重回游戏,再次走入两个世界的种族为了各自的生存和家园奋起而战的故事……

深兰科学院的算法专家借助计算机视觉技术,基于机器学习和生成对抗网络(GAN),对图像进行了风格迁移处理,可将真实世界的图像直接转换为高品质动漫风格。由此,画师便可将节省下来的大量时间,用于更多富有创造性的工作,从而产生更大的价值。而经典老电影,也可以利用去燥、上色、转动画等一系列人工智能方法进行处理,来一次二次元的穿越,满足人们越来越多元化的视觉需求。

真实场景转动画

1.技术背景

 漫画是在日常生活中我们能够广泛接触到的一种艺术形式。除了艺术本身之外,它的适用范围从出版媒体到儿童教育,和其他艺术形式一样,很多著名的漫画形象都是基于现实世界的场景创作的。图1-1展示了真实照片转换成漫画的效果。

深兰科技|计算机视觉+艺术处理,现实场景秒变动漫大片

图1-1人物变卡通

为什么要把真实场景转换成卡通呢?在现实工作中,使用卡通风格手绘重现现实世界的场景是一个费时费力的工作,而且需要很多专业的绘画技能。为了获得高质量的画面,原画作者必须仔细绘制每个线条,并对目标场景的每种颜色区域进行涂色。

目前看来,具有标准特征的现有艺术编辑软件和算法无法产生令人满意的漫画效果。因此,如果有专业技术能够自动将真实世界的照片转换为高品质的动漫风格画面,对于画师来说是非常有帮助的一件事:这可以为他们节省大量时间,让他们专注于更有意义和创造性的工作。

以艺术方式对图片进行处理的研究一直是计算机视觉的热门方向。此前的传统方式通常针对特定样式开发特定的算法。然而,这意味着需要做出大量技术上的努力才能做出模仿个人艺术家的细致风格。而基于机器学习的风格迁移方法,可以通过示例图片对图像进行风格化,已经引起了很多人的关注。特别是生成对抗网络(GAN)引入了循环方式训练,进一步探索并提高了风格迁移的质量,GAN的独特之处在于可以使用不成对照片和风格化图像进行训练。

尽管基于学习的风格迁移已经有了很多成果,但最好的风格迁移方法仍无法生产具有可接受质量的漫画风格图像。

究其原因:

首先,漫画风不是添加纹理和边界线,而是需要从现实世界图像的复杂构造中高度简化;

其次,尽管艺术家之间风格各异,但卡通图像具有一些明显共通之处:边缘清晰、颜色遮罩平滑、质地相对简单——这与其他形式的艺术作品截然不同。

这次我们要介绍的技术是清华大学提出CartoonGAN,一个基于GAN的全新照片漫画化方法。该方法需要一组照片和一组漫画图像进行训练。为了让训练数据易于获得,同时获得高质量的结果,我们不需要让两组图像互相配对或对应。从计算机视觉算法的角度来看,漫画风格化的目标是将照片流型映射到漫画流型中,同时确保其中的内容不变。

2.技术细节

2.1 网络结构

CartoonGAN作者提出了一个专用的GAN网络架构,包括生成网络G和判别网络D,都比较直观基础,如图2-1所示:

深兰科技|计算机视觉+艺术处理,现实场景秒变动漫大片

图2-1CartoonGAN的生成器(上)/判别器(下)的网络结构

生成器网络

生成器网络G用于将输入图像映射到漫画流型中。在模型经过训练后,漫画风格化任务就可以执行了。如图2-1所示,G从平卷积阶段开始,随后是两个下采样卷积模块,以对图像进行空间压缩和编码。随后使用相同布局的八个残差区块来构建内容和流形特征。最后,通过两个上卷积模块重构输出的漫画风格图像。

判别器网络

为了与生成器网络形成互补,判别器网络D用于判断输入图像是否是「真实的」漫画图。由于判断图像是否为漫画是个要求不高的任务,因此使用D中参数较少的简单判别器。与图像分类任务不同,漫画风格鉴别任务依赖于图像的局部特征,所以判别器网络D被设计得较浅。如图2-1所示,在平层之后,网络采用两个步长的卷积块来降低分辨率并编码用于分类的基本局部特征。随后,使用特征构造块和3×3卷积层来获得分类返回。

2.2 损失函数

卡通图像具有锐利边缘,顺滑的色彩偏差,纹理也相对简单,所以作者定义了新的loss来完成这个需求。

作者提出了损失函数L(G,D),由两部分组成,第一部分为普通的GAN损失,第二部分为保证原真实图像内容的内容损失,如公式所示:

深兰科技|计算机视觉+艺术处理,现实场景秒变动漫大片


可以看到公式②中比普通GAN损失多加了一个,也就多了一个数据集。那这个数据集怎么来的,它是通过对原始卡通图像进行边缘模糊后得到的(边缘模糊图片见图2-2,左边为原图,右边位边缘模糊图),目的是为了让生成网络G生成边缘清晰的图片,所以判别为假数据。而公式③中的就是Neural Style(风格迁移)里面的内容损失,只不过把L2损失改为L1损失,在这里我们可以看成是一个正则化。

深兰科技|计算机视觉+艺术处理,现实场景秒变动漫大片

图2-2清晰动漫图(左)、边缘模糊图(右)

2.3 初始化技巧

作者引入一个初始化技巧,用公式③中的损失先来单独训练G,大概训练10个epoch。这样做的目的是为了生成的图片初始后就能保证原真实场景的内容,因为普通的单向GAN要是没有加入一些限制很难稳定保证原始图片的内容,大多会出现扭曲或更严重的情况。

3.总结

经过上述的技术细节来训练CartoonGAN,就可以将现实的场景完美的转换成漫画风格。

最后,我们就来欣赏一些漂亮的转换结果。

深兰科技|计算机视觉+艺术处理,现实场景秒变动漫大片

深兰科技|计算机视觉+艺术处理,现实场景秒变动漫大片

深兰科技|计算机视觉+艺术处理,现实场景秒变动漫大片

深兰科技|计算机视觉+艺术处理,现实场景秒变动漫大片