泰国程序员开发VTuber形象生成系统,人人都能当虚拟偶像

自从绊爱在2016年末发布了第一个视频之后,这场名为虚拟偶像的大火就越烧越旺。

虚拟偶像被称为vtuber,v是虚拟(virtual)的缩写,而tuber则揭示了她们与正常人认知中偶像的区别:虚拟偶像主要的活动场所是在Youtube上,她们的头像是虚拟的,身高体重等等人设都是虚拟的,只有背后的主播(又被称为中之人)是真实的。

自称“世界第一名虚拟主播”的绊爱

今天,在互联网上活跃着成千上万的虚拟偶像。她们有些隶属于较大的企业,有专门的画师负责制作人物的模型,发展比较好的还会有3D建模的支持;有些则隶属于个人,很难得到3D模型,但是也得有具体的画师在背后提供足以进行面部捕捉的人物立绘。

画师,这个职业造就了虚拟偶像这个产业,也构成了“成为虚拟偶像”的基本门槛。即使早就有了Facerig这种简易又方便的面部捕捉软件,但是做一个能用的3D脸部模型对绝大多数没有相关经验的人来说还是太过困难

Facerig标志性的小浣熊

但是面部捕捉的模型(即使只有个头)并不简单

即使在Vtuber行业发达的日本,同时掌握3D建模和角色设计的人才也不算多。这点反映在市场价格上就是:在网上一个能用的3D虚拟偶像模型出价近4万人民币,更多的个人Vtuber都选择了简单的2D图像叠加,这样人物只能做出简单的动作,比如摆头或者眨眼——就算这样,也需要几千元人民币的维护费用。

2D图像叠加而成的简易Vtuber

帕鲁克·昆古恩(Pramook Khungurn)是一位在谷歌地图日本分部工作的软件工程师(不过他本人是一位毕业于美国康奈尔大学的泰国人)。之前他主要研究的领域是计算机图形学,还对算法和机器学习有所涉猎。而在所有这些个人简历性质的描述之外,这位泰国程序员还是一位喜欢ACG文化的人。

昆古恩在一篇自我介绍网志中使用了长门有希作为封面图片

一直以来,他把自己计算机图形学上的能力运用到了对ACG的个人兴趣上,比如参与到双叶频道对计算机系统的拟人化。最近,他(就像日本很多ACG爱好者一样)迷上了虚拟偶像。这位程序员当然也不会画画,但他找到了别的方式来“成为偶像”。

昆古恩的工作成果

昆古恩将虚拟偶像的模型交给深度神经网络进行学习,让AI学会了如何处理动漫人脸上的各个部分,就像上面那张图一样,通过调整“左眼”、“脖子”的参数,控制人脸的运动。他希望在此基础上输入任何一张人脸,都能做到如此自然地运动,就像下面这样。

奥巴马与彩虹社的Vtuber们

昆古恩的构想源于自动生成动漫人物的GAN图库以及衍生出的一系列动漫人物相关的图片生成网络。昆古恩觉得,既然深度学习的人工智能是未来动漫创作的重要工具,那么深度学习是不是也能帮助创建Vtuber内容?

GAN自动生成动漫小姑娘的过程

昆古恩先从简单的2D模型下手,他先是截下了彩虹社(一个虚拟偶像企业)诸多vtuber做出不同姿势(眨眼、转头)时的截图,给定每种姿势一个编号,导入到能自我学习的神经网络中去——先教会AI识别这些人物的不同姿势。

绊爱的眨眼

在系统有了一定的辨别能力后,昆古恩将GAN图库中的8000个模型加以处理后导入到神经网络中。经过处理,这些看起来各不相同的动漫人物头像其实都可以被拆分成多个部分,用算法生成她们没有被画出来的诸多姿势。

绊爱的侧面拆解图

当然,拆分动漫人物的各种部位也不简单。昆古恩发现现在大部分成熟的图像识别技术都是用于真人的,而动漫人物和真人有很大的区别——比如动漫人物的头往往很奇怪,有夸张的头发和夸张的尺寸。这一度成为一个严重的问题,昆古恩在博客里写道:“最大的问题是,我不知道她们的头到底在哪……”为此他专门创建了一个识头工具,这个工具能排除头发和帽子的干扰,准备判断出人物的“头骨”(也就是天灵盖)。

最后,昆古恩完成了基本可用的“根据动漫图自动生成Vtuber”学习网络,这个网络花了16小时分析了100万张来源于GAN图库的图片。现在,这个系统可以根据输入的任何一张动漫图片,来生成图片中人物的诸多动作。使用者可以通过调整参数改变人物的表情,也可以直接导入到面部追踪软件中,让软件根据摄像头捕捉到的真人表情自动调整参数。

昆古恩放出的可用模型

唯一令人遗憾的是,昆古恩还没能将这套系统开源并把它放到网上。在论述研究过程的论文末尾,他提到,由于他和谷歌日本的合同,谷歌方面有权要求获得这项系统的专利权,他正在尝试通过内部审查来将软件、系统和神经网络数据的版权分配给自己。

希望有朝一日自己上传图片当虚拟偶像的朋友可以关注昆古恩的Github页面,点击这里可以跳转。

热门相关:深海余烬   孙猴子是我师弟   孙猴子是我师弟   一拳猎人   孙猴子是我师弟