机器之心发布
机器之心编辑部
总的来说,不管是让肖像开口说话,让肖像进行唱歌Rap,还是让肖像模仿各种搞怪的表情包,MegActor都可以得到非常逼真的生成效果。
论文:
代码地址:
项目地址:
MegActor是旷视研究院的最新研究成果。旷视研究院,是旷视打造的公司级研究机构。旷视研究院旨在通过基础创新突破AI技术边界,以工程创新实现技术到产品的快速转化。经过多年发展,旷视研究院已成为全球规模领先的人工智能研究院。
具体来说,MegActor主要由两个阶段构成:
使用了一个ReferenceNet对参考图像进行特征提取,负责得到参考图像的外观和背景等信息;
在数据训练方面,旷视研究院团队仅使用公开的数据集进行训练,处理了VFHQ和CeleV数据集进行训练,总时长超过700小时。同时,为了避免ID泄露问题,MegActor还使用换脸和风格化方法1:1生成合成数据,实现表情和动作一致、但ID不一致的数据。此外,为了提高对大范围动作和夸张表情的模仿能力,团队使用注视检测模型对数据进行处理,获取大约5%的高质量数据进行Finetune训练。
通过采用一系列新的模型框架和训练方法,旷视研究院团队仅使用了不到200块V100显卡小时的训练时长,最终实现的具体特性包括:
支持不同的画风(照片、传统绘画、漫画、AI数字人等)
目前,MegActor已经完全开源,供广大开发者和用户即开即用。