旷视开源的AI人像视频生成太炸了！输入照片即可模仿任意表情包

2024-12-05 浏览：152 次作者：admin

新闻多一度丨爆火的乌梅汤真的适合你吗？医生这样说只追求"除皱"和"紧致"? 这样的面部提升手术"太局限"...

机器之心发布

机器之心编辑部

总的来说，不管是让肖像开口说话，让肖像进行唱歌Rap，还是让肖像模仿各种搞怪的表情包，MegActor都可以得到非常逼真的生成效果。

论文：

代码地址：

项目地址：

MegActor是旷视研究院的最新研究成果。旷视研究院，是旷视打造的公司级研究机构。旷视研究院旨在通过基础创新突破AI技术边界，以工程创新实现技术到产品的快速转化。经过多年发展，旷视研究院已成为全球规模领先的人工智能研究院。

具体来说，MegActor主要由两个阶段构成：

使用了一个ReferenceNet对参考图像进行特征提取，负责得到参考图像的外观和背景等信息；

在数据训练方面，旷视研究院团队仅使用公开的数据集进行训练，处理了VFHQ和CeleV数据集进行训练，总时长超过700小时。同时，为了避免ID泄露问题，MegActor还使用换脸和风格化方法1:1生成合成数据，实现表情和动作一致、但ID不一致的数据。此外，为了提高对大范围动作和夸张表情的模仿能力，团队使用注视检测模型对数据进行处理，获取大约5%的高质量数据进行Finetune训练。

通过采用一系列新的模型框架和训练方法，旷视研究院团队仅使用了不到200块V100显卡小时的训练时长，最终实现的具体特性包括：

支持不同的画风（照片、传统绘画、漫画、AI数字人等）

目前，MegActor已经完全开源，供广大开发者和用户即开即用。

免责声明：以上整理自互联网，与本站无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。（我们重在分享，尊重原创，如有侵权请联系在线客服在24小时内删除）