米哈游蔡浩宇AI公司发布首个视频大模型,主打视频角色生成

米哈游创始人蔡浩宇退休后投身 AI 领域,在新加坡创立了新公司 Anuttacon,专注于 AI 交互式内容和 AGI 产品研发,其首款 AI 游戏《星之低语》已于去年发售。

当地时间 4 月 9 日,Anuttacon 团队在 arXiv 发布论文,正式公开其新一代视频角色表演生成模型 LPM 1.0(Large Performance Model),并同步上线项目主页。

image

论文作者名单共包含 24 位研究人员,通讯作者为曾爱玲。其个人主页显示她目前正在 Anuttacon 工作,此前曾在腾讯混元团队及 AI Lab 从事计算机视觉与生成模型相关研究工作。

image

该模型的技术论文一共由24位研究人员参与,内容很多,有兴趣的朋友可以自行搜索查看。葡萄君也不懂技术,这里就简单展示一下,这个模型可以具体做什么事情吧。

首先,LPM 1.0为多模态输入,你可通过1张图片+参考图片(可选)+ 说话/听/静音音频+文本的方式,来生成一段角色表演。这个表演视频可用于角色对话、角色直播和游戏NPC的视觉呈现。

通过下段视频你可以看到,该模型在角色的言语、节奏、目光,以及犹豫、思考等微表情方面上,有着相当多的真实细节。

图片[3] - 米哈游蔡浩宇AI公司发布首个视频大模型,主打视频角色生成 - 漫剧网

LPM 1.0采用了多维度的角色身份稳定要素:全局外观参考、多视角身体图像与面部表情参考素材。以此来规避模型对牙齿、表情纹路、侧脸轮廓、未显露的身体形态等未知细节进行错误生成的问题,以实现角色身份的精准保持。

图片[4] - 米哈游蔡浩宇AI公司发布首个视频大模型,主打视频角色生成 - 漫剧网

图片[5] - 米哈游蔡浩宇AI公司发布首个视频大模型,主打视频角色生成 - 漫剧网

同时该模型也支持不同角色风格作为输入:写实、2D动漫、3D游戏和非类人生物等等,无需任何微调或领域特定训练。

图片[6] - 米哈游蔡浩宇AI公司发布首个视频大模型,主打视频角色生成 - 漫剧网

图片[7] - 米哈游蔡浩宇AI公司发布首个视频大模型,主打视频角色生成 - 漫剧网

并且LPM 1.0是支持实时互动的。根据官网的说法,该模型能在无限的交互时长下保持稳定、身份一致的生成,并会有回应前的停顿、身体节奏、目光转移等细节。

这种对话支持全双工(Full-duplex):就像真实的打电话或面对面聊天。双方可以同时说话、倾听,互相随时打断,直接反馈。

图片[8] - 米哈游蔡浩宇AI公司发布首个视频大模型,主打视频角色生成 - 漫剧网

该GIF取自一段45分钟的演示对话,基于Online LPM 480P型号生成

另外,在非对话场景中,角色独处于某个环境时,也会有着真实的呼吸节奏、自然的表演与准确的情感表达。

图片[9] - 米哈游蔡浩宇AI公司发布首个视频大模型,主打视频角色生成 - 漫剧网

在Anuttacon团队看来,LPM 1.0主要优势在于:视觉忠实度、精准口型、身份保护以及自然感,包括支持任意长度的内容生成。(Kling-Avatar 2.0和OmniHuman 1.5最多限制为30秒)

图片[10] - 米哈游蔡浩宇AI公司发布首个视频大模型,主打视频角色生成 - 漫剧网

所以LPM 1.0可能适用于以下情形:AI对话、游戏NPC互动、虚拟直播、教育辅导、游戏伴侣等等。长直播视频生成。

图片[11] - 米哈游蔡浩宇AI公司发布首个视频大模型,主打视频角色生成 - 漫剧网

不过值得注意的是,Anuttacon团队现在没有计划向公众发布模型权重、源代码、在线演示、API、产品或任何相关产品。

本次公开仅用于展示LPM 1.0当前的研究进展,供学术交流使用。该模型不会开源或对外开放。

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容