米哈游蔡浩宇AI公司发布首个视频大模型，主打视频角色生成 - 漫剧网

米哈游蔡浩宇AI公司发布首个视频大模型，主打视频角色生成

50天前更新

7511

米哈游创始人蔡浩宇退休后投身 AI 领域，在新加坡创立了新公司 Anuttacon，专注于 AI 交互式内容和 AGI 产品研发，其首款 AI 游戏《星之低语》已于去年发售。

当地时间 4 月 9 日，Anuttacon 团队在 arXiv 发布论文，正式公开其新一代视频角色表演生成模型 LPM 1.0（Large Performance Model），并同步上线项目主页。

论文作者名单共包含 24 位研究人员，通讯作者为曾爱玲。其个人主页显示她目前正在 Anuttacon 工作，此前曾在腾讯混元团队及 AI Lab 从事计算机视觉与生成模型相关研究工作。

该模型的技术论文一共由24位研究人员参与，内容很多，有兴趣的朋友可以自行搜索查看。葡萄君也不懂技术，这里就简单展示一下，这个模型可以具体做什么事情吧。

首先，LPM 1.0为多模态输入，你可通过1张图片+参考图片（可选）+ 说话/听/静音音频+文本的方式，来生成一段角色表演。这个表演视频可用于角色对话、角色直播和游戏NPC的视觉呈现。

通过下段视频你可以看到，该模型在角色的言语、节奏、目光，以及犹豫、思考等微表情方面上，有着相当多的真实细节。

LPM 1.0采用了多维度的角色身份稳定要素：全局外观参考、多视角身体图像与面部表情参考素材。以此来规避模型对牙齿、表情纹路、侧脸轮廓、未显露的身体形态等未知细节进行错误生成的问题，以实现角色身份的精准保持。

同时该模型也支持不同角色风格作为输入：写实、2D动漫、3D游戏和非类人生物等等，无需任何微调或领域特定训练。

并且LPM 1.0是支持实时互动的。根据官网的说法，该模型能在无限的交互时长下保持稳定、身份一致的生成，并会有回应前的停顿、身体节奏、目光转移等细节。

这种对话支持全双工（Full-duplex）：就像真实的打电话或面对面聊天。双方可以同时说话、倾听，互相随时打断，直接反馈。

该GIF取自一段45分钟的演示对话，基于Online LPM 480P型号生成

另外，在非对话场景中，角色独处于某个环境时，也会有着真实的呼吸节奏、自然的表演与准确的情感表达。

在Anuttacon团队看来，LPM 1.0主要优势在于：视觉忠实度、精准口型、身份保护以及自然感，包括支持任意长度的内容生成。（Kling-Avatar 2.0和OmniHuman 1.5最多限制为30秒）

所以LPM 1.0可能适用于以下情形：AI对话、游戏NPC互动、虚拟直播、教育辅导、游戏伴侣等等。长直播视频生成。

不过值得注意的是，Anuttacon团队现在没有计划向公众发布模型权重、源代码、在线演示、API、产品或任何相关产品。

本次公开仅用于展示LPM 1.0当前的研究进展，供学术交流使用。该模型不会开源或对外开放。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

THE END

资讯
# 米哈游 # 蔡浩宇 # AI公司 # 视频大模型 # 角色生成 # Anuttacon

喜欢就支持一下吧

相关推荐