米哈游创始人蔡浩宇退休后投身 AI 领域,在新加坡创立了新公司 Anuttacon,专注于 AI 交互式内容和 AGI 产品研发,其首款 AI 游戏《星之低语》已于去年发售。
当地时间 4 月 9 日,Anuttacon 团队在 arXiv 发布论文,正式公开其新一代视频角色表演生成模型 LPM 1.0(Large Performance Model),并同步上线项目主页。

论文作者名单共包含 24 位研究人员,通讯作者为曾爱玲。其个人主页显示她目前正在 Anuttacon 工作,此前曾在腾讯混元团队及 AI Lab 从事计算机视觉与生成模型相关研究工作。

该模型的技术论文一共由24位研究人员参与,内容很多,有兴趣的朋友可以自行搜索查看。葡萄君也不懂技术,这里就简单展示一下,这个模型可以具体做什么事情吧。
首先,LPM 1.0为多模态输入,你可通过1张图片+参考图片(可选)+ 说话/听/静音音频+文本的方式,来生成一段角色表演。这个表演视频可用于角色对话、角色直播和游戏NPC的视觉呈现。
通过下段视频你可以看到,该模型在角色的言语、节奏、目光,以及犹豫、思考等微表情方面上,有着相当多的真实细节。
![]()
LPM 1.0采用了多维度的角色身份稳定要素:全局外观参考、多视角身体图像与面部表情参考素材。以此来规避模型对牙齿、表情纹路、侧脸轮廓、未显露的身体形态等未知细节进行错误生成的问题,以实现角色身份的精准保持。
![]()
![]()
同时该模型也支持不同角色风格作为输入:写实、2D动漫、3D游戏和非类人生物等等,无需任何微调或领域特定训练。
![]()
![]()
并且LPM 1.0是支持实时互动的。根据官网的说法,该模型能在无限的交互时长下保持稳定、身份一致的生成,并会有回应前的停顿、身体节奏、目光转移等细节。
这种对话支持全双工(Full-duplex):就像真实的打电话或面对面聊天。双方可以同时说话、倾听,互相随时打断,直接反馈。
![]()
该GIF取自一段45分钟的演示对话,基于Online LPM 480P型号生成
另外,在非对话场景中,角色独处于某个环境时,也会有着真实的呼吸节奏、自然的表演与准确的情感表达。
![]()
在Anuttacon团队看来,LPM 1.0主要优势在于:视觉忠实度、精准口型、身份保护以及自然感,包括支持任意长度的内容生成。(Kling-Avatar 2.0和OmniHuman 1.5最多限制为30秒)
![]()
所以LPM 1.0可能适用于以下情形:AI对话、游戏NPC互动、虚拟直播、教育辅导、游戏伴侣等等。长直播视频生成。
![]()
不过值得注意的是,Anuttacon团队现在没有计划向公众发布模型权重、源代码、在线演示、API、产品或任何相关产品。
本次公开仅用于展示LPM 1.0当前的研究进展,供学术交流使用。该模型不会开源或对外开放。




.jpg)








暂无评论内容