
时隔近一年,阿谁在 B 站教环球阅读 AI 论文的大神李沐 @跟李沐学 AI,终于记忆了!

在最新一期视频中,李沐「作念了个及时数字东说念主」,并与 TA 进行视频对话,从视频来看,数字东说念主形象确乎挺传神的,用他我方的话说,「水平吊打我我方」!

而这背后的时代恰是李沐的创业公司——BosonAI 发布的一款名为 Higgs Avatar v1 的模子:面向语音智能体的及时数字东说念主。
官方先容,行动一个及时基础模子,Higgs Avatar v1约略为客服对话、假造助手、培训以及互动体验带来更接近真东说念主的数字化形象与临场感。

而且操作起来十分浅近,只需要一张静态图片,就能生成纯真、豪阔弘扬力的面部格式,并赞助话语、倾听和回答。通盘操作都以逐帧式样完成,并与音频保合手同步。
BosonAI 团队先容,火狐体育中国官网入口上述李沐的展示的视频内容十足由 AI 生成,不仅莫得预设剧本,也莫得动画制作经由、预渲染轮回,每一帧都是及时渲染完成的 —— 包括声息、对话、口型同步、头部动作和格式。
而且,整套经由仅在单张 H100 上就不错运行。
底下再来看几个官方给的使用案例,环球来评一评成果如何?
及时保障 Agent 展示:

AI 西宾饱读舞用户的 Demo 展示:

AI 艾伦・图灵访谈:

两个 AI 假造形象在考虑东说念主类表情:

凭证 Boson AI 团队败露的时代细节,可提现游戏平台中国官网Higgs Avatar v1 具备以下四大中枢上风:
无剧本的随性扮演:模子会随着语音流,逐帧及时渲染出唇形同步、头部动作和面部格式。你听到什么,就看到什么,十足是随性阐扬。
开局一张图,剩下全靠 AI:不需要好莱坞级别的 3D 动捕,也毋庸事先录制僵硬的轮回顾频。只须给它一张静态像片,Higgs Avatar v1 就能陡然生成一个会听、会说、会给反映的动态神情。
快到莫得「时差」:业界公认保合手及时对话不卡顿的蔓延底线是 62.5 毫秒,而 Higgs Avatar v1 生成一帧画面只需要16 毫秒!这意味着数字东说念主的格式恒久牢牢贴合声息,毫不拖邋遢拉。
极致的算力性价比:关于企业级期骗而言,本钱是落地的要津。单张 H100 GPU 即可同期赞助 8 路及时对话并发,将单次对话的本钱压缩到了十足约略空闲大范围出产部署的水平。

Higgs Avatar v1 的发布,为 Boson AI 的居品栈补都了一块要津的视觉拼图。
在践诺业务场景(如保障销售、企业西宾、假造口试及互动文娱等)中,Boson AI 现已酿成了双擎驱动的情势:Higgs Audio 肃穆语音的证据与生成,Higgs Avatar 肃穆赋予 AI 信得过的「面目」。
「咱们之是以坚合手自研基础模子,是因为出产环境中的对话式 AI 无法由外部组件凑合而成。」 Boson AI 团队在发布声明中强调。
淌若仅仅把现成的外部 API 缝合在一说念,蔓延卡顿、抢话冲突、声息跟格式脱节等问题根底没法处置。惟有从新运行全栈自研,把声学与面部格式的表情对都、端到端的职责流编排死死咬合在一说念,才能澈底禁锢交互的隔膜。
现在,Higgs Avatar v1 也曾插足内测(Private Preview)阶段,接下来会搭载在他们行将推出的语音聊天体验居品 Boson Presence 中庸环球碰面。
迫不足待思望望沐神新作品的同学们,不错去官网排个 Waitlist 占坑了。关于有企业集成、定制模子或 API 拜谒需求的客户,也可径直通过官方邮箱相关。
B 站视频:https://www.bilibili.com/video/BV1pB586fEap/?spm_id_from=333.1387.upload.video_card.click
更多见: https://www.boson.ai/blog/higgs-avatar-v1
加入试用:https://tally.so/r/VLvKgE