讯飞星火多模态交互大模型发布,支持一键调用语音、视觉与数字人功能
2024-11-16 07:17:55人工智能 卡饭网 夜夜
最新 11 月 15 日消息,讯飞开放平台宣布讯飞星火多模态交互大模型已正式上线。该模型不仅支持语音交互,还扩展至音视频流的实时多模交互,具备“多模态、超拟人和个性化”的特点。用户可一键调用语音、视觉和数字人交互功能。
最新 11 月 15 日消息,讯飞开放平台宣布讯飞星火多模态交互大模型已正式上线。该模型不仅支持语音交互,还扩展至音视频流的实时多模交互,具备“多模态、超拟人和个性化”的特点。用户可一键调用语音、视觉和数字人交互功能。
该模型引入了超拟人数字人技术,数字人的动作与语音内容精确同步,快速生成表情和动作,使AI形象更为生动。通过整合文本、语音和表情,实现跨模态语义一致性,增强情感表达的真实性和连贯性。
讯飞星火支持超拟人极速交互,采用端到端神经网络建模,实现语音到语音的快速响应,同时能感知情绪变化,并根据指令调整声音节奏、大小和角色设定。
此外,该模型还具备多模态视觉交互能力,能够理解和识别复杂场景及物流状态等信息,通过语音、手势、行为和情绪的综合判断,提供精准回复。用户可与数字人进行语音和视频通话,数字人的表情与对话内容匹配,同时支持识别摄像头中的内容。
赞一个! ()
相关文章
- 2024 胡润中国人工智能企业 50 强公布:寒武纪 2380 亿
- 阿里通义万相 2.1 模型宣布升级:首次实现中文文字视频
- 开源媒体播放器 VLC 下载破 60 亿次,预览本地 AI 字幕
- 英伟达迷你超算遭友商嘲讽:宣传 FP4 算力,实际“不如买
- 银河通用发布全球首个端到端具身抓取基础大模型 Grasp
- 雷蛇推出“AI 游戏伴侣”Project AVA:支持实时指导 +
- 京东方 CES 2025 发布行业首款 65 英寸 4K 超高清“AI
- 微软开源 140 亿参数小语言 AI 模型 Phi-4,性能比肩 GP
- 微软承认必应 AI 图像生成器 PR16“开倒车”,现回滚至
- 西藏地震期间“小孩被埋”等 AI 图大量传播,严重可追责