讯飞星火多模态交互大模型发布,支持一键调用语音、视觉与数字人功能
2024-11-16 07:17:55人工智能 卡饭网 夜夜
最新 11 月 15 日消息,讯飞开放平台宣布讯飞星火多模态交互大模型已正式上线。该模型不仅支持语音交互,还扩展至音视频流的实时多模交互,具备“多模态、超拟人和个性化”的特点。用户可一键调用语音、视觉和数字人交互功能。
最新 11 月 15 日消息,讯飞开放平台宣布讯飞星火多模态交互大模型已正式上线。该模型不仅支持语音交互,还扩展至音视频流的实时多模交互,具备“多模态、超拟人和个性化”的特点。用户可一键调用语音、视觉和数字人交互功能。
该模型引入了超拟人数字人技术,数字人的动作与语音内容精确同步,快速生成表情和动作,使AI形象更为生动。通过整合文本、语音和表情,实现跨模态语义一致性,增强情感表达的真实性和连贯性。
讯飞星火支持超拟人极速交互,采用端到端神经网络建模,实现语音到语音的快速响应,同时能感知情绪变化,并根据指令调整声音节奏、大小和角色设定。
此外,该模型还具备多模态视觉交互能力,能够理解和识别复杂场景及物流状态等信息,通过语音、手势、行为和情绪的综合判断,提供精准回复。用户可与数字人进行语音和视频通话,数字人的表情与对话内容匹配,同时支持识别摄像头中的内容。
赞一个! ()
相关文章
- 编程利器:OpenAI 升级 ChatGPT 应用,可配合 Xcode 等工
- OpenAI 回应 AI 在教育界争议:12 种方法让学生合理使用
- 腾讯推出 AI 智能工作台 ima:AI 问答 / 生图,打通微信公
- OpenAI 桌面版 ChatGPT 应用登陆微软 Windows,支持拍照
- 腾讯元器 AI 智能体入驻微信公众号
- 国家级法律 AI 基座模型发布:可大大降低公共法律服务门
- JetBrains AI 编程助手国内发布
- 马斯克与阿尔特曼的法律纠纷升级:OpenAI 被指试图垄断
- 阿里通义代码模式上线:号称即便不懂编程,也能大白话一键
- LLM 数学基准测试集 FrontierMath 公布:号称多数题型 A