语音互联,未来已来
北科瑞声专注智能音频领域
打造中国最开放、最专注、最落地的AI公司
2023年北科瑞声一年一个台阶
大模型、大提升
在去年的6月
北科瑞声发布了语音识别引擎 4.0
我们一直在努力
今天我们的模型更大了
在多个场景下识别能力大大提升
大模型赋能新一代语音交互引擎
2023年是人工智能技术爆发式增长的一年,大模型促使各行业深刻变革。应用大模型,北科瑞声语音交互产品全面升级,各项核心产品激发更深能力。
北科瑞声的语音识别引擎从4.0升级到了5.0,语音智能感知能力再一次提升。我们使用了更多的不同场景的语音数据,采用多种策略优化训练过程,采用了最新的Paraformer框架,也引入了大型语言模型(LLM),在与行业融合的应用中进一步提升模型效果及场景适配能力,使得新语音识别引擎的准确性获得极大提升。
大模型提升语音转写准确性
2023年是大模型元年,LLM的应用广度超乎想象。在语音交互中,同样离不开LLM。通过升级的声学模型配合更大的100亿级参数混合语言LLM,并实现实时的多轮最优路径搜索。大模型,大提升,更懂你的语音。
多种环境下语音转写鲁棒性强
不同的语音采集设备、信道干扰和复杂背景噪声,是语音转写的极大挑战。新一代的识别引擎融合多种算法优化对底层声学特性的建模,同时大模型增加对高层语义和场景的感知,是复杂环境下语音转写错误显著减少。
中英文随意说
通过在训练优化,大模型的引入,以及多层次多轮路径得分重估的解码算法,可以实现inter-sentential和intra-sentential的code-switching中文混合语音识别;无论母语发音还是非母语发音都可处理。
秒级新词学习
行业用户都有各自领域的一套专业词汇和专业表述,对于行业信息系统具有重要的意义。最新快速热词导入算法,将语音识别引擎4.0所需几分钟学会成千上万的专业词汇,提升到10秒级别,可以做到每个用户都有自己的专用词库。
断网部署更加安全
智能应用,安全优先。为了更加安全可靠的智能语音应用,我们实现了现有智能语音大模型本地化断网部署,实时语音转写、角色分离、智能分段等功能一机搞定。移动部署,开机即用,保障安全。
面向未来的VoiceGPT
行业语音大模型将是智能语音的新前沿,在通用的LLM基础上,结合行业数据和用户数据将来可实现行业的VoiceGPT。北科瑞声正在研发自己的VoiceGPT,将应用在北科瑞声智能语音云平台和各项产品上。智能语音大模型将赋能千行百业。
声识未来·尽享其能
语音大模型·更懂你的声音
电话: 0755-86329312
邮箱: contact@raisound.com
地址: 深圳市福田区梅林街道梅都社区中康路136号深圳新一代产业园3栋1201-6