【大河财立方记者陈薇】6月25日,记者获悉,科大讯飞《多语种智能语音关键技术及产业化》项目,在2023年度国家科学技术奖评选中荣获国家科学技术进步奖一等奖,这是科大讯飞第三次荣膺此殊荣,也是在深度学习引发的新一代人工智能浪潮中首次获此奖项。
本次获奖的项目《多语种智能语音关键技术及产业化》,体现了科大讯飞在复杂语音信号处理、多语种共享建模、语音语义联合建模以及国产异构硬件平台训练及推理加速等四大关键技术上的突破。
在复杂语音信号解耦建模方面,科大讯飞成功解决了“鸡尾酒会”效应带来的挑战,即在嘈杂环境中准确识别语音的问题。通过时空分离建模和多维度语音属性解耦,提升了语音识别的准确度。这一成果在国际多通道语音分离和识别比赛中多次夺魁,且在大会演讲场景下实现了超越人类速记员的转写效率。在智能客服系统中,该技术已服务于超过8亿用户,对话成功率高达90%以上。
多语种共享建模技术则解决了小语种智能语音系统构建时面临的知识和数据稀缺问题,科大讯飞构建了全新的多语种音素体系,通过元学习和语族分组,提升了小语种语音系统的性能。在国际低资源多语种语音识别竞赛中,科大讯飞囊括了多项冠军,发布的星火语音大模型更是在首批37个主流语种的识别效果上超越了OpenAI的Whisper V3。
语音语义联合建模技术则解决了复杂场景下的深层次语义理解难题。通过鲁棒口语理解和多源知识增强,科大讯飞提升了语音交互和翻译的准确率,尤其是在同传、离线和方言翻译等任务上,连续三年获得国际机器口语翻译评测比赛IWSLT冠军。
针对国产芯片训练和推理的性能瓶颈,科大讯飞开发了硬件亲和的变长输入算子融合和联合统一量化感知训练技术,实现了跨硬件平台的一键部署,打破了国外高端智算芯片断供后的技术壁垒。目前,已建成5个国产化集群,日服务量达8.73亿次,与华为合作建设的首个万卡全国产算力平台“飞星一号”,填补了国内空白。
科大讯飞的多语种智能语音技术已在全球范围内构建了广泛的产业生态:支持主流手机厂商出海、车载智能化产品前装、智能翻译机等硬件设备的创新,以及应用在会议、办公等场景中。
科大讯飞的星火语音大模型和讯飞星火V4.0的发布,将推动语音识别、合成和翻译等技术进入全新阶段,随着大模型技术的加持,科大讯飞的智能语音技术将在更广泛的应用场景中展现其价值。