首页 新闻 娱乐 电视 电影 明星 时尚 综艺 音乐 财经 科技 生活 体育 汽车 游戏 旅游
亚洲影视网

中国科技少年对话“Kaldi之父”Daniel Povey

2024-01-17 来源:互联网 作者:苏悦
0

月初,Daniel 团队的新一代 Kaldi 语音项目获得了小米2023百万美金技术大奖评选的二等奖。近日,两位《超脑少年团》成员“小孩哥”高培淇和宫一森来到小米祝贺偶像Daniel 获奖。

01

继往开来:

站在 Kaldi 的肩膀上

Kaldi 是一款开源的语音识别工具包,主要用于语音识别、说话人识别、自然语言处理等领域。

在智能语音方面,大到微软、苹果、腾讯这样的巨头,小到各种初创企业,几乎都曾或在使用 Kaldi 的技术进行研发及开发产品。而小米首席语音科学家Daniel Povey正是 Kaldi 的创始人。

Kaldi之父、小米集团首席语音科学家 Daniel Povey

说到为什么还要研发新一代 Kaldi,也是随着深度学习技术的发展以及硬件算力的提升,智能语音领域也进入到一个新的发展阶段,Kaldi 也需要不断更新以适应新的应用场景和技术趋势。

Daniel 博士在2019年注意到了 Transformer 架构的潜力,并判断构建通用基础模型的时机已经到来,加入小米后,他就开始实施这一蓝图,研发新一代 Kaldi 语音基础引擎。

02

深耕底层:

新一代 Kaldi 的技术突破

新一代 Kaldi是一个开源的智能语音技术工具集,包含核心算法库k2、通用语音数据处理工具包Lhotse、解决方案集合 Icefall 以及服务端引擎 Sherpa 四个子项目,开发者可以基于这些工具集轻松定制自己的智能语音应用。

如果把一个AI应用比喻为一座冰山,那用户所能感知到的应用界面就是暴露在“海平面”之上的冰峰,强有力地托起这些应用的核心和庞大的技术基底,则是被深埋在“海平面”之下。

深藏在“海平面”之下的新一代 Kaldi 通用技术基底有哪些?它们又能够带来怎样的作用?下面就为大家介绍。

▍全新声学编码器:zipformer

Zipformer是一个应用 Attention 机制的通用声学编码器,不仅可以用在语音领域,初步实验验证其在文本和图像任务上同样适用。

Zipformer 具有效果更好、计算更快、更省内存等优点,这使得 Zipformer 模型非常适合于低资源设备端部署。

▍首创神经网络优化器: ScaledAdam

全新升级的神经网络优化器——ScaledAdam是新一代 Kaldi 团队在业界最知名的优化器 Adam 的基础上,引入了可学习的缩放因子,实现了网络训练时间大幅缩短。而且ScaledAdam与Adam一样,是一个通用的网络训练优化器。

▍业界最快Transducer 损失函数:Pruned RNN-T

新一代 Kaldi 团队还研发了业界最快的 Transducer 损失函数—— Pruned RNN-T。

实验数据显示,相比 PyTorch 中实现的 RNN-T 损失函数,Pruned RNN-T 损失函数在仅使用 1/5 显存的基础上,取得了约 10 倍的速度提升。

▍有限状态转换器:可微分 FST

可微分FST(Finite State Transducer)是一个有限状态转换器,可以构建复杂的语言处理模型。

新一代 Kaldi 团队创造性的实现了运行于 GPU 的可微分有限状态机,使开发者只需要在外部构建好图的拓扑结构,将其他的一切计算和训练的部分交给 k2 引擎, 从而降低建模的工作量,提高灵活性。此外,新一代 Kaldi 团队还实现了基于 GPU 的状态机解码方法,实现了语音识别解码的全链路 GPU 加速。

新一代 Kaldi 还有众多杰出的成果,如:近乎零成本的知识蒸馏技术,让小模型也能学习到大模型的本领;基于时延惩罚的低时延端到端模型的训练方法;PromptASR 语音识别系统;高效数据集构建方案 textsearch ; 全平台语音任务服务引擎 sherpa 等等。集众多优质技术于一身的新一代 Kaldi ,也将会在未来给大家带来更多实用的惊喜,敬请期待吧!

03

开源共享:

我为人人,人人为我

新一代 Kaldi 作为一个基础引擎,不仅推动了公司的技术发展,更对业界产生了深刻的影响。

首先,它可以在语音交互层面有力赋能小米「人车家全生态」新战略。以座舱为例,使用新一代 Kaldi 引擎后,座舱的语音识别的性能进一步提升, jira 解决率提升45%,服务器成本也降低一半。

其次,新一代 Kaldi 作为一个基础引擎,不仅可以服务于语音任务,还可以广泛地适用于各种 AI 任务。目前,团队首创的 ScaledAdam 优化器已经用在了小米自研大模型中。

最后,在智能家居领域中,通过使用新一代 Kaldi 技术,人们可以通过语音指令控制家电设备、查询天气、播放音乐等;在教育行业中,可以对学生进行口语测试和纠正,提高学生的口语表达和听力理解能力;在医疗行业中,可以实现自动化的病历记录和诊断,提高医疗行业的效率。可以说,新一代 Kaldi 的出现正在对各行各业产生积极的影响。

坚持开源是新一代 Kaldi 与前一代一脉相承的底色。“我为人人,人人为我”,这是 Daniel 坚持 Kaldi 开源的期望,也是小米积极拥抱开源的初心。

“人因梦想而伟大,又因坚持梦想而成长。”Daniel借用雷军的话,寄语和高培淇、宫一森一样怀揣着编程梦想的科技少年。今日的科技少年也一定会成长为未来科研事业中的栋梁。

最后,让我们把目光再次聚焦到获奖的新一代 Kaldi 团队,这是一个创新和经验的结合体,正是因为他们,新⼀代 Kaldi 取得了众多世界领先的成果。期待新一代 Kaldi 在未来,给大家带来更多极致、好用的技术,让开源普惠大众。



热门图片

悬疑剧《目之所及》正式收官 实力小生余嘉诚表现亮眼引发关注

《窗外是蓝星》:作曲家孙沛以音乐编织航天史诗,谱写中国人的宇宙浪漫

胡军:一个北京人演不好在东北战斗的山东兵,那他就不是一个好演员

胡军这版“小人物”式英雄还是太全面了

A2O的「MOS」世界观揭开面纱!从《Home Sweet Home》到《A2O MAY Story》特別短剧即将公开

从昂利到朗德里约|徐卫:用“反派下楼”,走上表演的上坡路

演技层次感有!胡军诠释真・六边形战士老山东

低调的95后演技派!贺雨禾携新作《别怕,社恐同学》来袭,不炒作的她终于藏不住了!

新闻排行

YUHZ组合出道全球记者会韩国举行 成员亮相发展备受期待
胡军新剧再突破,那个比乔帮主还爷们的男人出现了!
华晨宇火星演唱会苏州站连唱三晚 万人狂欢共度浪漫七夕
“平民影帝”李易祥 千面角色下的多维戏张力
快来学真功夫!成家班国际动作训练项目火热招募中......
苏见信(信)「尽兴而活」燃爆东北老铁 摇滚硬汉唱民谣反差感拉满
《生万物》赵倩饰演封四媳妇演技封神 话剧《北去·南归》二轮震撼开演
茅子俊《海昏行》开播 现代咸鱼穿越西汉逆天改命
“白月光”焦点何晟铭现身宁夏中宁,助力非遗与三农发展
林依轮夫妇七夕献唱《人间好时节(忘忧)》 以四季旋律诠释生活本真
推荐图片

快乐小狗宠物尿垫亮相亚宠展 高强除臭锁水惊艳全场

余嘉诚首部电影《有朵云像你》正式上映 成年乐乐续写甜蜜篇章

第九届86358贾家庄短片周“青花汾酒·荣誉典礼”圆满落幕

余嘉诚首部影视作品《目之所及》上线,少年意气风发引发广泛关注

金奖导演张璞回归!新片《逆光绽放》开机聚焦“二老板”逆袭

全网好评!吴牧融《夏日香气》上线 高学历歌手传递夏日追梦正能量