“技术实力派”——突破传统语音合成两大瓶颈

2018-06-17来源 : 互联网

当你打开智能音响或是手机语音助手时，一句“您好，请问您需要什么服务?”从音响蹦出，虽然清晰洪亮，但听起来“机械感”十足，缺少人声该有的特质——在不同场景下的不一样的语音和语调。

其实，这就是传统语音合成技术的缺陷。

通常，传统语音合成的技术有“拼接法”和“参数法”两种方式。波形拼接在语料库中抽取合适的拼接单元，拼接成为句子。参数语音合成则需要对音库进行参数化建模，根据训练得到的模型预测出韵律参数和声学参数。

在时间成本上，参数的合成方式需要进行十个小时左右的录音采集，而波形拼接的语音合成方式则需要几十个小时以上的录音采集，才能完成一套定制化语音包的制作，周期长，耗费精力大。两种方式，在合成效果上，也难以接近真人的发音，音调韵脚都缺乏表现力。

对于攻克语音合成“不**”和“缺乏表现力”这两大难题，标贝科技联合创始人CTO李秀林认为，随着深度学习技术的持续发展，解决语音合成的突破口已经越来越近，对此他充满信心。

我们从李秀林的履历，得知他在语音合成行业已深耕10余年，可谓是深谙此道。

标签：技术实力派