亚洲亚中文久久精品无码丁香,国自产精品手机在线看视频,日韩无码免费共享,国产日本欧美一区二区bt下载

400-650-1086
首頁 > 最新資訊 > IT新聞 > 正文

百度開發(fā)語音識識系統DeepSpeech,嘈雜環(huán)境下識別率超Google、蘋果

admin 2014-12-22 10:08:05 0

不久前,百度的首席科學家吳恩達(Andrew Ng)在接受採訪時曾談到了百度最近人工智慧的進展情況,強調了近期百度重點是攻關語音識別?,F在他們已經在這方面取得了突破。

這項成果的名字叫做Deep Speech,是一款採用深度學習技術的語音識別系統系統。其獨特之處在于,它可以在飯店等嘈雜環(huán)境下實現將近81% 的辨識準確率。

81%的準確率聽起來似乎不算高。但是同樣環(huán)境下,其他的商業(yè)版語音識別API,包括Bing、Google以及Wit.AI等的最高識別率也只有65%。相比之下這就算十分突出的表現了。而且按照吳恩達的說法,這樣的結果依然低估了Deep Speech與其他語音識別系統的準確率差異,因為Deep Speech進行比較時還把其他語音識別系統那些返回空白字符串的結果排除在外了。而且Deep Speech跟頂級的學術型語音識別模型(基于流行的數據集Hub5'00建模)相比也高出9個百分點。

百度首席科學家吳恩達稱儘管這還只是一項研究,但是公司正在考慮將它集成到供智慧手機和Baidu Eye之類的可穿戴設備使用的語音識別軟體當中。而且百度還在開發(fā)與Amazon Echo類似、集成有語音助理的家電產品,名字叫做CoolBox。除此以外,百度在開發(fā)的智慧自行車當然也能利用Deep Speech技術。

Deep Speech 的基礎是某種遞歸神經網絡(RNN),這種遞歸神經網絡經常被用于語音識別和文本分析。

但是Deep Speech 的成功主要得益于一個長達10 萬小時的語音數據訓練集。這是百度人工智慧實驗室團隊用新穎的辦法在嘈雜環(huán)境下建立的。其過程大致是這樣的。首先百度收集了7000 小時的語音會話數據,然后再將這些語音文件與包含有背景噪音的文件合成到一起,最后形成約10 萬小時的訓練集。這些背景噪音包括了飯店、電視、自助餐廳以及汽車內、火車內等場景。相比之下,Hub5'00 的數據集總共只有2300 小時。

當然,這幺龐大的數據,大多數系統都不知道如何去處理。吳恩達表示,Deep Speech的成功很大程度上要取決于百度規(guī)模龐大的基于GPU的深度學習基礎設施。GPU(圖形處理器)往往是偏數學型計算的首選。許多深度學習系統都採用GPU避免通信瓶頸(不過微軟的深度學習系統Adam卻走了不同的路線),但是像百度這樣大規(guī)模的設施卻是少見的。

百度的另一大改進,是對這個龐大的數據集採用了點到點的深度學習模型,而不是標準的、計算代價高昂的聲學模型。傳統上一般都會把語音識別分別為多個步驟,其中一步叫做語音調適,但是百度卻不做這一步,而是給Deep Speech 的算法提供大量的數據,然后讓它去學習所有需要學習的東西。這種做法除了收穫了準確率以外,還顯著減少了代碼庫的規(guī)模。

這項研究是吳恩達領導的百度人工智慧實驗室多位研究人員的努力成果,論文發(fā)表在康乃爾大學圖書館的arXiv.org網站上,感興趣的可到此處下載。

本文出自36氪 / boxi

文章來源:機房監(jiān)控 http://m.shfkmygs.com

售前咨詢

專線:劉剛 13911133352

E-mail:112417434@qq.com

北京金恒智能系統工程技術有限責任公司 版權所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.

法律聲明:未經許可,任何模仿本站模板、轉載本站內容等行為者,本站保留追究其法律責任的權利!

電話:86+10-62104277/2248/4249 傳真:86+10-62104193-819 京ICP備10010038號-2網站XML

智慧機房

在線體驗

CREATE·機房監(jiān)控 體驗端  用戶名:Admin    密碼:12345 點擊體驗
在線咨詢 電話咨詢