吳恩達(dá)
鳳凰科技訊 9月8日消息,2015百度世界大會(huì)今日舉辦,百度首席科學(xué)家吳恩達(dá)在會(huì)上展示了百度深度學(xué)習(xí)在噪音環(huán)境下的語(yǔ)音識(shí)別進(jìn)展,還發(fā)布了iOS版臉優(yōu)APP,通過(guò)用戶自己上傳臉部照片,實(shí)時(shí)合成在攝像頭拍攝的其他臉部上,讓視頻達(dá)到變臉的效果。
吳恩達(dá)表示,在如今的海量數(shù)據(jù)時(shí)代,百度擁有的大量數(shù)據(jù)可以擴(kuò)大神經(jīng)網(wǎng)絡(luò)訓(xùn)練,讓效果更好。百度開發(fā)了HPC(High Performance Computing,高性能計(jì)算)來(lái)做深度學(xué)習(xí)試驗(yàn),在訓(xùn)練巨大的神經(jīng)網(wǎng)絡(luò)之后,使用它提供在線服務(wù)。
此外,百度還開發(fā)了手機(jī)深度學(xué)習(xí)引擎,將神經(jīng)網(wǎng)絡(luò)的模型減少,大量提升運(yùn)行速度,臉優(yōu)APP就是一個(gè)例子。
吳恩達(dá)介紹稱,百度還與伊利合作了一個(gè)直達(dá)號(hào)輕應(yīng)用,可以識(shí)別出牛奶盒,并展現(xiàn)一個(gè)3D效果圖,利用產(chǎn)品包裝上的圖案提供增強(qiáng)現(xiàn)實(shí)體驗(yàn),不需要特別的圖片或二維碼。這款輕應(yīng)用將于兩三個(gè)月后上線。
關(guān)于人工智能的前景,吳恩達(dá)稱,人工智能的下一步不僅是百度大腦更聰明,也能夠使用戶也更聰明,技術(shù)可以成為人的智能伴侶,提高效率。他表示,對(duì)人工智能成為人類合作伙伴的未來(lái)充滿信心,也希望與大家共同走向智能伴侶時(shí)代。
以下為吳恩達(dá)演講實(shí)錄:
謝謝,大家好,人工智能已經(jīng)在世界有很大的影響力,百度是引領(lǐng)人工智能發(fā)展的公司之一,今天我想跟大家分享一些我們正在做的先進(jìn)技術(shù),我也希望未來(lái)我們能把這些技術(shù)開放給我們的合作伙伴。
從李彥宏講的一席話里我們看到語(yǔ)音識(shí)別重要性,百度和北京團(tuán)隊(duì)一起正在研究新一代的語(yǔ)音識(shí)別技術(shù),讓我為大家演示一下。這是一段用戶手機(jī)的錄音,請(qǐng)大家仔細(xì)聽(tīng)聽(tīng),你能聽(tīng)出他在講什么嗎。來(lái)?,F(xiàn)在請(qǐng)大家閉上眼睛再聽(tīng)一次他到底在講什么。有時(shí)候由于噪音、口音等等,很難聽(tīng)清楚電話那邊的人在說(shuō)什么,我們把這段語(yǔ)音放給我們的語(yǔ)音識(shí)別系統(tǒng)得到這個(gè)結(jié)果,是說(shuō)中國(guó)好聲音幾點(diǎn)開始,請(qǐng)大家再聽(tīng)一次。
讓我們看一下第二個(gè)例子,我們聽(tīng)一聽(tīng)。再聽(tīng)一次。這就是語(yǔ)音識(shí)別的結(jié)果,大床房多少錢,再聽(tīng)最后一次,聽(tīng)到了嗎?這個(gè)技術(shù)還沒(méi)有上線,目前在很多情況下人的語(yǔ)音識(shí)別能力還是比機(jī)器識(shí)別更準(zhǔn)確,但是我們發(fā)現(xiàn)如果只有一段很短的語(yǔ)音,尤其是在比較吵的環(huán)境下機(jī)器識(shí)別可以超過(guò)人的識(shí)別,一年前我沒(méi)有想到這么快機(jī)器就可以做到這點(diǎn)。
我相信語(yǔ)音有很大的潛力改變?nèi)伺c設(shè)備的交互方式,現(xiàn)在語(yǔ)音識(shí)別可能已達(dá)到95%的準(zhǔn)確度,但要看你的口音等等來(lái)定,很多人沒(méi)意識(shí)到95%的準(zhǔn)確度到99%的準(zhǔn)確度帶來(lái)的不是量變是質(zhì)變,是從你偶爾使用語(yǔ)音變到常常使用做到更自然。做到99%準(zhǔn)確,將徹底改變?nèi)伺c設(shè)備交互,這個(gè)技術(shù)的進(jìn)展讓我對(duì)人與設(shè)備全新交互充滿信心。
在百度人工智能技術(shù)的進(jìn)展主要靠深度學(xué)習(xí),深度學(xué)習(xí)的意思是建設(shè)巨大的神經(jīng)網(wǎng)絡(luò),語(yǔ)音識(shí)別也是用深度學(xué)習(xí)做的。
我們?cè)倏戳硗庖粋€(gè)例子,王勁剛才講了也是用深度學(xué)習(xí)做的,我們把圖片交給神經(jīng)網(wǎng)絡(luò)他就會(huì)告訴人面前是什么。
在這一年中我們?cè)谏疃葘W(xué)習(xí)基礎(chǔ)架構(gòu)上有很大的進(jìn)步,這對(duì)人工智能的研究有很大的影響,我們的技術(shù)架構(gòu)分為三個(gè)部分,第一就是用于訓(xùn)練的超級(jí)計(jì)算機(jī),第二就是用于在線服務(wù)的云加速器,把訓(xùn)練后的加速器放到云端在線服務(wù)。第三就是手機(jī)上的深度學(xué)習(xí)引擎,讓我詳細(xì)解釋一下這三個(gè)部分。
如今已是海量數(shù)據(jù)的時(shí)代,百度有著大量的數(shù)據(jù)可以使神經(jīng)網(wǎng)絡(luò)訓(xùn)練的更大效果更好。我們開發(fā)了HPC來(lái)做深度學(xué)習(xí)試驗(yàn),這里百度使用很多的GPU做HPC,在使用HPC做深度學(xué)習(xí)訓(xùn)練上,百度處于世界領(lǐng)先地位。這里做HPC的一個(gè)難點(diǎn)是提升GPU的使用效率,2014年HPC深度學(xué)習(xí)的使用效率是20%左右,我們目前GPU使用效率可以提升到85%,讓我們能夠更快的訓(xùn)練巨大的神經(jīng)網(wǎng)絡(luò)。
使用HPC訓(xùn)練巨大的神經(jīng)網(wǎng)絡(luò)之后,下一步是使用它提供在線服務(wù),例如當(dāng)用戶講話時(shí),系統(tǒng)會(huì)實(shí)時(shí)返回結(jié)果。普通的CPU服務(wù)器有時(shí)候很難做到運(yùn)行巨大的神經(jīng)網(wǎng)絡(luò),我很高興像大家宣布百度已經(jīng)開發(fā)了兩個(gè)加速技術(shù),第一我們開發(fā)了FPGA加速器,在很多重要的應(yīng)用下他可以把速度提升五倍左右。第二我們也開發(fā)了GPU加速器,這里GPU不僅用于訓(xùn)練,我們也打算將其用于在線服務(wù)。百度的這種技術(shù)也是在世界上領(lǐng)先之一,這樣做的難點(diǎn)是如果有十個(gè)用戶在使用一個(gè)服務(wù)器,我們需要找到一個(gè)聰明的方法讓一個(gè)CPU有效的為十個(gè)用戶提供服務(wù),使用這個(gè)技術(shù),我們可以在在線服務(wù)上明顯的提升神經(jīng)網(wǎng)絡(luò)規(guī)模。
對(duì)于一些應(yīng)用,把數(shù)據(jù)傳到云端太慢,影響用戶體驗(yàn),所以我們需要在手機(jī)上運(yùn)行深度學(xué)習(xí)引擎。用HPC訓(xùn)練了巨大的神經(jīng)網(wǎng)絡(luò)后,把這個(gè)神經(jīng)網(wǎng)絡(luò)運(yùn)行在這么小的手機(jī)上很難的,所以我們開發(fā)了手機(jī)深度學(xué)習(xí)引擎。
我們來(lái)看一個(gè)例子,我們想識(shí)別人臉,并理解表情,我們開發(fā)了一個(gè)深度學(xué)習(xí)系統(tǒng),可以識(shí)別人臉上的72個(gè)關(guān)鍵點(diǎn),對(duì)比其他系統(tǒng)我們識(shí)別了比較多的關(guān)鍵點(diǎn),讓我們有更多細(xì)節(jié)來(lái)理解表情。
在手機(jī)上運(yùn)行神經(jīng)網(wǎng)絡(luò),難點(diǎn)是模型規(guī)模、速度和錯(cuò)誤率,這張圖是一個(gè)神經(jīng)網(wǎng)絡(luò)在PC上運(yùn)行的結(jié)果,這個(gè)神經(jīng)網(wǎng)絡(luò)對(duì)于手機(jī)來(lái)說(shuō)太大了,用我們的手機(jī)深度學(xué)習(xí)引擎我們使用了一個(gè)聰明的辦法,將神經(jīng)網(wǎng)絡(luò)的模型減少,還大量提升運(yùn)行速度。
使用手機(jī)深度學(xué)習(xí)引擎,我們做了一個(gè)新的APP叫做臉優(yōu),我們剛剛在IOS發(fā)布這個(gè)APP,用手機(jī)拍一張你的照片,用神經(jīng)網(wǎng)絡(luò)識(shí)別出你的面部,然后和另外一張圖片放在一起效果就是這樣。讓我們?yōu)榇蠹已菔疽幌?,這就是我的手機(jī),我剛剛今天早上跟我其他的演講人拍的他們的照片。這就是我的臉變成了就是王勁,也可以變成李彥宏,很好看,這就是Travis 再試一試,很帥。做女性的也可以,其實(shí)這就是我妻子的圖片,還有這就是我們的CFO,好,就這樣,謝謝。如果你有iphone,我希望大家下載玩一下。
臉優(yōu)是一個(gè)娛樂(lè)的APP,是需要非??斓捻憫?yīng)速度,那么手機(jī)深度學(xué)習(xí)引擎還有什么其他用處呢?假如你和你的孩子一起去超市買東西,你們看見(jiàn)了這盒牛奶,我拿了一盒牛奶,如果你的孩子對(duì)這盒牛奶好奇你會(huì)怎么辦?我們與伊利合作做了一個(gè)直達(dá)號(hào)輕應(yīng)用,它可以識(shí)別出牛奶盒,并讓你看到一個(gè)3D效果的地圖,也可以從不同的角度來(lái)看他,從上面可以看,可以啊,遠(yuǎn)一點(diǎn),臺(tái)上燈光很亮,看見(jiàn)了,那你可以從不同的角度看這個(gè)地圖,如果小朋友點(diǎn)擊這個(gè)地圖也可以看到另外一端牛奶的信息。這個(gè)輕應(yīng)用兩三個(gè)月后會(huì)上線,這個(gè)可以利用產(chǎn)品的包裝上的圖案提供增強(qiáng)現(xiàn)實(shí)體驗(yàn),不需要特別的圖片或二維碼,增強(qiáng)現(xiàn)實(shí)技術(shù)可以讓你更多的了解我們的世界,我們目前還是和很少的商家合作,希望未來(lái)有更多的商家可以使用這個(gè)技術(shù),幫助用戶了解產(chǎn)品并探索世界。
百度已經(jīng)有很多人工智能的產(chǎn)品,我們的深度學(xué)習(xí)基礎(chǔ)架構(gòu)可以讓人工智能越來(lái)越好,派發(fā)出更多更新產(chǎn)品。最后人工智能的未來(lái)是什么?在我結(jié)束演講前,我想向大家講講人工智能的前景。
很長(zhǎng)時(shí)間以來(lái)我們一直在講百度大腦越來(lái)越聰明,這很重要,他能讓我們對(duì)用戶提供越來(lái)越好的服務(wù),但這還不夠,人工智能的下一步不止是百度大腦更聰明,也能夠使用戶也更聰明,像李彥宏提到的度秘,技術(shù)可以成為你的合作伙伴,讓你變得更有效,雖然是你本人決定去哪里旅行,決定吃什么,決定買什么衣服,但是技術(shù)可以成為你的智能伴侶,幫你更好的了解信息,做出選擇,做出定,這里技術(shù)需要了解你的想法,也需要與你交互,語(yǔ)音識(shí)別是一個(gè)重要的方法,也是技術(shù)與人交互的例子,李彥宏講的秘書化也是這個(gè)意思,因此我對(duì)人工智能成為人類合作伙伴的未來(lái)充滿信心,我也希望與大家共同走向智能伴侶時(shí)代。謝謝!