OpenAI是Elon Musk于2015年12月宣布成立的非盈利AI項目,科研人員會將大部分研究成果開源共享;主要關(guān)注增強(qiáng)學(xué)習(xí)和無監(jiān)督學(xué)習(xí)——谷歌此前名聲大噪的圍棋程序AlphaGo用的就是增強(qiáng)學(xué)習(xí);而無監(jiān)督學(xué)習(xí)需要機(jī)器處理大量沒有標(biāo)記的數(shù)據(jù),自己找到區(qū)分不同數(shù)據(jù)子集、集群、或者相似圖像的辦法,有點(diǎn)像嬰兒學(xué)習(xí)世界的方式,一直被視作人工智能的真正潛力釋放點(diǎn)。
卷積神經(jīng)網(wǎng)絡(luò)之父Yann LeCun有一個經(jīng)典比喻:如果人工智能是一塊蛋糕,增強(qiáng)學(xué)習(xí)(Reinforcement Learning)就是蛋糕上的一粒櫻桃,而監(jiān)督學(xué)習(xí)(Supervised Learning)是蛋糕外的一層糖霜,但無監(jiān)督學(xué)習(xí)(Unsupervised Learning)才是蛋糕本身。目前我們只知道如何制作糖霜和櫻桃,卻不知道如何做蛋糕。
一次性模擬學(xué)習(xí)
OpenAI宣布的這種新型算法“一次性模擬學(xué)習(xí)(one-shot imitation learning)”指的是,當(dāng)人類在VR中演示一次某個動作后,比如將桌面藍(lán)色的小盒子疊放在紅色小盒子上這個動作,機(jī)器通過學(xué)習(xí)這一動作就可以執(zhí)行出相同的結(jié)果,并且不論桌面盒子擺放的順序如何,機(jī)器都可以準(zhǔn)確執(zhí)行。
這套學(xué)習(xí)系統(tǒng)由兩個神經(jīng)網(wǎng)絡(luò)組成:一個視覺網(wǎng)絡(luò)(vision network)和一個模仿網(wǎng)絡(luò)(imitation network)。
視覺網(wǎng)絡(luò)(vision network)獲得的圖像來自機(jī)器人的攝像機(jī),此前,這個視覺網(wǎng)絡(luò)經(jīng)過數(shù)十萬張模擬圖像的訓(xùn)練,每張都具有不同紋理、光影效果等(但是從未使用真實(shí)圖像進(jìn)行訓(xùn)練);
模擬網(wǎng)絡(luò)(imitation network)則必須生成一個與VR演示動作一致的執(zhí)行步驟,并且推斷出該任務(wù)的意圖,使得在初始設(shè)定變更時(如盒子的擺放順序調(diào)亂時)依舊可以找到藍(lán)色的盒子并把它疊在紅盒子上。
目前,學(xué)術(shù)界與產(chǎn)業(yè)界都在尋找使用各種訓(xùn)練機(jī)器人的手法,比如英偉達(dá)CEO黃仁勛在上周的GTC大會上也宣布了一款名為ISAAC的增強(qiáng)學(xué)習(xí)世界模擬器,創(chuàng)造出一個完全虛擬的、專為訓(xùn)練機(jī)器人而打造的世界。
這是一個遵循物理法則但不遵循時間法則的世界,在現(xiàn)實(shí)生活中,你想要訓(xùn)練一臺機(jī)器學(xué)會打冰球,你要將這個冰球放在機(jī)器前面,一遍一遍地教會它;而在虛擬世界里,機(jī)器可以在一秒內(nèi)重復(fù)眾多次這樣的動作,而且你還可以同時訓(xùn)練一堆機(jī)器學(xué)習(xí)打球,然后找到里面最聰明的一個,將它的“大腦”程序復(fù)制出來,創(chuàng)建一堆同樣的機(jī)器再繼續(xù)訓(xùn)練篩選。
來源:智東西