對于這樣顯赫的題目大家首先要問是誰提出來的?這里主要涵蓋需要通過該理論提出者的資歷判斷提出內(nèi)容的真實性。遺憾的是提出者不是出身顯赫的來自IBM,Google等等,這里只能提供筆者的研究經(jīng)歷供讀者參考。
大約在90年代初期,當(dāng)時由美國學(xué)界提出的導(dǎo)入“熵”的理論解決最佳化組合問題,這一理論一時也被世界矚目,但是這個算法同目前深度學(xué)習(xí)相仿計算復(fù)雜度極高,即使一個最簡單的電路的計算,要花費若干天,面對被世界推崇的理論筆者大膽的提出了“模糊事象概率”理論,通過用模糊概率的測度判斷組合結(jié)果的價值,獲得了快速進行大規(guī)模集成電路的最短配線長,最小面積以及電氣特性的優(yōu)化的多目的組合最佳化的解。其實當(dāng)今的深度學(xué)習(xí)中的“訓(xùn)練”就是數(shù)學(xué)上的最佳化組合問題。
90年代后期發(fā)明了“概率尺度自組織”的機器學(xué)習(xí)理論,并通過聲音識別,手寫文字識別,圖像識別等大量的應(yīng)用,證明了機器學(xué)習(xí)理論的特殊的應(yīng)用效果,在后面的會專題介紹。
進入2000年以來,國際上個人信息法的制定成為社會關(guān)注的焦點,由于當(dāng)時個人信息的67%是通過紙介質(zhì)文檔流失的,為此我們發(fā)明了具有隱形結(jié)構(gòu)的第三代條碼網(wǎng)屏編碼,可在A4的一張紙上埋入一本小說的信息備受業(yè)界的關(guān)注。在這十幾年中針對Google眼鏡,我們還提出了可以把任何圖像直接通過概率尺度自組織的機器學(xué)習(xí)的手法變換成1036的代碼,即ITC(Image To Code)理論。這個理論成為了AI的超深度學(xué)習(xí)的雛形。
我們是經(jīng)過上一代人工智能的研究,對于當(dāng)今火熱的AI熱潮,親身感到并沒有新的理論突破,不同的是人的思想的進步,特別是把神經(jīng)網(wǎng)絡(luò)理論作為AI的核心理論,對神經(jīng)網(wǎng)絡(luò)理論的認識提高了。在2014年以后我們將上述的機器學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)理論的結(jié)合,產(chǎn)生了超深度學(xué)習(xí)的理論。
下面我們重點討論深度學(xué)習(xí)所遺留下的問題是怎么回事?深度學(xué)習(xí)是否是唯一的人工智能的理論?
最近AlphaGo連續(xù)打敗人類,推崇深度學(xué)習(xí)會繼續(xù)升溫。首先深度學(xué)習(xí)是在實際應(yīng)用中被看好的,應(yīng)該肯定走機器學(xué)習(xí)這條路必然會給我們帶來意想不到的應(yīng)用效果,但是也應(yīng)該清醒的看到深度學(xué)習(xí)還是科學(xué)家們的研究課題,目前有很多關(guān)鍵問題不能解決,距離實際應(yīng)用甚遠。我們之所以積極的推動超深入學(xué)習(xí)的普及,是因為我們看清了深度學(xué)習(xí)的不可解決的問題點,以及超深度學(xué)習(xí)的先進性實用性,可以馬上實現(xiàn)工業(yè)化的特點。
首先必須搞清的是:深度學(xué)習(xí)的結(jié)果是將目標(biāo)函數(shù)的信息通過訓(xùn)練承載到海量的屬于歐幾里德空間的參數(shù)上,雖然各方面報道應(yīng)用效果獨具,但是在數(shù)學(xué)上無法證明具有突破性,由于深度學(xué)習(xí)所構(gòu)造的神經(jīng)網(wǎng)絡(luò)與大腦的機理又是風(fēng)馬牛不相干的,因此也不能看到在神經(jīng)元的方面會起到什么作用,其結(jié)論是;通過這樣的方式所產(chǎn)生的訓(xùn)練效果與所投入的硬件開銷不成比例,況且AlphaGo的設(shè)計者也指出深度學(xué)習(xí)在整個系統(tǒng)中的作用只占30%的作用,是次要地位。
深度學(xué)習(xí)還有一個如圖1所示的目前解釋不了的問題,為什么層數(shù)越高訓(xùn)練結(jié)果的圖像越清晰?開始我們曾認為是承載目標(biāo)函數(shù)的信息的參數(shù)數(shù)量的提高使記錄的信息的信息量的提高,但是從數(shù)學(xué)上我們可以證明在同等節(jié)點的層與層的訓(xùn)練中必定可以找到一組參數(shù)可使輸入信息完全等于輸出信息,這就說明深度學(xué)習(xí)的層數(shù)越多圖像越清晰與訓(xùn)練的參數(shù)數(shù)量無關(guān),這就剩下一個可以信服的原因,深度學(xué)習(xí)每一層所訓(xùn)練的結(jié)果實際獲得的是一組局域最佳解,每一層的訓(xùn)練是一個傳遞的函數(shù),所以每一層訓(xùn)練后的解是比上一層更接近整體最佳解的局域最佳解的參數(shù),所以參數(shù)越接近整體最佳解圖像就越清晰。
圖1深度學(xué)習(xí)的學(xué)習(xí)效果
那么,深度學(xué)習(xí)的黑箱問題是怎么回事?這里所謂的黑箱問題是涉及兩個方面的問題?一個是深度學(xué)習(xí)的機理是什么?絕大多數(shù)從事這方面研究的科學(xué)家解釋不清?其實深度學(xué)習(xí)所訓(xùn)練的機理就是在一個海量的數(shù)據(jù)空間里進行組合,并沒有其他特殊的機理,黑箱問題就在于在海量數(shù)據(jù)空間里組合,會出現(xiàn)無窮的局域最佳解,其局域最佳解的分布曲線通過數(shù)學(xué)方法無法計算出,人為的實驗也是目前圖靈機所做不到的,因此在訓(xùn)練中很可能會出現(xiàn)一個參數(shù)稍微改變輸出結(jié)果會突然崩潰,或者是所訓(xùn)練的結(jié)果并不是按照我們想象的結(jié)果進行展開,在組合空間中所獲的的局域最佳解出現(xiàn)在某一個情況下突然出現(xiàn)令人費解的狀態(tài)是正常的,我們在通過規(guī)則解決最佳組合的NP問題中經(jīng)常會出這種現(xiàn)象,往往是通過程序的調(diào)整來實現(xiàn),對于深度學(xué)習(xí)要通過重新改變參數(shù),尋求另一個局域最佳解的方法來解決。所以只要是知道深度學(xué)習(xí)的訓(xùn)練是數(shù)據(jù)最佳化組合的過程,就不難理解深度學(xué)習(xí)的黑箱問題。黑箱問題的另一個因素是深度學(xué)習(xí)是解決歐幾里得空間的問題的算法,在模式識別的應(yīng)用中輸入量存在嚴(yán)重的隨機性,這必然要傳遞到輸出結(jié)果造成訓(xùn)練的參數(shù)無法穩(wěn)定,這個問題比較好理解。
最后的問題就是在模式識別的應(yīng)用上,是特征向量的質(zhì)量重要,還是通過學(xué)習(xí)進行分類重要?回答很簡單沒有好的特征向量的質(zhì)量再好的深度學(xué)習(xí)也是無濟于事的,在許多文章中都把深度學(xué)習(xí)可以直接抽取特征量作為深度學(xué)習(xí)的一大特點,其實深度學(xué)習(xí)在特征映射的方法上簡直是極其傳統(tǒng)的處理方法,而且并沒有考慮圖像信息并不只是灰度信息,所以深度學(xué)習(xí)在模式識別上的應(yīng)用特點只能停留在大量的學(xué)習(xí)的作用上,不會產(chǎn)生更多的突出效果。
在這里首先還是先論證為什么要對傳統(tǒng)的深度學(xué)習(xí)進行徹底分析?不管深度學(xué)習(xí)有什么突出的效果,AlphaGo所需要的硬件開銷是1000個CPU,200個GPU需要20萬W的電力消耗,這樣的硬件開銷如何普及?反過來深度學(xué)習(xí)把如此大規(guī)模的硬件開銷用來干什么?值得不值得?有沒有可以大規(guī)模普及,性能高于深度學(xué)習(xí)的算法?
首先用空間分析法評價深度學(xué)習(xí)的價值:從數(shù)學(xué)上看深度學(xué)習(xí)就是如公式1所示;
公式1
是把輸入函數(shù)表示為通過一層接一層的傳遞函數(shù),從中產(chǎn)生海量的參數(shù),由于海量參數(shù)承載了目標(biāo)函數(shù)的信息,每一個參數(shù)的微小變化可以在歐幾里得空間產(chǎn)生宏觀的巨大的距離的差距,可以如公式2所示;
公式2
用在歐幾里得空間公式的前面加一個參數(shù)W來表示,這個參數(shù)具有足夠大,這好比我們在搞模式識別時,把特征向量統(tǒng)一看成是一個能量的分布,通過平方值擴大特征向量距離之間的差距,這種處理方法起初還是有一定效果的,但是,再成倍的擴大效果不明顯,因為特征向量間的距離的擴大會同時擴大了特征向量之間的隨機分布的范圍,整體的距離的擴大的值與隨機范圍的擴大的值的比例并沒有擴大多少。所以為了訓(xùn)練海量的參數(shù)所投入的巨大的硬件是得不償失的。
再從最佳組合理論上分析,深度學(xué)習(xí)所采用如圖2所示的損失函數(shù)的SGD評價方法,所得到的的訓(xùn)練是組合理論中的一個局域的最佳組合的解,這一點深度學(xué)習(xí)的研究者并不理解,其實這么一個高次的組合空間不可能只有一個局域的最佳解。
圖2隨即梯度下降法SGD的示意圖
其實如圖3所示,20多年前已經(jīng)被一些例如Hopfild的AI科學(xué)家所認識,力圖用組合理論的最短路徑訪問的方法進行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,深度學(xué)習(xí)增加隱藏層造成的海量的參數(shù)所形成的巨大的組合空間,在沒有找到最佳的組合算法的時候,通過拼硬件只是暫時的,一定會被新的算法所顛覆。
圖3“Hopfild的聯(lián)想記憶與最佳組合理論”示意圖
如何解決深度學(xué)習(xí)的問題點?超深度學(xué)習(xí)一舉將深度學(xué)習(xí)所存在的所有問題全部給予解決。超深度學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)就是公式3所示的一個基于概率尺度的自組織算法。
公式3
G? pi (i=1,2,…,m)
An = A(Gn)
Mn = M[Gn,A(Gn)]
Gn = G{A(Gn-1),M[Gn-1,A(Gn-1)]}
這里,給定一個屬于集合G的一組隨機分布的數(shù)值pi (i=1,2,…,m),某一集合Gn中必然存在一個特征值A(chǔ)n是在最大概率條件下可以表示集合Gn的一個值,同時也必然會有一個概率尺度Mn表示在以特征值A(chǔ)n為中心時,概率尺度Mn范圍內(nèi)的所有概率分布值為該集合的最大概率值,那么概率尺度自組織可以由下式來表達。
Gn= G{A(Gn-1),M[Gn-1,A(Gn-1)]}
上述概率尺度自組織的輸入信息是含有隨機分布的特征量,也可以是概率值的分布信息,輸出是針對學(xué)習(xí)數(shù)據(jù)的一個最大的概率值A(chǔ),以及最大概率值的范圍M。
在上述的基礎(chǔ)上,我們提出了公式4的概率空間的距離的定義方法,
公式4
用以衡量在概率空間里特征向量之間的距離。與歐幾里得空間不同的是,在概率尺度M的范圍內(nèi),距離是“0”,這是使模式識別的精度飛躍式的提高的重要理論。也是證明頭腦是概率空間的模型的重要理論。
接下來我們再分析概率尺度自組織的輸出特性。首先這一機器學(xué)習(xí)的算法可以顛覆統(tǒng)計學(xué)的重要的兩大參數(shù),平均值和分散值,以及與這兩大參數(shù)密切相關(guān)的相關(guān)分析,回歸分析等。
概率尺度自組織與傳統(tǒng)的機器學(xué)習(xí)相比的先進性在于如圖4所示;概率尺度自組織是動態(tài)的,可以自主的逼近概率最高的區(qū)域,
圖4自主的逼近概率最高的區(qū)域示意圖
例如圖5所示進行人臉識別時可以自動的尋找到概率分布最集中的人的臉部。可以直接的對輸入的圖像數(shù)據(jù),聲音數(shù)據(jù)等等進行概率尺度的自組織,可以獲得最大概率的特征值。
圖5自動逼近人臉的示意圖
如圖6所示;相比深度學(xué)習(xí)的特征映射的方法不能對應(yīng)圖像漂移,不能去偽存真過濾干擾信息,不能做到最大概率的獲取特征信息。
圖6深度學(xué)習(xí)特征映射示意圖
概率尺度自組織還可以學(xué)習(xí)特征信息的生起概率,并可通過學(xué)習(xí)獲得特征信息屬于那個輸出結(jié)果的最高概率值,使超深入學(xué)習(xí)成為模式識別的最高水平的算法。
概率尺度自組織的機器學(xué)習(xí)的特點是,簡單,計算復(fù)雜度是線性的,易于發(fā)展,可以適應(yīng)非常廣闊的應(yīng)用。結(jié)合神經(jīng)網(wǎng)絡(luò)理論可以產(chǎn)生大量的無監(jiān)督學(xué)習(xí),各種對抗學(xué)習(xí)等的新型超深度學(xué)習(xí)的模型。
下面具體介紹超深度學(xué)習(xí)的架構(gòu),超深度學(xué)習(xí)與普通的深度學(xué)習(xí)最大的不同是,普通深度學(xué)習(xí)是通過層與層之間的復(fù)雜連接關(guān)系產(chǎn)生海量數(shù)據(jù),這種人為的將問題復(fù)雜化恐怕是典型學(xué)界的做法,這種做法可以引起眾多的學(xué)者們的興趣,是起到推動人工智能在理論上的完善必不可少的過程,幾乎科學(xué)技術(shù)的發(fā)展都需要這個過程,當(dāng)發(fā)展到一定程度時,必定有人出來從另一條路出發(fā)將多年積累的理論顛覆,產(chǎn)生可以實際應(yīng)用的新理論。人工智能也一定要走這一道路。超深度學(xué)習(xí)就是對深度學(xué)習(xí)的顛覆,同深度學(xué)習(xí)不同的是超深度學(xué)習(xí)是直接對數(shù)據(jù)進行在概率空間中的機器學(xué)習(xí),可以定量的對輸入的隨機分布信息進行分析,對數(shù)據(jù)進行分類,沉淀深層信息,最終給出最大概率的分類。超深度學(xué)習(xí)始終基于最大概率尺度的自組織,所以永遠是無監(jiān)督學(xué)習(xí),也無需海量數(shù)據(jù)來承載目標(biāo)函數(shù)的信息,是對輸入數(shù)據(jù)的直接學(xué)習(xí),這就產(chǎn)生了高效率的處理效果,無需巨大的硬件支持,一個最低的硬件配置就完全可以實現(xiàn)相當(dāng)于深度學(xué)習(xí)功能,做到的最佳分類,最佳的處理結(jié)果。
圖7超深度學(xué)習(xí)的架構(gòu)示意圖
超深度學(xué)習(xí)如圖7所示;是由節(jié)點與節(jié)點直接連接的與若干個概率尺度的自組織機器學(xué)習(xí)單元來擔(dān)任機器學(xué)習(xí)的任務(wù),學(xué)習(xí)的層數(shù)與大腦一致,是由輸入層,腦神經(jīng)層,以及腦皮層組成,由同一個輸入目標(biāo)函數(shù)信息的多次學(xué)習(xí),產(chǎn)生一個與特征向量所對應(yīng)的學(xué)習(xí)特征值的向量,以及概率尺度的向量,并對應(yīng)每一個腦神經(jīng)的節(jié)點,目標(biāo)函數(shù)信息僅僅承載在這兩個向量上,這是超深度學(xué)習(xí)無需龐大的硬件環(huán)境支持的根源,當(dāng)輸入信息的特征向量與學(xué)習(xí)特征值的向量進行比對時,每一個特征向量的分量的對比結(jié)果小于閥值,即概率尺度時所對應(yīng)的腦神經(jīng)層的節(jié)點就產(chǎn)生一個腦神經(jīng)信號輸入到腦皮層,刺激腦皮層,腦皮層被刺激的信號越多越興奮,依據(jù)腦皮層的興奮程度決定是否為目標(biāo)函數(shù)信息,這豈不是與大腦的機理非常接近嗎?概率尺度就是腦神經(jīng)的閥值,并不是深度學(xué)習(xí)中人為定義的參數(shù),因此大腦機理應(yīng)該建立在概率空間的模型,通過超深度學(xué)習(xí)的架構(gòu)終于搞清楚了。
下面讀者會問超深度學(xué)習(xí)只有三層如何深入,往往在大型服務(wù)器上運行需要處理更復(fù)雜的更高精度的目標(biāo)函數(shù),深度學(xué)習(xí)是靠大量的增加層數(shù),其結(jié)果使系統(tǒng)的復(fù)雜度成為無限的程度,使未來的應(yīng)用束手無策,超深度學(xué)習(xí)如圖8所示;是按照針對復(fù)雜系問題的空間映射原理,可以把任何的復(fù)雜系的目標(biāo)函數(shù)映射到任意多的子空間,針對每一個子空間的目標(biāo)函數(shù)的信息用增加輸入層的節(jié)點的方法進行,這使超深度學(xué)習(xí)可以把目標(biāo)函數(shù)的處理無限的深入下去,卻不增加系統(tǒng)的O(n2)的復(fù)雜度。在目標(biāo)函數(shù)信息的輸入環(huán)節(jié),超深度學(xué)習(xí)針對每一個目標(biāo)函數(shù)的分量通過概率尺度的自組織可以獲得最大概率的特征值,這也是深度學(xué)習(xí)所望塵莫及的,超深度學(xué)習(xí)與深度學(xué)習(xí)相比,不僅在是否建立在概率空間的模型上處于優(yōu)勢,可以使深度學(xué)習(xí)需要很多的概率模型來彌補算法上的短板,在超深度學(xué)習(xí)里被省略,因此容易理解而易于深入推廣又是超深入學(xué)習(xí)的一大特點。
圖8超深度學(xué)習(xí)的深入方法
再有不管深度學(xué)習(xí)如何通過各種概率模型來解決算法上的弱勢,但是只能停留在傳統(tǒng)的概率統(tǒng)計的水平上,而超深度學(xué)習(xí)通過機器學(xué)習(xí)可以顛覆傳統(tǒng)的統(tǒng)計學(xué),使處理結(jié)果達到幾乎無法再提高的程度。
超深度學(xué)習(xí)的實際應(yīng)用的例子之一是如圖9所示;
圖9超深度學(xué)習(xí)實現(xiàn)圖像變換代碼的例子
將任意一個圖像通過手機拍照后,通過超深度學(xué)習(xí)變換成一個1036的代碼,導(dǎo)入了超深度學(xué)習(xí)無需通過噴印標(biāo)記的方式構(gòu)成光學(xué)可讀性二維碼,而是靠圖像的灰度的分布自組織成一個二維碼,也就是說可以通過手機拍攝商品標(biāo)識,直接生成一個可以連接網(wǎng)絡(luò)的二維碼,讓全世界的商品一夜之間就可連接網(wǎng)絡(luò)。
超深度學(xué)習(xí)的圖像直接生成代碼,要比市場流行的開源程序AR圖像識別技術(shù)具有相當(dāng)高的難度,AR圖像識別技術(shù)只要能區(qū)分不同圖像的輪廓就可,超深度學(xué)習(xí)要克服由于手機在不同情況下拍攝的圖像所產(chǎn)生的非常大的隨機分布信息,通過概率尺度的自組織變換成一個穩(wěn)定的代碼,其應(yīng)用結(jié)果必然產(chǎn)生突破,AR的識別結(jié)果是一個十兆字節(jié)以上的文件,而且分解能力差,一般只能在十幾個圖像之間檢索,超深度學(xué)習(xí)把任意圖像變換的是一個1036代碼,只占幾十個字節(jié),而且分解能力可以在1036圖像之間檢索。
超深度學(xué)習(xí)與普通的深度學(xué)習(xí)的對比如表1所示;首先從方法上進行比較:
深度學(xué)習(xí)是在歐幾里得空間里訓(xùn)練出海量的參數(shù),用海量的參數(shù)承載目標(biāo)函數(shù)的信息,超深度學(xué)習(xí)是直接針對輸入的隨機分布數(shù)據(jù)進行概率空間的自組織學(xué)習(xí),將隨機分布的數(shù)據(jù)進行去偽存真的處理,得出定量的并且穩(wěn)定的最大概率的解,以及可以提煉出深層的信息。
表1超深度學(xué)習(xí)與深度學(xué)習(xí)的對比
在神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)上深度學(xué)習(xí)是數(shù)十層乃至數(shù)百層,這樣就使問題的復(fù)雜度急劇擴大,造成組合的空間無窮的大,導(dǎo)致不可能得到最佳組合的解,因此出現(xiàn)黑箱問題等,超深度學(xué)習(xí)同大腦的構(gòu)造近似,只有三層輸入層,腦神經(jīng)層,以及腦皮層,而且數(shù)學(xué)模型很接近大腦的機理,證明超深度學(xué)習(xí)符合大腦的結(jié)構(gòu)。
深度學(xué)習(xí)的數(shù)據(jù)空間是歐幾里得空間,利用歐幾里得空間的數(shù)據(jù)也可以承載目標(biāo)函數(shù)的概率值,因此深度學(xué)習(xí)在輸入或輸出的環(huán)節(jié)上加入不同的概率模型,以及概率統(tǒng)計的算法。超深度學(xué)習(xí)就是建立在概率空間的自組織,可以直接對輸入的具有隨機分量的數(shù)據(jù)進行去偽存真的特征抽出。
再有,在模型能力擴大的方法上深度學(xué)習(xí)是靠增加隱藏層的數(shù)量來實現(xiàn)的!超深度學(xué)習(xí)是靠增加輸入層的節(jié)點的個數(shù),通過將復(fù)雜系空間的映射,把目標(biāo)函數(shù)變換成若干子空間,并把子空間的特征分量對應(yīng)輸入層的各個節(jié)點,通過擴大節(jié)點的個數(shù)達到深入學(xué)習(xí)的目的。
在特征量抽出上深度學(xué)習(xí)是在一個目標(biāo)函數(shù)上通過稠密的目標(biāo)函數(shù)的特征映射實現(xiàn)的,這種特征映射是傳統(tǒng)的方法,解決不了目標(biāo)函數(shù)的較大漂移,以及特征量為隨機分布的信息。超深度學(xué)習(xí)針對輸入的目標(biāo)函數(shù)可以進行廣域的自組織學(xué)習(xí),可以最大概率的將特征量抽出,可以解決目標(biāo)函數(shù)的漂移問題。
在處理結(jié)果上的對比:
在處理復(fù)雜度上,深度學(xué)習(xí)是每一層的節(jié)點數(shù)量的指數(shù)O(nn),而超深度學(xué)習(xí)一直保持在O(n2)的水平。
在硬件開銷上,深度學(xué)習(xí)需要大量的GPU構(gòu)成的巨型的硬件系統(tǒng),而超深度學(xué)習(xí)可以在一個芯片或移動終端上實現(xiàn)。
在處理效率上,深度學(xué)習(xí)在訓(xùn)練海量參數(shù)時處理效率極低,而超深度學(xué)習(xí)直接對數(shù)據(jù)進行處理,所以處理效率極高。
在模型發(fā)展上,深度學(xué)習(xí)的基本模型20多年沒有改變,是硬直性的很難突破,超深度學(xué)習(xí)是柔性的很容易發(fā)展,可以根據(jù)用途的不同進行有針對性的構(gòu)建,是一個孕育突破性發(fā)展的模型。
在數(shù)據(jù)空間上,深度學(xué)習(xí)所訓(xùn)練的數(shù)據(jù)是歐幾里得空間的數(shù)據(jù),超深度學(xué)習(xí)的數(shù)據(jù)是在概率空間的學(xué)習(xí)所產(chǎn)生的數(shù)據(jù)。這是實質(zhì)的區(qū)別。
在學(xué)習(xí)方式上深度學(xué)習(xí)只能建立在有監(jiān)督的學(xué)習(xí)以及半無監(jiān)督的學(xué)習(xí),超深度學(xué)習(xí)本身具有最大概率的尺度的學(xué)習(xí)目標(biāo),可以完全的進行無監(jiān)督的學(xué)習(xí),同時也可實現(xiàn)兩種對抗學(xué)習(xí),是普通深度學(xué)習(xí)很難實現(xiàn)的。
當(dāng)然深度學(xué)習(xí)在應(yīng)用中在輸入與輸出環(huán)節(jié)上加入了大量的概率模型,以彌補訓(xùn)練的數(shù)據(jù)只能是歐幾里得空間的數(shù)據(jù)這一短板,但是不管采用什么算法也只能停留在傳統(tǒng)的統(tǒng)計學(xué)的水平上,超深度學(xué)習(xí)通過學(xué)習(xí)可以產(chǎn)生出顛覆統(tǒng)計學(xué)的效果,將錯綜復(fù)雜的概率糾纏進行最佳的概率的分類,可以對深層的信息進行挖掘和沉淀,使目標(biāo)函數(shù)的處理達到不可能再提高的地步,這就是超深度學(xué)習(xí)的卓越之處。
如上所述,超深度學(xué)習(xí)的基本模型,同傳統(tǒng)的深度學(xué)習(xí)的對比進行了介紹,這里準(zhǔn)備介紹一個我們正在進行的超深度學(xué)習(xí)視覺芯片的開發(fā)情況。以及這一芯片的特點同導(dǎo)入深度學(xué)習(xí)的比較。
圖10超深度學(xué)習(xí)視覺芯片的構(gòu)成
圖10是超深度學(xué)習(xí)視覺芯片的構(gòu)成,這個項目是同由日立,NEC以及三菱電機的半導(dǎo)體事業(yè)部剝離,聯(lián)合組建的日本最大的芯片公司RENESAS公司聯(lián)合開發(fā)的,采用硬件加軟件的形式,對于非常占用處理時間的顏色變換,以及為盡可能獲取圖像的本來信息,針對圖像的空間映射等采用硬件處理,算法用軟件處理。超深度學(xué)習(xí)獨特的兩種對抗學(xué)習(xí)以及無監(jiān)督學(xué)習(xí)的算法均在這一款芯片里搭載,因此,可以使這一芯片在圖像感知方面做到傳統(tǒng)的算法無可比擬的天衣無縫的精度與應(yīng)用效果。
我們的超深度學(xué)習(xí)的研發(fā)戰(zhàn)略是,首先從算法上布局,既然已經(jīng)證實,導(dǎo)入超深度學(xué)習(xí)可以顛覆傳統(tǒng)的統(tǒng)計學(xué)的兩大參數(shù),那么與這兩大參數(shù)有關(guān)的相關(guān)分析,回歸分析等等大量的統(tǒng)計學(xué)的數(shù)學(xué)模型,將成為超深度學(xué)習(xí)的重要架構(gòu),這些成果可以分別通過論文的形式發(fā)表。同時將深度學(xué)習(xí)理論作為一個鏡子,逐一的將深度學(xué)習(xí)的一些特殊的算法在超深度學(xué)習(xí)上實現(xiàn),在應(yīng)用上從圖像感知,語音感知到預(yù)測推論等的應(yīng)用可視化,在推廣上從提供SDK程序,AI芯片以及開源平臺,聯(lián)合開發(fā)等等分別進行,我們是原創(chuàng)單位因此不同我們的用戶競爭,我們的角色是技術(shù)提供與服務(wù),以及基礎(chǔ)性開發(fā),因此不獨立的進行具體項目的開發(fā),可以為從事AI事業(yè)的創(chuàng)業(yè)公司進行技術(shù)合作以及技術(shù)入股。
作為我們奉獻社會的超深度學(xué)習(xí)由于不是通過組合方式訓(xùn)練海量的參數(shù)的,是直接對隨機分量的數(shù)據(jù)進行概率自組織的學(xué)習(xí),因此不存在黑箱問題,而且最大的特點是硬件要求門檻極低,普通一個芯片,任何一個移動終端都可以立即應(yīng)用,基礎(chǔ)理論概念清楚,算法簡單易懂,是可以大量普及的一個為大眾服務(wù)的AI算法,為了證明超深度學(xué)習(xí)的能力,我們也在尋求社會支持,開發(fā)與AlphaGo對抗的超深度學(xué)習(xí)的算法,我們本來就是解決組合最佳化的NP問題的專家,有過各種類似的應(yīng)用業(yè)績,我們完全有能力同AlphaGo系統(tǒng)對抗,超深度學(xué)習(xí)的特點是把AlphaGo所需要的1000CPU,200個GPU耗電20萬W的硬件開銷用一個芯片代替,另一個特點是;超深度學(xué)習(xí)是概率的模型,因此可以將AlphaGo主要靠輔助的概率模型的程序?qū)崿F(xiàn),改為真正靠超深度學(xué)習(xí)模型來實現(xiàn),衷心的希望從事AI研究的年輕的科學(xué)家加入到超深度學(xué)習(xí)的研究與推廣中來!
Ph.D. 顧澤蒼
gu@apollo-japan.ne.jp
2017年1月13日
聯(lián)系客服