大家好,今天開始就進入了專欄《AI不惑境》的更新了,這是第一篇文章,講述數(shù)據(jù)如何驅(qū)動深度學(xué)習(xí)。
進入到不惑境界,就是向高手邁進的開始了,在這個境界需要自己獨立思考。如果說學(xué)習(xí)是一個從模仿,到追隨,到創(chuàng)造的過程,那么到這個階段,應(yīng)該躍過了模仿和追隨的階段,進入了創(chuàng)造的階段。從這個境界開始,講述的問題可能不再有答案,更多的是激發(fā)大家一起來思考。
作者&編輯 | 全能言有三
深度學(xué)習(xí)成功源于三駕馬車,模型,數(shù)據(jù)和硬件,這背后最核心的還是數(shù)據(jù),深度學(xué)習(xí)正是因為學(xué)會了從數(shù)據(jù)中抽象知識,才能夠完成各種各樣的任務(wù)。
人工智能的發(fā)展,伴隨著對數(shù)據(jù)的使用方法的進化,今天就來聊聊。
1 數(shù)據(jù)與學(xué)習(xí)
我一直對學(xué)生說,如果你不能認識到數(shù)據(jù)對一個任務(wù)的重要性,不知道什么樣的數(shù)據(jù)能夠完成手中的任務(wù),就不算真正的入門深度學(xué)習(xí)。
在此之前,你可以去沉迷于各種框架,技巧,項目。
我們回想一下,大部分人的成長是什么樣的過程。
(1) 一個剛剛出生的小孩,對這個世界的一切都表現(xiàn)出了無差別的興趣,接受各種信息就是成長。
(2) 在青少年時期,我們在家長和老師的帶領(lǐng)下,從背課文寫作業(yè)開始學(xué)習(xí),大部分錯誤的行為會得到糾錯,正確的行為會得到獎勵。
(3) 隨著成長,有的人在自己工作的領(lǐng)域里熟練玩轉(zhuǎn)數(shù)據(jù)和模型,充分發(fā)掘和運用已有的知識,另一部分人所做的事情不再有答案,需要自己去探索新的規(guī)律,比如成立自己的公司,創(chuàng)作新的知識。
這幾個階段,背后的核心都是數(shù)據(jù)。
(1) 沒有知識的時候,所有已有的數(shù)據(jù)都是知識。
(2) 學(xué)習(xí)知識的時候,需要針對自己要學(xué)習(xí)的領(lǐng)域進行已有數(shù)據(jù)庫的選擇,想學(xué)語言就要背單詞庫,學(xué)數(shù)學(xué)就要做題庫,學(xué)音樂就要練樂譜,這時候用已有的數(shù)據(jù)進行學(xué)習(xí)。
(3) 使用知識的時候,就要調(diào)整自己學(xué)習(xí)到的知識用于新輸入的數(shù)據(jù),在這個過程中,知識也隨之更新。
(4) 創(chuàng)造知識的時候,就要觀察社會和科學(xué)規(guī)律,從中進行總結(jié),面對的就是沒有人整理過的數(shù)據(jù)。
可以毫不夸張的說,人一生大部分時間都用著統(tǒng)計學(xué)獲取,整理和分析數(shù)據(jù),知識從數(shù)據(jù)中來,就像老子說的“道法自然”。
2 有監(jiān)督特征工程到無監(jiān)督特征學(xué)習(xí)
說起無監(jiān)督和有監(jiān)督方法,仍然先舉一個依法治國和無為而治的對比。
依法治國核心就在于設(shè)定了各種各樣的法令讓大家遵循,而無為而治的核心就是不干預(yù),讓國家在自然規(guī)律下運轉(zhuǎn)。很明顯后者是更高級的存在,也更難實現(xiàn),不確定性大。
這個例子說的正是有監(jiān)督和無監(jiān)督方法在社會學(xué)的代表,從有監(jiān)督到無監(jiān)督是進步的,然后我們再看看智能系統(tǒng)的成長。
(1) 最初級的智能系統(tǒng),其實就是用機器來使用專家的知識,依靠的是專家在某一個領(lǐng)域的大量的經(jīng)驗積累。從20世紀60年代開始到80年代第二次人工智能浪潮,專家系統(tǒng)的研究是非常流行的,大家感興趣可以去了解。
(2) 隨著技術(shù)的發(fā)展,研究者發(fā)現(xiàn)專家系統(tǒng)實在是過于簡單和脆弱,于是研究出了一系列的模型,包括人工神經(jīng)網(wǎng)絡(luò)/SVM等等。通過專家的經(jīng)驗對數(shù)據(jù)進行預(yù)處理,完成知識的初步抽象(提取特征),之后丟給模型進行進一步的學(xué)習(xí)。與專家系統(tǒng)相比模型的復(fù)雜度大大提升,因此也可以開始解決更加復(fù)雜的問題,比如人臉的檢測,語音的識別。在20世紀末和21世紀初,有監(jiān)督的機器學(xué)習(xí)方法得到了非常廣泛的應(yīng)用和研究。
(3) 隨著大數(shù)據(jù)的爆發(fā)以及科學(xué)家的不斷探索,研究人員開始認識到通過專家的經(jīng)驗對數(shù)據(jù)進行預(yù)處理是不合適的,數(shù)據(jù)的維度太高,專家不可能知道每一個任務(wù)到底需要怎樣的預(yù)處理,所以無監(jiān)督特征學(xué)習(xí)方法誕生。對于一個無監(jiān)督的特征學(xué)習(xí)系統(tǒng),它的輸入應(yīng)該盡可能是原始的數(shù)據(jù),最大程度上保證信息的完整。至于學(xué)習(xí)的規(guī)則,仍然由專家來制定。
于是專家設(shè)計出各種各樣的模型架構(gòu)和優(yōu)化目標來指導(dǎo)系統(tǒng)從數(shù)據(jù)中進行學(xué)習(xí),與有監(jiān)督的特征工程的最大區(qū)別在于使用數(shù)據(jù)的方式,這一類方法也被稱為特征學(xué)習(xí),于是我們有了傳統(tǒng)的機器學(xué)習(xí)算法和深度學(xué)習(xí)算法之分。
(4) 再往后發(fā)展,就需要機器自己創(chuàng)造模型,人類專家在其中所起的作用很小,甚至沒有,這也是人工智能的未來,或許社會發(fā)展到一定的階段,真的會有創(chuàng)造生命的那一天吧。
3 深度學(xué)習(xí)第一階段-學(xué)習(xí)特征
在深度學(xué)習(xí)發(fā)展的第一階段中,重點就是專家設(shè)計模型和優(yōu)化策略,從數(shù)據(jù)中學(xué)習(xí)特征表達。
深度學(xué)習(xí)的成功很大程度上歸功于卷積神經(jīng)網(wǎng)絡(luò)CNN模型架構(gòu),在圖像,語音等領(lǐng)域都取得了大大突破。CNN是一種無監(jiān)督的特征學(xué)習(xí)模型,輸入原始數(shù)據(jù),然后完成學(xué)習(xí)。關(guān)于CNN的基礎(chǔ),大家可以去閱讀公眾號的相關(guān)文章。
聯(lián)系客服