2012年,一篇名為ImageNet Classification with Deep Convolutional Neural Networks的論文引爆了人工智能(AI)領域,整個研究界都驚嘆深度學習的巨大飛躍。
也是那年,對于那些認為深度學習已經碰壁的人,“深度學習教父”杰弗里·辛頓(Geoffrey Hinton)反駁道:“我們將看到機器人技術的巨大進步——靈巧、敏捷、更順從的機器人可以像我們一樣更高效、更溫和地做事?!?/span>
從那之后,人工智能行業(yè)飛速發(fā)展,人工智能已經滲透到我們生活和生產的方方面面。
吳恩達(Andrew Ng)認為:“人工智能將成為新的電力,并將在未來幾年影響每個人的生活?!?/span>
這在一定程度上說明,把握AI在一定程度上就是把握未來。
吳軍博士在被人問及預測未來的時候回答:
“ 我們所能做的,就是了解過去和現在,熟悉科技產業(yè)的發(fā)展規(guī)律,培養(yǎng)正確的做事方法,適應未來的變化和挑戰(zhàn)。”
今天小編就和大家一起回顧過去十年AI是如何發(fā)展、如何改變我們的生活和世界的,希望大家可以從中獲得些許感悟,以幫助我們更好地把握當下,抓住未來機遇。
首先,讓我們一起回到2012年。
AI十年,2012-2022
在李飛飛教授發(fā)起ImageNet競賽的第三年,杰弗里·辛頓帶著他的兩個博士生,亞歷克斯·克里熱夫斯基(Alex Krizhevsky)和伊利亞·蘇茨克維爾(Ilya Sutskever)參加了競賽。
他們帶來的開創(chuàng)性神經網絡AlexNet,以比亞軍低了10.8%的錯誤率一舉奪得當年冠軍。AlexNet論文后來被認為是計算機視覺領域發(fā)表的最具影響力的論文之一,催生了更多使用CNN和GPU來加速深度學習的論文。
▲ LeNet和AlexNet卷積層、池化層和密集層的比較
(來源:AlexNet)
根據谷歌學術數據,截至目前(2022年12月)該論文已經被引用超過12萬次。今年,它也獲得了NeurIPS 2022時間檢驗獎(Test of Time Award),以表彰它在十年間做出的重大貢獻。
▲ AlexNet論文的引用數據(來源:谷歌學術)
AlexNet的出現,標志著深度學習開始改變整個AI領域。
與此同時,谷歌X實驗室研究員構建了一個由16000顆處理器組成的神經網絡,它具有10億個連接,并在訓練后可以準確地識別網絡視頻中的貓;谷歌大腦也在大規(guī)模圖像識別方面取得了突破性進展;在2012年IEEE計算機視覺和模式識別會議(CVPR)上,關于卷積神經網絡在多個圖像數據庫上的性能報告也讓人頗為振奮。
總之,到了2013年的時候,如杰弗里·辛頓所說:幾乎所有的計算機視覺研究都轉向了神經網絡。自然語言處理、文本生成、文本翻譯和圖像合成等方面諸多阻礙都被深度學習清掃干凈了。
2014年,由伊恩·古德費洛(Ian Goodfellow)發(fā)明的生成對抗網絡(Generative adversarial network,GAN)橫空出世。它令人驚嘆的視覺效果和訓練穩(wěn)定性提升迅速引起了業(yè)內關注,并且被成功應用到圖像生成、照片修復、遷移學習、醫(yī)療等重要領域。
▲ GAN圖像(來源:GAN論文)
也是在那一年,伊恩·古德費洛的博士導師約書亞·本吉奧(Yoshua Bengio)發(fā)表的通過聯合學習對齊和翻譯進行神經機器翻譯的論文顛覆了傳統的機器翻譯,并提出了重要的概念“注意力”(attention)。
神經機器翻譯不僅成為翻譯和語言建模等文本任務不可或缺的一部分,同時也與GAN模型相互影響。
▲ 注意力的可視化(來源:神經機器翻譯論文)
當年還發(fā)生過一件震動AI行業(yè)的事情:谷歌收購DeepMind。此次收購對谷歌有著里程碑式的意義,對谷歌在AI領域的崛起意義重大。
在2015年,它開源了日后成為機器學習明星框架的TensorFlow。
該框架由杰弗里·辛頓和杰夫·迪恩(Jeff Dean)領導團隊在谷歌大腦專用機器學習系統DistBelief上重構而成,被谷歌50多個團隊用于研究與生產。
2015年年底,OpenAI成立,并在后來逐漸成長為與谷歌抗衡的AI巨頭公司。
2016年,谷歌更是放大招。DeepMind出品的AlphaGo擊敗了當時的圍棋冠軍李世石,這是計算機圍棋程序首次無讓分擊敗人類圍棋職業(yè)九段棋手。
AlphaGo使用蒙特卡羅樹搜索算法,先通過機器學習獲得知識,再大量訓練從人類和計算機游戲中獲得的知識來找到它自己的下棋方法。
AlphaGo成長迅速,在2017年就擊敗了當時世界排名第一的棋手柯潔。
▲ 2016年,AlphaGo擊敗李世石(來源:AlphaGo)
2016年10月,另一AI巨頭Facebook(2021年更名為Meta)開源了自己的機器學習框架PyTorch,廣泛應用于計算機視覺和自然語言處理等應用。
PyTorch在很大程度上與TensorFlow是競爭關系,并且在后面幾年中趕超TensorFlow成為更受歡迎的框架。
在當下流行的機器學習構建工具Hugging Face支持的100000多個模型中,有58907個是PyTorch模型,而TensorFlow模型只有4123個。
▲ 主流機器學習工具Hugging Face中PyTorch模型和TensorFlow模型數量對比(來源:Hugging Face)
2017年,谷歌大腦繼續(xù)發(fā)力,推出新的深度學習模型Transformer。因為它在架構上大規(guī)模使用注意力機制,幾乎成為NLP問題的首選模型。
Transformer也憑借著在超大型網絡中的計算優(yōu)勢,以超高的并行化減少了大量訓練時間,擊敗了老牌的循環(huán)神經網絡(RNN)。
▲ Transformer架構(來源:谷歌)
同一年Facebook地AI實驗室還爆出過一個“事故”——訓練出來的兩個對話機器人,在交談時偏離了英語的使用并創(chuàng)建了自己的語言。該項目后來被關閉,整個事件當時在網絡上引起了熱烈的討論。
▲ 媒體在報道此次事件的時候,用了“毛骨悚然(Creepy)”來形容
2018年,谷歌在Transformer的基礎上推出了BERT模型。這是一種雙向上下文的文本嵌入模型,用于語言理解的深度雙向變換的預訓練。
▲ BERT和OpenAI的GPT以及ELMo的對比(來源:谷歌)
BERT一經發(fā)布,其他基于Transformer的語言模型立馬呈爆炸式地增長,人機對話、問答等領域每時每刻都在發(fā)生變化。
同一年流行的DeepFakes想必大家依然印象深刻,使用這種技術制作的虛假視頻在網絡上火得一塌糊涂,常人很難以視頻內容辨別其真假。而它背后的技術正是基于深度學習和訓練生成神經網絡(例如自動編碼器和GAN)架構。
之后AI技術幾乎滲透到了生活中的每一處,在醫(yī)療領域也取得了驚人的發(fā)展。
2019年,谷歌DeepMind算法支持的AI從X射線圖像中發(fā)現乳腺癌的整體表現比人類醫(yī)生要好,正確診斷率更高。研究人員稱,該技術有望幫助臨床醫(yī)生更準確地發(fā)現乳腺癌,緩解因放射科醫(yī)生短缺帶來的醫(yī)療壓力。
同時AI在游戲領域也表現優(yōu)異,比如DeepMind的AlphaStar在《星際爭霸2》中達到宗師級別,超過99.8%的人類玩家;OpenAI訓練的AI在舊金山的一場現場比賽中擊敗了《刀塔2》當時的世界冠軍隊伍OG戰(zhàn)隊。
▲ 人類和AI視角下的游戲(來源:OpenAI)
近幾年AI發(fā)展似乎更務實。
2020年微軟推出的DeepSpeed是PyTorch的開源深度學習優(yōu)化庫,致力于減少內存使用并在現有計算機硬件上訓練具有更好并行性的大型分布式模型。
▲ DeepSpeed 數據效率框架的設計(來源:微軟)
依托于DeepSpeed,微軟推出了圖靈自然語言生成(Turing-NLG)模型,擁有170億參數,在許多下游NLP任務上的表現優(yōu)于當時其他技術,包括BERT和GPT-2。
但在幾個月后,OpenAI就發(fā)布了先進的自回歸語言模型GPT-3。使用該模型生成的計算機代碼、詩歌、小說和其他文本幾乎與人類編寫的沒有區(qū)別,并且其參數量是Turing-NLG的10倍。
而OpenAI在2022年11月推出并火爆全網的問答交互機器人ChatGPT,相信大家都見識過了它的強大。它就是建立在GPT-3.5之上,并且通過監(jiān)督學習和強化學習技術進行了微調。
▲ ChatGPT的訓練方法(來源:OpenAI)
2020年底,DeepMind的AI系統AlphaFold2在第14屆國際蛋白質結構預測競賽(CASP)中取得冠軍,準確度遠高于其他組。
諾貝爾獎獲得者、英國皇家學會主席文基·拉瑪克里希南(Venki Ramakrishnan)教授評價說:這項計算工作代表了蛋白質折疊問題的驚人進步,這是生物學領域50年來的一項重大挑戰(zhàn)。
▲ AlphaFold2在CASP中的準確度表現(來源:谷歌)
在2021年中,雖然以GPT-3為代表的單獨針對文本及圖像等任務的深度學習模型備受矚目,但AI模型在發(fā)現文本與圖像間關系中取得了進步。
比如到現在依然火熱的AI繪畫,就是CLIP(contrastive language-image pre-training)與GAN相結合的成果;Facebook的多模式仇恨言論檢測器能夠根據文本、圖像及視頻等10種數據類型將模因(惡意圖文)與其他圖像–文本對準確劃分為“良性”或“有害”。
同時模型也變得越來越大。谷歌的Switch Transformer將參數推上了一個可怕的高度,該模型擁有1.6萬億個參數;而后我國研究團隊也開始發(fā)力,北京智源人工智能研究院的“悟道2.0”模型包含1.75萬億個參數。
值得注意的是,數據顯示,2020年我國在世界范圍內的AI期刊論文引用次數首次超過了美國,而在之前幾年,美國的AI會議論文引用次數一直(且明顯)高于我國。
我們在全球AI發(fā)展中貢獻了舉足輕重的力量。
迎接AI未來
十年走來,AI幾乎在我們生產和生活的所有領域都發(fā)揮了作用。以當下的趨勢來看,未來它的作用只會更大。
當然,這次十年回顧只是一次簡單的介紹,對于技術和發(fā)明這些技術的人都只是淺淺地提及。但通過這次回顧,我們能夠感受和體會到AI的復雜與變化,也能預見到它在當下和未來對技術人員發(fā)出的挑戰(zhàn)并不簡單。
面對挑戰(zhàn),勇往直前吧!
當然,有稱手的武器是最好不過的了。而小編推薦的這本AI領域“大百科書”,《人工智能:現代方法(第4版)》。
作為AI領域的經典之作,為了適應AI領域的新變化,本書這次升級幾乎重寫了所有內容,并且新增了四分之一的新章節(jié)知識。
其中對近十年AI領域的新成果和進展有更豐富的介紹,特別是深度學習方面的關鍵技術成果。具體新增和修訂內容如下:
●更關注機器學習而不是人工設計的知識工程;
●增加了深度學習、概率編程和多智能體系統;
●修訂了自然語言理解、機器人學和計算機視覺;
●機器人學新增人類互動的機器人以及強化學習;
●增加了人工智能對社會影響的相關內容,包括道德、公平、信任和安全等重要問題。
作者斯圖爾特·羅素(Stuart Russell)和彼得.諾維格(Peter Norvig)都是世界著名的計算機科學家,這本書融合了他們對于AI的系統性觀點,凝練了他們在過去幾十年AI研究與教學積累下來的寶貴經驗,有助于我們充分、深刻地認識AI。
此次更新,更是融入了他們近十年來對AI的重新思考,可以幫助我們更輕松、有效地理解時下流行的AI技術與思想,從而更好地融入AI行業(yè)。
本書不僅是新手入門AI的理想教材,也是AI從業(yè)者可常備案頭的參考書。其豐富的內容既能在學習時拓展和加深我們對AI的認知,也能對AI相關的工作進行指導。
同時,本書口碑上佳,不僅有國內外的無數專家學者傾力推薦,也在各讀者榜單中獲得優(yōu)異成績。
▲ 本書豆瓣讀者評分高達9.7
▲ 本書入選知名圖書榜單
經典升級,口碑依舊,相信它可以作為你暢游AI世界的稱手武器。
參與AI下一個十年
“種一棵樹最好的時機,一個是十年前,一個是當下。”
AI的上一個十年已經過去,下一個十年相信你必定會參與。在以人為本的AI領域中,千千萬萬個技術人員發(fā)揮著自己的智慧與勇氣,推動著AI的前進與發(fā)展。
小編相信,只要你想,你也會成為影響AI發(fā)展中不可忽視的一分子。
如果入門深度學習,可以考慮人工智能領域爆火的《圖解深度學習:可視化、交互式的人工智能指南》。
▲ “最好看”的深度學習圖書
本書和經典名著“AI大百科全書”《人工智能:現代方法 (第4版)》是同一系列,都對內容廣度和深度做了很好的平衡,分別關注深度學習和人工智能這兩個龐大的主題。
可以說本書是《人工智能:現代方法(第4版)》深度學習主題的深入探索與擴展,兩者搭配閱讀效果更好。
這本書以其對深度學習背后主流技術的講解,及精美的插圖和有趣的類比,俘獲了一眾讀者的心,在全球各地均斬獲高分評價。
文章編輯:沙魚 審校:桐希、單瑞婷
參考引用:
1.The Decade of Deep Learning
2.Decade Of Artificial Intelligence: A Summary
3.A decade in deep learning, and what's next
4.Web Semantics: Microsoft Project Turing introduces Turing Natural Language Generation (T-NLG)
5.ChatGPT: Optimizing Language Models for Dialogue
6.AlphaFold: a solution to a 50-year-old grand challenge in biology
7.2021年人工智能指數報告
8.2021 in the Rear-View Monitor
9.Hugging Face Models
聯系客服