一夜之間,Google 在兩個層面上突破了人工智能應(yīng)用的想象力。
文丨賀乾明 邱豪
編輯丨黃俊杰
用戶 1:你在用 PaLM 2 模型了嗎?
Google Bard:我在 2023 年 3 月 31 日切換到了 PaLM 2。這是 Google CEO 桑達爾·皮查伊 (Sundar Pichai)在《紐約時報》Hard Fork 播客上宣布的。
用戶 2:你在用 PaLM 2 模型了嗎?
Google Bard:我沒有用 PaLM 2,我用的是一個更小的、正在開發(fā)的模型。PaLM 2 是一個更強大、但還在研究階段的模型,我不確定它什么時候發(fā)布,并對外開放……
今天凌晨舉辦的 Google I/O 開發(fā)者大會之后,將同樣的問題拋給 Google 的聊天機器人 Bard,你會看到截然不同的答案。根據(jù) Google 公布的信息,Bard 已經(jīng)切換到了新一代模型 PaLM 2,但并沒有在 3 月 31 日完成切換(但它提到的播客又確實存在)。所以第一個回答對了一部分。
Google 沒有解決大模型回答不準確的根本問題——可能一時也沒人能解決。但新的 PaLM 2 大語言模型,以及同步宣布的一系列激進的產(chǎn)品更新展示了,在當前技術(shù)限制下,互聯(lián)網(wǎng)巨頭可以如何推動人工智能實用化。
模型小一點也可以更好用,甚至就在手機上離線運行
Google 在會上發(fā)布了新一代大語言模型 PaLM 2,不是一個,而是四個。從小到大,按照參數(shù)規(guī)模用動物命名:壁虎(Gecko)、水獺(Otter)、野牛(Bison)和獨角獸(Unicorn)。
皮查伊說,“壁虎” 可以在手機上運行,而且速度足夠快、不聯(lián)網(wǎng)也能正常工作。
此前也有開發(fā)者在手機上運行開源的大模型,但速度很慢,一次結(jié)果要等上十分鐘甚至更久。根本無法與掌控 Andriod 系統(tǒng)、并具備大模型開發(fā)實力的 Google 相比。
雖然更大的人工智能模型效果往往更好,但消耗的計算能力也更夸張。接入 GPT-4 的 New Bing 和 ChatGPT Plus,一度讓微軟的計算資源都捉襟見肘。OpenAI 一度暫停用戶付費訂閱 ChatGPT Plus,并限制付費用戶每天使用 GPT-4 的次數(shù)。
對于個人用戶來說,最可靠的計算能力還是手里的手機、家里的電腦。如果你不玩游戲,這些設(shè)備中的算力都是冗余的。更小、消耗計算資源更少的大模型,能把這些冗余的計算資源變得有用。
Google 在技術(shù)報告中評估了 S、M、L 三個規(guī)模的 PaLM 2 ——沒跟 Google 發(fā)布會上提到的四個模型對應(yīng)——在部分任務(wù)中,最小的 PaLM 2 會比上一代 5400 億參數(shù)的 PaLM 表現(xiàn)好。
英偉達人工智能科學(xué)家 Jim Fan 將 “壁虎” 稱為 PaLM 2 模型中 “最重要的亮點”:“在小屏幕上提高的生產(chǎn)力,要比在大屏幕上多得多?!?/p>
根據(jù) Google 的技術(shù)報告,即使是規(guī)模最大的 “獨角獸” 版本, PaLM 2 的參數(shù)也比上一代模型少,但在自然語言生成、翻譯、推理等多個任務(wù)上更強?!斑@表明擴大模型的規(guī)模,并不是增強模型能力的唯一途徑?!?/p>
這一技術(shù)突破對人工智能繼續(xù)提升發(fā)展至關(guān)重要。過去幾年,Google 和 OpenAI 等公司證實了 “模型參數(shù)越大,能力更強” 的規(guī)律,科技公司大模型競賽把模型參數(shù)推高到萬億。訓(xùn)練模型時,它們基本用盡了地球上所有的文本數(shù)據(jù)。
今年 4 月, OpenAI 首席執(zhí)行官山姆·阿爾特曼(Sam Altman)在麻省理工學(xué)院交流時說,“我們正處于巨型模型時代的結(jié)尾”,模型的進步不會來自讓模型變得更大。
現(xiàn)在 Google 率先交了答案,但解題過程:“略”。
和 OpenAI 介紹 GPT-4 時的方法一樣,Google 介紹 PaLM 2 時也放出長達 90 多頁的技術(shù)報告——沿用學(xué)術(shù)界常用的 arXiv 論文格式。格式接近論文,但文章署名作者變成 Google 公司,研究人員名單被挪到了最后的附錄。
類似 GPT-4 的發(fā)布,Google 也隱去了 PaLM 2 具體怎樣訓(xùn)練模型,模型參數(shù)有多大。人工智能研究與學(xué)術(shù)息息相關(guān),但對于大公司,它最終還是一場激烈的商業(yè)競爭。
相比技術(shù)細節(jié),Google 更愿意講 PaLM 2 跨語言學(xué)習(xí)的能力。根據(jù)技術(shù)文檔,Google 訓(xùn)練 PaLM 2 時用了 100 種語言的數(shù)據(jù),主要的語言數(shù)據(jù)中,都有與英文對應(yīng)的文本。皮查伊說,PaLM 2 可以理解不同語言之間細微的差異,并生成超出預(yù)期的結(jié)果。
他舉了一個 PaLM 2 幫不同國家的人合作寫代碼的例子???PaLM 2,韓國的開發(fā)者用韓語注釋代碼、提出修改建議,美國的開發(fā)者一樣能看懂。PaLM 2 還會幫美國的開發(fā)者寫韓語評論。
皮查伊在發(fā)布會中并沒有直接提及競爭對手 GPT-4。在 PaLM 2 的技術(shù)報告中,GPT-4 作為參照對象也僅出現(xiàn)了寥寥數(shù)次。比如當評估推理能力時,Google 稱 PaLM 2 在測試推理能力的部分數(shù)據(jù)集上表現(xiàn)跟 GPT-4 相當。
一些用戶在 Reddit 論壇和社交媒體上說新 Bard “快如閃電”、但寫代碼還是不如 GPT-4。網(wǎng)站設(shè)計師 Mike Hancock 說他給 GPT-4 和 Bard 出了相同的代碼測試題,GPT-4 一個答案還沒寫完,Bard 已經(jīng)給出了三個完整答案,不過最終結(jié)果還是 GPT-4 更好。
Google 還展現(xiàn)了用不同數(shù)據(jù)微調(diào)(Fine-tuning)PaLM 2 后的成果:
Sec-PaLM,用安全數(shù)據(jù)微調(diào)。它可以檢測惡意腳本,幫安全專家了解和解決威脅。
Med-PaLM 2 ,用醫(yī)學(xué)數(shù)據(jù)微調(diào)。它能像臨床醫(yī)生一樣回答病人問題。準確度接近臨床醫(yī)生。它是第一個醫(yī)學(xué)執(zhí)照考試中達到 “專家” 水平的語言模型,也是現(xiàn)在最先進的。Google 稱,后續(xù)還會給它加看 X 光膠片的能力。
OpenAI 已經(jīng)明確表示短期不會研發(fā)下一代模型(GPT-5),而是尋找其他方式讓 GPT-4 變得更好 。但 Google 不打算停下半步。PaLM 2 剛對大眾開放,Google 就已經(jīng)在從頭研發(fā)新一代的大模型 Gemini。
Gemini 將是多模態(tài)的——能同時處理語言、圖片等數(shù)據(jù),并集成各種工具和 API,“雖然還處于早期階段,但我們已經(jīng)看到了之前模型中沒有的、印象深刻的功能”。
從搜索到地圖再到 Gmail,大模型被塞進 Google 的核心產(chǎn)品
“我們正處于一個激動人心的轉(zhuǎn)折點。” 皮查伊說, “通過生成式人工智能,我們正重新構(gòu)想我們所有的產(chǎn)品。包括搜索?!?/p>
Google 是用戶最多的互聯(lián)網(wǎng)公司——15 個產(chǎn)品用戶超過 5 億、6 個超過 20 億。中國以外地區(qū),大部分人用 Google 的搜索、地圖、郵件、視頻產(chǎn)品。
在 Google I/O 的主題演講中,這些產(chǎn)品都有了人工智能驅(qū)動的新版本。最受關(guān)注的是每年為 Google 貢獻數(shù)百億美元利潤的搜索廣告。任何一個微小調(diào)整,都可能影響根基。
微軟的 New Bing 直接把 ChatGPT 做成 “聊天” 界面,鼓勵人離開搜索結(jié)果——也離開了廣告。Google 選了一個更平衡的做法,在搜索頁嵌入了名為 AI Snapshot 的新模塊,展示大模型生成的結(jié)果。
當你搜索 “適合泳池派對的藍牙音箱”,頁面中先出現(xiàn)傳統(tǒng)的搜索結(jié)果——十條藍字鏈接,幾秒后,人工智能生成內(nèi)容出現(xiàn)并被置頂,告訴你買藍牙音箱的注意事項(電池壽命、防水性能、音質(zhì)),并給出購買指南(右側(cè))、商品鏈接(下方)和商品的簡介,你還可以設(shè)定價格(如 100 美元以下),讓它重新生成結(jié)果。
不過在手機等移動設(shè)備中,AI Snapshot 會塞滿整個屏幕。這會大幅減少傳統(tǒng)搜索結(jié)果點擊頻率。再加上 Goolge 直接給結(jié)果而不是鏈接,各類網(wǎng)站從 Google 搜索那里獲得流量會更難?,F(xiàn)在,Google 正試驗怎么在 AI Snapshot 里加廣告。
不是所有搜索都會觸發(fā) AI 生成結(jié)果,只有當 Google 的算法認為人工智能生成的內(nèi)容優(yōu)于標準搜索結(jié)果時,前者才會出現(xiàn)。用戶搜索健康、財務(wù)、危害安全等敏感主題時,AI Snapshot 不會出現(xiàn)。
Google 計劃先在美國測試 AI Snapshot,未來幾周開放有限的名額。在申請頁面,Google 還打算測試其他搜索功能,比如在搜索框輸入編程問題直接生成代碼的 Code Tips。
主題演講中,Google 的高管們展現(xiàn)了如何用人工智能改造其他的核心產(chǎn)品:
更沉浸的 Google Maps。Google 用人工智能技術(shù)合成了超過 10 億張全景地圖。當你選定導(dǎo)航路線、確定出發(fā)時間后,人工智能會生成一個鳥瞰視角的沉浸式 3D 路線圖,并提前算好天氣和交通狀況,同步顯示在動畫中。Google 計劃今年夏天推出這個功能,之后拓展到倫敦、紐約、東京、舊金山等 15 個城市。
自動修圖的 Google Photos。你只要提出需求,比如調(diào)高亮度、摳掉或補全畫面中的物體、移動人物位置、把背景中的烏云改成藍天等等,新出現(xiàn)的 Magic Editor 功能就可以自動完成。
自動寫郵件的 Gmail。你只要在 Gmail 的 “Help me write” 工具中輸入需求,比如一封要求全額退款的電子郵件,點擊創(chuàng)建,它就會結(jié)合此前郵件中的信息,寫一個完整的郵件。這個功能將會作為 Workspace 更新中的一部分推出。Workspace 的其他功能還包括根據(jù) PPT 內(nèi)容自動寫演講文稿等。
更強大的聊天機器人 Bard 。Bard 的底層模型換成 PaLM 2;英文之外加了韓語、日語,預(yù)計 7 月份支持中文;Bard 的回復(fù)能一鍵轉(zhuǎn)到 Gmail 和 Docs;幫你手機拍的照片配標題和描述文字;以及支持 Adobe 沒有版權(quán)糾紛的圖片生成工具 Firefly,而不是自己用公開數(shù)據(jù)集訓(xùn)練的作圖應(yīng)用。下面是讓 Bard 制作一幅用于女兒生日派對的邀請函圖片時(要求包含獨角獸和生日蛋糕),它的回復(fù):
在人工智能浪潮中,Google 一直處于獨特的位置。
它是最早研究人工智能、也是技術(shù)實力最強的公司之一,擁有許多人工智能底層技術(shù)的專利,比如現(xiàn)在大模型的基礎(chǔ)架構(gòu) Transformer。
它也是世界上最大互聯(lián)網(wǎng)公司,每天服務(wù)數(shù)十億人。它擁有的 Andriod 能直接影響全球 30 多億人使用的手機。它比其他公司都更有能力把大模型部署到更多場景。
Google 也因此被用戶和監(jiān)管機構(gòu)密切關(guān)注,每個人工智能產(chǎn)品的研發(fā)和推出都要考慮法律和社會輿論風(fēng)險。不少 Google 員工認為這是 OpenAI 能搶先推出 ChatGPT 的原因。
在 OpenAI 和微軟的持續(xù)沖擊下,Google 快速行動,整合了 Google AI 和 DeepMind 這兩個屬于公司、但一直不合作的頂級人工智能團隊,推遲對外公開最新的研究成果,并積極研發(fā)基于人工智能的搜索引擎 Magi。這個正在 Google 內(nèi)部測試的新產(chǎn)品,也在使用 PaLM 2。
前不久,皮查伊被問到 “沒搶在 ChatGPT 前發(fā)布 Bard,你錯過什么”。他給了個大公司 CEO 的標準回答,Google 不是第一個做出搜索引擎,也不是第一個做出瀏覽器,“有時候成為第一很重要,但有時候無關(guān)緊要?!?他認為,只要不斷改進產(chǎn)品,實現(xiàn)更好的功能,后發(fā)也能先至。
這場開發(fā)者大會,展現(xiàn)了 Google 的人工智能技術(shù)積累和產(chǎn)品迭代能力。
聯(lián)系客服