大語言模型日益火爆,學(xué)者們的研究方向是指明燈。那么相關(guān)大模型重要項(xiàng)目的主要貢獻(xiàn)者怎么看?6月9日的北京智源大會“基礎(chǔ)模型前沿技術(shù)”論壇邀請了T5、RoBERTa、悟道·天鷹、紫東太初、CPM等重要模型工作作者出席。
圖注:五位嘉賓現(xiàn)場討論,包括:清華大學(xué)副教授、智源學(xué)者劉知遠(yuǎn);Birch.ai核心創(chuàng)始人及CTO劉胤焓;中科院自動(dòng)化所研究員劉靜;谷歌研究科學(xué)家周彥祺;上海交通大學(xué)清源研究院副教授劉鵬飛(連線)
這些青年學(xué)者就大模型時(shí)代的科研重點(diǎn)和難點(diǎn),以及從創(chuàng)業(yè)公司、大廠、高校、科研院所等等如何看待大模型帶來的機(jī)會,發(fā)表了看法。在現(xiàn)場,學(xué)者們給出了非常走心的技術(shù)建議與發(fā)言。· 多方消息證明,GPT-4是個(gè)稀疏模型?!軓╈?/span>
· 大模型想要獲得認(rèn)知能力,必須要從單模態(tài)走向多模態(tài)。——?jiǎng)㈧o
· 我們應(yīng)對甲方是:卑微到塵埃,有求必應(yīng),隨叫隨到?!?jiǎng)⒇缝?/span>
· 個(gè)人認(rèn)為獎(jiǎng)勵(lì)模型非常重要,RLHF不太重要。——?jiǎng)Ⅸi飛
· 基礎(chǔ)模型已經(jīng)成為AI大模型時(shí)代的“CPU”,是單一“產(chǎn)品”投入最大的部分。——林詠華
劉胤焓:利用RLHF建立實(shí)時(shí)的AI系統(tǒng)
近年來大語言模型在prompt-tuning和fine-tuning方向的研究有很多,而在本次報(bào)告中,來自BirchAI的劉胤焓從產(chǎn)品和客戶的角度闡釋了大語言模型在RLHF中的價(jià)值。當(dāng)今世界是一個(gè)人與機(jī)器共存的時(shí)代,由于機(jī)器對于人類社會理解的局限,短期內(nèi)機(jī)器無法完全取代人類,更多的是作為人類的助手而存在。作為助手,通用的大語言模型雖然可以很好地完成一些通用的任務(wù),但對于個(gè)體用戶,某些專業(yè)領(lǐng)域用戶以及公司用戶的個(gè)性服務(wù)尚且有所欠缺。對此,建立一個(gè)實(shí)時(shí)的AI系統(tǒng)可以很好地提供一個(gè)解決方案。實(shí)時(shí)的AI系統(tǒng)可以可以量化的收集到客戶信息,并根據(jù)客戶的修改次數(shù)評估AI的生成是否符合客戶的要求。利用這些信息提供的數(shù)據(jù),通過強(qiáng)化學(xué)習(xí)來訓(xùn)練模型,從而產(chǎn)出個(gè)更為性化的生成。用一個(gè)例子解釋如何應(yīng)用人類反饋信息和大語言模型搭建實(shí)時(shí)系統(tǒng):以用戶向客服提出退貨申請為例,大模型可以查找用戶以往的數(shù)據(jù),并根據(jù)公式政策決定是否同意退貨或者給用戶優(yōu)惠,但通常人工客服給用戶的回答更加人性化,此時(shí),如果搭建實(shí)時(shí)系統(tǒng),模型就能夠吸收人工客服的回答,并通過強(qiáng)化學(xué)習(xí)來進(jìn)行模仿輸出。并且,模型可以通過追蹤不同用戶后續(xù)的表現(xiàn),來判斷哪種客服的回答更能留住客戶,從而相應(yīng)地提高訓(xùn)練權(quán)重。在技術(shù)層面上,基于OpenAI去年3月份的InstructGPT的論文,以及PPO方法,Birch建立了自己的系統(tǒng),并且得到了一個(gè)比初始SFT更好的Policy。他們的評估策略來自于用戶的反饋。總的來說,PPO可以理解為,在文章“價(jià)值”一定的情況下,讓每個(gè)文字更加出彩。劉胤焓認(rèn)為,現(xiàn)在生成式 AI只能提供一個(gè)解決方案,我們真正需要的是搭建一個(gè)平臺,使AI可以更高效地幫助人類節(jié)省時(shí)間。今后大語言模型應(yīng)當(dāng)成為一個(gè)平臺、一個(gè)生態(tài)系統(tǒng)而不僅僅是一個(gè)文本的輸出。縱觀深度學(xué)習(xí)發(fā)展史,深度學(xué)習(xí)的發(fā)展其實(shí)建立在硬件的發(fā)展之上,硬件的快速發(fā)展也促成了近年來大模型的蓬勃發(fā)展。然而,近年來我們正在接近摩爾定律極限,因此,不能再通過簡單地將參數(shù)翻倍或?qū)?biāo)記(Token)翻倍來大幅度地持續(xù)擴(kuò)展密集型大語言模型。這是一個(gè)非常低效的、不太可持續(xù)的方式。我們需要一種更可持續(xù)的方式來擴(kuò)展大語言模型。百度的一篇論文顯示,在給定模型的大小和總訓(xùn)練數(shù)據(jù)的情況下,模型的性能是可預(yù)測的。幾年后,openAI也基于擴(kuò)大計(jì)算資源、數(shù)據(jù)集大小,以及參數(shù)規(guī)模給出了大模型的擴(kuò)大法則(Scaling Law)。這使得更多的公司和機(jī)構(gòu)可以訓(xùn)練自己的大模型。比如,谷歌的T5模型。T5模型保留了原始Transformer的大多數(shù)架構(gòu),它最大的貢獻(xiàn)之一,是將所有NLP任務(wù)都描述為文本到文本(text-to-text)的任務(wù)。T5的另一個(gè)貢獻(xiàn)是開源了C4數(shù)據(jù)集,這些數(shù)據(jù)實(shí)際上使整個(gè)研究界受益匪淺。從T5開始,大公司間的競爭越來越激烈。T5擁有11B的參數(shù),GPT-3有175B,而2022年發(fā)布的PaLM有540B。但稠密模型超過500億參數(shù)非常困難。多方消息驗(yàn)證,即使是GPT4也是稀疏架構(gòu)。所以周彥祺分享了通過稀疏模型MoE(Mixture-of-Experts layer, 專家混合型)擴(kuò)大大語言模型的方法。以GLaM模型為例,它包含1.2T個(gè)參數(shù),但實(shí)際上被激活的參數(shù)(activated parameters)只有97B,遠(yuǎn)少于GPT-3,也就是說,它是稀疏激活的MoE。它與GPT-3同樣是只有解碼器的模型,但與GPT-3相比,GlaM獲得了更好的性能。但Token-based MoE 也有局限性,糟糕的專家路由策略(例如導(dǎo)致負(fù)載不平衡的策略)會導(dǎo)致某些專家訓(xùn)練不足,從而導(dǎo)致專家的專業(yè)性不足或過度。為了解決這個(gè)問題,他們提出了一個(gè)叫做專家選擇的路由算法。先前的工作使用top-k函數(shù)為每個(gè)標(biāo)記分配固定數(shù)量的專家,而不考慮不同標(biāo)記的相對重要性。不是讓標(biāo)記選擇top-k專家,而是讓專家選擇top-k標(biāo)記。因此,每個(gè)標(biāo)記可以被送到不同數(shù)量的專家那里,每個(gè)專家可以有一個(gè)固定的容量。在此基礎(chǔ)上,為了進(jìn)一步改善Moe方法,他們又提出了一個(gè)非統(tǒng)一的架構(gòu):Brainfomers模型,這種模型基于在Transformer的基礎(chǔ)上進(jìn)行了優(yōu)化設(shè)計(jì),并創(chuàng)建一個(gè)搜索空間(Search Space),來提升神經(jīng)網(wǎng)絡(luò)的性能。它比GLaM基線快5倍以上。那么如何才能使語言模型得到更新,并讓基礎(chǔ)模型,比方說預(yù)先訓(xùn)練好的GPT-4適應(yīng)一些目標(biāo)下游任務(wù)領(lǐng)域呢?周彥祺的團(tuán)隊(duì)提出了專家混合型的漸進(jìn)式終身學(xué)習(xí)。這種方法可以次線性地增加參數(shù)的數(shù)量,同時(shí)引入新的訓(xùn)練數(shù)據(jù),并增加一個(gè)表示損失,這樣模型就不會忘記以前的訓(xùn)練數(shù)據(jù)。劉靜:多模態(tài)預(yù)訓(xùn)練的簡單回歸與思考
劉靜從為什么關(guān)注多模態(tài)大模型,如何進(jìn)行多模態(tài)大模型訓(xùn)練,接下來如何發(fā)展多模態(tài)大模型,三個(gè)方面做了《多模態(tài)預(yù)訓(xùn)練的簡單回歸與思考》主題演講。她提到,今天的大模型完全顛覆了過去十多年以深度學(xué)習(xí)為核心的AI范式,能從大規(guī)模無監(jiān)督數(shù)據(jù)中挖掘信息的大模型,有望突破當(dāng)前AI應(yīng)用落地難的瓶頸。同時(shí),劉靜表示,多模態(tài)的數(shù)據(jù)無處不在,人類更多的表達(dá)方式或者更常用的表達(dá)方式是通過去看、去聽、去想,不一定用文字記載。因此,大模型想要獲得認(rèn)知能力,必須要從單模態(tài)走向多模態(tài)。目前大規(guī)模數(shù)據(jù)和基于Transformer架構(gòu)的基礎(chǔ)模型,以及自監(jiān)督學(xué)習(xí),可以讓模型具備很好的通用性和模態(tài)間的關(guān)聯(lián)能力。這也是大模型的基礎(chǔ)。但是讓大模型服務(wù)于實(shí)際應(yīng)用,重要的是進(jìn)行模型的適配和微調(diào)。顯然,動(dòng)輒千億、萬億參數(shù)的模型,讓全參數(shù)微調(diào)變得非常困難。因此,如何更高效、更低成本地微調(diào)這樣的模型變成了重要的研究方向。為此,業(yè)界提出了包括PromptTuning、適配器方法、LoRA等方法,希望實(shí)現(xiàn)低成本的增量式微調(diào)。多模態(tài)預(yù)訓(xùn)練模型的未來發(fā)展方向,包括通過更強(qiáng)大的語言模型、更大的視覺模型和更大的音頻模型,以及更多的數(shù)據(jù)來提升模型的性能。對此現(xiàn)象,劉靜也表示:“大模型的發(fā)展是一條有效的路,通過堆積數(shù)據(jù)和模型,性能還可以進(jìn)一步提升。但這條路并不適合所有人,特別是學(xué)界,一味追求大并不是長處,因此需要通過其他方向來精細(xì)化和優(yōu)化模型。”動(dòng)輒百億甚至千億規(guī)模的大模型,訓(xùn)練成本花費(fèi)巨大。林詠華在《悟道·天鷹大模型—— 工程化打造AI中的“CPU”》報(bào)告中提到,要用工程化的方式來打造一套“大模型進(jìn)化的流水線”,可持續(xù)地提升模型訓(xùn)練效率,才能讓基礎(chǔ)模型持續(xù)向產(chǎn)業(yè)輻射能量。她提到,基礎(chǔ)模型已經(jīng)成為AI大模型時(shí)代的“CPU”——單一“產(chǎn)品”中投入最大的部分。經(jīng)過粗略估算,用 1T token 數(shù)據(jù)訓(xùn)練330億規(guī)模的大模型,大概需要 2000 萬人民幣的投入,包括算力、數(shù)據(jù)、評測、人力等成本。因此,只有采用系統(tǒng)化、標(biāo)準(zhǔn)化、可持續(xù)的訓(xùn)練流程,基礎(chǔ)模型才能釋放后續(xù)模型能力提升的潛力,并賦能產(chǎn)業(yè)落地。工程化打造大模型包括以下幾個(gè)步驟:數(shù)據(jù)采集和處理是基礎(chǔ),模型訓(xùn)練是核心、模型評測能把控階段性的訓(xùn)練方向,持續(xù)迭代則讓模型不斷進(jìn)步。在報(bào)告中,林詠華介紹,悟道·天鷹(Aquila) 語言大模型就是工程化的產(chǎn)物,是首個(gè)具備中英雙語知識、支持商用許可協(xié)議、國內(nèi)數(shù)據(jù)合規(guī)需求的開源語言大模型,系列模型包括 Aquila基礎(chǔ)模型(7B、33B),AquilaChat對話模型(7B、33B)以及 AquilaCode-7B “文本-代碼”生成模型。Aquila基礎(chǔ)模型(7B、33B)在技術(shù)上繼承了 GPT-3、LLaMA 等的架構(gòu)設(shè)計(jì)優(yōu)點(diǎn),替換了一批更高效的底層算子實(shí)現(xiàn)、重新設(shè)計(jì)實(shí)現(xiàn)了中英雙語的 tokenizer,升級了 BMTrain 并行訓(xùn)練方法,實(shí)現(xiàn)了比 Magtron+DeepSpeed ZeRO-2 將近8倍的訓(xùn)練效率。AquilaChat 對話模型(7B、33B)支持流暢的文本對話及多種語言類生成任務(wù),通過定義可擴(kuò)展的特殊指令規(guī)范,實(shí)現(xiàn) AquilaChat對其它模型和工具的調(diào)用,且易于擴(kuò)展。例如,調(diào)用智源開源的 AltDiffusion 多語言文圖生成模型,實(shí)現(xiàn)了流暢的文圖生成能力; 配合智源 InstructFace 多步可控文生圖模型,輕松實(shí)現(xiàn)對人臉圖像的多步可控編輯。AquilaCode-7B “文本-代碼”生成模型,基于 Aquila-7B 強(qiáng)大的基礎(chǔ)模型能力,以小數(shù)據(jù)集、小參數(shù)量,實(shí)現(xiàn)高性能,是目前支持中英雙語的、性能最好的開源代碼模型,經(jīng)過了高質(zhì)量過濾、使用有合規(guī)開源許可的訓(xùn)練代碼數(shù)據(jù)進(jìn)行訓(xùn)練。此外,AquilaCode-7B 分別在英偉達(dá)和國產(chǎn)芯片上完成了代碼模型的訓(xùn)練。最重要的是,悟道·天鷹(Aquila) 語言大模型具備可持續(xù)迭代的能力,后續(xù)將不斷完善訓(xùn)練數(shù)據(jù)、優(yōu)化訓(xùn)練方法、提升模型性能,在更優(yōu)秀的基礎(chǔ)模型基座上,培育枝繁葉茂的“模型樹”,持續(xù)開源開放。最后,林詠華表示,只有打造可持續(xù)向前的大模型訓(xùn)練范式,將數(shù)據(jù)、訓(xùn)練、評測、迭代等步驟形成閉環(huán),才能讓基礎(chǔ)大模型像CPU在計(jì)算機(jī)系統(tǒng)中起到核心和基礎(chǔ)的作用一樣,成為經(jīng)濟(jì)發(fā)展的基礎(chǔ)設(shè)施。劉知遠(yuǎn):你認(rèn)為在大模型時(shí)代,最需要關(guān)注什么技術(shù)?劉鵬飛:關(guān)注模型預(yù)訓(xùn)練中的數(shù)據(jù)結(jié)構(gòu)化。數(shù)據(jù)工作的重要性,已經(jīng)在“有監(jiān)督微調(diào)(SFT)”階段驗(yàn)證,而現(xiàn)在有文章稱,模型預(yù)訓(xùn)練會在很快“窮盡”自然語言的文本數(shù)據(jù)。因此,秉著預(yù)訓(xùn)練不僅是加數(shù)據(jù),更要加信息的原則,如何把多模態(tài)中結(jié)構(gòu)性的信息納入模型,是我接下來考慮的方向。同時(shí),提示工程(Prompt Engineering)的存在是非常糟糕的事情,背后是大模型的黑盒性質(zhì)所導(dǎo)致,正是不知道模型預(yù)訓(xùn)練階段如何“存”數(shù)據(jù),所以在“取”會嘗試各種Prompt。如果數(shù)據(jù)的結(jié)構(gòu)足夠透明,我相信問題會變得簡單一些。獎(jiǎng)勵(lì)模型非常重要。個(gè)人認(rèn)為RLHF(Reinforcement Learning from Human Feedback)不重要,我們更需要高質(zhì)量的獎(jiǎng)勵(lì)模型,不止是二元(binary)的形式,也不能只追求精細(xì)的形式,而是希望能夠變成生成(generative)的形式,輸出一個(gè)分布或一個(gè)函數(shù),表示智能體做得好壞的概率或期望。劉知遠(yuǎn):大家背景各異,請分別來自創(chuàng)業(yè)公司、研究所、大廠、高校的四位,從個(gè)人經(jīng)驗(yàn)出發(fā),談?wù)勅绾卧诖竽P蜁r(shí)代發(fā)揮自身優(yōu)勢。2019-2020年初在Facebook 擔(dān)任AI研究者者的時(shí)候,谷歌做出了第一代大模型BERT,我則參與、領(lǐng)導(dǎo)研發(fā)出了RoBERTa、BART。后面Facebook又繼續(xù)推出了OPT模型,以及現(xiàn)在一些最新大語言模型。Facebook給我的感受是,他們所有的領(lǐng)導(dǎo)人都對大語言非常感興趣,主打一個(gè)“大”,且投入不計(jì)成本,花費(fèi)多少錢都沒關(guān)系,最后會將技術(shù)進(jìn)行開源。那段時(shí)間,大家不停的在討論模型上限、參數(shù)上限、數(shù)據(jù)上限。整個(gè)行業(yè)都想探索大語言到底能夠干些什么。直到我創(chuàng)業(yè)。我發(fā)現(xiàn),要理性看待大語言模型,尤其是在一些小領(lǐng)域。例如醫(yī)療健康的用戶,他們關(guān)心疾病知識、藥品方案,但對航班和酒店的預(yù)訂等無關(guān)緊要的問題不甚關(guān)心。因此,結(jié)論是:通用大語言模型,對垂直領(lǐng)域的創(chuàng)業(yè)公司來說,完全沒有必要。因?yàn)橐⒅貙I(yè)性。另一方面,從實(shí)際應(yīng)用來看,大語言模型的成本非常高。有時(shí)候一個(gè)中等、更加“專注”的模型或許更加有用。劉靜:高校、研究院的使命是進(jìn)行創(chuàng)新、有用的研究,大模型就是一個(gè)例子。我們在創(chuàng)新方面的優(yōu)勢是源源不斷的學(xué)生資源,以及可以規(guī)劃長期的研究目標(biāo),不像企業(yè)需要短期見效。因此,我們可以更穩(wěn)定地不斷創(chuàng)新,并引領(lǐng)前沿方向。例如在大語言模型里,他們可以探索更強(qiáng)的自監(jiān)督算法、更好的數(shù)據(jù)清洗、更強(qiáng)的模型協(xié)同等問題。在選擇方向時(shí),要有好的眼光,選擇有用的方向。大模型這條路徑?jīng)]有看到頭,我們的研究方向,應(yīng)該聚焦用小而高質(zhì)量的數(shù)據(jù)來獲得和大模型相當(dāng)?shù)哪芰?,然后更好地服?wù)于應(yīng)用。另一個(gè)適合學(xué)界的領(lǐng)域是“AI for science”,要和生命工程、腦科學(xué)的領(lǐng)域進(jìn)行合作,需要長期投入才能見效。周彥祺:創(chuàng)業(yè)公司超越傳統(tǒng)大廠還是有難度。以O(shè)penAI和谷歌這場大模型對拼為例,谷歌并沒有落后。谷歌有世界上最大的云計(jì)算平臺,最強(qiáng)大的TPU和GPU資源,以及最優(yōu)秀的系統(tǒng)和軟件層面的技術(shù)。而且大公司顯然更關(guān)注長期問題,無論是數(shù)據(jù)標(biāo)準(zhǔn),還是模型安全,顯然都更合規(guī)。劉鵬飛:首先,高校教師要承擔(dān)起作為學(xué)者的責(zé)任,例如RLHF的重要性等。這些可能是創(chuàng)業(yè)公司不愿意花時(shí)間研究。其次,梳理各方的戰(zhàn)場,包括學(xué)術(shù)界、工業(yè)界、VC、創(chuàng)業(yè)公司,明確每個(gè)人應(yīng)該承擔(dān)怎樣的角色,讓這個(gè)領(lǐng)域各司其職,做得更好。再者,幫助領(lǐng)域找到科學(xué)進(jìn)步的方向,敢于提出不一樣的觀點(diǎn),產(chǎn)生更加準(zhǔn)確的方向。特別是在評估大模型時(shí),找到可靠的公正的評估方法,避免走彎路。最后,培養(yǎng)學(xué)生,讓他們知道成長路徑,不需要天賦異稟,只要有興趣和熱情,就可以一起往前走。劉知遠(yuǎn):大模型領(lǐng)域,你最想做什么?如果有充足的預(yù)算,你想如何解決?劉胤焓:我想要一個(gè)高質(zhì)量的數(shù)據(jù)集,因?yàn)閿?shù)據(jù)永遠(yuǎn)大于架構(gòu),架構(gòu)可能只是微調(diào)或微微調(diào)的結(jié)果。大語言模型應(yīng)該做成一個(gè)生態(tài),不僅僅是文字,還要超出文字,像個(gè)貼身小秘書一樣,記錄他的需求,隨叫隨到。劉靜:我想繼續(xù)攻關(guān)多模態(tài)對話,讓人和機(jī)器用圖文音自由交流。長遠(yuǎn)目標(biāo)是讓機(jī)器人用各種感官去感知和探索世界,和人類溝通。周彥祺:短期目標(biāo)是在大公司里研究大語言模型,建立一個(gè)超級大的分布式系統(tǒng),降低大語言模型的成本,讓它和Google search一樣快速。長期目標(biāo)是理解大語言模型的原理,探索是否有可能用更強(qiáng)的算力或量子計(jì)算機(jī)。短期目標(biāo)是把語言模型的數(shù)學(xué)解題能力,做成和GPT-4回答其他問題一樣好,找到做這件事的秘訣和方法。另外,如果有1w張卡,從頭來一遍訓(xùn)練,提高自己對數(shù)據(jù)的理解和處理能力。觀眾A:機(jī)器人能否像ChatGPT那樣執(zhí)行各種任務(wù),比如端水杯。實(shí)現(xiàn)這個(gè)功能的難點(diǎn)在哪里?
劉靜:機(jī)器人能否像ChatGPT那樣執(zhí)行各種任務(wù),關(guān)鍵要打通感知到?jīng)Q策。機(jī)器人要能看到、定位、執(zhí)行任務(wù),而不是被動(dòng)接收圖片或文本?,F(xiàn)在的多模態(tài)大模型還不能真正融合多媒體信息,也不能根據(jù)環(huán)境提問或交互。機(jī)器人要做到像人一樣,還有很多工作要做,但是路線是通的,未來會有更好的成果出現(xiàn)。觀眾B:三個(gè)問題,首先,對于大廠的同學(xué),遇到什么樣的機(jī)會,會促使你離開谷歌去創(chuàng)業(yè)?其次,高??蒲械耐瑢W(xué),對于創(chuàng)業(yè)如何看?最后,對于創(chuàng)業(yè)的同學(xué),是怎樣的心態(tài)應(yīng)對甲方的需求和壓力?周彥祺:每當(dāng)我不順的時(shí)候,就會想離開谷歌,但是又覺得谷歌有更好的環(huán)境和資源,如果在谷歌都解決不了,在其他公司也可能發(fā)揮不了才能。如果我離開了谷歌,可能是由于我有非常想做的事情。例如打造ChatGPT這樣的爆款產(chǎn)品。目前谷歌并沒有限制我研究的步子,暫時(shí)不會離開。劉靜:堅(jiān)持自己想要做的事情,根據(jù)自己的特性和時(shí)機(jī)選擇創(chuàng)業(yè)或科研。我們科研院所的多模態(tài)大模型不比企業(yè)差,在視頻理解上有優(yōu)勢。劉胤焓:13個(gè)字形容應(yīng)對甲方:卑微到塵埃,有求必應(yīng),隨叫隨到。觀眾C:如何看待用大語言模型做推理?尤其是數(shù)學(xué)推理方向。有人認(rèn)為語言模型不應(yīng)該“學(xué)會”數(shù)學(xué)題,應(yīng)該調(diào)用工具輔助語言模型。劉鵬飛:大語言模型做數(shù)學(xué)推理是基本的能力,但是也需要結(jié)合其他的工具來提高效率和性能。建議先分析不同的數(shù)學(xué)問題的類型和特點(diǎn),然后選擇最合適的方法來解決,不要排斥任何一種方式。大語言模型在復(fù)雜的多步推理和形式化問題上有優(yōu)勢,但是也需要不斷改進(jìn)。觀眾D:如何解決大語言模型訓(xùn)練中的幻覺問題?周彥祺:兩種方式。首先,可以用更大的語言模型來做一個(gè)質(zhì)量檢測的模型,用來評估小模型生成的數(shù)據(jù)的安全性和真實(shí)性。其次,可以用谷歌搜索或者其他的索引工具來給生成的數(shù)據(jù)加上引用,讓用戶可以追溯數(shù)據(jù)的來源和可信度。當(dāng)然也可以結(jié)合檢測模型和搜索工具來實(shí)現(xiàn)。劉胤焓:我使用滑動(dòng)窗口算法。用滑動(dòng)窗口在不同的窗口里做生成,然后再把生成的結(jié)果合并起來。要注意,一定要保證訓(xùn)練數(shù)據(jù)對齊,要不然效果會差很多。周彥祺:GPT-4也遇到了類似的問題,運(yùn)算瓶頸在于注意力機(jī)制(Attention)。應(yīng)該用更高效的注意力機(jī)制來替代全連接的注意力機(jī)制??梢杂孟∈枳⒁饬Φ姆椒?,就是用一個(gè)局部注意力加一個(gè)固定跨度的全連接注意力,這和 MOE 的方法有點(diǎn)類似。觀眾F:大模型例如GPT-4的數(shù)學(xué)推理表現(xiàn)較差,如何用小模型進(jìn)行優(yōu)化?劉鵬飛:大模型做數(shù)學(xué)推理需要全棧式的方法,包括預(yù)訓(xùn)練、有監(jiān)督的微調(diào)(SFT)等階段。預(yù)訓(xùn)練階段要構(gòu)造相關(guān)的語料,讓模型學(xué)習(xí)數(shù)學(xué)或者推理的基本概念,比如最大公約數(shù)等。有監(jiān)督微調(diào)階段,要把數(shù)學(xué)的多步推理展開,如此才能適配大模型。觀眾G:怎么看待提示工程師作為一個(gè)職業(yè),會發(fā)展成一個(gè)學(xué)科么?周彥祺:提示工程師會后成為最快消失的職業(yè)。已經(jīng)在研究了SoftPromp了,慢慢就不需要人工了。劉知遠(yuǎn):請大家分享一句話結(jié)束今天的論壇。劉胤焓:說三句話。我本科學(xué)的是化工,后來自學(xué)計(jì)算機(jī),有幸做研究發(fā)表NLP的論文,現(xiàn)在在創(chuàng)業(yè)。沒有任何一樣?xùn)|西是恒定的,沒有任何一樣?xùn)|西是一直風(fēng)靡全球的,但是總會有新的東西,所以不停的去改變自己,迎接新的東西,找到自己喜愛的方向,追逐自己的夢想,但是不能隨波逐流。劉靜:首先要堅(jiān)定,在未來的三五年,大模型會顛覆很多領(lǐng)域。第二,堅(jiān)持。堅(jiān)持自己認(rèn)為有價(jià)值的東西。第三,不要盲目追風(fēng)。周彥祺:放眼未來,不止考慮5個(gè)月的事情,科研要考慮未來5年、10年。劉鵬飛:像比爾·蓋茨之前說過的,做人工智能需要有責(zé)任心,最終目標(biāo)是什么,如果是可以推動(dòng)全人類變好的話,做每件事情都不太會有錯(cuò)。Hinton:我對“青蛙”創(chuàng)造出“人”這件事后果很緊張 | 全文整理+視頻
黃鐵軍:難以預(yù)測,無法閉幕 | 2023智源大會“AI安全與對齊論壇”
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點(diǎn)擊舉報(bào)。