來(lái)源:中國(guó)指揮與控制學(xué)會(huì) 作者:蒲志強(qiáng) 中國(guó)科學(xué)院自動(dòng)化研究所
近年來(lái),隨著人工智能(Artificial Intelligence, AI)技術(shù)的深化發(fā)展,大模型(Large Model,也稱(chēng)基礎(chǔ)模型,即Foundation Model)技術(shù)應(yīng)運(yùn)而生。特別是2022年11月底OpenAI發(fā)布ChatGPT,一時(shí)間引起國(guó)內(nèi)外強(qiáng)烈反響,如同2016年AlphaGo圍棋AI戰(zhàn)勝人類(lèi)頂級(jí)棋手李世石一樣,全社會(huì)對(duì)AI模型所能達(dá)到的智能化水平產(chǎn)生了全新認(rèn)知。本報(bào)告首先對(duì)ChatGPT發(fā)展情況進(jìn)行概要介紹和對(duì)比分析;在此基礎(chǔ)上,分析提出大模型發(fā)展帶來(lái)的啟示和思考,特別是對(duì)決策智能大模型發(fā)展進(jìn)行分析研判;最后,對(duì)當(dāng)前大模型技術(shù)應(yīng)用提出若干發(fā)展展望。
一、ChatGPT相關(guān)介紹
(1)ChatGPT總體情況
ChatGPT是由OpenAI于2022年11月30日上線的通用語(yǔ)言處理平臺(tái),能以自然語(yǔ)言為交互方式,實(shí)現(xiàn)問(wèn)題回答、文案撰寫(xiě)、文本摘要、語(yǔ)言翻譯、計(jì)算機(jī)代碼生成等任務(wù)。自發(fā)布以來(lái),ChatGPT引起國(guó)內(nèi)外廣泛關(guān)注,成為“刷爆朋友圈”的現(xiàn)象級(jí)應(yīng)用。據(jù)瑞銀集團(tuán)(UBS)發(fā)布的研究報(bào)告顯示,ChatGPT在2023年1月份(發(fā)布后2個(gè)月)的月活躍用戶(hù)數(shù)已達(dá)1億,成為史上用戶(hù)數(shù)增長(zhǎng)最快的消費(fèi)者應(yīng)用;相比之下,TikTok歷經(jīng)9個(gè)月才實(shí)現(xiàn)月活用戶(hù)數(shù)破億,Instagram為30個(gè)月,Meta為54個(gè)月,Twitter為90個(gè)月。此外,ChatGPT使人工智能內(nèi)容生成(AI Generated Content, AIGC)技術(shù)成為新的熱點(diǎn)。
本質(zhì)上來(lái)講,ChatGPT是一個(gè)大語(yǔ)言模型(Large Language Model, LLM), 這是一個(gè)概率模型,基于上下文輸入來(lái)度量下一個(gè)詞匯出現(xiàn)的可能性,即完成“詞語(yǔ)接龍”。語(yǔ)言模型技術(shù)始于上世紀(jì)70年代,ChatGPT是OpenAI自2018年推出生成式預(yù)訓(xùn)練(Generative Pre-training, GPT)模型,在經(jīng)歷過(guò)GPT-1、GPT-2、GPT-3、InstructGPT等多代模型迭代后,在GPT-3.5基礎(chǔ)上發(fā)展出來(lái)的產(chǎn)物(OpenAI于3月14日發(fā)布了基于GPT-4的改進(jìn)版,擁有更強(qiáng)大的語(yǔ)言處理能力)。進(jìn)一步拆解其核心技術(shù)要素,可以認(rèn)為,ChatGPT并非AI原始理論技術(shù)創(chuàng)新產(chǎn)生的重大突破,而是產(chǎn)品思維驅(qū)動(dòng)的重大集成創(chuàng)新成果,是OpenAI堅(jiān)持生成式AI、長(zhǎng)期技術(shù)積累,量變產(chǎn)生質(zhì)變的重大成果,同時(shí)其強(qiáng)大的自然語(yǔ)言處理能力,也是邁向通用人工智能(Artificial General Intelligence, AGI)的階段性成果。
(2)ChatGPT技術(shù)發(fā)展脈絡(luò)
自然語(yǔ)言處理技術(shù)自誕生以來(lái),先后經(jīng)歷了4種主要任務(wù)處理范式。第一種是非神經(jīng)網(wǎng)絡(luò)下的完全監(jiān)督學(xué)習(xí),由人工設(shè)計(jì)一系列特征模板輸入模型,模型性能高度依賴(lài)所設(shè)計(jì)的特征和專(zhuān)家知識(shí);第二種是基于神經(jīng)網(wǎng)絡(luò)的完全監(jiān)督學(xué)習(xí),由人工進(jìn)行數(shù)據(jù)標(biāo)注,神經(jīng)網(wǎng)絡(luò)用于自動(dòng)特征提??;第三種是“預(yù)訓(xùn)練-精調(diào)”(Pre-train and Fine-tune)范式,首先在超大規(guī)模文本數(shù)據(jù)集上基于自監(jiān)督方式預(yù)訓(xùn)練一個(gè)具備較強(qiáng)泛化能力的通用模型,然后再根據(jù)下游任務(wù)特點(diǎn)對(duì)模型進(jìn)行針對(duì)性微調(diào),從而進(jìn)一步減少人工參與;第四種是預(yù)訓(xùn)練結(jié)合提示(prompt)學(xué)習(xí)范式,在得到預(yù)訓(xùn)練模型后,使用時(shí)不再進(jìn)行模型微調(diào),而是將對(duì)任務(wù)的描述以提示方式輸入模型,模型自動(dòng)適配下游任務(wù)。
如前所述,ChatGPT經(jīng)歷了多輪模型迭代。GPT-1于2018年被提出,是在Google于2017年提出的變換器(Transformer)模型基礎(chǔ)上發(fā)展起來(lái)的大語(yǔ)言模型,擁有1.17億參數(shù),采用“預(yù)訓(xùn)練-精調(diào)”范式,初步具備了一定泛化能力。GPT-2于2019年被提出,擁有15億參數(shù),OpenAI希望徹底無(wú)需針對(duì)下游任務(wù)微調(diào)而實(shí)現(xiàn)模型適配,因此采用了提示學(xué)習(xí)范式,實(shí)現(xiàn)了在零樣本或小樣本下良好的內(nèi)容生成和表達(dá)能力。GPT-3延續(xù)GPT-2的方式,進(jìn)一步將參數(shù)規(guī)模擴(kuò)大到1750億,并使用45TB語(yǔ)料數(shù)據(jù)進(jìn)行訓(xùn)練,性能已相當(dāng)強(qiáng)大,可完成自然語(yǔ)言處理的絕大多數(shù)任務(wù)。在OpenAI放棄模型微調(diào)的同時(shí),Google堅(jiān)持采用模型微調(diào)技術(shù),并于2021年9月提出采用指令微調(diào)(Instruction Fine-Tuning, IFT)技術(shù)的大模型FLAN,其在許多任務(wù)上的表現(xiàn)超越了GPT-3。為此,OpenAI重新采用微調(diào),即在GPT-3基礎(chǔ)上增加IFT技術(shù),于2022年初推出InstructGPT,由于混合了人類(lèi)指令,InstructGPT在理解人類(lèi)意圖和擬人化表達(dá)方面已非常突出。為進(jìn)一步提升模型邏輯推理能力,OpenAI采用159 GB的Python代碼語(yǔ)料在GPT-3上進(jìn)行訓(xùn)練,產(chǎn)生了具有強(qiáng)大代碼理解/生成能力和邏輯推理能力的模型Codex。最后,InstructGPT與Codex相結(jié)合,形成了GPT-3.5的基礎(chǔ)架構(gòu),即ChatGPT的基礎(chǔ)模型。
ChatGPT的另一關(guān)鍵技術(shù)是人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning with Human Feedback, RLHF),即人類(lèi)標(biāo)注員對(duì)模型的一系列問(wèn)答結(jié)果進(jìn)行評(píng)分,以此訓(xùn)練一個(gè)符合人類(lèi)判斷的獎(jiǎng)勵(lì)模型,基于此獎(jiǎng)勵(lì)模型采用近端策略?xún)?yōu)化(Proximal Policy Optimization, PPO,2017年由OpenAI提出)強(qiáng)化學(xué)習(xí)算法進(jìn)行預(yù)訓(xùn)練后的模型精調(diào)。試驗(yàn)表明,RLHF能極大提升模型表現(xiàn),僅采用13億參數(shù)的模型即表現(xiàn)出超越原本擁有1750億參數(shù)但未采用RLHF的微調(diào)模型或原始的GPT-3模型。OpenAI聯(lián)合創(chuàng)始人John Schulman認(rèn)為,RLHF才是ChatGPT的秘密武器。而RLHF技術(shù)于2017年即由OpenAI聯(lián)合DeepMind及Google Brain團(tuán)隊(duì)提出。
(3)ChatGPT的局限
當(dāng)前,ChatGPT展現(xiàn)出通用的意圖理解能力(大語(yǔ)料數(shù)據(jù)訓(xùn)練、人類(lèi)指令微調(diào)、人類(lèi)反饋的強(qiáng)化學(xué)習(xí))、強(qiáng)大的連續(xù)對(duì)話能力(采用8192個(gè)語(yǔ)言單元進(jìn)行顯式建模)、突出的代碼生成能力(采用代碼和文本混合學(xué)習(xí))等特點(diǎn),但仍存在如下局限性:
缺乏概念構(gòu)建能力。以ChatGPT為代表的系列大模型本質(zhì)上仍是一個(gè)黑盒概率模型,即使能給出令人滿(mǎn)意的結(jié)果,但內(nèi)在并未形成真正的概念范疇,無(wú)法進(jìn)行知識(shí)邏輯推演和解釋?zhuān)袩o(wú)法形成對(duì)真實(shí)世界的本質(zhì)認(rèn)知。
缺乏自主學(xué)習(xí)能力。以ChatGPT為代表的系列大模型基于靜態(tài)數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)范式,模型訓(xùn)練成本高,理論上無(wú)法實(shí)現(xiàn)新知識(shí)的快速學(xué)習(xí),即當(dāng)人類(lèi)輸入增量知識(shí)后,模型無(wú)法及時(shí)實(shí)現(xiàn)新知識(shí)的學(xué)習(xí)。
缺乏實(shí)體交互能力。ChatGPT等大模型主要以文本為核心處理對(duì)象,即使是涵蓋圖、文、音的多模態(tài)大模型也仍屬感認(rèn)知范圍,缺乏與包含強(qiáng)不確定性和開(kāi)放邊界元素的真實(shí)物理世界的交互和決策控制能力。
缺乏垂域泛化能力。ChatGPT等大語(yǔ)言模型在通用語(yǔ)境下已展現(xiàn)出強(qiáng)大能力,但在各垂直細(xì)分應(yīng)用領(lǐng)域,大模型的性能表現(xiàn)仍需提升,特別是對(duì)于模型準(zhǔn)確性要求嚴(yán)格的應(yīng)用,此外還需攻克終端資源約束下的大模型部署問(wèn)題。
二、大模型核心價(jià)值與發(fā)展啟示
(1)大語(yǔ)言模型的核心價(jià)值
如果說(shuō)機(jī)器學(xué)習(xí)實(shí)現(xiàn)了學(xué)習(xí)算法的統(tǒng)一,深度學(xué)習(xí)實(shí)現(xiàn)了模型架構(gòu)的統(tǒng)一,那么大模型則實(shí)現(xiàn)了模型本身的統(tǒng)一。大語(yǔ)言模型是當(dāng)前一輪大模型的成功典范,其本質(zhì)是以自然語(yǔ)言理解為內(nèi)核,構(gòu)建起人-機(jī)間互理解、互操作的高效、高性能媒介通道。因此,直觀上來(lái)看,與人機(jī)交互、人機(jī)協(xié)同、人機(jī)融合最相關(guān)的領(lǐng)域?qū)⒆钪苯芋w現(xiàn)大模型的應(yīng)用價(jià)值。正向來(lái)看,大模型將人對(duì)世界的模糊、抽象認(rèn)知轉(zhuǎn)化為可精確表達(dá)、高度量化的特征,供機(jī)器進(jìn)一步計(jì)算、推演,解決人機(jī)高效交互協(xié)作問(wèn)題。反向來(lái)看,大模型將機(jī)器高度精確卻難以窺探的黑箱計(jì)算結(jié)果轉(zhuǎn)化為人可理解、可接受的形式進(jìn)行呈現(xiàn),解決AI的可解釋性問(wèn)題。例如,大模型可對(duì)人的歷史經(jīng)驗(yàn)、判斷偏好、直覺(jué)認(rèn)知進(jìn)行精確理解,變成可供計(jì)算的特征表達(dá);反過(guò)來(lái),機(jī)器的推理計(jì)算過(guò)程及結(jié)果可以自然語(yǔ)言形式輸出,供人實(shí)時(shí)掌握情況并做進(jìn)一步?jīng)Q策。
人機(jī)混合智能是AI的高級(jí)形態(tài),而大語(yǔ)言模型展現(xiàn)出的通用性為我們粗淺地勾勒出通用人工智能的圖景,因此,大模型為邁向更高級(jí)形態(tài)的AI奠定了重要的階段性基礎(chǔ)。
(2)大模型發(fā)展帶來(lái)的啟示
應(yīng)謹(jǐn)防關(guān)鍵領(lǐng)域技術(shù)突襲。當(dāng)前,人工智能技術(shù)正以史無(wú)前例的速度自我迭代,據(jù)估計(jì),AI領(lǐng)域約每3個(gè)月便會(huì)產(chǎn)生一種世界范圍內(nèi)具有重大影響的主流算法。作為對(duì)比,傳統(tǒng)科學(xué)技術(shù)的迭代更新較慢,例如,當(dāng)今全世界控制領(lǐng)域90%以上使用的比例-積分-微分(PID)控制器始于上世紀(jì)20年代;即使是迭代較快的集成電路領(lǐng)域,摩爾定律告訴我們,其迭代速度也大概為18-24個(gè)月。不久前,我們?nèi)钥畤@市面上各種聊天機(jī)器人的智能水平較低,ChatGPT的橫空出世瞬間顛覆了這一認(rèn)知。因此,在當(dāng)前國(guó)際關(guān)系日益復(fù)雜的局勢(shì)下,我們應(yīng)謹(jǐn)防關(guān)鍵領(lǐng)域?qū)κ值募夹g(shù)突襲,特別是當(dāng)我們步入多方面并跑的“無(wú)人區(qū)”領(lǐng)域時(shí),而AI的加速發(fā)展使得技術(shù)突襲的“黑暗森林法則”越來(lái)越成為可能。
應(yīng)重新審視“人工”的作用。人工智能的發(fā)展離不開(kāi)“人工”的參與,而隨著AI技術(shù)的迭代,“人工”所扮演的角色也在逐步更迭。早期的監(jiān)督學(xué)習(xí)時(shí)期,人主要扮演數(shù)據(jù)標(biāo)注角色,數(shù)據(jù)標(biāo)注被認(rèn)為是技術(shù)含量很低的工作,并一度出現(xiàn)了各種數(shù)據(jù)標(biāo)注工廠。到了近些年發(fā)展出的指令學(xué)習(xí),人不再簡(jiǎn)單給出標(biāo)簽數(shù)據(jù),還需要按要求給出數(shù)據(jù)指令。而在RLHF中,人需要提供AI模型的輸出反饋,從而訓(xùn)練一個(gè)良好的獎(jiǎng)懲函數(shù)。在ChatGPT的代碼生成中,具有良好人工注釋的訓(xùn)練代碼是其掌握推理編程能力的重要基礎(chǔ)。隨著AI 的發(fā)展,“人工”的作用越來(lái)越精細(xì)。例如,在智能指控領(lǐng)域,高度專(zhuān)業(yè)化的人工標(biāo)注數(shù)據(jù)、人類(lèi)指揮員經(jīng)驗(yàn)和人機(jī)混合訓(xùn)練方式,可最大化發(fā)揮大模型作用,應(yīng)提前進(jìn)行部署。
應(yīng)審時(shí)度勢(shì)迎接創(chuàng)新范式變革。近些年,AI正加速為其他學(xué)科內(nèi)在發(fā)展提供顛覆性范式創(chuàng)新,例如,2020年的AlphaFold展現(xiàn)出驚人的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)效率,2022年的AlphaTensor發(fā)現(xiàn)了迄今效率最高的矩陣乘法運(yùn)算法則。AI為科學(xué)研究和技術(shù)創(chuàng)新范式帶來(lái)了全新機(jī)遇和挑戰(zhàn),人工智能驅(qū)動(dòng)的科學(xué)研究(AI for Science)也成為當(dāng)前國(guó)際矚目的熱點(diǎn)方向,國(guó)家科技部、自然科學(xué)基金委也于今年3月聯(lián)合啟動(dòng)了AI for Science專(zhuān)項(xiàng)部署。為此,應(yīng)重新審視這一變局下的科技創(chuàng)新范式。例如,在智能指控領(lǐng)域,一是如何以智能技術(shù)先行帶動(dòng)體系創(chuàng)新,如概念設(shè)計(jì)、戰(zhàn)法創(chuàng)新,二是重新梳理創(chuàng)新成果體系,重視算法等軟實(shí)力打造,以及大模型加持下的技術(shù)集成、模型訓(xùn)練方式創(chuàng)新等。
三、決策智能大模型展望與思考
當(dāng)前流行的ChatGPT等大模型主要聚焦在圖、文、音等媒體內(nèi)容的感知理解層面,與之相對(duì)應(yīng),與指揮控制息息相關(guān)的智能認(rèn)知與決策則是更具挑戰(zhàn)性的難題,決策智能大模型是否能快速實(shí)現(xiàn)并落地,成為當(dāng)前廣受關(guān)注的話題。在此,對(duì)決策智能大模型研究現(xiàn)狀進(jìn)行概述,并對(duì)其發(fā)展路徑提出相關(guān)思考。
決策智能大模型發(fā)展概況
隨著預(yù)訓(xùn)練模型的興起,訓(xùn)練一個(gè)可完成多種決策任務(wù)的智能體在近年來(lái)引起廣泛關(guān)注。DeepMind于2022年上半年提出能夠處理數(shù)百種任務(wù)的“通才”人工智能模型Gato,融合了多模態(tài)和多任務(wù),智能體可同時(shí)完成玩Atari游戲、生成圖像、和人類(lèi)聊天、控制機(jī)器人手臂堆疊積木等不同模式的任務(wù)。但本質(zhì)上,Gato是一種監(jiān)督學(xué)習(xí)模型,可認(rèn)為首先學(xué)會(huì)了各種任務(wù),然后對(duì)相關(guān)能力進(jìn)行集成,并未在真正意義上實(shí)現(xiàn)面向不同任務(wù)的能力遷移和自主學(xué)習(xí)。進(jìn)一步,DeepMind在2023年初提出可在開(kāi)放任務(wù)空間實(shí)現(xiàn)匹配人類(lèi)適應(yīng)能力的自適應(yīng)智能體AdA(Adaptive Agent), 該模型基于DeepMind自研的開(kāi)放任務(wù)環(huán)境XLand進(jìn)行訓(xùn)練,后者可在虛擬空間產(chǎn)生超過(guò)1040種開(kāi)放任務(wù),被視為可訓(xùn)練通用智能體的游戲“元宇宙”。AdA的技術(shù)核心包括三方面:1)在一個(gè)巨大、平滑且多樣化的任務(wù)分布中進(jìn)行元強(qiáng)化學(xué)習(xí);2)一個(gè)參數(shù)化的基于注意力的大規(guī)模記憶結(jié)構(gòu)策略;3)一個(gè)有效的自動(dòng)課程學(xué)習(xí)機(jī)制,為智能體安排恰當(dāng)?shù)南乱浑A段訓(xùn)練任務(wù)。盡管訓(xùn)練好的AdA模型可在零樣本或少樣本條件下完成測(cè)試任務(wù),但本質(zhì)上XLand中的任務(wù)具有高度相似性,且均為虛擬環(huán)境中的任務(wù),當(dāng)面向真實(shí)應(yīng)用時(shí),真實(shí)世界中本質(zhì)開(kāi)放性、強(qiáng)不確定性和大量建模細(xì)節(jié)將給模型帶來(lái)巨大挑戰(zhàn)。
決策智能算法的通用做法是智能體通過(guò)深度強(qiáng)化學(xué)習(xí)等方法,在虛擬空間中不斷與環(huán)境交互來(lái)學(xué)得策略,因此內(nèi)容豐富的虛擬環(huán)境對(duì)于提高算法通用能力至關(guān)重要。當(dāng)前,已有大量用于提升智能體決策能力的虛擬環(huán)境。OpenAI使用內(nèi)容動(dòng)態(tài)生成(Procedural content generation, PCG)技術(shù)開(kāi)發(fā)的Procgen環(huán)境,為算法在不同游戲任務(wù)下的泛化能力提供了一個(gè)測(cè)試基準(zhǔn)。Facebook提出一個(gè)沙盒游戲的環(huán)境構(gòu)建框架MiniHack,可以由開(kāi)發(fā)者手動(dòng)搭建或系統(tǒng)隨機(jī)生成訓(xùn)練環(huán)境。DeepMind搭建的3D多智能體協(xié)作和競(jìng)爭(zhēng)開(kāi)放環(huán)境XLand,為具有強(qiáng)大環(huán)境適應(yīng)性的多智能體算法訓(xùn)練提供了多樣化任務(wù)空間。這些研究使得深度強(qiáng)化學(xué)習(xí)在逐步開(kāi)放的環(huán)境中得以適用,而虛擬環(huán)境的重要性使得人工智能三要素“算法、算力和數(shù)據(jù)”在決策智能研究中變?yōu)椤八惴?、算力和環(huán)境/模型”。但如前所述,上述環(huán)境的邊界仍為虛擬世界內(nèi)的簡(jiǎn)單邊界,無(wú)法覆蓋真實(shí)世界任務(wù)的復(fù)雜性。
因此,總體來(lái)說(shuō),相比感知智能大模型,決策智能大模型剛剛起步,且當(dāng)面向真實(shí)環(huán)境時(shí),模型的適用性將受到極大考驗(yàn)。
決策智能大模型為何更具挑戰(zhàn)
相比于感知大模型,決策大模型更具挑戰(zhàn),當(dāng)前尚處于初步探索階段。究其本質(zhì)原因,首先在于決策范式難以統(tǒng)一表達(dá)。感知大模型處理的對(duì)象相對(duì)具有統(tǒng)一的表達(dá)手段,例如圖像統(tǒng)一采用像素表達(dá)、文本統(tǒng)一采用編碼表達(dá)、語(yǔ)音統(tǒng)一采用聲頻信號(hào)表達(dá),在統(tǒng)一進(jìn)行信號(hào)級(jí)表達(dá)后即擁有了大模型統(tǒng)一處理的基礎(chǔ);但決策問(wèn)題千差萬(wàn)別,有個(gè)體決策、也有群體決策,有抽象問(wèn)題、也有現(xiàn)實(shí)問(wèn)題,當(dāng)前尚沒(méi)有對(duì)決策問(wèn)題的統(tǒng)一建模、表達(dá)和處理范式。無(wú)論是Gato還是AdA,均采用大語(yǔ)言模型中的核心部件Transformer作為模型內(nèi)核,這類(lèi)模型在處理語(yǔ)言信號(hào)時(shí)表現(xiàn)優(yōu)異,但在刻畫(huà)決策問(wèn)題時(shí)的性能尚需進(jìn)一步驗(yàn)證。其次,決策是相比感認(rèn)知更上層的任務(wù),相對(duì)難度更大。當(dāng)前大模型主要處理感認(rèn)知問(wèn)題,借助人機(jī)交互輔助人做決策,而決策智能則旨在讓機(jī)器自主決策,如單體與集群無(wú)人系統(tǒng)中的自主決策,任務(wù)本身難度更大。此外,同樣由于信號(hào)的可統(tǒng)一表達(dá)性,當(dāng)前我們?cè)趫D、文、音領(lǐng)域已形成大量?jī)?yōu)質(zhì)訓(xùn)練樣本,理論上互聯(lián)網(wǎng)中一切可獲取到的數(shù)據(jù)均可用于訓(xùn)練,相比之下,決策智能領(lǐng)域尚未建立類(lèi)似數(shù)據(jù)樣本集。盡管強(qiáng)化學(xué)習(xí)等方法為無(wú)需樣本、而是從與環(huán)境的交互中獲取數(shù)據(jù)提供了有效手段,但隨之而來(lái)的環(huán)境建模合理性、準(zhǔn)確性等問(wèn)題產(chǎn)生了新的挑戰(zhàn)。
決策智能大模型發(fā)展思路
一是延續(xù)當(dāng)前預(yù)訓(xùn)練思路繼續(xù)深化研究。采用Transformer等基礎(chǔ)模型框架,這是一種在短期內(nèi)極有可能快速見(jiàn)效的思路。大語(yǔ)言模型等預(yù)訓(xùn)練大模型已經(jīng)大獲成功,Gato、AdA等決策大模型也方興未艾,這類(lèi)模型均采用預(yù)訓(xùn)練思路,通過(guò)構(gòu)建巨大的神經(jīng)網(wǎng)絡(luò)模型、并在大量樣本上充分訓(xùn)練來(lái)表征難以精確量化的內(nèi)在推理邏輯。這種“大力出奇跡”的范式雖不夠“優(yōu)美”,但ChatGPT產(chǎn)生的性能突變確實(shí)讓我們看到了這類(lèi)大模型在復(fù)雜問(wèn)題表達(dá)和求解上的能力,盡管當(dāng)前階段尚有大量問(wèn)題無(wú)法解釋而只能簡(jiǎn)單歸結(jié)為巨大參數(shù)條件下的行為“涌現(xiàn)”??梢灶A(yù)見(jiàn),這類(lèi)范式將成為未來(lái)短期內(nèi)的主流,且能夠在各垂直應(yīng)用領(lǐng)域取得應(yīng)用表現(xiàn)上的進(jìn)展。一個(gè)亟待解決的難題是,如何保證在虛擬環(huán)境中訓(xùn)練的智能體能夠在真實(shí)環(huán)境中表現(xiàn)良好,即實(shí)現(xiàn)虛擬向真實(shí)遷移(Simulation to Reality, Sim2Real),Sim2Real問(wèn)題有多種解決路徑,其研究剛剛起步,是保障決策智能大模型實(shí)際落地的關(guān)鍵。
二是另辟蹊徑深入探索智能本質(zhì)機(jī)理。這是一種需要長(zhǎng)期探索、但有可能產(chǎn)生本質(zhì)顛覆的思路。ChatGPT這類(lèi)大模型盡管表現(xiàn)突出,但無(wú)法實(shí)現(xiàn)概念知識(shí)的自動(dòng)提取和推理,這與人的認(rèn)知邏輯具有顯著不同(盡管尚無(wú)法評(píng)判高低)。從本質(zhì)來(lái)看,人類(lèi)社會(huì)是建構(gòu)在一系列概念范疇及其相互關(guān)系之上的,如在哲學(xué)基礎(chǔ)框架上,通過(guò)引入不同概念從而衍生出經(jīng)濟(jì)學(xué)、法學(xué)等不同社會(huì)科學(xué)范疇,這與大參數(shù)表征、大數(shù)據(jù)訓(xùn)練的大模型思路顯著不同。因此,如何綜合運(yùn)用多學(xué)科理論分析工具,探索智能產(chǎn)生的本質(zhì)(或階段本質(zhì))機(jī)理,是需要長(zhǎng)期堅(jiān)持的研究思路。堅(jiān)持這一思路的必要性還在于,ChatGPT這類(lèi)大模型的一個(gè)潛在風(fēng)險(xiǎn)在于,其“大力出奇跡”范式可能因短期內(nèi)表現(xiàn)“過(guò)好”而“鎖死”某一學(xué)科的研究進(jìn)展(暫且“夸張”地類(lèi)比為三體世界中的“智子”),進(jìn)而在長(zhǎng)期來(lái)看阻滯其發(fā)展,因此我們應(yīng)一方面高度重視大模型帶來(lái)的顛覆性變革,另一方面堅(jiān)持百花齊放、繼續(xù)探索智能本質(zhì)機(jī)理,并在各基礎(chǔ)領(lǐng)域做好相應(yīng)理論和工程鋪墊。
四、大模型技術(shù)應(yīng)用展望
大模型極大推動(dòng)了科研范式創(chuàng)新和成果體系革新,其意義深遠(yuǎn)、應(yīng)用廣泛。在此僅拋磚引玉,提出幾方面展望。
(1)虛擬想定場(chǎng)景生成
強(qiáng)化學(xué)習(xí)等AI方法為不顯式依賴(lài)數(shù)據(jù)、而在與環(huán)境交互中實(shí)現(xiàn)智能進(jìn)化提供了手段,“算法+算力+環(huán)境”成為這一范式的核心要素,因此虛擬環(huán)境的有效生成至關(guān)重要。大模型在商用領(lǐng)域推動(dòng)了AIGC發(fā)展,相似地,在博弈推演領(lǐng)域,可依托大模型強(qiáng)大的內(nèi)容生成能力,實(shí)現(xiàn)虛擬推演想定的場(chǎng)景生成。
(2)人機(jī)混合智能推演
大模型為人機(jī)自然、高效互操作、互理解提供了重要媒介,為人的經(jīng)驗(yàn)、偏好、直覺(jué)、常識(shí)等具有高度抽象和良好可解釋性的知識(shí)與機(jī)器可精確量化表達(dá)的數(shù)據(jù)驅(qū)動(dòng)范式建立了相互融合的橋梁。研究人機(jī)高效混合推演方法,正向?qū)⑷说慕?jīng)驗(yàn)、偏好等轉(zhuǎn)化為機(jī)器指令,反向?qū)C(jī)器的量化推理結(jié)果進(jìn)行可解釋性表達(dá),其本質(zhì)是知識(shí)與數(shù)據(jù)兩類(lèi)范式的協(xié)同驅(qū)動(dòng)。
(3)特定領(lǐng)域?qū)S么竽P?/p>
當(dāng)前預(yù)訓(xùn)練大模型在通用問(wèn)題上已具備較強(qiáng)的認(rèn)知推理能力,但由于缺乏訓(xùn)練樣本,其在特定專(zhuān)用領(lǐng)域表現(xiàn)尚顯不足。為此,應(yīng)超前布局,充分發(fā)揮理技融合體制優(yōu)勢(shì),融合科研部門(mén)、工業(yè)部門(mén)和各應(yīng)用部門(mén)力量,研發(fā)面向特定領(lǐng)域的專(zhuān)用大模型。探索領(lǐng)域內(nèi)的人工數(shù)據(jù)采集、標(biāo)注方法,形成面向特定領(lǐng)域的大規(guī)模專(zhuān)用數(shù)據(jù)集,為大模型在特定智能領(lǐng)域應(yīng)用奠定基礎(chǔ)。
(4)虛實(shí)遷移的決策智能
決策智能是當(dāng)前指揮控制中的核心,深度強(qiáng)化學(xué)習(xí)等方法為智能體自主學(xué)習(xí)進(jìn)化提供了有效手段,但由于其訓(xùn)練是在虛擬環(huán)境中實(shí)現(xiàn)的,虛實(shí)遷移是當(dāng)前技術(shù)手段的關(guān)鍵瓶頸。應(yīng)發(fā)展從虛擬向?qū)嶓w遷移的博弈決策智能技術(shù),拓展算法在應(yīng)對(duì)不確定性和開(kāi)放問(wèn)題中的適用邊界,為大模型在真實(shí)物理環(huán)境中的魯棒應(yīng)用提供關(guān)鍵支撐。
(5)大模型開(kāi)放創(chuàng)新生態(tài)
開(kāi)源開(kāi)放是推動(dòng)人工智能發(fā)展的重要手段。在開(kāi)源方面,國(guó)外Pytorch、Tensor及國(guó)內(nèi)大廠推出的系列開(kāi)源平臺(tái),為人工智能算法快速發(fā)展奠定了基礎(chǔ);在開(kāi)放方面,自2018年以來(lái),我國(guó)在各細(xì)分行業(yè)認(rèn)定了一大批人工智能開(kāi)放創(chuàng)新平臺(tái),旨在以數(shù)據(jù)、接口、服務(wù)等方式為學(xué)界、個(gè)人開(kāi)發(fā)者、小微用戶(hù)提供AI模型便捷使用工具。而大模型的發(fā)展,將模型構(gòu)建方法工具的統(tǒng)一推進(jìn)到模型本身的統(tǒng)一,因此應(yīng)以大模型為契機(jī),重新梳理構(gòu)建開(kāi)放創(chuàng)新生態(tài),形成既充分開(kāi)放、又可賦能一大批應(yīng)用的算法服務(wù)平臺(tái),實(shí)現(xiàn)概念、技術(shù)先行,牽引體系智能發(fā)展的新范式。
聯(lián)系客服