這篇文章介紹了作者 Alessandro Alviani 的實踐經驗,非常有參考價值。
指令冗余,多步引導,是目前提高LLM輸出質量的方法之一。
Towards Accurate Quote-Aware Summarization of News using Generative AI
generative-ai-newsroom.com/towards-accurate-quote-aware-summarization-of-news-using-generative-ai-b786493e0c3d歸因是新聞業(yè)的基本原則。正確引用新聞來源而不扭曲所表達內容的含義,或者更糟糕的是,添加記者推斷的信息,是任何記者的一項基本技能。大型語言模型LLM帶來了新的挑戰(zhàn):它們可能會編造引文或將準確的引文錯誤地分配給錯誤的來源。這是因為它們的工作方式是根據(jù)先前的文本預測序列中下一個最可能的單詞。此類錯誤可能會削弱人們對媒體的信任,應該避免。在IPPEN.MEDIA,我們一直在嘗試大型語言模型 LLM 的大量用例。其中一些包括建議標題和線索變體,以及總結或重寫文章以針對不同的受眾。在處理引用時,生成摘要或文本變體很容易出錯。在我們的第一輪測試中,我們發(fā)現(xiàn) ChatGPT 傾向于重寫引用,即使明確指示不要這樣做。當我們試圖通過在提示中添加特定約束來總結一篇文章,同時保持所有引用不變時,ChatGPT 只是忽略了這些約束并重寫了引用。更糟糕的是,雖然提示有時會按預期工作并且所有引文都會正確再現(xiàn),但大多數(shù)時候卻并非如此。這種不一致部分是 LLM 所固有的,LLM 是概率性模型,而不是確定性模型。即使我們對使用 ChatGPT 和其他 LLM 編輯的所有文本采取了雙重檢查,虛構的文本仍然可能通過人類編輯的審查。事實證明提示工程的基本概念之一:構建盡可能具體和清晰的提示來定義所需的輸出——可能還不夠。我們的方法是,需要結合指令冗余的多步驟方法。我們最初添加到 ChatGPT 提示中的摘要和文章的指令以兩種方式失敗:原始引用要么被重寫并加引號,要么被解釋。我們嘗試將初始提示分為兩個步驟。我們還通過使用系統(tǒng)提示為模型分配經驗豐富的新聞編輯的角色來提供更多背景信息。同樣,該模型通常最終會解釋原始引用。及時迭代是關鍵
小技巧,我們將溫度參數(shù)設置為 0 以減少輸出的變化。
我們再次使用了分步方法,但這次我們的做法有所不同:我們指示模型首先使用格式“”提取所有引號(即查找引號之間的任何內容),然后生成摘要或包含先前提取的引號的新文本版本。
結果要好得多。然而,即使它有效地提取了步驟 1 中的所有引號,模型仍然可能偏離提示并錯誤地使用、重寫引號。
更糟糕的是,對于具有多個引用的較長文章,該模型可能會犯兩個常見錯誤:要么無法提取所有引用,要么錯誤地將出現(xiàn)在實際引用旁邊或中間的非引用句子識別為引用。一般來說,文本越長,識別的引號數(shù)量越少。對于 GPT-3.5 模型尤其如此。
此迭代過程中真正的游戲規(guī)則改變者是接下來的兩項調整。首先,添加一個簡單的系統(tǒng)提示。結果顯著改善,支持了為 LLM 提供更多背景知識可以提高其表現(xiàn)的觀點。
第二個重大改進來自使用 GPT-4。我們的測試表明,OpenAI 的最新模型優(yōu)于 GPT-3.5。使用我們的兩步方法,幾乎都被正確識別。
總結,GPT-4 遠遠優(yōu)于 GPT-3.5。在 12 篇文章中的 11 篇中,所有引用都正確包含在 AI 生成的摘要中。指令冗余效果很好。在我們的兩步方法中,我們在第二步中要求 GPT-3.5 和 GPT-4 重寫或總結文本,不僅粘貼了在步驟 1 中提取的所有引用,而且再次把原始文章粘貼到提示的末尾。即使 GPT-3.5 和 GPT-4 未能在第一步中提供正確結論 ,他們通常能夠在第二步中正確地輸出。備注:提示工程社群
作者分享的提示工程,供大家參考。也歡迎加入Mix的提示工程社群~~
[1] The text contains quotations; they are enclosed in quotation marks. Quotations must remain as in the original.[1]正文包含引文;它們用引號引起來。引文必須保持原樣。[2] You are an editor with 30 years of experience. You need to rewrite the following article into a new text. Think step by step.
Step 1: Rewrite the following original title using vivid but neutral language; Step 2: Make sure that all quotations within quotation marks are reproduced in the new content in the same way. Nothing in quotation marks may be rewritten.[2] 您是一位擁有 30 年經驗的編輯。您需要將以下文章重寫為新文本。一步步思考。
步驟1:用生動但中性的語言重寫以下原標題;步驟2:確保引號內的所有引用都以相同的方式再現(xiàn)在新內容中。引號中的任何內容都不能被重寫。[3] 1st step:
Extract all quotes between quotation marks such as “” in the following text:
###Text##2nd step (after the model has extracted the quotes):
Rewrite the article and make sure the following quotes remain unchanged:
“quote”
“quote”
“quote”
Article: ###Text###[3]第一步:
提取以下文本中引號之間的所有引號,例如“”:
###Text##第二步(模型提取引號后):
重寫文章并確保以下引號保持不變:
“quote”
“quote”
“quote”
文章:###Text###[4] You are a precise journalist and editor.[4]你是一位嚴謹?shù)挠浾吆途庉嫛?/span>
本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內容,請
點擊舉報。