面向表格數據的大模型推理綜述
1.介紹
面向表格數據的推理任務,在計算機領域,特別是自然語言處理(Natural Language Processing,NLP)領域的研究中扮演著重要角色[1]。該任務要求模型在給定一個或多個表格的情況下,按照任務要求,生成相應的結果作為答案(例如:表格問答、表格事實判斷)。尤其在大數據時代,從海量數據中獲取用戶所需信息變得尤為困難,而這些數據的主要存儲形式就是結構化數據(例如:表格、數據庫)。因此,構建能夠從龐雜的結構化數據中高效準確地推理出所需信息的系統變得越來越重要,表明了表格推理任務的重要性。為了簡潔,在本文中我們將“面向表格數據的推理任務”簡稱為“表格推理任務”。
過去表格推理的研究大致經過了基于規則[2]、基于神經網絡[3]以及基于預訓練模型[4](Pre-Trained Language Model)幾個階段。最近的研究表明,大規模語言模型(Large Language Model,LLM)在各個NLP任務上都表現出了引人注目的性能[5],尤其是,無需大規模數據微調就能遷移到各個任務上的上下文學習能力,極大地降低了標注需求??紤]到表格推理多樣的任務與較高的標注開銷,已有許多工作將LLM應用到表格推理任務上,增強LLM的表格推理能力,取得了非常優異的結果。然而,由于基于LLM的研究與過去的研究范式存在較顯著的差異,而目前缺乏對基于LLM的表格推理的工作的總結與分析,一定程度上阻礙了該方向的研究。
因此,我們在本文對現有的基于LLM的表格推理相關工作進行梳理,來促進該領域上的研究。本文的結構組織如下:第2節,我們介紹表格推理任務的定義與主流數據集,來作為我們后續分析的基礎;第3節,我們給出了基于LLM的表格推理方法的分類,并總結了該任務現有的研究工作,來幫助研究者了解表格推理任務未來可能的研究方向;第4節,我們給出了各個研究方向的可能改進,啟發未來的研究思路。
2. 背景
2.1. 任務定義
圖1:表格推理示意圖
作為我們后續討論的基礎,在這一小節,我們簡要給出表格推理任務的定義。
在表格推理任務中,模型的輸入是用戶對模型提出的要求或問題、結構化數據,以及可選的表格文字說明,輸出則是對用戶提出的要求或問題的回答,具體包括表格問答、事實驗證、table-to-text以及text-to-SQL等,相關表格推理任務的總結如圖1所示。
2.2. 相關數據集
盡管目前主流工作在使用LLM解決表格推理任務時,一般會使用基于上下文學習的方法來進行預測,而無需數據進行訓練,但人們依然需要依賴標注數據,來驗證LLM在解決表格推理任務時的性能。因此在這一小節,我們將針對四個目前主流的表格推理任務,分別介紹相關的主流數據集:
表格問答:WikiTableQuestions[3]數據集作為第一個表格問答類的數據集,由于其開放域的表格和復雜的查詢問題,使得該數據集能夠充分驗證模型的表格問答能力;
表格事實驗證:TabFact[6]數據集作為第一個表格事實驗證類的數據集,其大規??珙I域的表格數據和復雜的推理需求,可以有效檢驗模型在表格事實驗證任務上的能力;
table-to-text:ToTTo[7]數據集通過高亮特定的表格內容生成相關描述,因其大規模高質量的表格數據及對應描述能很好地驗證模型的table-to-text能力,而成為table-to-text任務的主流數據集;
text-to-SQL:Spider[8]是第一個text-to-SQL任務上多領域、多表格的數據集,在text-to-SQL任務上被廣泛使用。
3. 前沿進展
圖2:表格推理方法分類
為了幫助研究者們更深入地了解從何種角度提升模型的表格推理能力,我們將現有基于LLM的表格推理相關研究分為5類,分別為:有監督微調(LLM Pre-Train)、模塊化分解(Decomposed Pipeline)、上下文學習(In-Context Learning)、使用工具(Invoking Tools),以及提高魯棒性(Robustness Improvement),各個分類間的關系如圖2所示。我們將在本節詳細介紹這種分類標準的原因以及具體分類信息。并且,為了讀者更好地了解現有研究的進展,我們將詳細介紹這5種類別下研究者們解決表格推理任務的具體措施,如圖3所展現。同時,為了幫助人們更好地理解與PLM時代研究的差異,我們還討論了每個分類下,基于LLM的研究相較于基于PLM研究的變化。
圖3:表格推理前沿進展總結
3.1. 有監督微調
有監督微調是指用有標注數據微調LLM,從而增強LLM的表格推理能力?,F有的研究結果表明,部分開源大模型解決表格相關任務的能力較弱,所以希望通過有監督微調提升模型的表格推理能力。
現有的LLM表格推理的有監督微調工作分為兩類:基于已有標注數據集的微調,以及從LLM中蒸餾數據進行微調。
關于基于已有標注數據集進行微調的工作,受到LLM能夠在少量或沒有標注數據的情況下達到很好的性能的啟發,TabLLM[9],如圖4所示,通過用少量有標注數據微調T0有效提升了模型在表格數據分類任務上的性能。TableGPT[10]觀察到LLM在解決領域內問題時性能下降,所以使用精心選擇的領域內數據微調LLM以增強模型的領域內知識。TableLlama[11]考慮到前人工作只支持特定類型的表格和任務,或者模型微調只能學習到進行預定義的表格操作,因此從廣泛使用的數據集中選擇具有代表性的表格任務構建了TableInstruct數據集,并在此上微調LLM很好地提升了模型泛化性。
圖4:TabLLM方法示意圖
而關于從LLM中蒸餾數據的工作,[12]觀察到開源小模型缺乏在復雜推理的table-to-text任務上的性能落后于LLM,于是使用LLM作為教師模型蒸餾CoT推理和表格描述,并用蒸餾數據微調開源模型,有效地將表格推理能力轉移到較小的模型上。而HELLaMA[13]關注到部分通用模型缺乏根據輸入在表格中定位依據的能力,因此通過使用其他LLM預測表格描述定位在表格中的位置獲得訓練數據微調開源模型,而且微調模型完成根據突出顯示的表格部分完成表格摘要。
基于已有數據,或者蒸餾數據微調的兩種方法體現了LLM時代研究者進行有監督微調的兩種思路,通過不同的途徑收集標注數據用來訓練。
在PLM時代,研究者也會對模型有監督微調,但與LLM時代不同,研究者只能期待提升模型在某一類表格推理任務上的性能[32],受限于預訓練模型的能力,無法通過微調提升模型在所有表格推理任務上的泛化能力。
3.2. 模塊化分解
模塊化分解指將復雜任務顯式地分解為多個子任務,來完成表格推理任務。研究者發現將任務分解為簡單的子任務后,完成各個子任務比完成整個復雜任務更為容易,可以提升LLM在復雜任務上的性能,所以希望通過合理分解復雜表格推理任務來提升模型性能。
DATER[14]和 DIN-SQL[15]都注意到將復雜問題分解為簡單子問題可以有效促進大模型多步推理,因此兩篇文章分別針對表格推理任務,以及單獨的text-to-SQL任務設計了不同的流水線方法將復雜推理任務分解來降低模型推理難度。
圖5:DATER方法示意圖
TableQAKit[16]發現TableQA任務面臨著有巨大差異的數據和任務形式,阻礙了研究的便利性。因此提出了TableQAKit,一個能夠支持幾乎所有TableQA場景、支持LLM的統一工具包。TableQAKit將TableQA的任務框架分成了配置模塊、統一數據形式模塊、使用模型模塊,以及評估模塊。
CRUSH4SQL[17]和OpenTab[18]則關注到開放域的表格推理任務,通過將任務分解為先檢索問題相關表格,再用LLM推理的過程,緩解了大量無關信息的輸入給模型帶來推理難度增加的問題。在用PLM解決表格推理任務時,人們也會通過將任務模塊化分解為簡單子任務來降低整體任務難度,但針對每一個子任務都需要額外的訓練數據單獨訓練一個模型來解決[32],而LLM可以很好地利用其上下文學習能力及泛化性,不再需要對每一個表格類子任務專門訓練。
3.3. 上下文學習
上下文學習是指LLM在不用微調的情況下,通過設計prompt來增強表格推理能力。研究者們認為部分LLM無需微調就已經具備表格推理能力。但由于LLM的表現性能嚴重依賴于輸入的上下文,如何通過上下文學習更好地激發模型的表格推理能力成為一個需要研究的問題。
為了增強LLM的上下文學習能力,現有的工作主要遵循兩條研究思路:通過設計prompt,來直接增強LLM的上下文學習能力;通過將推理過程分解為多步,來降低單步LLM的上下文學習的難度。
關于直接設計prompt的相關工作,[19]工作最先探索并證明了LLM具有上下文學習的表格推理能力。ODIS[20]觀察到前人工作在上下文學習時不提供示例,或只提供領域外的示例但研究表明,領域內示例可以顯著提高LLM性能,因此提出基于SQL相似度合成領域內SQL,再用LLM生成對應問題作為領域內示例。DAIL-SQL[21]為了系統探索高效prompt工程,提出了基于掩碼后問題的相似度選擇示例,并且省略其數據庫模式以減少輸入長度。而SEER[22]為了解決HybridQA任務在上下文學習中示例選擇的挑戰,尤其是用戶問題和示例中推理路徑的相關性小的問題,如圖6所示,根據問題向量之間的相似度,以及分類器預測的問題的推理鏈,從數據中選擇示例。
圖6:SEER方法示意圖
關于prompt分解推理過程的工作,MURMUR[23]發現data-to-text任務直接提示LLM推理易導致幻覺,而提示CoT推理缺乏推理步驟之間的明確條件,損害正確性,并且以不同的順序線性化數據易造成較大的方差。因此,MURMUR提出首先依據預先定義的語法規則在每一步使用束搜索算法選擇可能正確的模型范圍,再根據打分模型選擇最好的模型,以及相應的輸入形式。CHAIN-OF-TABLE[24]則為了降低單跳LLM上下文學習的難度,提供給LLM預定義的表格操作,需要LLM從中選擇一種操作并執行構成操作鏈。
設計prompt的方法和用prompt分解推理過程的方法并不是非此即彼的,二者可以組合使用,提示LLM將分解推理后,通過在每一步設計不同的prompt來更好地進行推理。
LLM的上下文學習能力很好地緩解了PLM對每個表格推理任務都需要大量訓練的問題,但也帶來了新的挑戰。由于人們尚不能探明LLM上下文學習能力的機理,所以只能從上下文學習帶來表格推理性能提升的角度試圖探索不同的prompt對不同模型的影響。
3.4. 使用工具
使用工具是指LLM調用其他工具或模型,從而改進表格推理相關的特定子任務上的性能。研究者在將復雜表格推理任務分解后,發現LLM并不適用于求解所有子任務,在諸如檢索、數值計算等的任務上LLM落后于現有工具或方法,造成總體性能不佳。所以如何令LLM使用合適的工具以更好地完成表格推理任務成為一種挑戰。
目前的研究工作主要分為兩條研究思路:一種LLM調用的工具是已經寫好并封裝的,LLM只需生成調用工具的代碼,另一種需要LLM分析需求后,根據具體需求生成代碼,比如python、SQL等來實現某一模塊或工具的功能。
關于直接調用封裝工具的工作,StructGPT[25]觀察到結構化數據的數量過于龐大,很難全部輸入,所以提供了抽取數據的接口,如圖7所示,模型通過調用相應接口獲得有效數據,再將其輸入模型進行推理。[26]為了同時探索并進一步評估LLM智能體采取行動和推理的能力,提出長對話的數據庫問答任務,LLM需要先根據歷史進行推理,決定與外部模型的交互策略,再采取行動生成具體的交互命令以調用模型。API[27]在將表格問題翻譯成程序后,通過調用其它LLM的API實現了查詢知識以及對表格執行程序以外的操作。
圖7:BINDER方法示意圖
關于需要LLM根據需求實現工具功能的工作,BINDER[28]注意到神經系統缺少可解釋性,而符號方法被符號語言的語法限制,但現有的融合方法只針對特定模型和語言,且需要大量訓練數據,因此提出首先解析問題中不可以轉換成目標程序語言的部分,將其調用大模型的API求解,再將生成結果集成到編程語言中。ReAcTable[29]注意到根據問題對任意表及其列自動轉化的挑戰性,提出通過每一步令LLM選擇生成不同形式的代碼,并調用此代碼得到中間結果的表格,來逐步得到答案。
LLM既可以調用現成的函數,也可以先生成代碼接口再調用,這兩種方法并不沖突,可以被同時用在LLM的推理過程中。
PLM并不具有使用工具的能力,而LLM借用工具進一步增強了模型的專業能力,但在表格推理過程中,何時使用工具,使用何種工具,以及如何使用工具成為了新的挑戰。
3.5. 提高魯棒性
魯棒性是指LLM在輸入發生微小變化時,依然能保持生成正確結果的能力(例如:隨機數種子、問題中的無意義詞)。經過研究發現LLM在生成答案時缺少魯棒性會導致模型性能衰退。為了提升模型魯棒性,研究者們提出一系列方法以提升模型性能。
遵循前人工作,現有的提高LLM表格推理的魯棒性的方法,主要采用先生成多個結果,然后從多個結果中選取答案的方式。依照該設計思路,如圖8所示,LEVER[30]專門訓練一個打分器對每個生成的答案進行打分,選擇相應分數最高的答案作為結果。而SQLPrompt[31]注意到在固定prompt的情況下,LLM生成結果的多樣性較差,導致生成結果可能集中于特定的錯誤答案。為了解決這個問題,SQLPrompt提出根據多個prompt分別生成結果,然后集成,從而避免生成答案集中于特定結果。
圖8:LEVER方法示意圖
提升模型魯棒性的挑戰在PLM時代就已經存在,之前人們普遍通過額外訓練來提升PLM在表格推理任務上的魯棒性[33],但LLM時代人們目前只是通過對生成結果的處理來提升表格推理結果的魯棒性。
4. 未來方向
為了啟發未來研究,在本節,我們將介紹如何改進各類方法,來提升LLM的表格推理能力。
4.1. 有監督微調
現有方法只考慮到了增強模型在某一領域或某一表格任務上的性能,或挑選對應不同任務的數據集聯合訓練,所涉及的領域以及難度范圍有限,導致微調后模型的泛化性也有限。參考WizardLM[34]、WizardCoder[35],我們期待可以使用LLM蒸餾數據,提示LLM產生不同領域、不同任務、不同難度等級的大規模高質量訓練數據,以提升模型在表格推理任務上的綜合能力以及泛化性。
并且現有方法與其他NLP任務采用了統一的模型架構,并沒有針對表格任務做適應性修改。參考TaPas[4],我們可以通過設計新的適用于結構化數據的模型架構來解決表格任務。
4.2. 模塊化分解
現有方法需要人工預先將任務分解為流水線,但這種分解只適用于某一類表格任務,并不具有普適性,而針對所有表格任務的分解又太過概括,并不能很好地降低推理難度。參考ReAct[36],希望能夠待無需為LLM解決某一表格問題指定流水線,而是令LLM能夠根據問題自主將任務顯示分解,能很好地適用于所有表格任務并且減少人工參與。
現有方法在將任務分解后并沒有研究對分解后的子任務進行改進提升,使系統受錯誤級聯的影響較大,受[37]啟發,我們希望LLM能夠對分解的中間步驟敏感,自主檢測并修正錯誤的中間結果,進一步推理出正確的結果。
4.3. 上下文學習
現有研究均是從有限范圍內人工比較或設計算法選擇更好的prompt作為輸入,由于比較的范圍有限,所以模型性能的提升也是有限的,并且不適用于可獲取數據有限的場景。為了獲得更好的輸入上下文,參考[38],能夠借助LLM自動生成上下文,并根據表格和任務對prompt打分以及優化,更好地幫助模型理解并解決這個問題。
并且現有研究并沒有關注如何針對結構化、半結構化數據改進LLM的嵌入層。參考[39],我們期待可以訓練一個適用于LLM的嵌入層,能夠嵌入表格的結構、單元和對齊的文本描述,更好地編碼結構化數據,有助于模型理解表格并推理。
4.4. 使用工具
現有研究沒有關注到表格推理任務中面臨的知識密集場景,不能靈活運用外部數據進行知識注入。參考WebGPT[40],我們希望處理專家問題時LLM能夠自主借助搜索引擎查詢相關領域內知識,并且將查詢結果用于計算或推理。
4.5. 提高魯棒性
現有工作都是針對模型生成結果進行集成以提升性能,并沒有關注到推理路徑的多樣性以及對結果魯棒性的影響。參考[41],LLM可以在表格推理的路徑上做集成,充分利用多步推理的中間過程及中間結果,逐步提升模型的魯棒性。
并且現有方法在對候選結果選擇時,要額外訓練小模型對結果打分。參考[42]以及[43],期待可以無需訓練,直接使用LLM對生成結果進行判別、選擇,節省訓練時間以及成本。
5. 總結
本文旨在向研究者們提供一份對LLM時代表格推理相關研究的總結以及展望。為了更好地幫助研究者思考從何種角度提升LLM在表格推理任務上的性能,我們從方法以及挑戰的角度將現有研究分為5類,并詳細闡述了我們的分類標準。為了讀者更好地了解表格任務的現有進展,我們從有監督微調、模塊化分解、上下文學習、使用工具以及提高魯棒性的角度回顧梳理了現有工作;最后,我們依據這5類方法討論了未來潛在的改進方向,以希望本文可以在LLM時代如何改進表格推理性能方面帶給讀者更多啟發。
參考文獻
[1]Biehler, R., Frischemeier, D., Reading, C., & Shaughnessy, J. (2018). Reasoning About Data.
[2]Xu, X., Liu, C., & Song, D.X. (2017). SQLNet: Generating Structured Queries From Natural Language Without Reinforcement Learning. ArXiv, abs/1711.04436.
[3]Pasupat, P., & Liang, P. (2015). Compositional Semantic Parsing on Semi-Structured Tables. Annual Meeting of the Association for Computational Linguistics.
[4]Herzig, J., Nowak, P.K., Müller, T., Piccinno, F., & Eisenschlos, J.M. (2020). TaPas: Weakly Supervised Table Parsing via Pre-training. Annual Meeting of the Association for Computational Linguistics.
[5]Zhao, W.X., Zhou, K., Li, J., Tang, T., Wang, X., Hou, Y., Min, Y., Zhang, B., Zhang, J., Dong, Z., Du, Y., Yang, C., Chen, Y., Chen, Z., Jiang, J., Ren, R., Li, Y., Tang, X., Liu, Z., Liu, P., Nie, J., & Wen, J. (2023). A Survey of Large Language Models. ArXiv, abs/2303.18223.
[6]Chen, W., Wang, H., Chen, J., Zhang, Y., Wang, H., LI, S., Zhou, X., & Wang, W.Y. (2019). TabFact: A Large-scale Dataset for Table-based Fact Verification. ArXiv, abs/1909.02164.
[7]Parikh, A.P., Wang, X., Gehrmann, S., Faruqui, M., Dhingra, B., Yang, D., & Das, D. (2020). ToTTo: A Controlled Table-To-Text Generation Dataset. ArXiv, abs/2004.14373.
[8]Yu, T., Zhang, R., Yang, K., Yasunaga, M., Wang, D., Li, Z., Ma, J., Li, I.Z., Yao, Q., Roman, S., Zhang, Z., & Radev, D.R. (2018). Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task. ArXiv, abs/1809.08887.
[9]Hegselmann, S., Buendia, A., Lang, H., Agrawal, M., Jiang, X., & Sontag, D.A. (2022). TabLLM: Few-shot Classification of Tabular Data with Large Language Models. ArXiv, abs/2210.10723.
[10]Zha, L., Zhou, J., Li, L., Wang, R., Huang, Q., Yang, S., Yuan, J., Su, C., Li, X., Su, A., Tao, Z., Zhou, C., Shou, K., Wang, M., Zhu, W., Lu, G., Ye, C., Ye, Y., Ye, W., Zhang, Y., Deng, X., Xu, J., Wang, H., Chen, G., & Zhao, J.J. (2023). TableGPT: Towards Unifying Tables, Nature Language and Commands into One GPT. ArXiv, abs/2307.08674.
[11]Zhang, T., Yue, X., Li, Y., & Sun, H. (2023). TableLlama: Towards Open Large Generalist Models for Tables. ArXiv, abs/2311.09206.
[12]Yang, B., Tang, C., Zhao, K., Xiao, C., & Lin, C. (2023). Effective Distillation of Table-based Reasoning Ability from LLMs. ArXiv, abs/2309.13182.
[13]Bian, J., Qin, X., Zou, W., Huang, M., & Zhang, W. (2023). HELLaMA: LLaMA-based Table to Text Generation by Highlighting the Important Evidence. ArXiv, abs/2311.08896.
[14]Ye, Y., Hui, B., Yang, M., Li, B., Huang, F., & Li, Y. (2023). Large Language Models are Versatile Decomposers: Decomposing Evidence and Questions for Table-based Reasoning. Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval.
[15]Pourreza, M.R., & Rafiei, D. (2023). DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction. ArXiv, abs/2304.11015.
[16]Lei, F., Luo, T., Yang, P., Liu, W., Liu, H., Lei, J., Huang, Y., Wei, Y., He, S., Zhao, J., & Liu, K. (2023). TableQAKit: A Comprehensive and Practical Toolkit for Table-based Question Answering. ArXiv, abs/2310.15075.
[17]Kothyari, M., Dhingra, D., Sarawagi, S., & Chakrabarti, S. (2023). CRUSH4SQL: Collective Retrieval Using Schema Hallucination For Text2SQL. ArXiv, abs/2311.01173.
[18]Anonymous. OPENTAB: ADVANCING LARGE LANGUAGE MODELS AS OPEN-DOMAIN TABLE REASONERS. Submitted to The Twelfth International Conference on Learning Representations.
[19]Chen, W. (2022). Large Language Models are few(1)-shot Table Reasoners. ArXiv, abs/2210.06710.
[20]Chang, S., & Fosler-Lussier, E. (2023). Selective Demonstrations for Cross-domain Text-to-SQL. ArXiv, abs/2310.06302.
[21]Tonglet, J., Reusens, M., Borchert, P., & Baesens, B. (2023). SEER : A Knapsack approach to Exemplar Selection for In-Context HybridQA. ArXiv, abs/2310.06675.
[22]Gao, D., Wang, H., Li, Y., Sun, X., Qian, Y., Ding, B., & Zhou, J. (2023). Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation. ArXiv, abs/2308.15363.
[23]Saha, S., Yu, X.V., Bansal, M., Pasunuru, R., & Celikyilmaz, A. (2022). MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text Generation. ArXiv, abs/2212.08607.
[24]Anonymous. CHAIN-OF-TABLE: EVOLVING TABLES IN THE REASONING CHAIN FOR TABLE UNDERSTANDING. Submitted to The Twelfth International Conference on Learning Representations.
[25]Jiang, J., Zhou, K., Dong, Z., Ye, K., Zhao, W.X., & Wen, J. (2023). StructGPT: A General Framework for Large Language Model to Reason over Structured Data. ArXiv, abs/2305.09645.
[26]Nan, L., Zhang, E., Zou, W., Zhao, Y., Zhou, W., & Cohan, A. (2023). On Evaluating the Integration of Reasoning and Action in LLM Agents with Database Question Answering. ArXiv, abs/2311.09721.
[27]Cao, Y., Chen, S., Liu, R., Wang, Z., & Fried, D. (2023). API-Assisted Code Generation for Question Answering on Varied Table Structures. ArXiv, abs/2310.14687.
[28]Cheng, Z., Xie, T., Shi, P., Li, C., Nadkarni, R., Hu, Y., Xiong, C., Radev, D.R., Ostendorf, M., Zettlemoyer, L., Smith, N.A., & Yu, T. (2022). Binding Language Models in Symbolic Languages. ArXiv, abs/2210.02875.
[29]Zhang, Y., Henkel, J., Floratou, A., Cahoon, J., Deep, S., & Patel, J.M. (2023). ReAcTable: Enhancing ReAct for Table Question Answering. ArXiv, abs/2310.00815.
[30]Ni, A., Iyer, S., Radev, D.R., Stoyanov, V., Yih, W., Wang, S.I., & Lin, X.V. (2023). LEVER: Learning to Verify Language-to-Code Generation with Execution. ArXiv, abs/2302.08468.
[31]Sun, R., Arik, S.?., Sinha, R., Nakhost, H., Dai, H., Yin, P., & Pfister, T. (2023). SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data. ArXiv, abs/2311.02883.
[32]Wang, B., Shin, R., Liu, X., Polozov, O., & Richardson, M. (2019). RAT-SQL: Relation-Aware Schema Encoding and Linking for Text-to-SQL Parsers. Annual Meeting of the Association for Computational Linguistics.
[33]Pi, X., Wang, B., Gao, Y., Guo, J., Li, Z., & Lou, J. (2022). Towards Robustness of Text-to-SQL Models Against Natural and Realistic Adversarial Table Perturbation. Annual Meeting of the Association for Computational Linguistics.
[34]Xu, C., Sun, Q., Zheng, K., Geng, X., Zhao, P., Feng, J., Tao, C., & Jiang, D. (2023). WizardLM: Empowering Large Language Models to Follow Complex Instructions. ArXiv, abs/2304.12244.
[35]Luo, Z., Xu, C., Zhao, P., Sun, Q., Geng, X., Hu, W., Tao, C., Ma, J., Lin, Q., & Jiang, D. (2023). WizardCoder: Empowering Code Large Language Models with Evol-Instruct. ArXiv, abs/2306.08568.
[36]Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. ArXiv, abs/2210.03629.
[37]Lightman, H., Kosaraju, V., Burda, Y., Edwards, H., Baker, B., Lee, T., Leike, J., Schulman, J., Sutskever, I., & Cobbe, K. (2023). Let's Verify Step by Step. ArXiv, abs/2305.20050.
[38]Yang, C., Wang, X., Lu, Y., Liu, H., Le, Q.V., Zhou, D., & Chen, X. (2023). Large Language Models as Optimizers. ArXiv, abs/2309.03409.
[39]Sun, C., Li, Y., Li, H., & Qiao, L. (2023). TEST: Text Prototype Aligned Embedding to Activate LLM's Ability for Time Series. ArXiv, abs/2308.08241.
[40]Nakano, R., Hilton, J., Balaji, S.A., Wu, J., Long, O., Kim, C., Hesse, C., Jain, S., Kosaraju, V., Saunders, W., Jiang, X., Cobbe, K., Eloundou, T., Krueger, G., Button, K., Knight, M., Chess, B., & Schulman, J. (2021). WebGPT: Browser-assisted question-answering with human feedback. ArXiv, abs/2112.09332.
[41]Xie, Y., Kawaguchi, K., Zhao, Y., Zhao, X., Kan, M., He, J., & Xie, Q. (2023). Self-Evaluation Guided Beam Search for Reasoning.
[42]Madaan, A., Tandon, N., Gupta, P., Hallinan, S., Gao, L., Wiegreffe, S., Alon, U., Dziri, N., Prabhumoye, S., Yang, Y., Welleck, S., Majumder, B., Gupta, S., Yazdanbakhsh, A., & Clark, P. (2023). Self-Refine: Iterative Refinement with Self-Feedback. ArXiv, abs/2303.17651.
[43]Li, X., Zhu, C., Li, L., Yin, Z., Sun, T., & Qiu, X. (2023). LLatrieval: LLM-Verified Retrieval for Verifiable Generation. ArXiv, abs/2311.07838.
審核編輯:黃飛
評論
查看更多