摘 要:在構建高性能大模型時,大規(guī)模高質量數(shù)據的重要性不容忽視。本研究旨在深入探究這一核心要素,并系統(tǒng)評估其在專業(yè)領域中的實際應用效果與潛在價值。本研究基于中國知網大量專業(yè)文獻,構建了一個包含1 316.45億token的學術資源數(shù)據集AcaDS和2 700萬條指令的下游微調數(shù)據集AcaDSI,采用Transformer架構設計并訓練了一個70億參數(shù)規(guī)模的生成式學術大模型AcaLM-7B。通過實驗評測,AcaLM-7B在面向學術研究的6個核心應用場景中獲得總積分第一、3個單項第一和2個單項第二,驗證了大規(guī)模高質量數(shù)據資源在構建專業(yè)大模型中的核心地位。此外,本研究在數(shù)字出版行業(yè)具有實際應用價值,有利于提升內容生產效率并優(yōu)化用戶體驗。
關鍵詞:高質量數(shù)據;學術大模型;出版大模型;知網大模型;專業(yè)應用場景;模型評測
DOI: 10.3969/j.issn.2097-1869.2024.03.014 文獻標識碼: A
著錄格式:薛德軍,師慶輝,畢琰虹,等.數(shù)據引擎驅動的學術出版大模型:實測檢驗大規(guī)模高質量數(shù)據在構建高性能模型中的核心地位[J].數(shù)字出版研究,2024,3(3):122-132.
隨著人工智能技術的持續(xù)發(fā)展,大模型的應用已廣泛滲透到多個領域[1-2],展現(xiàn)出卓越的性能和廣泛的應用前景[3]。大模型不僅提升了處理各種任務的能力[4],也為特定領域的任務提供了更加高效的解決方案[5-6]。然而,實際應用場景的下游任務越來越專業(yè)化與復雜化,這意味著對大模型性能的要求也越來越高[7-10]。影響大模型性能的因素眾多,其中高質量數(shù)據已越發(fā)重要并成為核心要素。數(shù)據的質量和規(guī)模直接關系到模型訓練的效果和最終性能表現(xiàn)[11]。無論是針對通用任務還是特定領域的專業(yè)應用,高質量的數(shù)據都是構建高性能模型的基礎[12]。特別是在專業(yè)應用領域如學術研究,通用數(shù)據集往往難以覆蓋該特定領域的專業(yè)知識和細節(jié)。
目前公開的通用大模型在處理學術任務時,其性能常受限于缺乏針對學術領域的特定訓練數(shù)據。因此,通用大模型在理解和生成學術文獻中的專業(yè)術語、研究方法、核心思想等任務中的準確性往往不高,將其應用于自動摘要生成、學術問答、段落總結等學術應用場景時,其性能受到限制,難以完全滿足學術需求。此外,學術領域的數(shù)據通常較為稀缺且分散,這進一步增加了模型訓練的難度。同時,學術領域的專業(yè)性和獨特性使得通用大模型在遷移到其他領域時,可能需要額外的調整和優(yōu)化,以適應新的領域特性。因此,構建一個高質量的學術數(shù)據集,并在此基礎上訓練出能夠服務于學術研究的大模型,不僅有助于推動學術研究的智能化,提高研究效率和準確性,還能促進跨學科研究的融合與創(chuàng)新。同時,這也為人工智能技術在學術領域的應用帶來了新的機遇和挑戰(zhàn)。
本研究基于中國知網(以下簡稱“知網”)豐富的學術資源,篩選出覆蓋廣泛學科領域的多類型學術文獻,構建了一個具有專業(yè)性和多樣性的高質量學術數(shù)據集AcaDS。采用Transformer架構訓練了一個70億參數(shù)規(guī)模的生成式學術大模型AcaLM-7B,并通過實驗評測該模型在面向學術研究的6個核心應用場景中的性能,從而分析大規(guī)模高質量數(shù)據資源在構建專業(yè)大模型中的作用。
1 基礎數(shù)據集與指令數(shù)據集構建
1.1 高質量數(shù)據集特性
在構建用于訓練學術大模型的數(shù)據集時,高質量數(shù)據集的特性尤為重要。這些特性不僅關乎模型訓練的效率和效果,更直接影響模型在下游任務中的性能表現(xiàn)[11-12]。以下是從數(shù)量規(guī)模、數(shù)據質量、多樣性、專業(yè)性和通用性等方面對高質量數(shù)據集特性的闡述。
首先,高質量數(shù)據集應具備一定的數(shù)量規(guī)模。這種規(guī)模不僅體現(xiàn)在數(shù)據量的多少,更在于數(shù)據是否能夠全面覆蓋下游領域的任務。數(shù)據集需要包含足夠多的樣本,以確保模型能夠學習各領域的知識。
其次,數(shù)據質量是高質量數(shù)據集的核心要素。數(shù)據集的來源應是專業(yè)領域內被廣泛認可的權威數(shù)據,以保證數(shù)據的可靠性。數(shù)據應經過進一步嚴格篩選和清洗,去除其中的噪聲、重復和無關信息,以確保數(shù)據的準確性。
此外,數(shù)據的多樣性也是高質量數(shù)據集的重要特性。多樣性體現(xiàn)在數(shù)據的來源、類型及數(shù)據在各維度上的平衡。學術大模型通常是面向多任務的,數(shù)據集需要在滿足覆蓋多學科要求的同時,在各學科領域之間保持平衡,以避免模型在訓練中出現(xiàn)偏倚或過度擬合的情況。
最后,數(shù)據的專業(yè)性和通用性也是高質量數(shù)據集的特性。專業(yè)性體現(xiàn)在數(shù)據集包含特定領域的專業(yè)基礎和前沿技術。通用性則體現(xiàn)在數(shù)據集具備廣泛的適用性,能夠支持多種應用場景。專業(yè)性和通用性的結合有助于模型在特定領域內表現(xiàn)出色,同時也使其具備一定的跨領域應用能力。
1.2 基礎數(shù)據集構建
基于知網學術資源庫,本研究收集了學術期刊、各類型論文、報紙、專利等多類型的學術文獻,總計約2 902.5億字文本數(shù)據,覆蓋近億篇文獻,文本數(shù)據來源分布見表1?;谠撐谋緮?shù)據進行嚴格的數(shù)據篩選和清洗,去除噪聲和重復信息,保留高質量的數(shù)據樣本,構建了1 316.45億token的學術資源數(shù)據集AcaDS。
數(shù)據集AcaDS在數(shù)據分布上力求均勻,覆蓋不同年份及廣泛學科,以提供全面、深入的學術領域知識。AcaDS中不同科學領域數(shù)據的占比情況見圖1。
AcaDS充分滿足了高質量數(shù)據集在數(shù)量規(guī)模、數(shù)據質量、多樣性等方面的要求。其權威的數(shù)據來源、嚴格的數(shù)據篩選和清洗過程,以及廣泛覆蓋不同學科領域的特點,使得AcaDS能夠為學術大模型的訓練提供堅實的數(shù)據基礎。
1.3 數(shù)據預處理
在數(shù)據預處理階段,首先進行數(shù)據去重操作以確保數(shù)據質量,旨在消除冗余和重復的數(shù)據,以提高數(shù)據集的純凈度和有效性。
接著進行分詞處理,將學術文本切分為獨立的詞匯單元。由于學術文本的復雜性和專業(yè)性,分詞算法需要特別考慮專業(yè)術語和縮寫詞,以確保準確捕捉文本中的關鍵信息。
最后,利用字節(jié)對編碼(Byte Pair Encoding,BPE)算法[13]將文本轉換為固定長度的向量序列。BPE算法通過合并最常出現(xiàn)的子詞來生成新的詞匯單元,有效解決了未登錄詞(Out of Vocabulary,OOV)1和稀有詞的問題,為模型訓練提供有效的數(shù)值化表示。這種表示方式不僅保留了文本中的關鍵信息,還降低了數(shù)據的維度和復雜性,從而提高了模型的訓練效率和準確性。
1.4 指令數(shù)據集構建
本研究基于基礎數(shù)據集AcaDS,根據學術論文的特點,抽取文章中的標題、摘要、大綱等關鍵數(shù)據,自動構建了包含2 700萬條指令的大規(guī)模指令數(shù)據集AcaDSI。該數(shù)據集專注于6個核心學術領域的任務,包括摘要生成、文本續(xù)寫、段落總結、大綱生成、開放問答和抽取問答。AcaDSI構建步驟見表2。
2 模型結構與訓練策略
2.1 模型結構
AcaLM-7B模型是以開源模型LLaMa-7B[14]為基礎,針對學術領域的深度優(yōu)化而構建的大型語言模型,參數(shù)規(guī)模70億。其核心結構包含一個4 096維度的詞向量嵌入層,通過堆疊32層的Transformer結構來捕捉文本中的深層語義信息,每一層采用32個注意力頭數(shù)。此外,詞表大小設置為55 000,以支持多語種、多符號的學術文本表達能力,窗口長度為8 192,以支持對長文本的有效處理。
針對學術領域的優(yōu)化方面,由于LLaMa-7B模型原始詞典在適應學術文本上存在不足,因此本文利用學術領域數(shù)據,通過BPE算法[13]生成了具備學術特色的詞典,并采用詞級粒度對文本進行分詞處理。這不僅增強了模型對學術語義信息的理解,還提升了其處理長文本的能力。此外,本文引入DeepNorm方法[15]替換原有歸一化策略,有效緩解了模型參數(shù)更新問題,提高了訓練穩(wěn)定性,為模型未來擴展到更大規(guī)模(如百億級別)奠定基礎。
2.2 訓練策略
AcaLM-7B模型的訓練經歷了兩個階段:首先,在1 316.45億token的預訓練數(shù)據集AcaDS上進行訓練,使模型掌握學術語言規(guī)律;然后,在2 700萬條指令的指令數(shù)據集AcaDSI上進行微調,確保預訓練后的模型更適應學術下游任務的具體應用場景。
訓練硬件環(huán)境為GPU_Nvidia_A800_640G_ 8GPU-Mods*4。
3 實驗結果
3.1 評測任務與數(shù)據集
為檢驗AcaLM-7B模型的學術服務能力,本研究設計了6個學術領域常用的應用場景:摘要生成、文本續(xù)寫、段落總結、大綱生成、開放問答和抽取問答,這些場景覆蓋了學術寫作與研究的多個方面。任務描述與評測目標見表3。每項任務從指令數(shù)據集AcaDSI中隨機抽取30個樣本(不放回)作為測試數(shù)據,構成整個評測任務的數(shù)據集。
3.2 評測模型
在評測中,依據數(shù)據來源、模型大小等綜合因素,本文選取了華知大模型[16]和ChatGLM-6B[17]兩款大模型,與AcaLM-7B共同參與評測。
華知大模型,是同方知網與華為公司聯(lián)合研發(fā)的面向知識服務領域的大語言模型,參數(shù)規(guī)模約380億。該模型以盤古38B模型為基礎,使用知網部分專業(yè)學術資源進行增強訓練,以提高其專業(yè)知識服務能力[16]。
ChatGLM-6B,是目前10B以下參數(shù)中質量較好的開源通用大模型之一,它繼承了GLM-3系列前代模型的優(yōu)秀特性,支持多種復雜應用場景,具有出色的通用性能[17]。
選擇華知大模型參與評測,旨在探究大模型在結合專業(yè)資源訓練后的性能表現(xiàn)。選擇ChatGLM-6B參與評測,是由于其參數(shù)量與AcaLM-7B相近,在目前相近參數(shù)量的開源大模型中質量較好,進而可以對比其與僅依賴專業(yè)資源構建的AcaLM-7B在性能上的差異,從而探究不同構建方式對模型性能的影響機制。
3.3 人工評測
在人工評測環(huán)節(jié),筆者邀請5名具備大模型評測經驗的工作人員參與,通過多輪交叉評測確保結果的客觀性。在每輪評測中,工作人員隨機接收不同任務,并在任務輪換中完成對多個模型的評測,以減少主觀偏見。評測采用排名積分制(5分制),根據模型表現(xiàn)進行排名并賦分。每輪任務完成后,計算平均得分作為本輪成績,最終取多輪評測得分的均值,轉化為百分制(乘以20)得出模型的最終評測得分。
最后,每個模型在6項評測任務中的平均得分為該模型服務學術任務的總積分。
3.4 結果分析
對AcaLM-7B、華知大模型、ChatGLM-6B這3個大模型的綜合評測結果見表4,可視化效果圖見圖2。
綜合評測結果顯示,AcaLM-7B的總積分排名第一,華知大模型緊隨其后,ChatGLM-6B位列第三。此結果反映了3個大模型對下游學術任務的服務能力是不同的,AcaLM-7B整體效果最好。
3.4.1 AcaLM-7B
具體來看,AcaLM-7B在摘要生成、段落總結和抽取問答3個任務中均排名第一,同時在文本續(xù)寫和大綱生成任務中排名第二,從而以最高總積分在綜合評測中脫穎而出。這充分說明AcaLM-7B在理解和處理學術文本信息、提取關鍵學術內容方面具有強大能力。摘要生成任務、段落總結任務評測中實例分別見表 5、表 6。
如表5所示,從摘要生成任務實例中可以看出,AcaLM-7B能夠準確捕捉論文的核心內容,并生成精煉且連貫的摘要文本。它成功地涵蓋了研究目的、方法、結果及結論等關鍵信息,提供了對論文全面且準確的理解。相比之下,華知大模型與ChatGLM-6B在摘要生成方面稍顯不足,存在信息遺漏或表達不夠準確的問題。
實例1(Prompt 1)中,AcaLM-7B精準捕捉了醫(yī)療旅游產業(yè)的發(fā)展概況、時空演化特征及影響因素等多個關鍵信息,并生成了具有高度概括性和可讀性的摘要;華知大模型雖然對醫(yī)療旅游產業(yè)的概念、發(fā)展現(xiàn)狀及耦合協(xié)調程度進行了分析,但在表達上不夠準確,部分信息未能完全捕捉;ChatGLM-6B雖然提供了較為詳細的內容框架,但在具體信息的呈現(xiàn)上略顯籠統(tǒng),未能充分展現(xiàn)學術論文的精髓。
實例2(Prompt 2)中,AcaLM-7B不僅準確提煉了研究的核心內容,還對其設計原理、實現(xiàn)方法及實驗驗證結果進行了詳盡而深入的分析,生成的摘要邏輯清晰、條理分明,能夠充分展現(xiàn)論文的創(chuàng)新點和學術價值;華知大模型雖然也提到了微帶反射陣單元的相位電可控設計,但并未深入探討其設計原理和實現(xiàn)方法,只是簡要概述了其優(yōu)點和應用方向;ChatGLM-6B則更側重于從標題中提取關鍵信息,生成了較為簡潔的中心思想,缺乏對論文內容的深入理解和闡述。
通過分析,AcaLM-7B在摘要生成任務上的優(yōu)勢主要得益于其訓練過程中所使用的專業(yè)優(yōu)質資源,這些資源為模型提供了豐富的學術領域知識,使其能夠準確地理解并生成學術文本的摘要。
如表6所示,從段落總結任務實例中可以看出,AcaLM-7B對信息的捕捉精準且概括能力突出,華知大模型和ChatGLM-6B的總結內容都稍顯冗長,在簡潔性和概括性方面有所欠缺。
實例1(Prompt 1)中,對于養(yǎng)老保險關系轉移規(guī)定的描述,AcaLM-7B的總結既準確又簡潔,直接點明了跨省轉移養(yǎng)老保險關系的一般規(guī)定,充分體現(xiàn)了其高效的信息處理能力;華知大模型雖然準確地提到了轉移的規(guī)定,但表述略顯冗長,超過了字數(shù)限制;ChatGLM-6B則較為詳細地描述了轉移的各種情況,包括省內外的不同處理方式,但同樣在字數(shù)控制上稍顯不足。
實例2(Prompt 2)中,AcaLM-7B準確地抓住了作文立意與學生個性發(fā)展之間的關系,并用簡潔的語言進行了概括,既符合字數(shù)要求又體現(xiàn)了文本的核心要義;華知大模型較為全面地概括了作文教學中立意的重要性及如何通過提煉主題和滲透學生個性來培養(yǎng)學生寫出有新意的作文,但在字數(shù)控制上仍稍顯不足;ChatGLM-6B則詳細描述了新課改的要求及如何通過具體例子來體現(xiàn)好的立意,但同樣在簡潔性上有所欠缺。
通過分析,AcaLM-7B在段落總結任務中的出色表現(xiàn),同樣得益于其訓練過程中的專業(yè)優(yōu)質資源及模型架構優(yōu)化。這些因素共同作用,使得AcaLM-7B能夠更準確地理解段落內容并生成簡潔明了的總結。
3.4.2 華知大模型
華知大模型在大綱生成任務中排名第一,同時在摘要生成、段落總結、開放問答及抽取問答4項任務中位列第二,總積分排名第二。大綱生成任務評測中的實例見表7。
從大綱生成任務實例中可以看出,華知大模型能夠準確布局論文的各個部分和章節(jié),并生成清晰的大綱框架,從引言到結論,每個部分都進行了詳細的規(guī)劃和說明。相比之下,AcaLM-7B與ChatGLM-6B在大綱生成時存在結構不清晰或內容不完整的問題。
華知大模型的出色性能主要得益于兩方面:一是華知大模型以華為的38B盤古大模型為基座,基于知網的學術資源進行二次訓練,習得了專業(yè)領域的知識表示,有助于解決下游專業(yè)任務;二是華知大模型的參數(shù)量比AcaLM-7B大5倍,因而知識表示更專業(yè)、學習能力更強。
3.4.3 ChatGLM-6B
ChatGLM-6B在文本續(xù)寫和開放問答2個任務中排名第一,表現(xiàn)出該模型在理解和生成自然流暢文本、開放問答場景方面的強大能力。特別是在開放問答任務中,ChatGLM-6B的得分遠高于其他2個模型,進一步凸顯其在問答領域的優(yōu)勢。開放問答任務中的評測實例見表8。
開放問答任務實例中可以看出,ChatGLM-6B能夠準確理解問題的背景和需求,并提取相關信息進行回答。相比之下,AcaLM-7B與華知大模型在回答時存在信息不足或回答不夠準確的問題。
ChatGLM-6B在開放問答任務中的出色表現(xiàn),主要由于模型在訓練階段對通用問答數(shù)據的深度挖掘及模型架構針對問答任務的專項優(yōu)化。這些因素共同促使ChatGLM-6B能夠精準理解問題,并從知識庫中提取相關信息,給出準確回答。
然而,ChatGLM-6B在其他評測任務中的表現(xiàn)相對較弱。這源于該模型主要基于公開、通用的數(shù)據集進行訓練,缺乏專業(yè)文獻資源的支撐。因此,在應對專業(yè)領域的開放問題時,ChatGLM-6B表現(xiàn)出一定的局限性。
通過對各個評測任務的結果分析,可以發(fā)現(xiàn)大模型的性能不僅與其參數(shù)規(guī)模緊密相關,訓練資源的多樣性、質量、專業(yè)性及通用性也同樣關鍵。特別是,大規(guī)模高質量專業(yè)數(shù)據資源對于大模型的性能提升具有顯著影響。華知大模型因龐大的參數(shù)量在特定任務中表現(xiàn)出色,ChatGLM-6B則凸顯通用知識的重要性,這也為提升AcaLM-6B整體性能提供了兩個方向:一是通過擴大模型規(guī)模來增強其表示與學習能力;二是加入更多通用資源,以提高模型在特定領域與通用場景下的整體性能。實驗結果論證了大規(guī)模高質量數(shù)據在模型構建與優(yōu)化中占據的核心地位。研究發(fā)現(xiàn)不應僅關注模型參數(shù)的規(guī)模,更要深入探索如何有效整合和利用這些高質量數(shù)據,以推動大模型技術的發(fā)展和性能的提升。
4 結語
本研究深入探究了大規(guī)模高質量數(shù)據集在構建專業(yè)大模型中的核心作用?;谥W大規(guī)模的專業(yè)文獻,本研究構建了包含1 316.45億token的高質量學術資源數(shù)據集AcaDS,根據學術文獻特點,自動合成了2 700萬條指令的微調數(shù)據集AcaDSI,訓練了70億參數(shù)量的生成式學術大模型AcaLM-7B。針對學術研究常用的應用場景,本研究設計了6個下游評測任務,并對AcaLM-7B、華知大模型、ChatGLM-6B 這3個大模型進行了綜合評測。
實驗結果顯示,AcaLM-7B在面向學術研究的6個應用場景中獲得總積分第一,并在摘要生成、段落總結和抽取問答3個任務中均排名第一。這一結果充分驗證了大規(guī)模高質量數(shù)據資源在構建專業(yè)大模型中的關鍵作用。AcaLM-7B通過利用知網大規(guī)模的專業(yè)文獻數(shù)據,習得了豐富的專業(yè)領域知識表示,從而在處理學術任務時表現(xiàn)出色。
與此同時,華知大模型和ChatGLM-6B也展現(xiàn)了各自的優(yōu)勢。華知大模型基于華為的38B盤古大模型,通過二次訓練增加了學術資源,其龐大的參數(shù)量(比AcaLM-7B大5倍)使得其在大綱生成任務中表現(xiàn)突出。ChatGLM-6B則在文本續(xù)寫和開放問答任務中取得了顯著成績,特別是在開放問答任務中,其得分遠高于其他2個模型,凸顯了其在問答領域的優(yōu)勢。
通過對比分析,本研究揭示了不同類型大模型在不同任務中的性能差異與潛在優(yōu)勢。這一發(fā)現(xiàn)不僅為構建更加全面、均衡的高性能大模型提供了重要參考,也為未來研究指明了方向。未來研究可進一步關注如何結合專業(yè)資源與通用知識,構建更加全面、均衡的高性能大模型,滿足多樣化實際應用場景的需求。
未來的研究將不再局限于單一的數(shù)據集或模型,而是會進一步探索多源數(shù)據的融合策略,構建出更加全面、均衡的大模型。首先,進一步探索多源數(shù)據的融合技術,通過整合來自不同領域的數(shù)據,構建出更加豐富、均衡的數(shù)據集,以支持大模型在更廣泛場景下的應用。其次,關注數(shù)據的動態(tài)更新和擴展。隨著學術領域知識的不斷發(fā)展和新研究成果的涌現(xiàn),數(shù)據集需要不斷更新以反映最新的學術動態(tài)。此外,研究數(shù)據集的標簽質量和多樣性也非常重要,通過提高標簽的準確性和豐富性,進一步提升大模型在各類學術任務中的性能。最后,研究將致力于構建跨領域、跨語言的數(shù)據集,支持大模型在全球化、多語言環(huán)境下的應用。這些研究方向為構建更高質量、更具實際應用價值的數(shù)據集提供有力支撐,并進一步推動專業(yè)大模型的發(fā)展。
作者簡介
薛德軍,男,博士,同方知網數(shù)字出版技術股份有限公司副總經理兼總工程師、高級工程師。研究方向:自然語言處理、深度學習、大模型。
師慶輝,男,同方知網數(shù)字出版技術股份有限公司技術研究院總經理。研究方向:自然語言處理、深度學習、大模型。
畢琰虹,本文通信作者,女,博士,同方知網數(shù)字出版技術股份有限公司中級工程師。研究方向:計算機視覺、人工智能、大模型。E-mail:byh11630@cnki.net。
蘆筱菲,男,碩士,同方知網數(shù)字出版技術股份有限公司項目部經理。研究方向:模式識別、人工智能、大模型。
陳婧,女,碩士,同方知網數(shù)字出版技術股份有限公司軟件設計師。研究方向:深度學習、機器學習、神經網絡。
王旭,男,同方知網數(shù)字出版技術股份有限公司中級工程師。研究方向:自然語言處理、大語言模型微調和壓縮。
王海山,男,碩士,同方知網數(shù)字出版技術股份有限公司項目經理。研究方向:圖像處理,數(shù)據分析。
耿崇,男,碩士,同方知網數(shù)字出版技術股份有限公司技術研究院副總經理。研究方向:自然語言處理、語義檢索、大模型。
吳晨,男,博士,同方知網數(shù)字出版技術股份有限公司技術專家、高級工程師。研究方向:人工智能,區(qū)塊鏈。
參考文獻
ASHISH V, NOAM S, NIKI P, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017(30): 5998-6008.
BONAN M, HAYLEY R, ELIOR S, et al. Recent advances in natural language processing via Large pre-trained language models: A survey[J]. ACM Computing Surveys, 2024, 56(2): 1-40.
JACOB D, MING-WEI C, KENTON L, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[EB/OL].(2018-10-11)[2024-05-20]. https://arxiv.org/pdf/1810.04805.
ALEC R, KARTHIK N, TIM S, et al. Improving language understanding by generative pre-training[EB/OL].[2024-05-20] .https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf.
ALEC R, JEFFREY W, REWON C, et al. Language models are unsupervised multitask learners[J]. OpenAI Blog, 2019,1(8):9.
DING N, QIN Y, YANG G, et al. Parameter-efficient fine-tuning of large-scale pre-trained language models[J]. Nature Machine Intelligence, 2023, 5(3): 220-235.
ZHAO W X, ZHOU K, LI J, et al. A survey of large language models[EB/OL].(2023-03-31)[2024-05-20]. https://arxiv.org/pdf/2303.18223v1.
YUAN S, ZHAO H, ZHAO S, et al. A roadmap for big model[EB/OL].(2022-03-26)[2024-05-20]. https://arxiv.org/abs/2203.14101.
YANG J, JIN H, TANG R, et al. Harnessing the power of LLMs in practice: A survey on ChatGPT and beyond[EB/OL].(2023-04-26)[2024-05-20]. https://arxiv.org/pdf/2304.13712.
LONG O, WU J, XU J, et al. Training language models to follow instructions with human feedback[C]// Conference on Neural Information Processing Systems, New Orleans, Los Angeles, 2022, 35:27730-27744.
BROWN T B, MANN B, RYDER N, et al. Language models are few-shot learners[C]// Conference on Neural Information Processing Systems, New Orleans, Los Angeles, 2020, 33:1877-1901.
LIU Y, CAO J, LIU C, et al. Datasets for large language models: A comprehensive survey[EB/OL].(2024-02-28)[2024-05-20]. https://arxiv.org/pdf/2402.18041.
SENNRICH R, HADDOW B, BIRCH A. Neural machine translation of rare words with subword units[EB/OL]. (2015-08-31)[2024-05-20]. https://arxiv.org/pdf/1508.07909.
HUGO T, THIBAUT L, GAUTIER I, et al. LLaMA: Open and efficient foundation language models[EB/OL]. (2023-02-27)[2024-05-20]. https://arxiv.org/pdf/2302.13971.
WANG H, MA S, DONG L, et al. DeepNet: Scaling transformers to 1,000 layers[EB/OL]. (2022-03-01)[2024-05-20]. https://arxiv.org/pdf/2203.00555.
華知.中華知識大模型[EB/OL].[2024-05-20].https://huazhi.cnki.net.
ChatGLM-6B: An open bilingual dialogue language model[EB/OL].[2024-05-20].https://github.com/THUDM/ChatGLM-6B.
Data-Driven Academic Publishing Large Model—An Empirical Test of Centrality of Large-Scale and High-Quality Data in Building High-Performance Models
XUE Dejun, SHI Qinghui, BI Yanhong , LU Xiaofei, CHEN Jing, WANG Xu, WANG Haishan, GENG Chong, WU Chen
Tongfang Knowledge Network Digital Publishing Technology Co.,Ltd, 100192, Beijing, China
Abstract: The importance of large-scale and high-quality data is paramount in building high-performing large models. This paper delved into this core element and systematically evaluated its practical application impacts and potential value in the professional field. Based on a large number of professional literature from China National Knowledge Infrastructure (CNKI), this paper constructed an academic resource dataset, AcaDS, containing 131.645 billion tokens and a fine-tuning dataset, AcaDSI, with 27 million instructions. A generative academic large model, AcaLM-7B, with 7 billion parameters was designed and trained using the Transformer architecture. Through experimental evaluation, AcaLM-7B achieved the first place in total score and the first place in three individual categories and the second place in two individual categories in six core application scenarios for academic research, demonstrating excellent performance and verifying the core position of large-scale and high-quality data resources in building professional large models. In addition, this paper facilitated the improvement of content production efficiency and optimization of user experience, and thus had practical application value in the digital publishing industry.
Keywords: High-quality data; Academic large model; Publishing large model; CNKI large model; Professional application scenarios; Model evalution