曾文龍,劉 丹,張 超
(1.中國人民解放軍31307部隊,四川 成都 610000;2.電子科技大學 電子科學技術(shù)研究院,四川 成都 610000)
在當今信息爆炸的時代,海量的數(shù)據(jù)源源不斷地涌現(xiàn),其中包含了各種形式的信息,從新聞報道到社交媒體內(nèi)容,再到專業(yè)機構(gòu)的報告和數(shù)據(jù)。解析和理解這些數(shù)據(jù),提煉其中的關(guān)鍵信息,一直是一項極具挑戰(zhàn)性的任務。
智能抄清技術(shù)是一種基于自然語言處理和機器學習的技術(shù),其目標是從大規(guī)模文本數(shù)據(jù)中抽取關(guān)鍵信息并生成概括性、準確性強的內(nèi)容摘要,幫助人們在信息過載的時代快速獲取所需信息。不同于傳統(tǒng)的信息摘要方法,抄清技術(shù)不僅能提供概括性的內(nèi)容,還可以重新組織信息,使得生成的摘要更富有創(chuàng)造性和可讀性。
在安全情報領(lǐng)域,有大量情報數(shù)據(jù)需要及時處理和分析,以識別可能的威脅和風險,智能抄清可以快速抽取關(guān)鍵信息,分析威脅的性質(zhì)、來源和可能影響,并生成詳盡的報告,為安全專家提供深入的情報分析支持,從而制定更有效的安全應對策略。
然而,傳統(tǒng)的手動抄清方法已經(jīng)無法滿足處理龐大、多樣化情報數(shù)據(jù)的需求。在提取和概括信息的過程中,有時會出現(xiàn)信息遺漏或失真,影響了摘要的準確性和完整性。對于一些主觀性較強或需要深層語境理解的文本,當前技術(shù)難以達到人類的理解水平。對于長文本的處理,當前方法往往效果不佳,難以保持信息的完整性和連貫性。
為了應對這一挑戰(zhàn),本文提出了一種創(chuàng)新的基于大模型的智能抄清方法,該方法以事件要點抽取和報告生成為關(guān)鍵步驟,旨在實現(xiàn)高效、準確和可靠的情報分析和推理。
本文提出了運用大模型進行智能抄清的方法。該方法首先對文檔進行分型,再基于主題、要點、事件信息、段落小節(jié)進行四個維度的信息抽取,然后將抽取的結(jié)果作為大模型報告生成的數(shù)據(jù)支撐;接著利用大模型的分析能力,對事件進行研究、分析和評估,并形成書面報告。
本文提出的方法的創(chuàng)新之處在于,結(jié)合了多維度的信息抽取、大模型的分析推理和報告生成的能力,使得抄清更加全面、深入,并且提供更具有價值和深度的書面報告。在多維度信息抽取中,通過抽取主題、要點、段落小節(jié)和事件等多維度的信息,獲得了文檔中不同層次、不同關(guān)鍵性質(zhì)的信息,使得抄清更為全面和細致。對基于大模型的報告生成,將抽取出的關(guān)鍵信息作為輸入,利用大模型的生成能力,生成更為全面且內(nèi)容豐富的書面報告,更好地結(jié)合了信息抽取和生成模型的優(yōu)勢。
事件要點抽取是從文檔中提取重要信息的過程,結(jié)合語義、語法、上下文信息和推理邏輯等多種語言信息進行分析展示。
要實現(xiàn)這一過程,需要采用自然語言處理和機器學習技術(shù),利用文檔的結(jié)構(gòu)信息和內(nèi)容信息進行抽取,從海量非結(jié)構(gòu)化情報數(shù)據(jù)中提取事實要點。通過文本分類器、主題抽取算法、原文要素抽取和段落小節(jié)抽取等模型,自動識別文本中的重點關(guān)注人物、組織機構(gòu)、主要事件等基本信息,同時提取用戶關(guān)注的其他要素信息,為報告生成提供基礎(chǔ)信息來源。
要點抽取的核心目標在于保留文檔中的關(guān)鍵信息,幫助用戶快速理解文本內(nèi)容,減少信息過載的影響。這一過程不僅需要依賴先進的技術(shù),還需要結(jié)合領(lǐng)域知識和人工智能算法,以確保抽取的準確性和全面性。
1.1.1 文檔分型
文檔分型是根據(jù)文檔的內(nèi)容、類型、主題或其他特征將文檔進行分類、分組或歸檔,以便更好地管理和組織文檔。
在安全情報領(lǐng)域,文檔分型可以根據(jù)威脅類型、攻擊來源、受影響實體等標準對文檔進行分組。文檔分型是事件要點抽取的第一步,通過有效地從分類文檔中提煉信息,使得情報團隊能夠更有針對性地分析和應對威脅,提高工作效率和情報利用價值。
本文首先將抄清文章定義為科技、經(jīng)濟、政治、娛樂、商業(yè)、其他六種類型,并在紐約時報(https://www.nytimes.com)上爬取了600篇相關(guān)新聞作為訓練數(shù)據(jù),最后使用BERT(Bidirectional Encoder Representations from Transformers)和softmax的組合進行文檔分型訓練。
當使用模型作為分類器時,這些非結(jié)構(gòu)化的文本序列需要轉(zhuǎn)換成結(jié)構(gòu)化的特征空間[1]。常見的文本分類技術(shù)包括邏輯分類、boosting算法、bagging算法、KNN、支持向量機、決策樹、隨機森林、條件隨機場CRF等[2]。
基于BERT的分型模型如圖1所示。通過在大規(guī)模文本數(shù)據(jù)上進行預訓練,模型學習了豐富的上下文表示和語言知識,使其能夠更好地理解詞語和句子在語境中的含義和關(guān)系。它的雙向性和對上下文的全面考慮使其適用于文章分型任務,因此本文將新聞文本使用預訓練BERT模型作為特征提取器進行輸入,并通過輸出層的[CLS]位置對應的值傳入到softmax中進行分型任務的訓練微調(diào),從而實現(xiàn)對文章類型的分類。
圖1 分型模型框架
1.1.2 主題生成
主題生成是從大量文本數(shù)據(jù)中自動確定主題并生成相應的摘要和標簽,將一篇文本自動轉(zhuǎn)化為表示其主題的詞或短語的技術(shù)。主題生成可以用于文本分類、話題檢測、信息過濾等任務中。
常見的主題生成算法包括基于概率模型的方法(如Latent Dirichlet Allocation模型、貝葉斯概率模型)、基于深度學習的方法(包括詞向量模型、循環(huán)神經(jīng)網(wǎng)絡和Transformer等)、基于話題模型的方法等。由于預訓練模型的出現(xiàn),基于深度學習的生成模型在主題生成領(lǐng)域的應用越來越廣泛,也出現(xiàn)了一些基于此的改進方法,如加入注意力機制、引入增量訓練等[3]。
大語言模型(LLM)是具有大量參數(shù)和能力的語言模型,它們經(jīng)過大規(guī)模的訓練,能夠理解和生成自然語言文本。在情境學習框架下,大語言模型在各種自然語言處理任務中表現(xiàn)出了出色的性能。這包括但不限于翻譯、問答、關(guān)系抽取和主題生成等任務。本文選擇了ChatGLM-6B和Alpaca兩種模型,以便將情境學習應用于主題生成任務,從而更好地適應本文的需求。對于主題生成,使用大型語言模型進行這項工作通??煞譃橐韵氯齻€步驟:
(1)構(gòu)建prompt:每個輸入文章都需要構(gòu)建一個與其內(nèi)容相關(guān)的prompt。這個prompt可以是一段文字、問題或指令,作為大模型的輸入引導,使其能夠理解輸入文章的主題和要點。
(2)模型生成文本序列:將構(gòu)建的prompt輸入到大模型中,模型將根據(jù)該prompt生成與輸入文章主題相關(guān)的文本序列。這個過程可以通過對模型進行fine-tuning來優(yōu)化模型在特定任務上的表現(xiàn),提高生成文本的準確性和相關(guān)性。
(3)文本序列與相關(guān)段落小節(jié)對應:生成的文本序列需要與原始輸入的段落小節(jié)相對應,以確保生成的內(nèi)容與輸入文章的不同部分相匹配,保持邏輯連貫性和主題一致性。
在圖2中,第一句話是任務描述,這個描述不僅告訴了大語言模型應該關(guān)注的任務重點,還指示模型理解輸入的文章并輸出與主題相關(guān)的內(nèi)容。第二部分將原文作為輸入提供給模型,模型在這個階段需要運用其大量的預訓練知識和對語言的理解能力,通過對原文的分析和編碼,捕捉其中的語境、主題、語義等信息,模型會嘗試將輸入的信息編碼成適合進一步處理的形式,以便于后續(xù)對主題進行輸出。在第三部分,模型將其對原文的理解轉(zhuǎn)化為與文章主題相關(guān)的輸出內(nèi)容,這個輸出不僅需要與原文主題相關(guān),還需要保持準確性和連貫性,以便于后續(xù)應用或進一步分析。
圖2 主題抽取示例
1.1.3 要點抽取
要點提取是一種從文本中識別出重點信息的方法。其主要思想是通過識別文本中的關(guān)鍵單詞或短語,從而得到文本的概要或標簽。要點提取在文本分類、信息檢索、文本聚類等任務中具有廣泛的應用。常見的要點提取算法包括基于詞頻的方法、基于TF-IDF的方法、基于主題模型(如LDA)的方法以及基于機器學習和深度學習的方法[4]。
基于詞頻的方法是通過統(tǒng)計詞語在文本中出現(xiàn)的頻率來確定其權(quán)重,以較高的頻率為主要依據(jù)挑選出要點?;赥F-IDF的方法在基于詞頻的基礎(chǔ)上增加了逆文檔頻率的考慮,該方法可以用來衡量單詞在特定文檔中的重要性和相對于整個語料庫的稀有性?;谥黝}模型的方法則利用文本中主題的概率分布進行建模,找出與主題相關(guān)的詞語作為要點?;跈C器學習和深度學習的方法是通過對大量訓練數(shù)據(jù)的學習得到要點提取的規(guī)律,例如BERT模型可以通過自監(jiān)督學習得到更好的文本表達。
如圖3所示,原文中通過序號1、2、3標記或者帶星號標記等信息一般均為事實要點信息,本文通過規(guī)則算法將此類信息從原文中直接抽取出來,并利用SimBERT模型評估抽取結(jié)果與文章主題的相關(guān)性,如果結(jié)果涵蓋了文章的核心概念、主題或關(guān)鍵觀點,那么這些信息便作為要點信息保存下來。
圖3 要點篩選示例
1.1.4 事件信息
Open Information Extraction(OIE)是一種從自然語言文本中提取結(jié)構(gòu)化事實的技術(shù)。它通過自動識別文本中的主語、謂語和賓語等成分,從而生成一組結(jié)構(gòu)化事實。OIE算法主要分為規(guī)則算法和基于機器學習的方法。規(guī)則算法是直接查找符合一定規(guī)則和模式的詞組,然后將這些短語轉(zhuǎn)換為三元組。而基于機器學習的方法則利用神經(jīng)網(wǎng)絡模型或傳統(tǒng)機器學習算法,從大量的語料庫中學習如何使用統(tǒng)計模型來提取語義三元組[5]。
事件信息抽取是OIE的一種類型,在進行事件信息抽取前,需要對輸入文本進行指代消解處理,將文本中的代詞和名詞指向其代表的實體內(nèi)容。本文使用語言技術(shù)平臺(Language Technology Platform,LTP)對文本進行指代消解處理[6],首先對文本進行分詞、詞性標注和句法分析處理,提取出文本中所有的代詞、名詞短語等指稱詞匯。接著,使用規(guī)則或模板來判斷這些指稱詞匯與先前提到的實體是否指代相同的實體,如果是,則將它們標注為同一個實體;否則將它們標注為不同的實體。
接下來,本文利用OpenIE6模型對處理后的文本進行事件信息提取。OpenIE6是一個開源的事件三元組抽取工具,其基本原理是從自然語言文本中自動抽取所有事件三元組,包括主語、謂語和賓語。得到這些事件三元組后,再通過KBIR和T5抽取原文的關(guān)鍵短語,最后將三元組與關(guān)鍵短語進行篩選和去重,保留那些具有較高語義相似度和重要性的信息,從而實現(xiàn)事件信息的精確提取。
單獨使用OpenIE6進行事件信息抽取時,由于文本表述的多樣性和文本上下文的差異性,提取出的事件三元組可能存在一些重復或冗余的信息。因此,結(jié)合指代消解以及關(guān)鍵短語的語義相似度比較,可以提高信息抽取的準確率,得到更加精確、完整的事件信息。
1.1.5 段落小節(jié)
段落小節(jié)是一種將一段文章自動轉(zhuǎn)化為簡潔、準確、具有概括性的標題的技術(shù),以提高用戶體驗和效率[7]。在新聞自動摘要、電商商品推薦、搜索引擎結(jié)果呈現(xiàn)等任務中,都可以通過段落小節(jié)技術(shù)將原文章轉(zhuǎn)換為更為簡明扼要的表述方式。
常見的段落小節(jié)算法包括基于生成模型的方法、基于強化學習的方法、基于預訓練模型的方法?;谏赡P偷姆椒ㄊ紫葘⒃嘉谋揪幋a為向量,然后通過循環(huán)神經(jīng)網(wǎng)絡(RNN)或自注意力模型(Transformer)等深度神經(jīng)網(wǎng)絡生成標題?;趶娀瘜W習的方法通過訓練一個智能體,根據(jù)生成的標題獲得獎勵,以優(yōu)化標題的生成[8]。由于基于預訓練模型的方法只需要對已有大規(guī)模語料庫進行預訓練,能夠直接完成新文本的生成任務,并且具有較高的效率和準確性。T5、autoNLP和Pegasus都是常見的基于預訓練技術(shù)的模型[9],具有良好的泛化性和較高的準確性,被廣泛應用于段落小節(jié)中。
T5(Text to Text Transfer Transformer)是本實驗抽取段落小節(jié)的基礎(chǔ)模型,由Raffel[10]提出。T5是一個通用的基于文本到文本轉(zhuǎn)換的框架,它在許多NLP任務(如文本摘要、問答、機器翻譯等)上產(chǎn)生了先進的性能。該框架背后的基本思想是將所有NLP任務轉(zhuǎn)換為文本對文本問題。該框架接收文本作為輸入,并生成一個新文本作為輸出,如圖4所示。
圖4 T5模型任務示例
模型以無監(jiān)督的方式在大型數(shù)據(jù)集上進行預訓練,然后對下游任務進行微調(diào),從而在NLP和其他任務中產(chǎn)生先進的性能。本實驗充分利用了預訓練模型的優(yōu)勢。由于T5模型是一個微調(diào)的預訓練模型,因此復制了基本模型的所有參數(shù)。然后,在SIPRI網(wǎng)站爬取的數(shù)據(jù)集上訓練模型進行段落小節(jié)抽取。
在報告生成階段,將抽取的事實要點和一些背景信息輸入到大模型中,利用大模型的生成能力生成邏輯性強、準確性高的抄清報告。通過輸入抽取的事實要點和相關(guān)背景信息,大模型能夠自動歸納、總結(jié)和分析這些信息,并生成結(jié)構(gòu)化的、內(nèi)容完整的抄清報告。報告內(nèi)容包括事件的基礎(chǔ)情況、重要事實要點、事件發(fā)展脈絡、情感分析結(jié)果以及針對該事件的預案和對策建議等。
1.2.1 模型預訓練與微調(diào)
思考和決策過程中的推理能力是人工智能的一個重要方面,其中大語言模型(LLMs),如GPT-3[11]、ChatGLM等,通過學習大規(guī)模語料庫的語言模式和知識在一些自然語言處理任務(如算術(shù)、常識和邏輯推理)中能夠表現(xiàn)出強大的推理能力[12]。
大模型具有分析推理能力的原理是基于它所采用的深度學習算法和海量數(shù)據(jù)的訓練。在深度學習中,大模型通常是由多個層、多個參數(shù)和復雜的網(wǎng)絡拓撲結(jié)構(gòu)組成的,這使得它可以處理非常大的數(shù)據(jù)集和非常復雜的
問題。大模型可以通過反向傳播算法來調(diào)整網(wǎng)絡中的各個參數(shù),使網(wǎng)絡的輸出結(jié)果更加接近于已知的正確答案。這個過程可以讓大模型逐漸學會不同的數(shù)據(jù)特征和問題規(guī)律,從而在未知情況下進行預測和推理。
結(jié)合自身所積累的抄清行業(yè)數(shù)據(jù)對通用大模型進行微調(diào),并在此基礎(chǔ)上結(jié)合行業(yè)化、場景化的數(shù)據(jù)與知識進行進一步訓練,以提升大模型針對抄清行業(yè)及應用場景的模型表現(xiàn)和可控性,形成抄清行業(yè)大模型,幫助AI完成“專業(yè)教育”。基于抄清行業(yè)大模型,可通過API接口等方式,方便、快捷地調(diào)用、整合與自身行業(yè)更為匹配的行業(yè)大模型的底層能力,再結(jié)合自然語言處理相關(guān)技術(shù)能力,即可實現(xiàn)基于抄清大模型的基礎(chǔ)報告生成訓練。
在大模型訓練過程中,主要通過遠程監(jiān)督方式,將純文本與現(xiàn)有知識圖譜進行對齊,能夠自動標注大規(guī)模訓練數(shù)據(jù)。在完成基礎(chǔ)的知識對齊與抽取后,本文通過知識融合解決當前模型缺乏層次性與邏輯性的問題,使模型生成的文章更精準,錯誤更少,質(zhì)量更高。
1.2.2 生成報告
對抄清數(shù)據(jù)進行文本分析之后,需要通過prompts手動模板設(shè)計抄清報告的整體結(jié)構(gòu)和布局,手動模板設(shè)計是基于人工經(jīng)驗設(shè)計模板用以處理文本生成任務,最終調(diào)用相應的抄清大模型自動生成抄清報告的內(nèi)容。本文中采用的抄清報告生成方案為Stanford_Alpaca+LoRA,它是ChatGPT輕量級文檔開源版本,使用LoRA技術(shù)在Meta的LLaMA 7B模型上進行微調(diào),在凍結(jié)原模型LLaMA參數(shù)的情況下,通過往模型中加入額外的網(wǎng)絡層,并只訓練這些新增的網(wǎng)絡層參數(shù)[13]。由于這些新增參數(shù)數(shù)量較少,這樣不僅微調(diào)的成本顯著下降,還能獲得和全模型微調(diào)類似的效果。
圖5所示的多維度展示則為事實要點的抽取結(jié)果,訓練的大模型基于抽取與總結(jié)的事實要點信息進行自主報告生成,生成的報告用詞準確,語法規(guī)范,事實要點邏輯清晰,每條事實描述或總結(jié)都有清晰的事實材料依據(jù)并標明出處和來源,整體行文流暢,符合實際應用需求。
圖5 多維度事件信息展示
通過結(jié)合事實要點和報告生成,本文提出的智能抄清方法能夠高效地從海量情報中提取有價值的信息,并生成準確且內(nèi)容豐富的抄清報告。這種方法可以極大地幫助情報分析人員快速理解和分析情報數(shù)據(jù),從而提高分析效率和決策準確性。
本文通過爬蟲技術(shù)在SIPRI (https://www.sipri.org/)爬取了350篇具有深度的文章作為訓練和測試數(shù)據(jù)集。表1展示了該數(shù)據(jù)集的一個驗證集劃分情況。
表1 SIPRI數(shù)據(jù)集情況
同時為了訓練分型模型,本文利用爬蟲技術(shù)從紐約時報(https://www.nytimes.com)上爬取了600篇相關(guān)新聞,并將其劃分為科技、經(jīng)濟、政治、娛樂、商業(yè)、其他六種類型,表2顯示了該數(shù)據(jù)集的分布情況。
表2 紐約時報數(shù)據(jù)集情況
實驗采用Ubuntu 18.04操作系統(tǒng)、Python 3.10和PyTorch1.8框架,并使用A800 80 GB GPUs進行加速。
本文通過人工評估和專家對比實驗,對生成的報告進行準確性、完整性和可讀性等方面的評估。
為了使模型的效果評估更加準確,本文邀請了5名領(lǐng)域?qū)<液?名人工智能研究人員使用投票機制對數(shù)據(jù)集進行訓練標注。并根據(jù)他們的專業(yè)知識和經(jīng)驗,對結(jié)果進行主觀評估和比較。同時在段落小節(jié)部分設(shè)計了對比實驗:
(1)PEGASUS模型[14]。該模型提出了一種新的自監(jiān)督目標PEGASUS,在海量文本語料庫上預訓練基于Transformer的大型編碼器-解碼器模型。實驗表明,它在12個下游摘要任務上取得了先進的性能,在低資源摘要任務上也取得了令人驚訝的性能。
(2)BART模型[15]。BART是一種用于預訓練序列到序列模型的去噪自動編碼器,通過用任意的去噪函數(shù)破壞文本并學習模型來重建原始文本進行訓練。當對文本生成和理解任務進行微調(diào)時,它尤其有效,與反翻譯系統(tǒng)相比,可增加高達6 ROUGE和1.1 BLEU的增益。
(3)T5模型[10]。該模型通過引入一個統(tǒng)一的框架,將所有基于文本的語言問題轉(zhuǎn)換為文本到文本的格式,探索了NLP的遷移學習技術(shù)的前景。本文比較了幾十項語言理解任務的預訓練目標、體系結(jié)構(gòu)、未標記數(shù)據(jù)集、轉(zhuǎn)移方法和其他因素,并取得了最先進的結(jié)果。
針對紐約時報數(shù)據(jù)集,本文對六類分型效果進行了統(tǒng)計和評估。根據(jù)圖6所示的結(jié)果,本文的模型在平均分型效果上已經(jīng)達到了95%以上的準確率。這意味著本文的模型能夠高度準確地對紐約時報數(shù)據(jù)集中的文本進行分類,并將其正確地歸類到對應的六個類別中。這樣的高準確率可以為用戶提供可靠的分類結(jié)果,使他們能夠更好地理解和分析數(shù)據(jù)集中的信息。
圖6 新聞分型準確率示意圖
針對SIPRI數(shù)據(jù)集,本文進行了段落小節(jié)效果對比研究。隨機選擇了10篇文章,并使用不同的模型對這些文章進行段落小節(jié)生成。圖7展示了本文針對訓練數(shù)據(jù)使用的模型相較于其他模型的準確數(shù)量,對比結(jié)果表明,本文的模型在針對SIPRI數(shù)據(jù)集中的段落小節(jié)生成任務上表現(xiàn)出色。相對于其他模型,本文的模型能夠更準確地凝練有信息量的段落小節(jié)。這意味著本文的模型能夠提供更優(yōu)質(zhì)和高效的摘要結(jié)果,幫助用戶更好地理解和獲取文章的核心信息。
圖7 段落小節(jié)模型效果對比圖
基于抽取的事實要點,本文利用微調(diào)的大模型生成了20篇報告,以專家總結(jié)的關(guān)鍵信息涵蓋情況為標準,其包含的重要信息占比如圖8所示,實驗結(jié)果表明,基于大模型的智能抄清方法能夠有效地從海量情報數(shù)據(jù)中提取關(guān)鍵事實要點,并生成準確、全面且內(nèi)容豐富的抄清報告。與傳統(tǒng)手動分析相比,該方法大大提高了分析效率,并減少了人為因素對分析結(jié)果的影響。此外,通過與人類專家的對比實驗,發(fā)現(xiàn)生成的抄清報告在準確性和可讀性方面與人類專家的水平相當甚至更好。
圖8 報告重要信息涵蓋率
基于大模型的智能抄清方法具有廣泛的應用前景。它可以在情報分析領(lǐng)域中應用于事件態(tài)勢研判、預案生成、安全風險評估等任務,為決策者提供準確、全面的情報支持。此外,隨著大模型技術(shù)的不斷發(fā)展和改進,未來可以進一步提升智能抄清方法的性能和適用范圍。
本文提出的基于大模型的智能抄清方法通過事實抽取和報告生成的過程,實現(xiàn)了從海量情報數(shù)據(jù)中快速提取關(guān)鍵信息并生成準確、全面的抄清報告。實驗結(jié)果驗證了該方法的有效性和可行性,并展示了其在情報分析領(lǐng)域的應用潛力。未來的研究可以進一步改進模型的性能,拓展方法在更多領(lǐng)域的應用,推動情報分析和推理技術(shù)的發(fā)展。