摘? 要:本文利用人工智能技術和元數(shù)據(jù)標引與描述技術,結合自然語言處理技術,如本體技術、語義網絡技術等,根據(jù)輸入條件生成與文本或語言序列相匹配的新數(shù)據(jù),以此構建一套完整的基于數(shù)字內容的“生成式”紅色敘事文本系統(tǒng)模型并進行應用分析。
關鍵詞:生成式;知識組織結構;人工智能;文化旅游;文化繼承與傳遞;智能化服務
Abstract: This article utilizes artificial intelligence technology and metadata indexing and description technology, combined with natural language processing technologies such as ontology technology and semantic network technology, to generate new data that matches text or language sequences based on input conditions, in order to construct a complete "generative" red narrative text system model based on digital content and conduct application analysis.
Keywords: Red narrative; Knowledge organization; Artificial intelligence; Generative; Cultural tourism; Cultural inheritance and transmission; Intelligent Services
1 引言
習近平總書記在黨的二十大報告中指出,紅色檔案是我們黨寶貴的成長歷程和奮斗歷程的記錄。隨著《2004—2010年全國紅色旅游發(fā)展規(guī)劃綱要》和《第十二個五年規(guī)劃綱要》等重要文件的發(fā)布,全國各地開始積極推進紅色敘事活動。為了促進紅色文化的持續(xù)傳承和進一步發(fā)展,需要從多個維度切入,提升其整合性、重組性、吸收性、優(yōu)化性、適應性和先進性。
“紅色文化”代表了中國共產黨領導下的中國人民在革命和建設過程中所創(chuàng)造的物質與精神的寶藏,涵蓋了紅色的資源、傳統(tǒng)和基因等核心元素。當前,紅色敘事學理論被引入到紅色文化研究領域,研究主要聚焦于對紅色敘事數(shù)據(jù)的深入分析和挖掘,忽視了“大數(shù)據(jù)”時代背景下數(shù)字媒體技術帶來的革命性影響。生成式知識組織是在大數(shù)據(jù)背景下,信息創(chuàng)新和利用的一種研究方法。
目前,以“紅色文化”為核心主題的研究可以歸納為三種類型。一是借助數(shù)字化等智能技術對紅色文化資源的開發(fā)利用,包括數(shù)字人文角度切入研究、紅色資源開發(fā)的根源思想、多元化開發(fā)信息資源、以數(shù)字化為研究手段開發(fā)還原歷史場景的研究路徑等。二是紅色文化資源開發(fā)利用的模式、路徑等方面研究,包括跨行業(yè)合作的可持續(xù)化利用、基于場域理論的開發(fā)新途徑、區(qū)域特色開發(fā)路徑選擇。三是紅色文化的價值研究,包括紅色文化資源價值重構和紅色文化當代傳承的有效路徑等。目前文獻研究主要集中在紅色文化價值的探索上,從這些研究中挖掘出的知識相對有限,因此對生成式紅色文化的知識組織研究顯得尤為重要。從信息加工理論角度出發(fā),運用系統(tǒng)科學中的“涌現(xiàn)”思想構建了一種基于知識組織化過程的生成式信息組織模型。生成式知識組織在推進信息社會的進步和發(fā)展中扮演著至關重要的角色。
生成信息資源的過程依賴于不同個體和組織間的互動與合作,有助于加強社會聯(lián)系和提升信息化水平。本文從信息論角度出發(fā),結合科學計量學方法和技術經濟學原理,對生成式特征知識的創(chuàng)新進行了系統(tǒng)分析。
2 關于生成式
生成式描述的是一種依賴于模型的技術,根據(jù)特定的條件或輸入,產生與模型匹配的輸出結果,是一種描述語言現(xiàn)象和概念結構之間關系的理論框架體系。在自然語言處理的領域里,生成式模型經常被用來產生文本、文章、對話等自然語言的序列。信息資源的生成模式是在數(shù)字化生產環(huán)境中構建的,它基于特定的協(xié)議和規(guī)則,允許用戶深度參與到產品的生成過程中。就生成式模型來講,存在兩種類型的生成式知識,一種是由人類思維邏輯引導的生成式知識,另一種是機器適用的生成式知識。
人類的生成式和機器的生成式都是指一種自動生成文本或語言的方法,但兩者之間存在一定的差異。人類的創(chuàng)造方式可以是基于一個特定的主題、情境或目標,通過聯(lián)想、創(chuàng)新和表達等多種方式,利用人類的經驗、知識和創(chuàng)造力來自動生成文本或語言。
機器的生成式則是利用人工智能技術從已有語料出發(fā),對特定問題進行推理、建模及求解,最終形成相應答案的過程,主要包括對文本中詞頻分布特征、句法結構信息以及句法語義關系等進行學習。通常,機器的生成模式是基于一個事先經過訓練的語言模型構建的,它通過輸入一個特定長度的前綴文本,并利用這個前綴來預測下一個單詞或短語的出現(xiàn)幾率,從而產生新的文本或語言版本。具有生成特性的人工智能(Artificial Intelligence, AI)能夠結合“大型模型和海量數(shù)據(jù)”并根據(jù)用戶需求快速地發(fā)現(xiàn)問題并且自動地推薦合適的解決方案。海量的數(shù)據(jù)資料能夠為AI帶來更為全面的視野和更深刻的洞見,從而讓AI在更多的應用場景中展示其潛在能力。
生成式機器在速度、效率、準確性和可控性方面具有明顯優(yōu)勢,但同時也存在著單調、刻板和缺乏人性化等不足。因此,我們應綜合考慮它們各自的優(yōu)勢,揚長避短地設計出適合自己的文本創(chuàng)作方式,從而實現(xiàn)作品意義上的最大化。在真實的應用場景中,我們可以根據(jù)具體的需求選擇各種生成策略,并努力融合這兩種方法,從而最大化地展現(xiàn)其創(chuàng)作潛力和價值。本文主要分析人機交互方式實現(xiàn)生成式知識的組織與服務,目的是提升生成式的創(chuàng)造性和表達力。在這兩種能力的共同作用下,生成式知識組織表現(xiàn)出創(chuàng)造性和轉化性特征。
(1)創(chuàng)造性。伴隨著信息技術的持續(xù)進步,知識的產生途徑和傳播渠道也在經歷著不斷的變革。數(shù)字化技術能夠把實體資源轉換成數(shù)字格式,從而便于存儲和傳播。人工智能技術使智能信息處理成為可能,從而實現(xiàn)了從人到機器的跨越。通過互聯(lián)網技術,知識的傳遞范圍和速度得到了顯著提升,而多媒體技術則能以更為生動形象的形式將這些知識展示給大眾。因此,生成式知識成為一種新的知識形態(tài)。人類擁有獨特的認知和創(chuàng)造力,如想象力、創(chuàng)新能力和情感體驗。通過聯(lián)想、創(chuàng)新和表達等方式,基于個體的生活經驗、知識積累、審美觀點和情感體驗等多方面的因素,生成式知識具有創(chuàng)造性和表達性。因此,在創(chuàng)作過程中,用戶需要借助多種媒體工具進行信息整合,并對不同媒介間存在差異的內容進行分析處理,從而獲得有意義的信息內容。用戶有能力基于主題、場景、目的或情感狀況等多種因素,采用非線性和靈活的策略來組織和產生文本或語言的序列,從而創(chuàng)作出既獨特又富有表達力的作品。
(2)轉化性。信息資源是一個持續(xù)演變和進化的過程,它的形成是一個不斷變化的動態(tài)過程,這要求我們持續(xù)地吸納、整合、分析和應用新的信息資源,以適應不斷變化的環(huán)境和需求。信息資源能夠在各種不同的形態(tài)和層面上進行轉換和流通。例如,數(shù)據(jù)可以經過深入的分析和挖掘轉化為信息,信息可以通過歸納和推理轉化為知識,而知識則可以通過實際操作和應用轉化為智慧。
3 邏輯理路
在“互聯(lián)網+智能終端”的時代背景下,面對海量的信息和資訊,為了更有效地進行知識管理,有必要對現(xiàn)有的信息和資訊進行整合,這促使了知識生成研究的出現(xiàn)。目前國內關于知識生成的研究成果較多,但尚未有專門針對智慧驅動型知識生成機制與應用模式等方面開展系統(tǒng)深入研究的成果問世。
多年的研究表明,知識生成主要可以分為兩大類:一是智慧驅動知識生成,二是數(shù)據(jù)驅動知識生成。智慧驅動型知識生成方式是在人類智慧的引導下,知識得以生成和創(chuàng)新。知識的形成最初是由個體的認知和過去的經驗驅動的,它具有很強的主觀性,通常是基于個人的經驗來決定和推進知識研究的進展。數(shù)據(jù)驅動型知識生成方式是一種基于大量數(shù)據(jù)進行知識生成的方法,包括數(shù)據(jù)獲取、數(shù)據(jù)處理與應用三個階段,從這些數(shù)據(jù)中挖掘出新的規(guī)律和知識,然后通過對這些數(shù)據(jù)進行歸納和總結,并利用知識圖譜和主題詞標引等手段來表達和分享,從而推動實際應用,實現(xiàn)將數(shù)據(jù)和信息轉化為知識生成的目標。
隨著深度學習、內容生成技術、虛擬現(xiàn)實以及增強現(xiàn)實技術的不斷進步,基于這些技術,用戶在信息應用方面的研究也得到了更高層次的提升。人工智能的飛速發(fā)展催生了生成式知識組織的興起,這種知識組織是知識管理中的關鍵環(huán)節(jié),其核心目標是對現(xiàn)有知識進行高效的整合和組織,以方便后續(xù)的檢索、應用和深入分析。
生成式知識組織通過制定特定的規(guī)則,將知識按照特定的結構進行分類、存儲和索引,從而產生新的產品、新的業(yè)態(tài)、新的模式,將人類利用信息挖掘知識推向人機協(xié)同生成知識的新高度。
在人工智能技術的推動下,生成式的知識結構在知識生成基礎上得到了升級,并在一定程度上參與到了“知識創(chuàng)造”的過程中。通過從各種數(shù)據(jù)和信息中吸取核心元素,可以創(chuàng)造出創(chuàng)新的內容和產品。利用數(shù)據(jù)處理軟件從各種數(shù)據(jù)庫、網站、文檔和其他信息領域獲取文章、報告、新聞、網頁等載體的相關數(shù)據(jù),通過刪除重復、不準確、不完整或無效的數(shù)據(jù),確保數(shù)據(jù)的質量和可靠性,對數(shù)據(jù)進行結構化處理。
利用大數(shù)據(jù)分析技術提取各數(shù)據(jù)源中蘊含的有價值的知識并加以提煉和總結。利用云計算平臺構建基于云計算技術的元數(shù)據(jù)管理服務模式。在這個基礎上,制定母體數(shù)據(jù)的采集、標準化和融合流程,確保來自多個來源的樣本母體數(shù)據(jù)與電子資源等母體數(shù)據(jù)的統(tǒng)一管理,并促進了不同數(shù)據(jù)類型之間的相互關聯(lián)和耦合。利用數(shù)據(jù)挖掘技術從海量異構數(shù)據(jù)服務中提取有效數(shù)據(jù),構建基于本體和語義分析的知識庫,并根據(jù)用戶需求提供定制化個性化服務,從而形成一個完整的“開放式”知識服務平臺。
本文通過對比分析,認為基于本體的語義網技術在知識表示、共享及應用方面更適合于作為一種新的研究手段。它們之間的互鑒之處在于,它們都與知識的處理和管理有關。知識的獲取與表示是實現(xiàn)知識重用的前提,而知識生成則是將信息資源轉化為可利用成果的關鍵。然而,它們在焦點和實施方式上存在差異。知識的創(chuàng)造過程強調創(chuàng)新和新知識的形成,這要求我們采用分析、整合和推斷等手段來形成新的見解或應對策略。因此,知識生成更側重于創(chuàng)造新知識。生成式知識組織更傾向于重視知識的整合和組織,其核心方法包括制定規(guī)則、創(chuàng)建索引和分類,以增強知識的可訪問性和可重復使用性。
知識生成包含概念結構、語義結構以及關系三個方面。在知識的創(chuàng)造過程中,可以參考生成式知識組織的分類和索引技巧,以更有效地組織和管理新產生的知識。在構建生成式的知識結構時,可以參考知識生成的思維方式和技巧,以更深入地理解和組織現(xiàn)有的知識體系。
4 實踐進路
目前,對紅色敘事的保護主要存在“記憶”缺失、“文本”缺漏、“載體”單一等問題。生成式知識組織通過數(shù)字化、復制和出版等多種方式保護和傳承珍貴的紅色資源,能夠有效地解決紅色敘事所遇到的困境。
以保護為核心的生成式知識組織研究的關鍵在于在實際操作中強調創(chuàng)新思維和創(chuàng)造性,從現(xiàn)實出發(fā),建構基于“生成”理念下紅色敘事的知識體系框架。紅色敘事在知識生成上的多元性主要體現(xiàn)在它的內容、展現(xiàn)方式以及起源等多個層面。利用二維、三維掃描、數(shù)字攝影、三維建模和圖像處理等多種技術手段,對紅色敘事進行數(shù)字化處理,生成紅色文化遺產的圖形結構、紋理等多種數(shù)字信息,構建一個完整而豐富的“紅色記憶”數(shù)據(jù)庫體系。
4.1 實例分析。下面以1948年爆發(fā)的豫東戰(zhàn)役作為具體案例,探討利用生成式技術構建紅色敘事的方法與流程。
首先,紅色素材組織。在數(shù)據(jù)預處理層面對原始數(shù)據(jù)進行清洗、去重、標注等處理。聯(lián)合檔案館、圖書館、文化館等文化組織,從書籍、檔案、文章、電影、紀錄片等渠道汲取相關歷史素材,通過查閱文獻資料,到遺址所在地和博物館調查,走訪革命前輩后代等方式,全面掌握紅色文化資源的情況,并進行數(shù)字化資料采集。數(shù)字化采集的資料按照主題內容、時間順序或使用途徑進行翔實記錄、分類、組織和存儲,以此搭建紅色資源采集分類的數(shù)字化模型。
其次,數(shù)據(jù)生成處理。利用文本摘要工具,將長篇的紅色故事或歷史文獻自動壓縮為簡潔的摘要,進行分詞、去除停用詞、標準化等操作,對數(shù)字化采集模型存儲中的材料以關鍵詞、短語、句子、文段為目標進行摘要處理,將收集到的素材轉換為可供模型訓練的格式。例如,根據(jù)豫東戰(zhàn)役的時間、地點、角色和事件等信息建立數(shù)據(jù)庫,作為模型訓練的預處理數(shù)據(jù)。在模型訓練階段,設定特定的主題或關鍵字,確保生成的內容更加接近預期。在模型應用階段,通過輸入一段引導性的文字或者關鍵詞,模型即可根據(jù)已有的訓練數(shù)據(jù)生成新的內容。經過人工評估和篩選,開發(fā)基于生成式工具的交互式學習應用,去除不合適的部分,保留高質量的內容。根據(jù)評估結果對模型進行調整和優(yōu)化,提升生成的質量。盡管語言模型能夠產生極其逼真的文本,但生成的內容仍然需要經過人類的仔細審核和干預,以確保其準確性和適用性。
最后,構建知識圖譜。利用生成式工具構建紅色歷史的知識圖譜。結合語音合成和影像生成技術,構建基于紅色歷史的智能問答系統(tǒng)。對已訓練的模型進行微調、調整參數(shù)、改進結構等,以提高模型的性能和泛化能力。
4.2 對生成式參數(shù)調教。結合具體業(yè)務需求和場景進行參數(shù)的選擇、調整和優(yōu)化。實踐中不斷調整學習率,批量大小、迭代次數(shù)等參數(shù)在生成式工具框架各個層次發(fā)揮作用。
在深度學習層中,實踐數(shù)據(jù)用于提高模型的魯棒性和泛化能力。例如,使用實踐數(shù)據(jù)來約束模型生成的文本長度、內容的合理性等。同時,豫東戰(zhàn)役紅色數(shù)據(jù)還用于防止模型出現(xiàn)過擬合現(xiàn)象,提高模型的魯棒性。在生成式模型層中,實踐數(shù)據(jù)用于生成更加符合人類價值觀的內容。例如,使用實踐豫東戰(zhàn)役紅色數(shù)據(jù)來限制生成圖像的顏色、形狀等,或者限制生成文本的情感傾向、主題等,以保證生成的內容更加符合人類的審美和情感需求。同時,實踐數(shù)據(jù)需要根據(jù)具體的應用場景進行合理的調整和平衡。
4.3 問題分析。首先是收集和處理數(shù)據(jù)面的挑戰(zhàn)性強。在紅色記憶知識庫的建設與完善過程中,對數(shù)據(jù)的采集與加工遇到不小的困難。鑒于歷史事件、重要人物和地理位置的數(shù)據(jù)來源既廣泛又復雜,確保數(shù)據(jù)的精確性和可信度變得尤為困難。同時,數(shù)據(jù)處理的過程涉及大量的文本、圖像等非結構化數(shù)據(jù),處理難度較大。為了確保數(shù)據(jù)的準確性和可靠性,需要對數(shù)據(jù)的采集和處理進行更加標準化和規(guī)范化的處理。
其次是對技術能力要求高。生成式的知識組織和服務需要與人工智能技術相結合以實現(xiàn)自動化生成,這對技術水平提出更高的要求。人工智能算法和技術的發(fā)展涉及多個領域,如自然語言處理、機器學習、深度學習等,需要具備豐富的研究經驗和技能。與此同時,還需持續(xù)關注技術的最新發(fā)展,不斷地完善算法與模型,以增強內容生成的精確度和多樣性。
最后是用戶需求的變化大。在描述紅色事件的情境中,多樣化的需求成為一個顯著的挑戰(zhàn)。人們對知識的需求各不相同,有些人更傾向于關注歷史事件的具體細節(jié)和背景,有些人則更看重人物的形象和思維方式,還有一些用戶則更關心特定地點的歷史和文化背景。這需要加強對需求的分析和研究,提供更加個性化和多樣化的知識服務。同時,也需要通過反饋和調研等方式,了解用戶需求的變化和趨勢,及時調整服務策略。
運用生成式工具做好紅色述事并創(chuàng)造新知需要多方面的努力和合作。通過發(fā)揮生成式工具的潛力,結合紅色資源進行創(chuàng)意和內容生成,并注重用戶體驗和反饋,不斷提升紅色述事的品質和影響力。
*本文系2023年度河南省檔案科技項目“開封市紅色檔案資源數(shù)據(jù)庫建設研究”(項目編號:2023-R-063)的階段成果。
參考文獻:
[1]翟樂,李金格.數(shù)字人文視閾下紅色信息資源的遴選、組織與開發(fā)策略研究[J].情報科學,2021,39(12):174-178+186.
[2]丁華東,付亞楠.尋根、培根、鑄魂:論紅色信息記憶資源開發(fā)的思維邏輯[J].信息管理,2023(04):31-35+39.
[3]趙紅穎,張衛(wèi)東.數(shù)字人文視角下的紅色信息資源組織:數(shù)據(jù)化、情境化與故事化[J].信息與建設,2021(07):33-36.
[4]彭慶紅,孫曉丹.紅色信息資源數(shù)字化開發(fā)利用的路徑與梯度[J].信息學通訊,2022(04):10-16.
[5]陳艷紅,陳晶晶.數(shù)字人文視域下信息館紅色信息資源開發(fā)的時代價值與路徑選擇[J].信息學研究,2022(03):68-75.
[6]劉芮,卜昊昊.文旅融合視域下紅色信息資源開發(fā)的場域分析和行動邏輯[J].信息學研究,2022(04):17-23.
[7]陳勇,高維浩.廣西紅色信息資源開發(fā)的現(xiàn)狀分析及路徑選擇研究[J].信息管理,2023(03):121-122.
[8]周林興,崔云萍.區(qū)域性紅色檔案資源的協(xié)同開發(fā)利用探析:以長三角區(qū)域為分析對象[J].檔案學通訊,2021(05):4-13.
[9]李曉琴,銀元,何成軍.新時代紅色文化資源的價值重構:驅動、內涵與科學問題[J].西南民族大學學報(人文社會科學版),2022,43(01):46-50.
[10]何洪兵.價值遮蔽與彰顯:紅色文化的當代傳承[J].四川大學學報(哲學社會科學版),2023(04):161-168+199.
(作者單位:商丘職業(yè)技術學院 張亞影,碩士,館員 來稿日期:2023-08-20)