摘" 要:隨著人工智能產(chǎn)業(yè)的高速發(fā)展,國家政策層面出臺了大量的人工智能產(chǎn)業(yè)政策,對此,文章提出了一種基于語義分析的人工智能政策知識圖譜構(gòu)建方法。首先,根據(jù)語義角色標注和依存句法關(guān)系提取實體關(guān)系三元組;然后運用ChatGLM-6B大語言模型識別政策中的政策客體,用于知識篩選;再計算關(guān)系詞匯的余弦相似度對關(guān)系進行融合對齊,實現(xiàn)知識融合;最后,對實體關(guān)系查詢和政策信息服務(wù)兩個應(yīng)用領(lǐng)域進行了探究。所構(gòu)建的知識圖譜可以精準地向企業(yè)等用戶提供所需的政策信息,提高政策信息的利用效率。
關(guān)鍵詞:產(chǎn)業(yè)政策;知識圖譜;知識抽?。淮笳Z言模型
中圖分類號:TP391.1 文獻標識碼:A 文章編號:2096-4706(2024)23-0093-07
Research on the Knowledge Graph Construction of Industrial Policies for Artificial Intelligence
ZHAO Jinshi, SHEN Yongluo
(School of Information, Guangdong University of Finance and Economics, Guangzhou" 510320, China)
Abstract: With the rapid development of the Artificial Intelligence industry, a large number of industrial policies for Artificial Intelligence have been introduced at the national policy level. Therefore, this paper proposes a Knowledge Graph construction method of Artificial Intelligence policies based on semantic analysis. Firstly, it extracts entity relationship triples according to semantic role labeling and dependency syntactic relationship. Secondly, it uses the ChatGLM-6B Large Language Model to identify the policy objects in the policies for knowledge screening. Thirdly, it calculates the cosine similarity of the relationship vocabulary to fuse and align the relationship to achieve knowledge fusion. Finally, the two application fields of entity relationship query and policy information service are explored. The constructed Knowledge Graph can accurately provide the required policy information to enterprises and other users and improve the utilization efficiency of policy information.
Keywords: industrial policy; Knowledge Graph; knowledge extraction; Large Language Model
0" 引" 言
隨著人工智能產(chǎn)業(yè)的蓬勃發(fā)展,該領(lǐng)域正成為新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動力量。國家在人工智能產(chǎn)業(yè)政策方面全方位支持該領(lǐng)域的高速發(fā)展,從2017年國務(wù)院發(fā)布《新一代人工智能發(fā)展規(guī)劃》到現(xiàn)在,政府陸續(xù)出臺了多項政策。然而,由于政策文件往往分散在不同政府部門的網(wǎng)站上,用戶難以進行集中查詢和檢索,同時,政策文本存在信息量大、篇幅長的特點,傳統(tǒng)的政策檢索方式不利于用戶快速從政策中獲得重要信息。
知識圖譜是以具有知識表達屬性的三元組為基礎(chǔ),通過融合多源異構(gòu)數(shù)據(jù),以具有語義關(guān)系的有向圖結(jié)構(gòu)進一步描述客觀世界中的相關(guān)概念及其關(guān)系,從而形成關(guān)系清晰準確、內(nèi)容翔實的結(jié)構(gòu)化語義數(shù)據(jù)庫[1-2],國內(nèi)外學(xué)者已經(jīng)將知識圖譜運用到學(xué)術(shù)資源[3]、醫(yī)療保健[4]、故障診斷[5]等多個領(lǐng)域。關(guān)于知識圖譜在政策研究中的應(yīng)用,部分學(xué)者以知識圖譜為工具,采用文獻計量法對政策進行研究,分析政策的發(fā)展脈絡(luò)和趨勢、預(yù)測政策熱點。例如,新冠疫情期間,霍朝光等構(gòu)建新冠感染政策知識圖譜,用于政策公文歸檔、追溯法律淵源、監(jiān)督政策焦點[6]。與之類似的,還有將知識圖譜應(yīng)用于中國數(shù)字經(jīng)濟發(fā)展政策研究[7]、“雙碳”政策理論脈絡(luò)和發(fā)展進路的研究[8]。從文獻計量的角度出發(fā),可以在宏觀上把握政策的總體發(fā)展情況,然而無法有效滿足企業(yè)和公眾實時了解政策內(nèi)容的需求,從而實現(xiàn)政策的“為民所擁,為民所用”?;诖耍糠謱W(xué)者開始將深入政策文本進行知識抽取,構(gòu)建政策知識圖譜并開展應(yīng)用研究,例如文旅融合政策[9]、創(chuàng)新創(chuàng)業(yè)政策[10]、養(yǎng)老產(chǎn)業(yè)政策[11]。隨著我國人工智能產(chǎn)業(yè)的飛速發(fā)展,人工智能產(chǎn)業(yè)政策知識圖譜既可以為企業(yè)在獲取政策信息、把握政策動向、享受政策優(yōu)惠上提供幫助,可以為知識圖譜在政策領(lǐng)域的應(yīng)用提供理論參考。
1" 知識圖譜構(gòu)建流程
人工智能產(chǎn)業(yè)政策知識圖譜的構(gòu)建流程主要包括模式層設(shè)計、數(shù)據(jù)收集與預(yù)處理、數(shù)據(jù)層設(shè)計、知識存儲與圖譜應(yīng)用4個環(huán)節(jié),知識圖譜的整體構(gòu)建流程如圖1所示。
環(huán)節(jié)內(nèi)容如下:
1)知識圖譜模式層設(shè)計。根據(jù)人工智能產(chǎn)業(yè)政策文本的特點,從政策文件和政策內(nèi)容兩個層面考慮,設(shè)計知識圖譜的模式層。
2)數(shù)據(jù)收集與預(yù)處理。對收集的政策文本進行清洗,主要是去除已失效政策和政策中的無效內(nèi)容。而后分句、分詞并存儲,得到政策語料庫,以便于后續(xù)工作。
3)知識圖譜數(shù)據(jù)層設(shè)計。數(shù)據(jù)層設(shè)計包含知識抽取、知識篩選和知識融合三個步驟。首先,利用Python正則表達式對政策文本中的關(guān)聯(lián)政策進行識別,再提出一種基于語義分析的三元組抽取規(guī)則,從政策文本中抽取實體關(guān)系三元組;再使用開源大語言模型ChatGLM-6B,提取政策中的政策客體,將得到的實體關(guān)系三元組與政策客體對比,篩選出涉及政策客體的實體關(guān)系三元組;最后訓(xùn)練詞向量,根據(jù)余弦相似度對關(guān)系詞匯進行合并對齊。
4)知識存儲與圖譜應(yīng)用。將處理后的數(shù)據(jù)存入Neo4j圖數(shù)據(jù)庫,形成人工智能產(chǎn)業(yè)政策知識圖譜,討論知識圖譜在可視化查詢、企業(yè)信息服務(wù)場景下的應(yīng)用。
2" 知識圖譜模式層設(shè)計
結(jié)合文獻綜述的梳理分析及已有的人工智能產(chǎn)業(yè)政策文本,政策文件整體與其他政策之間存在著必然的關(guān)聯(lián),政策文本內(nèi)容中也包含著該政策自身的許多關(guān)鍵信息。因此,本文認為,人工智能產(chǎn)業(yè)的政策研究需要從政策文件和政策內(nèi)容兩個層面考慮,才能更有效地管理政策文本。
2.1" 政策文件
從政策文件層面來看,政策存在演進的過程,一部政策的制定,必然與其他政策存在聯(lián)系,或是對上位政策的細化和延伸,或是對其他政策的銜接。
政策文件層面的實體主要為:政策文件、制定機關(guān)、關(guān)聯(lián)政策。制定機關(guān)與政策文件之間的關(guān)系為:發(fā)布。政策文件與關(guān)聯(lián)政策之間的關(guān)系有:依據(jù)、補充、引用。同時,政策標題實體還包含政策標題、效力位階、實施日期3個屬性。
2.2" 政策內(nèi)容
深入到政策內(nèi)容中,政策文本必然涉及許多實體,包含多個政策對象,本文將對政策文本進行語義分析,從中抽取實體關(guān)系三元組。實體對應(yīng)政策句子中的名詞,實體之間的關(guān)系通常是以動詞為主的動作關(guān)系,例如“加強”“發(fā)展”,具體的實體關(guān)系三元組抽取流程將在下文詳細闡述。綜上所述,構(gòu)建人工智能產(chǎn)業(yè)政策知識圖譜模式層如圖2所示。
3" 數(shù)據(jù)收集與預(yù)處理
3.1" 數(shù)據(jù)收集
行業(yè)知識圖譜強調(diào)知識的專業(yè)性,因此對于數(shù)據(jù)的質(zhì)量有更高的要求,收集的政策既要盡可能全面,又要保證完整準確、與相關(guān)主題契合度高。本文選擇北大法寶數(shù)據(jù)庫作為數(shù)據(jù)源,從“人工智能”專題的國家層面政策之中進行篩選,著重選取與“人工智能”話題相關(guān)性強的政策,獲取的數(shù)據(jù)包含政策標題、時效性、效力位階、制定機關(guān)、實施日期和政策正文,政策文本原網(wǎng)頁如圖3所示。
3.2" 數(shù)據(jù)預(yù)處理
首先,對獲取到的政策正文,按照時效性對已經(jīng)失效的政策予以剔除,并進一步采用Python正則表達式去除其中的序號(如“(一)”“12.”)、多余空格、換行符等無效內(nèi)容,而后保存在同一個csv文件中。最終經(jīng)過統(tǒng)計,共收集到有效政策393篇。其次,對規(guī)范后的政策文本進行分句操作,經(jīng)過分句后,共得到政策句子46 245條。最后,需要對人工智能產(chǎn)業(yè)政策文本進行分詞操作,人工智能屬于新興產(chǎn)業(yè),伴隨產(chǎn)業(yè)發(fā)展出現(xiàn)了一些專有名詞,本文將“語音識別”“計算機視覺”“專家系統(tǒng)”“增強學(xué)習(xí)”等247個專有名詞整理成用戶詞典,使用LTP工具,完成分詞任務(wù)。
4" 知識圖譜數(shù)據(jù)層設(shè)計
知識抽取是知識圖譜數(shù)據(jù)層構(gòu)建過程中的一個重要流程,具體地,從非結(jié)構(gòu)化的政策文本中抽取出需要的結(jié)構(gòu)化數(shù)據(jù),知識抽取包含實體抽取、實體屬性抽取和實體間關(guān)系抽取。在本章第一節(jié)的數(shù)據(jù)收集與預(yù)處理階段,政策標題、制定機關(guān)等部分數(shù)據(jù)已經(jīng)為結(jié)構(gòu)化數(shù)據(jù),可以直接使用。
4.1" 關(guān)聯(lián)政策抽取
關(guān)聯(lián)政策的抽取,可以使用Python正則表達式。在觀察多篇政策文本后,可以得到如下規(guī)律:在政策文本中,在使用“《》”時,絕大部分是提及其他的政策;在關(guān)聯(lián)政策的標題中,會有“方案”“規(guī)劃”“辦法”“條例”等標志詞;政策全稱的字數(shù)通常不會太短,字數(shù)不會少于6個字,只有在重復(fù)提及某個政策使用簡稱時,字數(shù)才會少于6,例如“《條例》”“《綱要》”?;谶@些規(guī)律,提取的具體步驟可以設(shè)計為:首先識別文本中的“《》”,得到書名號之間的字符串;再檢測字符串中是否包含相關(guān)的標志詞;最后檢測字符串的長度,只保留字數(shù)大于等于6的字符串,再將最終保留下來的字符串作為關(guān)聯(lián)政策予以保存。
政策文件與關(guān)聯(lián)政策間的關(guān)系,在抽取完畢后,由人工進行判別,處理后的效果如圖4所示。
4.2" 實體關(guān)系三元組抽取
政策內(nèi)容知識圖譜的構(gòu)建主要是從政策文本中抽取實體關(guān)系三元組,政策文本中的實體和關(guān)系的數(shù)量種類多,無法按照先劃分實體關(guān)系類型在抽取三元組的方式進行。通過觀察多篇政策文本,可以發(fā)現(xiàn),政策文本中的語句鮮明的特點:從句類上來看,陳述句占絕大多數(shù);從句型上來看,語句中有相當一部分的無主句;此外政策文本簡潔凝練、用詞專業(yè)。因此本文提出一種基于語義分析的人工智能產(chǎn)業(yè)政策知識抽取方法,使用語義角色標注和依存句法分析的方式,設(shè)計相應(yīng)的抽取規(guī)則,從文本中直接抽取實體關(guān)系三元組。
4.2.1" 語義角色標注
語義角色標注是以句子為單位,分析語句中“謂詞-論元”結(jié)構(gòu)。具體地,語義角色標注就是要針對句子中的謂語,研究句子中其他各成分與謂語之間的關(guān)系,并以不同的標簽來描述關(guān)系的類型。其中,核心的語義角色有6種,標簽和具體含義如表1所示。
以“制造業(yè)企業(yè)提高信息化水平”為例,在該句子中,施事者是“制造業(yè)企業(yè)”,語義角色標簽為Arg0;受事者是“信息化水平”是受事者,語義角色標簽為Arg1。依據(jù)語義角色標注的結(jié)果,可以抽取“施事者-謂語-受事者”作為實體關(guān)系三元組,上述例子抽取后得到的結(jié)果為“(制造業(yè)企業(yè),提高,信息化水平)”。
上文提到,在政策語句中,包含著相當一部分無主句,無主句是一種沒有主語但仍然可以清晰完整地表達句意的句子,政策中出現(xiàn)的部分無主句如表2所示。
從上述例子中可以看出,無主句是具有實際含義的,需要從中抽取實體關(guān)系三元組。無主句以動詞為核心,強調(diào)動作和事物發(fā)展,而不在于“誰”實施了這一動作,在政策中,可以將這類句子的主語直接理解為“有關(guān)部門”。因此在語義角色標注的結(jié)果中,只有受事者Arg1的標簽,而沒有施事者Arg0的標簽,考慮為無主句,在抽取實體關(guān)系三元組時,將頭實體統(tǒng)一命名為“有關(guān)部門”,上述例子最終的抽取結(jié)果如圖5所示。
此外,一些修飾謂語動詞的狀語會表達否定的含義,如果不考慮這些狀語,可能會完全反轉(zhuǎn)政策所要表達的意思。以“服務(wù)提供商不允許違規(guī)收集個人信息”為例,其中的“不”做狀語修飾謂語動詞“允許”,在不考慮狀語的情況下,得到的實體關(guān)系三元組會是“(服務(wù)提供商,允許,違規(guī)收集個人信息)”,這與政策所要傳達的意思完全相反。在政策中,表達否定的狀語主要有10種,分別為“不”“非”“沒”“沒有”“不用”“未”“別”“不必”“無須”和“勿”。如果在抽取三元組時,修飾核心動詞的狀語屬于以上10種詞語,則將其與動詞合并作為關(guān)系詞。
4.2.2" 依存句法分析
語義角色標注不一定能完整獲取到所有的實體關(guān)系三元組,需要基于依存句法分析的結(jié)果進行補充。依存句法分析是分析句子的語法結(jié)構(gòu),研究句子中各詞語之間的語法聯(lián)系,并以樹的形式表達。當一個句子的所有詞語的依存關(guān)系全部被分析以后,就可以得到該句子的一棵依存句法樹。以政策句子“國家重點研發(fā)計劃繼續(xù)推進高性能計算”為例,經(jīng)過依存句法分析后,該句子的依存句法樹如圖6所示。
基于依存句法分析的抽取流程如下:
1)根據(jù)詞性標注的結(jié)果,對于標注為動詞的詞語,若在依存句法樹中,以它為根節(jié)點的子樹里同時存在主謂關(guān)系和動賓關(guān)系,首先根據(jù)主謂關(guān)系找到頭實體,再根據(jù)動賓關(guān)系找到尾實體,最后判斷核心動詞是否存在并列動詞,若存在,則將其與核心動詞合并抽取,最后形成由主語、核心動詞(+并列動詞)、賓語組成三元組。
2)子樹中出現(xiàn)主謂關(guān)系和介賓關(guān)系,則以介賓關(guān)系尋找尾實體。假若核心動詞同時存在動補結(jié)構(gòu),則需要將核心動詞與其補語合并抽取,最后形成由主語、核心動詞(+補語)、賓語構(gòu)成的三元組。
3)當主語和賓語與其他詞語存在定中關(guān)系,則需要找到修飾主語或賓語的定語,對三元組的頭實體和尾實體進行擴展,以便讓三元組能描述更加準確的含義。
4)同樣,考慮修飾核心動詞的表達否定含義的狀語,將其與核心動詞合并作為關(guān)系詞。
4.3" 知識篩選
在對人工智能產(chǎn)業(yè)政策進行知識抽取后,會得到大量的實體關(guān)系三元組,但并非所有的三元組都有包含政策的重要信息,為保證后續(xù)人工智能產(chǎn)業(yè)政策知識圖譜的質(zhì)量,需要對得到的三元組進行篩選。對于知識圖譜的使用者,其作為受政策影響的群體,主要關(guān)心政策發(fā)揮作用時所指向的對象,即政策客體。根據(jù)公共政策理論,政策客體包含特定的政策問題和目標群體,其中,政策問題是引起政府關(guān)注并采取行動的社會問題,目標群體是政策直接作用和影響的社會群體[12]。
從一篇政策文本上來看,其核心內(nèi)容也總是圍繞著特定的政策問題和目標群體進行論述,提出具體的處理原則和行動方案。因此,保留涉及政策客體的三元組,可以最大程度過濾無價值的三元組,保留政策中的關(guān)鍵信息。
由于政策客體數(shù)量多,全部采用人工標注的方式效率很低。本文使用清華大學(xué)發(fā)布的開源大語言模型ChatGLM-6B[13-14]對政策文本中的政策客體進行識別并提取。目前,對于大語言模型,可以使用已經(jīng)訓(xùn)練好的預(yù)訓(xùn)練模型,在不同的應(yīng)用場景下,提供少量的數(shù)據(jù)用以微調(diào),即可獲得良好的效果。本文先使用人工的方式提取了3 060條政策句子中的政策客體用于微調(diào)工作,微調(diào)所用數(shù)據(jù)的形式如圖7所示。將微調(diào)后的模型用于提取政策正文中的政策客體,對于每一篇政策,將實體關(guān)系三元組與該政策所包含的政策客體進行對比,若尾實體中涉及政策客體,則保留,否則,予以剔除。
4.4" 知識融合
在政策內(nèi)容知識圖譜的構(gòu)建過程中,經(jīng)過知識抽取得到實體與實體間關(guān)系。由于關(guān)系的詞匯是從政策文本中直接提取的,部分關(guān)系雖然有不同的名稱,卻表達了相同的意思,例如“推動”和“推進”,“鼓勵”和“激勵”,“反映”和“反映出”等。因此,需要對表達意思相同的關(guān)系進行合并,消除冗余。
本文采用余弦相似度的方法完成實體間關(guān)系進行合并,以獲得更加簡潔、清晰的人工智能產(chǎn)業(yè)政策知識圖譜。在數(shù)據(jù)預(yù)處理階段,已經(jīng)完成文本分詞工作,使用Gensim庫中Word2Vec方法訓(xùn)練詞向量。最后計算不同關(guān)系詞匯之間的余弦相似度,其計算式如式(1)所示。
(1)
其中,S表示關(guān)系詞匯之間的相似程度,A和B表示關(guān)系詞匯的詞向量。余弦相似度越大,說明兩個詞語之間的差異越小,即兩個詞語越相似。借鑒已有的研究,將閾值設(shè)置在0.8時,融合效果最佳[15],關(guān)系合并后得到的部分結(jié)果如表4所示。
5" 知識圖譜應(yīng)用研究
構(gòu)建人工智能產(chǎn)業(yè)政策知識圖譜是將政策中的知識進行細粒度化的處理,其最終目的是實現(xiàn)對政策的可視化查詢和信息匹配,為企業(yè)等用戶了解政策提供幫助。本文采用Neo4j數(shù)據(jù)庫來存儲抽取的實體、屬性和關(guān)系。Neo4j是一個高性能的NoSQL圖形數(shù)據(jù)庫,它將結(jié)構(gòu)化的數(shù)據(jù)存儲在圖上,因而具有強大的可視化能力,Neo4j也是目前使用最廣泛的圖數(shù)據(jù)庫[16]。Neo4j自帶Cypher語言,可以方便地實現(xiàn)對知識圖譜的創(chuàng)建、更新和可視化查詢。本文的實體、關(guān)系數(shù)量較多,因此將實體及其屬性、實體間關(guān)系按照一定的格式存儲在CSV文件中,使用Cypher語言中的LOAD CSV語句直接導(dǎo)入,最終得到人工智能產(chǎn)業(yè)政策知識圖譜。
5.1" 政策的實體關(guān)系查詢
Neo4j同樣可以使用Cypher語言查詢政策實體、實體屬性,并以可視化的方式展示實體間的關(guān)系,可以高效地獲取政策關(guān)鍵信息,也可以用于政策文獻研究,梳理政策之間關(guān)系、反映政策演進過程、預(yù)測政策熱點趨勢。例如,在知識圖譜中檢索某一篇政策,可以使用“match (m:政策文件)-[r:`包含`]-gt;(n) where m.標題 = “國務(wù)院關(guān)于印發(fā)新一代人工智能發(fā)展規(guī)劃的通知”" return m,r,n limit 20”語句查詢該政策中的實體關(guān)系三元組。由于節(jié)點數(shù)量過多,使用limit子句限制顯示節(jié)點的數(shù)量為20,查詢結(jié)果如圖8所示。查詢結(jié)果中,不同類型的實體以不同顏色的節(jié)點區(qū)分,節(jié)點之間的連線表示實體間的關(guān)系,鼠標單擊某一實體可以查看實體屬性信息,在查詢結(jié)果中可以清楚地獲悉到,國家超前布局人工智能的基礎(chǔ)研究,推動腦科學(xué)研究、軍民科技創(chuàng)新成果轉(zhuǎn)化、人機協(xié)同等領(lǐng)域,人工智能將作為經(jīng)濟發(fā)展新引擎,最終實現(xiàn)社會生產(chǎn)力的整體躍升。
以語句“match (n:關(guān)聯(lián)政策)-[r]-gt;(m:政策文件) where m.標題 = “國務(wù)院關(guān)于印發(fā)新一代人工智能發(fā)展規(guī)劃的通知” return n”查詢該政策的被引用情況,查詢結(jié)果如圖9所示。結(jié)果顯示,有多篇科技部的回函以該政策為依據(jù),這些回函均是支持地方建設(shè)國家新一代人工智能創(chuàng)新發(fā)展試驗區(qū),說明該政策在發(fā)展人工智能產(chǎn)業(yè)的政策體系中具有重要的地位。
5.2" 企業(yè)的政策信息服務(wù)
信息服務(wù)是利用計算機和現(xiàn)代通信技術(shù),對信息進行收集和處理,使之轉(zhuǎn)化為方便利用的形式并進行存儲,按需向用戶提供有價值的信息。近年來,信息服務(wù)也在朝著智能化、精細化的方向不斷發(fā)展。政策的扶持可以對企業(yè)的發(fā)展起到很大的幫助作用,而企業(yè)難以有合適的方法及時獲取到政策信息,結(jié)合知識圖譜的政策信息服務(wù)可以智能化、精細化地為企業(yè)提供政策信息服務(wù)。
政府部門或政策信息服務(wù)的提供商,可以提供的服務(wù)有:
1)政策信息查詢。企業(yè)根據(jù)自身的需要,以關(guān)鍵詞查詢或提問的方式獲取政策信息。
2)智能信息推薦。通過企業(yè)提供的各項信息,如公司性質(zhì)、業(yè)務(wù)范圍、經(jīng)營概況等,為企業(yè)繪制用戶畫像,進而實時地為企業(yè)客戶提供政策情報。同時,處于產(chǎn)業(yè)鏈當中一環(huán)的企業(yè),對行業(yè)上下游的信息往往比較關(guān)注,知識圖譜可以充分發(fā)揮關(guān)聯(lián)關(guān)系挖掘的作用,向企業(yè)提供上下游的政策動向,從而幫助企業(yè)及早調(diào)整戰(zhàn)略規(guī)劃。
K公司是亞太地區(qū)知名的智能語音和人工智能上市企業(yè),一直從事智能語音、計算機視覺、自然語言理解等核心技術(shù)研究,積極推動人工智能產(chǎn)品和行業(yè)應(yīng)用落地。以該公司的智能語音和計算機視覺兩項業(yè)務(wù)為例,通過語句“MATCH (m)-[r:關(guān)系]-gt;(n:政策客體) WHERE n.政策客體 =~ ‘.*智能語音.*’ or n.政策客體 =~ ‘.*計算機視覺.*’ return m,r,n”,可以得到與智能語音、計算機視覺相關(guān)的政策信息,查詢結(jié)果如圖10所示。
6" 結(jié)" 論
本文提出一種人工智能產(chǎn)業(yè)政策知識圖譜的構(gòu)建流程,內(nèi)容主要分為以下三個部分:從政策文件和政策內(nèi)容兩個層面考慮,設(shè)計了人工智能產(chǎn)業(yè)政策知識圖譜模式層;根據(jù)政策文本特點,設(shè)計了一套基于語義分析的三元組抽取方法,抽取政策文本中的實體關(guān)系三元組;借助大語言模型識別政策客體用于篩選實體關(guān)系三元組,計算關(guān)系詞向量之間的余弦相似度實現(xiàn)關(guān)系的合并對齊。將所有的實體、實體屬性和實體間關(guān)系導(dǎo)入Neo4j圖數(shù)據(jù)庫中,構(gòu)建人工智能產(chǎn)業(yè)政策知識圖譜,并研究了知識圖譜在實體關(guān)系查詢和企業(yè)信息服務(wù)領(lǐng)域的應(yīng)用,可以幫助企業(yè)更好地獲取所需的政策信息。由于人工智能產(chǎn)業(yè)政策還在持續(xù)新增,后續(xù)的研究中,將進一步研究如何實現(xiàn)對政策知識庫的動態(tài)更新,以實現(xiàn)更高效的政策分類管理和更精準的政策檢索。
參考文獻:
[1] 付雷杰,曹巖,白瑀,等.國內(nèi)垂直領(lǐng)域知識圖譜發(fā)展現(xiàn)狀與展望 [J].計算機應(yīng)用研究,2021,38(11):3201-3214.
[2] 于皓,張杰,吳明輝,等.領(lǐng)域知識圖譜快速構(gòu)建和應(yīng)用框架 [J].智能系統(tǒng)學(xué)報,2021,16(5):871-884.
[3] 秦玥.面向創(chuàng)業(yè)領(lǐng)域科技論文的知識圖譜構(gòu)建與應(yīng)用研究 [D].長春:吉林大學(xué),2018.
[4] 劉東方,楊思帆.我國教師教育研究的熱點領(lǐng)域與知識基礎(chǔ)——基于2001年以來CSSCI學(xué)術(shù)論文的知識圖譜分析 [J].教育理論與實踐,2019,39(13):37-40.
[5] MURALI L,GOPAKUMAR G,VISWANATHAN D M,et al. Towards Electronic Health Record-based Medical Knowledge Graph Construction, Completion, and Applications: A Literature Study [J].Journal of Biomedical Informatics,2023,143:104403.
[6] 霍朝光,錢毅,祁天嬌.基于開放公文的新冠肺炎政策知識圖譜構(gòu)建與分析 [J].檔案學(xué)通訊,2021(2):53-62.
[7] 師博,常青,張良悅.中國數(shù)字經(jīng)濟發(fā)展的政策演進與理論研究脈絡(luò) [J].技術(shù)經(jīng)濟,2022,41(8):1-10.
[8] 周成.“雙碳”政策的知識圖譜、研究熱點與理論框架 [J].北京理工大學(xué)學(xué)報:社會科學(xué)版,2023,25(4):94-112.
[9] 董天宇.文旅融合政策知識圖譜的構(gòu)建與應(yīng)用 [D].大連:遼寧師范大學(xué),2023.
[10] 劉科.基于知識圖譜的創(chuàng)新創(chuàng)業(yè)政策服務(wù)研究 [D].北京:北京交通大學(xué),2021.
[11] 揣子昂,耿騫,潘慧瑤,等.產(chǎn)業(yè)政策知識圖譜的自動化構(gòu)建 [J].情報工程,2022,8(3):28-51.
[12] 楊宏山.公共政策學(xué) [M].北京:中國人民大學(xué)出版社,2020.
[13] DU Z X,QIAN Y J,LIU X,et al. GLM: General Language Model Pretraining with Autoregressive Blank Infilling [J/OL].arXiv:2103.10360 [cs.CL].(2021-03-18).https://arxiv.org/abs/2103.10360?context=cs.
[14] ZENG A H,LIU X,DU Z X,et al. GLM-130B: An Open Bilingual Pre-trained Model [J/OL].(2022-10-05).https://arxiv.org/abs/2210.02414.
[15] 劉勘,徐勤亞,於陸.面向營商環(huán)境的知識圖譜構(gòu)建研究 [J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2022,6(4):82-96.
[16] 徐增林,盛泳潘,賀麗榮,等.知識圖譜技術(shù)綜述 [J].電子科技大學(xué)學(xué)報,2016,45(4):589-606.
作者簡介:趙晉世(2001—),男,漢族,湖南衡陽人,碩士在讀,研究方向:知識圖譜、自然語言處理、知識挖掘;沈永珞(1979—),男,漢族,湖北武漢人,副教授,博士,研究方向:自然語言處理、智能計算、智能系統(tǒng)設(shè)計與應(yīng)用。