亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        產(chǎn)業(yè)政策知識(shí)圖譜的自動(dòng)化構(gòu)建

        2022-09-16 01:19:48揣子昂耿騫潘慧瑤靳健
        情報(bào)工程 2022年3期
        關(guān)鍵詞:三元組產(chǎn)業(yè)政策圖譜

        揣子昂 耿騫,3 潘慧瑤 靳健,2

        1. 北京師范大學(xué)政府管理學(xué)院信息管理系 北京 100875;

        2.富媒體數(shù)字出版內(nèi)容組織與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室 北京 100038;

        3. 北京師范大學(xué)珠海校區(qū)政府治理研究中心 珠海 519085

        引言

        我國(guó)產(chǎn)業(yè)經(jīng)濟(jì)的高速發(fā)展離不開(kāi)政策環(huán)境的滋養(yǎng)。在新一輪信息技術(shù)浪潮下,各級(jí)政府積極推動(dòng)基于互聯(lián)網(wǎng)+、區(qū)塊鏈等信息技術(shù)的產(chǎn)業(yè)政策公開(kāi)工作。公開(kāi)的政策文本能夠直接體現(xiàn)政府部門(mén)的決策過(guò)程,是民眾可獲取、可追溯、可信賴的官方文字記錄,能夠幫助民眾了解政府部門(mén)對(duì)各類產(chǎn)業(yè)經(jīng)濟(jì)發(fā)展所持態(tài)度,從而實(shí)現(xiàn)更加緊密的政民聯(lián)系。然而,政策文本通常具有數(shù)量多、篇幅長(zhǎng)、不易讀等特點(diǎn)。這些無(wú)疑不利于公眾了解政策動(dòng)向,明確自己的辦事訴求;抑或是政府工作人員解讀、調(diào)整當(dāng)前政策?;诖?,有必要對(duì)公開(kāi)的海量政策文本進(jìn)行自動(dòng)化梳理,幫助民眾和政府工作人員快速了解產(chǎn)業(yè)政策中的重要內(nèi)容,為產(chǎn)業(yè)經(jīng)濟(jì)發(fā)展賦能。

        知識(shí)圖譜的概念是由谷歌公司于2012 年提出,且一系列研究表明知識(shí)圖譜有助于重新組織梳理政策內(nèi)容[1-5]。與一般的分析方法不同,政策知識(shí)圖譜強(qiáng)調(diào)利用自然語(yǔ)言處理技術(shù),在文本挖掘的基礎(chǔ)上,明確政策實(shí)體之間的關(guān)系,在提煉、萃取、關(guān)聯(lián)和整合的基礎(chǔ)上構(gòu)建知識(shí)圖譜,并基于此進(jìn)行智能分析和決策[6,7]。一般地,構(gòu)建政策圖譜的步驟主要包括從海量政策文本中抽取政策實(shí)體并明確實(shí)體之間的關(guān)系,構(gòu)成關(guān)系三元組。在圖譜構(gòu)建完成后,可搭建前端界面,并將可視化、知識(shí)圖譜檢索等技術(shù)嵌入其中,從而呈現(xiàn)政策文本中包含的語(yǔ)義知識(shí),完成與用戶的交互。

        在知識(shí)圖譜構(gòu)建的相關(guān)工作中,研究人員利用分類、序列標(biāo)注等技術(shù)從非結(jié)構(gòu)化文本中抽取關(guān)系三元組。隨后,考慮到從原文中直接抽取出的實(shí)體和關(guān)系比較分散,仍需調(diào)用三元組的表示模型為其生成嵌入向量,并基于此對(duì)關(guān)系三元組進(jìn)行聚類和歸并。在得到關(guān)系三元組后,已有的研究通常利用Protégé 軟件從模式層構(gòu)建本體,并將抽取到的實(shí)體和關(guān)系插入到相應(yīng)的類別下,從而完成知識(shí)圖譜的構(gòu)建。然而,Protégé 軟件過(guò)于專業(yè),且不具備知識(shí)圖譜展示、響應(yīng)用戶查詢等功能,對(duì)于一般用戶而言不具有易用性。在大數(shù)據(jù)背景下,研究人員常利用可視化技術(shù),幫助用戶快速獲取所需要的信息[9,10],有效降低Protégé 軟件的使用門(mén)檻,有助于用戶進(jìn)行決策。此外,也有部分學(xué)者對(duì)于知識(shí)圖譜的檢索進(jìn)行了探討。例如,許德山等總結(jié)了知識(shí)圖譜可視化檢索的主要方法,并就可視化平臺(tái)的功能設(shè)計(jì)進(jìn)行了詳細(xì)闡述[11]。由麗萍等利用查詢工具Jena 的RDF 和OWL API 接口對(duì)知識(shí)圖譜進(jìn)行解析和存儲(chǔ),從而實(shí)現(xiàn)查詢的智能化和個(gè)性化[12]。而目前關(guān)于領(lǐng)域知識(shí)圖譜構(gòu)建的研究大多基于Protégé 等軟件,其呈現(xiàn)方式和檢索效果仍有較大改善空間。

        相比之下,在政策分析領(lǐng)域,基于知識(shí)圖譜的分析方法發(fā)展得較為緩慢。一方面,很大一部分研究以研究政策的文獻(xiàn)作為研究對(duì)象,從文獻(xiàn)計(jì)量學(xué)的角度基于文獻(xiàn)之間的共現(xiàn)關(guān)系構(gòu)建知識(shí)圖譜,并利用CiteSpace 等軟件對(duì)圖譜進(jìn)行可視化,同時(shí)完成檢索、推理、圖譜演化等功能[14-17]。然而,研究文獻(xiàn)作為二次信息具有一定的時(shí)滯性,基于文獻(xiàn)的政策分析不利于民眾了解實(shí)時(shí)的政策動(dòng)向;此外,此類研究所構(gòu)建的圖譜中通常只包含引證、共現(xiàn)等計(jì)量學(xué)方面的關(guān)系,而在政策文本中,實(shí)體之間的關(guān)系種類是多樣且不固定的。基于此,部分學(xué)者從政策文本自身出發(fā),從中抽取政策實(shí)體、關(guān)系以及屬性。然而,已有的研究通常依賴于文本字面的模式匹配以及預(yù)設(shè)的抽取類別[18,19]。這樣的做法意味著較高的人力和時(shí)間成本,且對(duì)于不同產(chǎn)業(yè)的政策文本不具備通用性,忽視了政策文本中實(shí)體、關(guān)系類別的多樣性。

        針對(duì)已有研究的局限性,本研究以養(yǎng)老產(chǎn)業(yè)政策為例,利用開(kāi)放域的產(chǎn)業(yè)政策三元組抽取模型,從政策文本中抽取實(shí)體和關(guān)系。該模型不依賴人工制定的模板或預(yù)設(shè)的關(guān)系類型進(jìn)行抽取。此外,本研究利用表示模型為抽取到的原始三元組生成表示向量,并利用聚類模型對(duì)其進(jìn)行歸并。在完成政策圖譜構(gòu)建后,本研究利用圖數(shù)據(jù)庫(kù)為構(gòu)建的知識(shí)圖譜實(shí)現(xiàn)可視化展示以及檢索功能,注重提升易用性和交互性。在調(diào)用模型的過(guò)程中,本研究重點(diǎn)關(guān)注產(chǎn)業(yè)政策文本的特殊性,并基于此對(duì)模型進(jìn)行調(diào)整,使之更適用于當(dāng)前場(chǎng)景。

        1 國(guó)內(nèi)外研究現(xiàn)狀

        1.1 關(guān)系三元組抽取

        首先,已有的關(guān)系三元組抽取模型按照抽取步驟可大致分為聯(lián)合抽取模型、基于Pipeline的抽取模型?;赑ipeline 的方法指先抽取實(shí)體,再抽取關(guān)系;而聯(lián)合抽取模型則是同時(shí)從文本中獲取實(shí)體和關(guān)系。與聯(lián)合抽取相比,基于Pipeline 的方法易于實(shí)現(xiàn),前后兩個(gè)模型的靈活性高,且不需要同時(shí)標(biāo)注有實(shí)體和關(guān)系的數(shù)據(jù)集。然而,在實(shí)際應(yīng)用中,實(shí)體抽取中的錯(cuò)誤會(huì)影響下一步關(guān)系抽取的性能,且無(wú)法建模兩個(gè)任務(wù)之間的內(nèi)在聯(lián)系。

        此外,關(guān)系三元組的抽取可分為限定域和開(kāi)放域的抽取模型。其中限定域關(guān)系抽取是指,根據(jù)固定的模版,從非結(jié)構(gòu)化文本中識(shí)別出實(shí)體對(duì)以及其間關(guān)系,從而構(gòu)成關(guān)系三元組。其優(yōu)勢(shì)在于可以抽取到原文字面上未出現(xiàn)的關(guān)系,其缺陷在于無(wú)法抽取出預(yù)定類別之外的實(shí)體或關(guān)系。此外,限定域的抽取模型通常需要人工標(biāo)注一定數(shù)量特定領(lǐng)域的少量關(guān)系和對(duì)應(yīng)實(shí)體作為訓(xùn)練集,費(fèi)時(shí)費(fèi)力,且對(duì)于新的領(lǐng)域不具有通用性。基于此,Yates 等[8]率先提出了開(kāi)放域關(guān)系抽取的概念,即不需要限定關(guān)系類型,從非結(jié)構(gòu)化文本中抽取關(guān)系三元組,其中關(guān)系的指代詞是在文本中存在的。開(kāi)放域關(guān)系抽取模型通常具有以下特點(diǎn):(1)模型能夠自動(dòng)進(jìn)行三元組抽取,而不依賴預(yù)定的關(guān)系類型;(2)對(duì)于非同源語(yǔ)料,模型具有較強(qiáng)的通用性;(3)模型不需要針對(duì)個(gè)別領(lǐng)域進(jìn)行訓(xùn)練,從而節(jié)省了數(shù)據(jù)標(biāo)注和訓(xùn)練計(jì)算的成本,在大數(shù)據(jù)背景下具有較高的效率。綜上,本小節(jié)主要總結(jié)開(kāi)放域的三元組聯(lián)合抽取模型。

        起初研究人員會(huì)通過(guò)手工定義規(guī)則的方式抽取三元組。Fader 等基于詞性標(biāo)注和句法分析對(duì)句子中的動(dòng)詞短語(yǔ)進(jìn)行限制,提出了ReVerb模型抽取關(guān)系短語(yǔ),并為其匹配頭尾實(shí)體[22]。類似地,PredPatt 模型利用通用依存句法分析[23]找到關(guān)系謂詞和實(shí)體集合中第一個(gè)詞項(xiàng)之間的依存路徑,在此基礎(chǔ)上構(gòu)建有向圖來(lái)抽取三元組[24]。Exemplar 在利用人工定義的句法規(guī)則抽取到關(guān)系和實(shí)體后,進(jìn)一步基于語(yǔ)義角色標(biāo)注將實(shí)體分為主、副實(shí)體[25]。考慮到一句話中可能同時(shí)包括多個(gè)關(guān)系三元組,Kraken 模型基于句法分析搜集句子中每個(gè)關(guān)系短語(yǔ)對(duì)應(yīng)的所有實(shí)體來(lái)構(gòu)建三元組,從而避免抽取不完全的情況[26]。

        雖然自監(jiān)督抽取模型通常也使用句法特征,但是與基于規(guī)則的模型不同,自監(jiān)督模型會(huì)首先通過(guò)啟發(fā)式的方式構(gòu)建訓(xùn)練數(shù)據(jù)集,并依此訓(xùn)練出有監(jiān)督的抽取模型。Yates 等提出TextRunner 模型,利用深層次語(yǔ)法解析器從少量語(yǔ)料中自動(dòng)抽取三元組,并將其中置信度高的作為正例、置信度低的作為負(fù)例作為訓(xùn)練數(shù)據(jù)集,并基于此訓(xùn)練了樸素貝葉斯分類器作為最終的三元組抽取模型[8]。類似地,Mausam 等利用基于規(guī)則的抽取模型REVERB 先從語(yǔ)料中抽出關(guān)系三元組,并利用其構(gòu)建訓(xùn)練數(shù)據(jù)[21]。在此基礎(chǔ)上,Wu 等放棄使用模型構(gòu)造訓(xùn)練集,改為利用維基百科信息框中的鍵值對(duì)作為訓(xùn)練數(shù)據(jù)[20]。相比TextRunner 的標(biāo)注方式,維基百科提供的訓(xùn)練語(yǔ)料質(zhì)量更高,數(shù)據(jù)量更大,因此訓(xùn)練所得模型的性能也優(yōu)于TextRunner。

        然而以上模型過(guò)分依賴人工定義的特征,在不同任務(wù)、領(lǐng)域和場(chǎng)景下的通用性較差。為了解決這一問(wèn)題,研究人員使用神經(jīng)網(wǎng)絡(luò)自動(dòng)獲取特征,完成三元組抽取。例如,RNNOie模型將開(kāi)放域的關(guān)系抽取視為序列標(biāo)注問(wèn)題,利用標(biāo)準(zhǔn)的BIO 模式對(duì)句子中的詞項(xiàng)進(jìn)行標(biāo)注[27]。其模型結(jié)構(gòu)整潔,包括嵌入層、基于bi-LSTM 的特征提取層和softmax 標(biāo)注層。在此基礎(chǔ)上,HNN4ORT 在神經(jīng)網(wǎng)絡(luò)中加入了局部注意力機(jī)制和抽取全局信息的卷積層,同時(shí)使用有序的LSTM 結(jié)構(gòu)[29],使之更適合開(kāi)放域關(guān)系抽取[28]。和RNNOie 一樣,HNN4ORT也借助神經(jīng)網(wǎng)絡(luò)將開(kāi)放域的關(guān)系抽取問(wèn)題轉(zhuǎn)化為序列標(biāo)注問(wèn)題,但此類方法無(wú)法抽取隱式關(guān)系。基于此,微軟公司提出Neural OIE 模型,將編碼器-解碼器架構(gòu)引入到開(kāi)放域關(guān)系抽取任務(wù)中,以期能夠生成原文中未出現(xiàn)的隱式關(guān)系[30]。

        雖然自監(jiān)督模型和基于神經(jīng)網(wǎng)絡(luò)的抽取模型是當(dāng)前學(xué)界在相關(guān)領(lǐng)域的研究熱點(diǎn),但是考慮到產(chǎn)業(yè)政策分析場(chǎng)景下缺乏中文語(yǔ)料,難以訓(xùn)練出高性能的三元組抽取模型,且應(yīng)用上述模型通常對(duì)硬件有較高要求。因此,本研究基于Jia 等針對(duì)中文句法特征提出的無(wú)監(jiān)督開(kāi)放域抽取模型從產(chǎn)業(yè)政策文本中獲取三元組,并針對(duì)政策文本中實(shí)體、關(guān)系的特點(diǎn)對(duì)模型進(jìn)行調(diào)整[31]。

        1.2 關(guān)系三元組表示

        然而,以上表示方法都沒(méi)有考慮到實(shí)體和關(guān)系在政策文本中的語(yǔ)義信息。具體地,以上方法將隨機(jī)向量作為初始向量進(jìn)行學(xué)習(xí),這樣會(huì)丟失原始語(yǔ)境中的語(yǔ)義信息。此外,以上模型在學(xué)習(xí)過(guò)程中對(duì)向量的變化沒(méi)有任何約束,這樣會(huì)導(dǎo)致實(shí)體和關(guān)系的嵌入向量在學(xué)習(xí)過(guò)程中遠(yuǎn)離其原始含義,學(xué)習(xí)得到的表示向量不利于后續(xù)對(duì)相關(guān)的關(guān)系和實(shí)體進(jìn)行歸并。

        1.3 政策知識(shí)圖譜的構(gòu)建與分析

        當(dāng)前學(xué)界中基于知識(shí)圖譜對(duì)政策進(jìn)行分析的研究還相對(duì)較少,且多數(shù)從文獻(xiàn)計(jì)量的角度展開(kāi)。此類研究以政策分析文獻(xiàn)為研究對(duì)象,利用文獻(xiàn)計(jì)量工具考察文獻(xiàn)之間引證關(guān)系以及關(guān)鍵詞、作者之間的共現(xiàn)關(guān)系等,并最終基于知識(shí)圖譜探究政策研究的趨勢(shì)。例如,羅哲等從CSSCI 數(shù)據(jù)庫(kù)中收集了579 篇人才政策的研究文獻(xiàn),并利用CiteSpace 構(gòu)建知識(shí)圖譜,其中包括對(duì)文獻(xiàn)集合中的作者與機(jī)構(gòu)共現(xiàn)關(guān)系、作者共被引關(guān)系等[14]。此外,馬續(xù)補(bǔ)等基于VOSviewer 關(guān)注了文獻(xiàn)集合中作者的合作關(guān)系以及關(guān)鍵詞的共現(xiàn)關(guān)系等[15]。類似的研究還包括吳賓等[16]以及趙繪存等[17]對(duì)于養(yǎng)老以及科技政策的分析。在基于知識(shí)圖譜的政策分析上,胡春陽(yáng)等針對(duì)不同時(shí)期的中外區(qū)域政策進(jìn)行了對(duì)比研究,并結(jié)合歷史重大事件給出解釋[13]。

        然而,基于文獻(xiàn)計(jì)量的方法所構(gòu)建的知識(shí)圖譜中只包含固定的幾類實(shí)體和關(guān)系,如作者、關(guān)鍵詞、共現(xiàn)、共被引等。一方面,此類實(shí)體和關(guān)系與民眾對(duì)政策的關(guān)切不符;另一方面,政策中包含的實(shí)體和關(guān)系類型遠(yuǎn)不止上述幾種,而且不同領(lǐng)域的政策也不盡相同。此外,政府部門(mén)時(shí)常會(huì)根據(jù)實(shí)際情況對(duì)政策作出調(diào)整,而政策研究文獻(xiàn)作為二次信息具有一定的時(shí)滯性,以其作為研究對(duì)象構(gòu)造的知識(shí)圖譜很難為民眾展示實(shí)時(shí)的政策動(dòng)向。

        基于此,部分研究人員開(kāi)始直接從政策文本中抽取政策實(shí)體、關(guān)系以及屬性,以構(gòu)建政策知識(shí)圖譜并基于其進(jìn)行政策分析。例如,霍朝光等利用關(guān)鍵詞抽取技術(shù)從開(kāi)放公文集合中抽取政策實(shí)體,并基于人工設(shè)置的模板抽取實(shí)體之間的關(guān)系,構(gòu)建了新冠肺炎防疫政策知識(shí)圖譜。隨后,在時(shí)間上,該工作探究了不同防疫階段政策的差異;在空間上,該工作比較了我國(guó)不同地區(qū)防疫政策的區(qū)別[19]。然而,在抽取實(shí)體和關(guān)系時(shí),霍朝光等使用了基于文本字面模式匹配的抽取模型,且涉及的特征多針對(duì)防疫政策,這使得其模型通用性較差,難以遷移至其他政務(wù)場(chǎng)景。為解決這一問(wèn)題,張雨等不再依賴基于模板的抽取模型,改為使用bi-LSTM 模型,自動(dòng)提取文本特征,從政策文本中抽取三元組[18]。然而,該模型為限定域的關(guān)系抽取模型,無(wú)法抽取到訓(xùn)練數(shù)據(jù)集以外的實(shí)體、關(guān)系類型,不利于應(yīng)對(duì)數(shù)量持續(xù)增長(zhǎng)、模式時(shí)常變化的政策文本。

        1.4 小結(jié)

        一方面,關(guān)系三元組的抽取模型可按照抽取步驟可大致分為聯(lián)合抽取模型、基于Pipeline的抽取模型。其中,基于Pipeline 的模型需要先從文本中抽取實(shí)體,并基于此抽取關(guān)系;而聯(lián)合抽取模型能夠同時(shí)抽取實(shí)體和關(guān)系。由于其能夠捕捉到實(shí)體、關(guān)系抽取任務(wù)之間潛在的聯(lián)系,且關(guān)系抽取的效果不會(huì)受到實(shí)體抽取效果的影響,聯(lián)合抽取模型在學(xué)界和業(yè)界受到了廣泛關(guān)注。另一方面,關(guān)系三元組的抽取可分為限定域和開(kāi)放域的抽取模型。相比限定域抽取模型,開(kāi)放域抽取模型能夠?qū)崿F(xiàn)自動(dòng)抽取,無(wú)需依賴指定類型的實(shí)體和關(guān)系,且無(wú)需針對(duì)個(gè)別領(lǐng)域進(jìn)行訓(xùn)練,對(duì)于非同源語(yǔ)料具有較強(qiáng)的通用性。開(kāi)放域抽取模型可大致分為基于規(guī)則的抽取模型、自監(jiān)督抽取模型和基于神經(jīng)網(wǎng)絡(luò)的抽取模型。其中,基于規(guī)則的模型借助詞性標(biāo)注、句法分析結(jié)果手工定義規(guī)則,直接從原文中抽取關(guān)系三元組;自監(jiān)督模型則根據(jù)手工定義的規(guī)則構(gòu)造訓(xùn)練數(shù)據(jù)集,訓(xùn)練有監(jiān)督的模型進(jìn)行抽??;基于神經(jīng)網(wǎng)絡(luò)的抽取模型將抽取問(wèn)題轉(zhuǎn)化為序列標(biāo)注問(wèn)題,此類模型通常需要大量高質(zhì)量的訓(xùn)練數(shù)據(jù)。考慮到產(chǎn)業(yè)政策分析場(chǎng)景下缺乏中文語(yǔ)料,難以訓(xùn)練出高性能的有監(jiān)督三元組抽取模型,本研究重點(diǎn)關(guān)注基于規(guī)則的開(kāi)放域三元組抽取模型。

        由于從原始文本中抽取到的三元組表達(dá)較為分散,需要對(duì)其進(jìn)行歸并。根據(jù)已有的研究,恰當(dāng)?shù)谋硎緦W(xué)習(xí)模型能夠?qū)⒄Z(yǔ)義相近的詞語(yǔ)表示為相似的向量,使其更容易被分類、聚類模型所區(qū)分。基于此,本研究考慮調(diào)用表示學(xué)習(xí)模型將實(shí)體及其間關(guān)系表示為低維向量,便于后續(xù)歸并。然而,已有的表示模型在產(chǎn)業(yè)政策三元組歸并任務(wù)中具有以下三點(diǎn)局限。首先,已有的表示模型通常以隨機(jī)向量作為實(shí)體和關(guān)系的初始化向量,導(dǎo)致最終所得的表示向量中不包含實(shí)體及其所在語(yǔ)境的語(yǔ)義信息。第二,已有的表示模型對(duì)于表示向量沒(méi)有限制,即向量可以在整個(gè)空間中自由變動(dòng),導(dǎo)致經(jīng)過(guò)數(shù)輪訓(xùn)練后的向量會(huì)遠(yuǎn)離其自身的語(yǔ)義,與表示學(xué)習(xí)的初衷相悖。第三,當(dāng)前表示模型的演化趨勢(shì)主要關(guān)注“實(shí)體和關(guān)系不應(yīng)被投影到同一個(gè)向量空間”,而語(yǔ)義信息以及對(duì)向量的相關(guān)限制還鮮有提及。

        當(dāng)前學(xué)界利用知識(shí)圖譜進(jìn)行政策分析的研究還較為少見(jiàn)。其中大多數(shù)研究從文獻(xiàn)計(jì)量學(xué)的角度出發(fā),以政策分析的文獻(xiàn)為研究對(duì)象,利用文獻(xiàn)分析工具考察其間的關(guān)鍵詞分布、引證關(guān)系、作者和機(jī)構(gòu)的共現(xiàn)情況等。然而,此類知識(shí)圖譜中包含實(shí)體、關(guān)系類型與民眾對(duì)于產(chǎn)業(yè)政策的關(guān)注不符;且政策分析文獻(xiàn)作為二次信息具有一定的時(shí)滯性,使得知識(shí)圖譜無(wú)法向民眾呈現(xiàn)實(shí)時(shí)的政策動(dòng)向。此外,也有部分研究人員直接從政策文本中抽取三元組構(gòu)建知識(shí)圖譜,并基于此進(jìn)行政策分析。然而,已有的研究所使用的模型通用性較差,依賴于特定的字面匹配模板或指定類型的訓(xùn)練數(shù)據(jù),難以遷移至其它政策分析場(chǎng)景,且不利于應(yīng)對(duì)數(shù)量持續(xù)增長(zhǎng)、內(nèi)容實(shí)時(shí)更新的政策文本。

        2 產(chǎn)業(yè)政策知識(shí)圖譜的構(gòu)建

        為方便民眾和政府工作人員快速了解產(chǎn)業(yè)政策內(nèi)容,本研究提出了一套自動(dòng)化產(chǎn)業(yè)政策知識(shí)圖譜構(gòu)建框架,如圖1 所示。對(duì)于海量政策文本,該框架首先利用基于中文句法特征的DSNF 模型從中抽取關(guān)系三元組,并根據(jù)政策文本的特征為實(shí)體補(bǔ)齊修飾成分??紤]到原始文本中三元組較為分散,本研究利用三元組表示模型TransP 和層次聚類模型BIRCH 對(duì)其進(jìn)行歸并。隨后,本研究將三元組導(dǎo)入到圖數(shù)據(jù)庫(kù)Neo4j 中,并基于其中嵌入的可視化和檢索等功能完成與用戶的交互。

        圖1 產(chǎn)業(yè)政策知識(shí)圖譜的自動(dòng)化構(gòu)建

        2.1 開(kāi)放域三元組抽取

        2.1.1 基于句法分析的抽取模型——DSNF

        由于中文開(kāi)放三元組抽取語(yǔ)料的缺乏以及中文語(yǔ)言學(xué)上的特點(diǎn),Jia 等基于中文句法分析提出了無(wú)監(jiān)督開(kāi)放域三元組抽取模型DSNF(Dependency Semantic Normal Forms)[31]。 與字面特征相比,依存關(guān)系能捕獲文本的語(yǔ)義和句法層次的特征,因此更適用于關(guān)系抽取任務(wù)。在句法依存樹(shù)中,實(shí)體對(duì)通常以名詞短語(yǔ)的形式出現(xiàn),其間的依存路徑恰好包含了兩者之間的關(guān)系。

        Jia 等總結(jié)了中文三元組中常見(jiàn)的句法結(jié)構(gòu),包括主語(yǔ)-謂語(yǔ)、謂語(yǔ)-賓語(yǔ)、介詞-賓語(yǔ)、并列、修飾等,并將以上結(jié)構(gòu)映射到句法依存樹(shù)中,得到一系列三元組抽取模板。從句法分析的角度講,抽取模板可視作詞語(yǔ)、詞性標(biāo)簽、依存路徑的組合,且可大致被分為三類:修飾、動(dòng)詞以及并列關(guān)系模板,如表1 所示。每類模板可根據(jù)具體場(chǎng)景擴(kuò)充。

        表1 DSNF 開(kāi)放域三元組抽取模板

        修飾類模板主要關(guān)注語(yǔ)境中對(duì)實(shí)體對(duì)的修飾元素,并將句法依存關(guān)系中的支配詞(head word)作為實(shí)體,從修飾詞(attributive word)中抽取關(guān)系。在實(shí)際應(yīng)用中,構(gòu)成修飾詞的范圍很廣,包括專有名詞、形容詞、數(shù)詞等。修飾詞和支配詞之間的句法關(guān)系標(biāo)簽通常為ATT或RAD。例如,在句子“工會(huì)主席張三對(duì)退休老干部進(jìn)行了慰問(wèn)”中,“工會(huì)”和“主席”都是支配詞“張三”的修飾詞。同時(shí),“主席”同樣表達(dá)了實(shí)體“工會(huì)”和“張三”之間的語(yǔ)義關(guān)系。基于此,DSNF 可從中抽取到關(guān)系三元組(工會(huì),主席,張三)。值得注意的是,支配詞可能擁有多層次的修飾詞,但從實(shí)際考慮,DSNF 僅考慮2-3 個(gè)修飾詞構(gòu)成的關(guān)系,如表1 中模板1 所示。

        動(dòng)詞類模板重點(diǎn)關(guān)注實(shí)體對(duì)之間的謂詞短語(yǔ),并從中抽取關(guān)系。一般地,實(shí)體對(duì)中的兩個(gè)實(shí)體分別作為謂詞的主語(yǔ)和賓語(yǔ),其與謂詞之間的句法關(guān)系標(biāo)簽分別為SBV 和VOB,如表1 中模板2 所示。以句子“養(yǎng)老保險(xiǎn)公司開(kāi)展養(yǎng)老保障管理業(yè)務(wù)”為例,其中“養(yǎng)老保險(xiǎn)公司”作為句子主語(yǔ)依存于謂語(yǔ)“開(kāi)展”,“業(yè)務(wù)”則為賓語(yǔ)。因此,DSNF 將從中抽取到三元組(養(yǎng)老保險(xiǎn)公司,開(kāi)展,業(yè)務(wù))。而在實(shí)際應(yīng)用中,實(shí)體與謂詞之間的關(guān)系通常會(huì)有多種變體。例如,賓語(yǔ)可能不出現(xiàn)在謂詞后面,而是以介賓短語(yǔ)的形式在謂詞之前修飾謂詞。此時(shí),介詞與謂詞之間的句法關(guān)系標(biāo)簽為ADV,而作為賓語(yǔ)的實(shí)體則以POB 標(biāo)簽依賴于介詞,如表1 中模板3 所示。例如,在句子“中國(guó)保監(jiān)會(huì)對(duì)養(yǎng)老保險(xiǎn)公司經(jīng)營(yíng)行為進(jìn)行規(guī)范”中,“中國(guó)保監(jiān)會(huì)”作為句子主語(yǔ)直接依存于謂語(yǔ)“進(jìn)行”,其句法標(biāo)簽為SBV。同時(shí),“經(jīng)營(yíng)行為”則以句法標(biāo)簽POB 依賴于謂語(yǔ),作為前置賓語(yǔ)。因此,模型應(yīng)抽取三元組(中國(guó)保監(jiān)會(huì),進(jìn)行規(guī)范,經(jīng)營(yíng)行為)。同理,介賓關(guān)系同樣可以位于謂詞短語(yǔ)后面,如表1 中模板4 所示。對(duì)于句子“養(yǎng)老保險(xiǎn)的滯納金列支于自有資金中”而言,其主語(yǔ)為“滯納金”,而賓語(yǔ)“資金”則通過(guò)介詞“于”以標(biāo)簽POB 依賴于謂語(yǔ)“列支”。因此,DSNF 將抽取三元組(滯納金,列支于,資金)。

        并列類模板的目的是找到在句法樹(shù)中地位平等的實(shí)體活動(dòng)詞短語(yǔ),稱之為并列關(guān)系,而其中一個(gè)所擁有的關(guān)系三元組,理應(yīng)同樣適用于另一個(gè),即二者可互換。實(shí)體的并列關(guān)系在中文中通常會(huì)通過(guò)逗號(hào)或連詞來(lái)表示。在句法分析中,連詞會(huì)以標(biāo)簽LAD 依賴于其中一個(gè)實(shí)體,同時(shí)該實(shí)體以標(biāo)簽COO 依賴于另一個(gè)實(shí)體,如表1 中模板5 和6 所示。例如,DSNF 可以基于模板2 從句子“勞動(dòng)和社會(huì)保障部、財(cái)政部和司法部印發(fā)了《通知》”中抽取到三元組(司法部,印發(fā),通知);而“勞動(dòng)和社會(huì)保障部”、“財(cái)政部”均與“司法部”呈并列關(guān)系,即在句法樹(shù)中以標(biāo)簽COO 依賴于“司法部”,因此DSNF 同樣可以抽取到三元組(勞動(dòng)和社會(huì)保障部,印發(fā),通知)和(財(cái)政部,印發(fā),通知)。類似地,動(dòng)詞的并列關(guān)系主要用于描述同一個(gè)實(shí)體實(shí)施的不同動(dòng)作,在句子中通常并列分布,如表1 中模板7 所示。例如句子“由養(yǎng)老保險(xiǎn)公司建立個(gè)人賬戶,并核算應(yīng)繳費(fèi)用”,根據(jù)模板2 可從中抽取三元組(養(yǎng)老保險(xiǎn)公司,建立,個(gè)人賬戶)。同時(shí),“核算”與“建立”在句法分析中呈并列關(guān)系,因此同樣可以抽取到三元組(養(yǎng)老保險(xiǎn)公司,核算,費(fèi)用)。

        2.1.2 補(bǔ)齊實(shí)體修飾詞

        在實(shí)際應(yīng)用中,DSNF 能夠較為準(zhǔn)確地抽取到文本中的關(guān)系三元組。然而,產(chǎn)業(yè)政策的語(yǔ)料中通常包含大量專有名詞,包括機(jī)構(gòu)名稱、政策標(biāo)題等。此類專有名詞一般由多個(gè)修飾詞和一個(gè)支配詞組成,因此很難在預(yù)處理中的分詞過(guò)程中完整保留下來(lái)。加之,專有名詞的種類繁多且不確定,因而無(wú)法通過(guò)給分詞模型添加用戶詞典的方式避免其被分割。這就會(huì)導(dǎo)致抽取到的政策實(shí)體丟失重要的定語(yǔ),即實(shí)體的修飾詞,從而造成民眾理解上的偏差和歧義。例如,對(duì)于句子“為了規(guī)范保險(xiǎn)公司養(yǎng)老保險(xiǎn)業(yè)務(wù)”,其分詞結(jié)果可表示為“為了/規(guī)范/保險(xiǎn)公司/養(yǎng)老/保險(xiǎn)/業(yè)務(wù)”,因而“業(yè)務(wù)”會(huì)被作為實(shí)體抽取出來(lái),而無(wú)法抽取到“養(yǎng)老保險(xiǎn)業(yè)務(wù)”。

        為解決以上問(wèn)題,本研究基于句法分析的結(jié)果對(duì)DSNF 抽取到的實(shí)體的定語(yǔ)進(jìn)行補(bǔ)充。具體地,本研究會(huì)同時(shí)返回句子中所有以ATT標(biāo)簽依賴于實(shí)體的詞語(yǔ),詞語(yǔ)的順序與原文中保持一致。仍以上文中的句子為例,句中詞語(yǔ)“養(yǎng)老”、“保險(xiǎn)”均依賴于DSNF 抽取到的實(shí)體“業(yè)務(wù)”,且句法分析標(biāo)簽為ATT,遂將“養(yǎng)老保險(xiǎn)業(yè)務(wù)”視為整體返回。

        2.2 三元組的表示和聚類

        從原始文本中抽取到的實(shí)體和關(guān)系過(guò)于分散,不適合直接用來(lái)構(gòu)建知識(shí)圖譜。即語(yǔ)義上相似或相同的實(shí)體和關(guān)系在不同的政策文本中可能具有不同的表達(dá)形式,直接將其加入到政策知識(shí)圖譜中會(huì)造成冗余,與知識(shí)圖譜精煉、易讀的特點(diǎn)相違背。因此,本研究利用三元組的表示和聚類模型對(duì)原始文本中的三元組進(jìn)行歸并。

        2.2.1 政策三元組的模式化設(shè)定

        在對(duì)原始政策三元組進(jìn)行表示和歸并前,本研究針對(duì)產(chǎn)業(yè)政策的特點(diǎn),為政策實(shí)體和關(guān)系從語(yǔ)義層面設(shè)定模板。對(duì)于模板以外的三元組,本研究認(rèn)為其與產(chǎn)業(yè)政策的聯(lián)系不緊,不予加入到產(chǎn)業(yè)政策知識(shí)圖譜中。具體如圖2所示。

        圖2 產(chǎn)業(yè)政策三元組模式化表示

        具體地,本研究定義了三種通用政策分析的實(shí)體類型,包括部門(mén)、政策、群體。同時(shí),考慮到民眾需要通過(guò)了解產(chǎn)業(yè)政策內(nèi)容來(lái)明確自身的辦事需求,本研究針對(duì)產(chǎn)業(yè)政策特點(diǎn)以及民眾潛在的辦事需求另外定義了兩個(gè)實(shí)體類型,包括產(chǎn)業(yè)福利、個(gè)人所有物。具體如下:

        部門(mén):指與產(chǎn)業(yè)相關(guān)的各級(jí)政府部門(mén),如中共中央宣傳部、司法部、社保經(jīng)辦機(jī)構(gòu)等

        政策:指各級(jí)政府部門(mén)頒布的產(chǎn)業(yè)政策名稱,如通知、辦法、規(guī)定等;

        群體:指產(chǎn)業(yè)政策文本中涉及到的人員,如離休人員、城鎮(zhèn)職工、參保人員等;

        產(chǎn)業(yè)福利:指當(dāng)前產(chǎn)業(yè)能夠?yàn)槊癖妿?lái)的福利、權(quán)益,如養(yǎng)老金、補(bǔ)貼、保險(xiǎn)等;

        個(gè)人所有物:指民眾自身?yè)碛械臋?quán)利或資本,如工資、余額、個(gè)人賬戶等。

        在明確了實(shí)體類型后,本研究進(jìn)一步定義了各類實(shí)體之間的關(guān)系類型,具體如下:

        出臺(tái):指一類以部門(mén)為頭實(shí)體、政策為尾實(shí)體的關(guān)系,用于表示政策來(lái)源,如出臺(tái)、頒布、印發(fā)等;

        執(zhí)行:指一類以部門(mén)為頭實(shí)體、政策為尾實(shí)體的關(guān)系,用于表示政策去向,如執(zhí)行、遵照、利用等;

        發(fā)放:指一類以部門(mén)為頭實(shí)體、個(gè)人所有物或產(chǎn)業(yè)福利為尾實(shí)體的關(guān)系,用于表示個(gè)人所有物和產(chǎn)業(yè)福利的來(lái)源,如發(fā)放、下發(fā)、提供等;

        解除:指一類以部門(mén)為頭實(shí)體、個(gè)人所有物或產(chǎn)業(yè)福利為尾實(shí)體的關(guān)系,用于表示個(gè)人所有物和產(chǎn)業(yè)福利不再存在,如解除、取消、減免等;

        幫助:指一類以部門(mén)為頭實(shí)體、群體為尾實(shí)體的關(guān)系,用于表示政府部門(mén)為民眾完成的工作,如幫助、安置、安排等;

        咨詢:指一類以群體為頭實(shí)體、部門(mén)為尾實(shí)體的關(guān)系,用于表示民眾向政府部門(mén)表達(dá)辦事需求的過(guò)程,如咨詢、查詢、訪問(wèn)等;

        擁有:指一類以群體為頭實(shí)體、個(gè)人所有物為尾實(shí)體的關(guān)系,用于表示個(gè)人所有物的所屬關(guān)系,如擁有、享受、享有等;

        申請(qǐng):指一類以群體為頭實(shí)體、產(chǎn)業(yè)福利為尾實(shí)體的關(guān)系,用于表示民眾獲取產(chǎn)業(yè)福利的過(guò)程,如申請(qǐng)、繳納、參加等;

        領(lǐng)取:指一類以群體為頭實(shí)體、產(chǎn)業(yè)福利為尾實(shí)體的關(guān)系,用于表示民眾已經(jīng)獲取產(chǎn)業(yè)福利的狀態(tài),如領(lǐng)取、獲取、保有等;

        參照:指一類以政策為頭尾實(shí)體的關(guān)系,用于表示政策之間的引證關(guān)系,如參照、引用、包含等;

        涉及:指一類以政策為頭實(shí)體、產(chǎn)業(yè)福利為尾實(shí)體的關(guān)系,方便民眾了解產(chǎn)業(yè)福利的變動(dòng),如涉及、提及、提到等;

        符合:指一類以個(gè)人所有物為頭實(shí)體、政策為尾實(shí)體的關(guān)系,用于表示民眾的特定屬性與政策中的要求一致,如符合、滿足、達(dá)到等。

        2.2.2 基于TransP的三元組表示

        考慮到從產(chǎn)業(yè)政策文本中抽取到的實(shí)體和關(guān)系通常包含豐富的實(shí)際語(yǔ)義,且需要根據(jù)語(yǔ)義對(duì)三元組進(jìn)行歸并,本研究使用能夠編碼語(yǔ)義信息的表示模型TransP 為原始三元組生成嵌入向量[39]。

        具體符號(hào)記法如表2 所示。h,t,v分別表示三元組中的頭實(shí)體、尾實(shí)體、動(dòng)詞短語(yǔ)。相應(yīng)的加粗字母h,t,v代表對(duì)應(yīng)的向量。G表示正例三元組集合,G′表示負(fù)例三元組集合。

        表2 TransP 符號(hào)記法

        在以往的研究中,模型使用隨機(jī)向量作為實(shí)體和關(guān)系向量的初始值,這會(huì)導(dǎo)致語(yǔ)義信息的丟失。為緩解這一問(wèn)題,本研究使用預(yù)訓(xùn)練的中文詞向量作為實(shí)體和關(guān)系的初始向量。為了降低定語(yǔ)和副詞對(duì)表示向量的影響,對(duì)于實(shí)體,本研究?jī)H選擇其中的名詞性成分的詞向量作為其初始向量;對(duì)于關(guān)系,本研究?jī)H選擇其中的動(dòng)詞性成分的詞向量。例如,對(duì)于實(shí)體“養(yǎng)老保險(xiǎn)/n 公司/nt”而言,其分詞結(jié)果中均為名詞性結(jié)構(gòu),因此本研究使用“養(yǎng)老保險(xiǎn)”、“公司”的預(yù)訓(xùn)練詞向量的平均值作為該實(shí)體的初始表示向量;對(duì)于關(guān)系“列支/v 于/p”,“列支”的詞性為動(dòng)詞,“于”為介詞,因此本研究使用“列支”的預(yù)訓(xùn)練詞向量作為此關(guān)系的初始表示向量。

        2.2.3 基于BIRCH的三元組歸并

        由于DSNF 為開(kāi)放域三元組抽取模型,抽取到的政策實(shí)體、關(guān)系所屬類別數(shù)量較多,且難以事先確定,本研究基于所得嵌入向量v,利用層次聚類模型對(duì)原始三元組進(jìn)行歸并分組。在層次聚類模型中,平衡迭代削減層次聚類模型(Balanced Iterative Reducing and Clustering Using Hierarchies, BIRCH)有著較優(yōu)的時(shí)間復(fù)雜度,O(N),其中N為樣本數(shù)量[38]。考慮到從產(chǎn)業(yè)政策文本中抽取到的原始三元組數(shù)量龐大,本研究選擇BIRCH 作為層次聚類模型。

        BIRCH 通過(guò)構(gòu)建聚類特征樹(shù)(Clustering Feature Tree, CF Tree)實(shí)現(xiàn)只需要單次掃描數(shù)據(jù)集即可完成聚類,每棵CF Tree 則由若干聚類特征(Clustering Feature, CF)組成。

        在CF Tree 中,一個(gè)CF 是以三元組的形式定義的,記為(N,LS,SS)。其中N 代表了這個(gè)CF 中擁有的樣本點(diǎn)的數(shù)量;LS 代表了這個(gè)CF 中擁有的樣本點(diǎn)各特征維度的和向量;SS 代表了這個(gè)CF 中擁有的樣本點(diǎn)各特征維度的平方和。

        在此定義下,CF 滿足線性關(guān)系,即

        在此基礎(chǔ)上,BIRCH 將該性質(zhì)擴(kuò)展到了CF Tree 中,即對(duì)于每個(gè)父節(jié)點(diǎn)中的CF 節(jié)點(diǎn),它的三元組的值等于其所指向的所有子節(jié)點(diǎn)的三元組之和,如圖3 所示。由此,CF Tree 節(jié)點(diǎn)的更新效率將大幅提升。

        圖3 CF Tree 示意圖

        BIRCH 構(gòu)造CF Tree 的過(guò)程可大致分為以下四個(gè)步驟:

        ①?gòu)母?jié)點(diǎn)向下尋找和新樣本距離最近的葉子節(jié)點(diǎn)和葉子節(jié)點(diǎn)里最近的CF 節(jié)點(diǎn);

        ②如果新樣本加入后,這個(gè)CF 節(jié)點(diǎn)對(duì)應(yīng)的超球體半徑仍然滿足小于閾值T,則更新路徑上所有的CF 三元組,插入結(jié)束。否則轉(zhuǎn)入③;

        ③如果當(dāng)前葉子節(jié)點(diǎn)的CF 節(jié)點(diǎn)個(gè)數(shù)小于閾值L,則創(chuàng)建一個(gè)新的CF 節(jié)點(diǎn),放入新樣本,將新的CF 節(jié)點(diǎn)放入這個(gè)葉子節(jié)點(diǎn),更新路徑上所有的CF 三元組,插入結(jié)束。否則轉(zhuǎn)入④;

        ④將當(dāng)前葉子節(jié)點(diǎn)劃分為兩個(gè)新葉子節(jié)點(diǎn),選擇舊葉子節(jié)點(diǎn)中所有CF 元組里超球體距離最遠(yuǎn)的兩個(gè)CF 元組,分布作為兩個(gè)新葉子節(jié)點(diǎn)的第一個(gè)CF 節(jié)點(diǎn)。將其他元組和新樣本元組按照距離遠(yuǎn)近原則放入對(duì)應(yīng)的葉子節(jié)點(diǎn)。依次向上檢查父節(jié)點(diǎn)是否也要分裂,如果需要按和葉子節(jié)點(diǎn)分裂方式相同。

        在將所有樣本建立成為CF Tree 后,BIRCH 對(duì)應(yīng)的輸出就是若干個(gè)CF 節(jié)點(diǎn),并將每個(gè)節(jié)點(diǎn)里的樣本點(diǎn)視作一個(gè)聚類的簇。

        3 產(chǎn)業(yè)政策知識(shí)圖譜的展示

        3.1 數(shù)據(jù)收集

        當(dāng)前,本研究從北大法寶收集了養(yǎng)老產(chǎn)業(yè)政策文本共計(jì)12854 條,其中包括中央政策1422 條,各地方政策共計(jì)11432 條。本數(shù)據(jù)集包含的政策文本數(shù)量較大,質(zhì)量較高,具有一定的權(quán)威性;另一方面,數(shù)據(jù)集中的政策涉及的區(qū)域范圍廣(涵蓋我國(guó)大部分省市、各大城市的地方性政策),部門(mén)層次結(jié)構(gòu)深(包括黨中央國(guó)務(wù)院至地方區(qū)級(jí)政府政策),時(shí)間跨度大(1980-2021 年),有利于在在后續(xù)的研究工作中對(duì)政策知識(shí)圖譜進(jìn)行對(duì)齊和演化分析。此外,本研究調(diào)用了Jieba 自然語(yǔ)言處理工具對(duì)數(shù)據(jù)集進(jìn)行了統(tǒng)計(jì)分析。收集到的政策文本平均包含718.13 個(gè)詞語(yǔ),37.89 個(gè)句子,每個(gè)句子的平均長(zhǎng)度為17.32 個(gè)詞。

        表3 養(yǎng)老產(chǎn)業(yè)政策數(shù)據(jù)集統(tǒng)計(jì)量

        3.2 三元組抽取評(píng)測(cè)

        為驗(yàn)證DSNF 配合實(shí)體修飾詞補(bǔ)齊方法的抽取效果,本研究從養(yǎng)老產(chǎn)業(yè)政策文本數(shù)據(jù)集中隨機(jī)抽取了400 余條政策文本,請(qǐng)專家從中手動(dòng)標(biāo)注政策三元組,并以其作為標(biāo)準(zhǔn)抽取結(jié)果與本研究所使用模型的抽取結(jié)果進(jìn)行比對(duì)。所使用的評(píng)價(jià)指標(biāo)包括查準(zhǔn)率(precision, P)、查全率(recall, R)、F1 值,具體定義如下。

        其中TP為真正例數(shù),F(xiàn)P為假正例數(shù),F(xiàn)N為假負(fù)例數(shù)。直觀上,查準(zhǔn)率反映了抽取到的三元組中正確的三元組所占比例,查全率反映了政策文本中被正確抽取出的三元組所占的比例,F(xiàn)1 值兼顧了二者的考慮。

        基于此,本研究對(duì)抽取結(jié)果進(jìn)行評(píng)估,結(jié)果如表4 所示。從中可以看出,本研究所使用的模型能夠較為準(zhǔn)確、全面地從政策文本中抽取到三元組,從而為產(chǎn)業(yè)政策知識(shí)圖譜輸送有價(jià)值的信息。

        表4 三元組抽取評(píng)測(cè)結(jié)果

        3.3 基于Neo4j的產(chǎn)業(yè)政策知識(shí)圖譜展示

        對(duì)于收集到的養(yǎng)老產(chǎn)業(yè)政策文本,本研究基于提出的政策知識(shí)圖譜構(gòu)建框架,從中抽取關(guān)系三元組,并對(duì)其進(jìn)行表示和歸并,從而得到產(chǎn)業(yè)政策知識(shí)圖譜。考慮到圖數(shù)據(jù)庫(kù)Neo4j具有較強(qiáng)的可擴(kuò)展性和查詢性能,能夠在存儲(chǔ)數(shù)十億個(gè)實(shí)體和數(shù)萬(wàn)億個(gè)關(guān)系的同時(shí)保證毫秒級(jí)查詢響應(yīng)時(shí)間,本研究將構(gòu)建的知識(shí)圖譜導(dǎo)入到Neo4j 中,利用其中的可視化和檢索功能響應(yīng)用戶的需求。

        Neo4j 需要Java 環(huán)境下運(yùn)行,在使用前需要根據(jù)不同版本Neo4j 的說(shuō)明文檔,安裝對(duì)應(yīng)版本的Java 軟件開(kāi)發(fā)工具包JDK(Java Development Kit)。同時(shí),Neo4j 提供了Python 接口,本研究在Python 程序中調(diào)用py2neo 封裝包,從而實(shí)現(xiàn)Python 針對(duì)Neo4j 連接和操作。軟件具體的環(huán)境如表5 所示。

        表5 知識(shí)圖譜創(chuàng)建階段所使用軟件及其版本信息

        Neo4j 的數(shù)據(jù)庫(kù)操作語(yǔ)言為CQL(Cypher Query Language)。CQL 基 本 命 令 分 為 增、刪、改、查四類,對(duì)應(yīng)的關(guān)鍵詞是CREATE、DELETE、SET、MATCH。CQL 是一種用戶友好的圖數(shù)據(jù)庫(kù)查詢語(yǔ)言,僅需少量代碼,能夠?qū)崿F(xiàn)針對(duì)關(guān)系和實(shí)體及其屬性的高效查詢。

        Neo4j 中的數(shù)據(jù)類型包括實(shí)體和關(guān)系。在可視化界面中,實(shí)體由節(jié)點(diǎn)表示,通過(guò)顏色區(qū)分類型,同時(shí)也可以為實(shí)體賦予不同的屬性值;關(guān)系由連接節(jié)點(diǎn)的有向線段表示,不同關(guān)系的名稱不同。

        3.3.1 產(chǎn)業(yè)政策知識(shí)圖譜可視化

        根據(jù)三元組數(shù)據(jù)的特點(diǎn),在Neo4j 中建立2 種節(jié)點(diǎn),分別表示頭實(shí)體和尾實(shí)體,頭實(shí)體有11128 個(gè),尾實(shí)體有16821 個(gè);將2 種實(shí)體用6147 種關(guān)系進(jìn)行連接,關(guān)系總數(shù)是32501 個(gè)。

        產(chǎn)業(yè)政策知識(shí)圖譜的最終效果如圖4 所示。由于實(shí)體和關(guān)系的數(shù)量大,使用“MATCH p=()-->() RETURN p LIMIT 500”命令,可視化500 個(gè)關(guān)系和被它們聯(lián)系的實(shí)體。圖中綠色節(jié)點(diǎn)表示三元組中的頭實(shí)體,紅色節(jié)點(diǎn)表示尾實(shí)體,它們之間存在從頭實(shí)體出發(fā),指向尾實(shí)體的有向線段,表示關(guān)系。基于此,產(chǎn)業(yè)政策中的關(guān)鍵信息得以用一種結(jié)構(gòu)化的形式來(lái)表示,民眾或政府工作人員等用戶不必閱讀長(zhǎng)篇的政策文本即可快速了解。

        圖4 產(chǎn)業(yè)政策知識(shí)圖譜可視化效果

        3.3.2 產(chǎn)業(yè)政策知識(shí)圖譜檢索

        如上文所說(shuō),產(chǎn)業(yè)政策知識(shí)圖譜中包含大量的政策實(shí)體以及其間關(guān)系。且在實(shí)際應(yīng)用中,知識(shí)圖譜會(huì)根據(jù)各部門(mén)實(shí)時(shí)頒布的產(chǎn)業(yè)政策進(jìn)行完善和更新,圖譜體量會(huì)逐漸增大。因此,單獨(dú)利用可視化功能從圖譜中手動(dòng)查找目標(biāo)節(jié)點(diǎn)或關(guān)系意味著較高的人工成本和時(shí)間復(fù)雜度,而Neo4j 中的檢索功能恰可以響應(yīng)用戶的查詢請(qǐng)求。當(dāng)前知識(shí)圖譜由三元組作為基本單元構(gòu)成,因此可將用戶的查詢請(qǐng)求大致分為三類,分別是頭實(shí)體查詢、尾實(shí)體查詢和關(guān)系查詢,下面將結(jié)合現(xiàn)實(shí)生活中針對(duì)產(chǎn)業(yè)政策的信息需求舉例說(shuō)明。

        (1)針對(duì)頭實(shí)體的查詢

        在現(xiàn)實(shí)生活中,用戶通常需要查找和了解某一類政策實(shí)體。例如,“符合什么條件的人可以領(lǐng)取養(yǎng)老金?”。在這個(gè)問(wèn)句中,“符合什么條件的人”是頭實(shí)體,“養(yǎng)老金”是尾實(shí)體,“領(lǐng)取”是關(guān)系。在Neo4j中,利用“MATCH (m:Head)-[`領(lǐng)取`]->(n:Tail) where n.name = ‘養(yǎng)老金’ return m”語(yǔ)句進(jìn)行查詢,可視化結(jié)果如圖5 所示。從查詢的結(jié)果可以看出,“退休職工”、“年滿60 周歲未享受城鎮(zhèn)職工基本養(yǎng)老保險(xiǎn)待遇的農(nóng)村有戶籍的老年人”、“參加工作連續(xù)工齡包括繳費(fèi)年限滿10 年的人員”等可以領(lǐng)取養(yǎng)老金。

        圖5 針對(duì)頭實(shí)體查詢結(jié)果可視化圖

        (2)針對(duì)尾實(shí)體的查詢

        類似地,用戶感興趣的政策實(shí)體同樣可以作為三元組當(dāng)中的尾實(shí)體,例如“投保人應(yīng)填寫(xiě)什么文件?”。其中,“投保人”是頭實(shí)體,“什么文件”是尾實(shí)體,“應(yīng)填寫(xiě)”是關(guān)系。在Neo4j 中,利用“MATCH (m:Head)-[r:`應(yīng)填寫(xiě)`]->(n:Tail) where m.name = ‘投保人’ return n”語(yǔ)句進(jìn)行查詢,可視化結(jié)果如圖6 所示。從查詢的結(jié)果可以看出,投保人需要填寫(xiě)“合同”、“申請(qǐng)書(shū)”或者“變更合同申請(qǐng)書(shū)”。

        圖6 針對(duì)尾實(shí)體查詢結(jié)果可視化圖

        (3)針對(duì)關(guān)系的查詢

        此外,用戶有時(shí)也需要對(duì)實(shí)體之間的關(guān)系進(jìn)行查詢,以了解關(guān)鍵的政策措施。比如“養(yǎng)老機(jī)構(gòu)對(duì)老年人有哪些舉措?”。在這個(gè)問(wèn)句中,“養(yǎng)老機(jī)構(gòu)”是頭實(shí)體,“老年人”是尾實(shí)體,“有哪些舉措”是描述兩個(gè)實(shí)體的關(guān)系。在Neo4j中,利用“MATCH r=(m:Head)-->(n:Tail) where m.name = ‘養(yǎng)老機(jī)構(gòu)’ and n.name = ‘老年人’return r”語(yǔ)句進(jìn)行查詢,可視化結(jié)果如圖所示。查詢的結(jié)果如圖7 所示,從中可以看出,養(yǎng)老機(jī)構(gòu)與老年人之間有“提供生活照料服務(wù)”、“建立健康檔案”和“密切接觸照護(hù)”等關(guān)系。

        圖7 針對(duì)關(guān)系查詢結(jié)果可視化圖

        除了上述三個(gè)例子外,用戶可以根據(jù)自己的信息需求,編寫(xiě)對(duì)應(yīng)的CQL 語(yǔ)句,實(shí)現(xiàn)針對(duì)知識(shí)圖譜的查詢,并得到可視化的結(jié)果。

        3.4 產(chǎn)業(yè)政策問(wèn)答系統(tǒng)

        為了完成與用戶的交互,本研究為產(chǎn)業(yè)政策知識(shí)圖譜構(gòu)建了前端界面。同時(shí),本研究從用戶需求側(cè)出發(fā),開(kāi)發(fā)了基于知識(shí)圖譜的產(chǎn)業(yè)政策問(wèn)答系統(tǒng)。

        3.4.1 需求分析

        開(kāi)發(fā)產(chǎn)業(yè)政策問(wèn)答系統(tǒng)的出發(fā)點(diǎn)是更好地解決用戶的信息需求,包括政府公務(wù)人員、社會(huì)大眾和其他潛在群體,要解決的關(guān)鍵性問(wèn)題包括:1)實(shí)現(xiàn)關(guān)于產(chǎn)業(yè)政策信息的問(wèn)答功能;2)系統(tǒng)與用戶進(jìn)行友好和人性化的交互。

        考慮到微信的便利性和高用戶粘性,本研究將最終的系統(tǒng)發(fā)布在公眾號(hào)平臺(tái)。設(shè)計(jì)的用戶界面如圖8 所示,本智能問(wèn)答系統(tǒng)最終將基于公眾號(hào)平臺(tái)的消息對(duì)話接口,可以理解用戶以自然語(yǔ)言提出的問(wèn)句,捕捉文字背后的搜索意圖,然后自動(dòng)生成查詢語(yǔ)句來(lái)訪問(wèn)Neo4j 圖譜庫(kù),并最終將答案反饋給用戶。

        圖8 系統(tǒng)原型設(shè)計(jì)

        本系統(tǒng)的核心是問(wèn)答功能模塊,能夠理解簡(jiǎn)單的帶有詢問(wèn)意味的自然語(yǔ)言中的信息需求,并在此基礎(chǔ)上給出相應(yīng)的答案。從實(shí)現(xiàn)的角度來(lái)看,圖譜中保存的知識(shí)能夠保障問(wèn)答功能的實(shí)現(xiàn),使得系統(tǒng)能夠與用戶進(jìn)行一問(wèn)一答。

        3.4.2 系統(tǒng)整體框架設(shè)計(jì)

        本研究借助微信公眾號(hào)的消息對(duì)話接口實(shí)現(xiàn)智能問(wèn)答系統(tǒng),具體設(shè)計(jì)情況如圖9 所示。

        圖9 問(wèn)答系統(tǒng)的架構(gòu)圖

        為了連接公眾號(hào)的消息對(duì)話接口,本研究編寫(xiě)Web.py 框架,用于解析公眾號(hào)的輸入數(shù)據(jù)和產(chǎn)生輸出內(nèi)容。其中GET 函數(shù),用于實(shí)現(xiàn)云服務(wù)器對(duì)公眾號(hào)對(duì)話接口的連接請(qǐng)求;POST 函數(shù)可以調(diào)用問(wèn)答和檢索模塊。在解析到用戶的輸入問(wèn)句后,根據(jù)問(wèn)句的特點(diǎn),調(diào)用對(duì)應(yīng)的模塊,生成正確的輸出答案,將輸出上傳到公眾號(hào)對(duì)話框頁(yè)面。

        3.4.3 問(wèn)答功能模塊開(kāi)發(fā)

        基于政策知識(shí)圖譜庫(kù),實(shí)現(xiàn)問(wèn)答功能。問(wèn)答的步驟分為理解輸入語(yǔ)句和組織輸出語(yǔ)句兩個(gè)步驟。流程見(jiàn)圖10。

        圖10 問(wèn)答功能流程圖

        其中,理解輸入,需要分辨提問(wèn)的內(nèi)容是關(guān)于實(shí)體,還是對(duì)實(shí)體的屬性,或者是對(duì)實(shí)體之間的關(guān)系。而組織輸出語(yǔ)句,是在明確了詢問(wèn)的主體后,編寫(xiě)和運(yùn)行查詢其的CQL 語(yǔ)句,根據(jù)Neo4j 返回的結(jié)果,生成答案。為了使得答案便于人的理解,可對(duì)CQL 查詢到的結(jié)果進(jìn)行包裝[40]。

        問(wèn)答功能的軟件開(kāi)發(fā)環(huán)境如表6 所示。理解用戶的輸入主要利用字符串匹配算法實(shí)現(xiàn),需要利用pyahocorasick 封裝包,并通過(guò)++build tools 在C 語(yǔ)言編譯環(huán)境下運(yùn)行。實(shí)現(xiàn)輸出主要依靠Python 語(yǔ)言驅(qū)動(dòng)Neo4j 進(jìn)行查詢,調(diào)用py2neo 即可。

        表6 問(wèn)答功能開(kāi)發(fā)階段所使用軟件及其版本信息

        (1)理解輸入語(yǔ)句

        為了實(shí)現(xiàn)理解輸入語(yǔ)句的目的,首先針對(duì)知識(shí)圖譜庫(kù)的實(shí)體關(guān)系模型進(jìn)行分析,明確問(wèn)答范圍。問(wèn)題可以分為查詢頭實(shí)體、關(guān)系和尾實(shí)體三類。

        明確問(wèn)答范圍后,設(shè)計(jì)調(diào)用知識(shí)圖譜庫(kù)的CQL 語(yǔ)句模板。與問(wèn)題涉及的知識(shí)圖譜數(shù)據(jù)類型對(duì)應(yīng),CQL 語(yǔ)句模板分為三類,分別是:頭實(shí)體匹配語(yǔ)句、關(guān)系匹配語(yǔ)句和尾實(shí)體匹配語(yǔ)句。CQL 模板如表7 所示。

        表7 CQL 語(yǔ)句模板示例匯總表

        理解CQL 查詢語(yǔ)言后,剩下的理解輸入過(guò)程主要分為三個(gè)步驟:?jiǎn)柧浞诸惡虲QL 數(shù)據(jù)庫(kù)查詢語(yǔ)句生成。

        問(wèn)句分類是一個(gè)簡(jiǎn)單的字符串匹配問(wèn)題,依賴于提前建立好的不同類型問(wèn)句的匹配字典。按照人們說(shuō)話的習(xí)慣,本文建立了用于問(wèn)句分類的匹配字典,如表8 所示。一旦識(shí)別到問(wèn)句中有與某種類型的問(wèn)句匹配字典相同的字段時(shí),可以得到問(wèn)句為該類型的結(jié)論。

        表8 用于問(wèn)句分類的匹配字典匯總表

        完成問(wèn)句分類后,開(kāi)始生成CQL,需要從問(wèn)句中提純關(guān)鍵字段的信息,然后按照對(duì)應(yīng)問(wèn)句類型的CQL 模板,生成查詢語(yǔ)句。生成CQL的過(guò)程,是指把關(guān)鍵字段的數(shù)據(jù)組合到CQL 模板中,并從中提純關(guān)鍵字段,下面進(jìn)行詳細(xì)說(shuō)明。

        提純關(guān)鍵詞字段是基于AC 自動(dòng)機(jī)而實(shí)現(xiàn)(以下簡(jiǎn)稱AC)。關(guān)鍵詞字段包括頭實(shí)體、關(guān)系和尾實(shí)體,字符串?dāng)?shù)量龐大,利用AC 能夠縮短提取關(guān)鍵詞字段的時(shí)間。

        AC 的原理是利用字典樹(shù)的形式存儲(chǔ)字符串?dāng)?shù)據(jù),借鑒KMP 算法的思想,來(lái)判斷待匹配字符串是否為字典樹(shù)中存入字符串的子串。字典樹(shù)利用樹(shù)狀結(jié)構(gòu),除了根節(jié)點(diǎn)外,每一個(gè)子節(jié)點(diǎn)按順序逐個(gè)存儲(chǔ)字符串最小單元,所以某個(gè)節(jié)點(diǎn)對(duì)應(yīng)的字符串由從根節(jié)點(diǎn)到這個(gè)節(jié)點(diǎn)路徑中所有的字符串最小單元按順序組合而成。在向字典樹(shù)中存入新的字符串?dāng)?shù)據(jù)時(shí),要保證每一層的節(jié)點(diǎn)不出現(xiàn)重復(fù)。將KMP 算法利用于樹(shù)狀結(jié)構(gòu)則是指,當(dāng)在某一條路徑上匹配字符串失敗時(shí),首先應(yīng)當(dāng)從匹配失誤的前一個(gè)字符串開(kāi)始向前找到匹配路徑中的某個(gè)子串,這個(gè)子串與字典樹(shù)其它部分存在最大的相似之處,注意,這些相似之處節(jié)點(diǎn)比匹配路徑上的節(jié)點(diǎn)后存入字典樹(shù),然后下一次匹配的起點(diǎn),則是這個(gè)相似之處的節(jié)點(diǎn)的子節(jié)點(diǎn)。

        (2)組織輸出語(yǔ)句

        CQL 語(yǔ)言生成后,調(diào)用Graph.run 運(yùn)行CQL,得到針對(duì)問(wèn)題的查詢的結(jié)果。生成最終輸出的過(guò)程與生成CQL 的過(guò)程類似,需要把查詢結(jié)果組合到回復(fù)模板之中。最后,打印輸出加工后的回復(fù)模板。至此,問(wèn)答功能模塊得以實(shí)現(xiàn)。

        3.4.4 問(wèn)答系統(tǒng)界面搭建與展示

        問(wèn)答系統(tǒng)界面是溝通用戶和問(wèn)答功能模塊的媒介。為將開(kāi)發(fā)的問(wèn)答系統(tǒng)發(fā)布在微信公眾號(hào)平臺(tái)上,以便用戶查詢使用,本研究設(shè)置了公眾號(hào)的服務(wù)器地址URL 和令牌Token。URL由URL 云服務(wù)器外網(wǎng)IP 地址和問(wèn)答系統(tǒng)所在端口號(hào)組成。Token 是自己設(shè)置的一串字符,后期系統(tǒng)請(qǐng)求訪問(wèn)消息對(duì)話接口時(shí),提交的Token 要與此時(shí)在公眾號(hào)平臺(tái)配置的字符串一致。此外,本研究設(shè)計(jì)了Web.py 框架,使系統(tǒng)能夠接收用戶輸入的問(wèn)句,判斷問(wèn)句的類型,并調(diào)用問(wèn)答功能模塊,接收到功能模塊的返回信息,最終將返回語(yǔ)句發(fā)送到公眾號(hào)對(duì)話框界面。整個(gè)框架的流程如圖11 所示,本研究主要通過(guò)編寫(xiě)GET 方法和POST 方法實(shí)現(xiàn)以上功能。

        圖11 智能問(wèn)答系統(tǒng)程序流程圖

        (1)GET 方法

        為了訪問(wèn)公眾號(hào)接口,編寫(xiě)了GET 方法 ,它的主要功能是向公眾號(hào)平臺(tái)提交Token,此處的Token 要與之前在配置公眾號(hào)時(shí)輸入的字符串一致。正確的Token 可以證明系統(tǒng)是被該公眾號(hào)平臺(tái)認(rèn)證了的,可以訪問(wèn)到公眾號(hào)對(duì)話框中消息接收和回復(fù)接口的自主開(kāi)發(fā)程序。

        (2)POST 方法

        通過(guò)GET 方法成功連接對(duì)話接口后,系統(tǒng)編寫(xiě)了POST 方法,來(lái)實(shí)現(xiàn)對(duì)話功能。首先,POST 可以接收用戶在公眾號(hào)平臺(tái)對(duì)話的輸入數(shù)據(jù)。由于接口提供的輸入為XML 形式,所以需要先解析,得到純凈的消息文本。之后,POST方法根據(jù)問(wèn)句的類型,調(diào)用問(wèn)答功能模塊,查詢圖譜庫(kù)中對(duì)應(yīng)的記錄,生成回復(fù)文本。端口可以接收的輸出形式也是XML,所以需要進(jìn)一步把回復(fù)文本包裝成XML 格式,然后POST方法向消息對(duì)話接口傳送輸出數(shù)據(jù),回復(fù)的文本信息將出現(xiàn)在公眾號(hào)對(duì)話框中。

        系統(tǒng)開(kāi)發(fā)完成后,在云服務(wù)器上啟動(dòng)Neo4j圖數(shù)據(jù)庫(kù)和Web.py 之后即可在公眾號(hào)對(duì)話框使用產(chǎn)業(yè)政策信息的查詢服務(wù)。

        用戶可通過(guò)掃碼的方式進(jìn)入公眾號(hào)聊天界面,隨后輸入問(wèn)句就可以開(kāi)始以對(duì)話的形式對(duì)政策信息進(jìn)行查找。公眾號(hào)二維碼見(jiàn)圖12。數(shù)據(jù)庫(kù)系統(tǒng)能夠回復(fù)文本形式的咨詢。如果用戶發(fā)送的消息不屬于系統(tǒng)能識(shí)別的問(wèn)句的格式,系統(tǒng)會(huì)提示用戶輸入正確形式的語(yǔ)句,如圖12所示。

        圖12 問(wèn)答系統(tǒng)功能演示圖

        4 結(jié)論

        當(dāng)前我國(guó)各類產(chǎn)業(yè)經(jīng)濟(jì)在相應(yīng)政策環(huán)境的滋養(yǎng)下蓬勃發(fā)展,然而產(chǎn)業(yè)政策通常具有數(shù)量大、篇幅長(zhǎng)、易讀性差等特點(diǎn),不利于民眾、政府工作人員快速了解政策文本的主要內(nèi)容,從而降低政府部門(mén)的辦事效率。針對(duì)以上問(wèn)題,本研究提出了一套產(chǎn)業(yè)政策知識(shí)圖譜自動(dòng)化構(gòu)建框架,旨在梳理相關(guān)政策文本,方便民眾和政府工作人員閱讀。

        對(duì)于輸入的產(chǎn)業(yè)政策文本,本研究首先利用基于句法分析的開(kāi)放域三元組抽取模型DSNF 從中抽取政策實(shí)體和關(guān)系,并結(jié)合政務(wù)領(lǐng)域特點(diǎn)補(bǔ)齊了實(shí)體的修飾詞。該方法的優(yōu)勢(shì)在于充分考慮了中文的語(yǔ)法特點(diǎn),以及不需要大規(guī)模訓(xùn)練數(shù)據(jù)。隨后,考慮到原始三元組較為分散,本研究利用三元組表示模型TransP 和層次聚類模型BIRCH 對(duì)三元組進(jìn)行表示和歸并。其中,TransP 能夠?qū)⑷M所在語(yǔ)境包含的語(yǔ)義信息嵌入到表示向量中,而B(niǎo)IRCH 能夠在未知類別個(gè)數(shù)的前提下以較低的時(shí)間復(fù)雜度完成聚類。最后,本研究將三元組導(dǎo)入到圖數(shù)據(jù)庫(kù)Neo4j 中,并基于其可視化和檢索功能與用戶交互。

        當(dāng)前研究工作存在一定的局限性。具體地,本研究重點(diǎn)關(guān)注從非結(jié)構(gòu)化的產(chǎn)業(yè)政策文本中抽取政策實(shí)體以及其間關(guān)系,并基于此構(gòu)建產(chǎn)業(yè)政策知識(shí)圖譜。以后的工作將利用當(dāng)前產(chǎn)業(yè)政策知識(shí)圖譜中的關(guān)系進(jìn)行推理分析,發(fā)掘隱式的關(guān)系并對(duì)現(xiàn)有的三元組進(jìn)行糾錯(cuò),從而將更加完整準(zhǔn)確的知識(shí)圖譜呈現(xiàn)給用戶。此外,所搭建的政策知識(shí)圖譜還可用于政策分析。第一,本研究計(jì)劃利用知識(shí)圖譜對(duì)齊技術(shù)對(duì)比不同地區(qū)、部門(mén)頒布的產(chǎn)業(yè)政策,幫助民眾和政府工作人員了解其差異;第二,本研究將結(jié)合知識(shí)圖譜的演化分析模型對(duì)不同時(shí)期的產(chǎn)業(yè)政策進(jìn)行分析,方便民眾和政府工作人員了解產(chǎn)業(yè)政策動(dòng)向。

        猜你喜歡
        三元組產(chǎn)業(yè)政策圖譜
        基于語(yǔ)義增強(qiáng)雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
        我國(guó)衛(wèi)星應(yīng)用產(chǎn)業(yè)政策及分析
        繪一張成長(zhǎng)圖譜
        關(guān)于余撓三元組的periodic-模
        中國(guó)制造,產(chǎn)業(yè)政策引導(dǎo)產(chǎn)業(yè)健康發(fā)展
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        爭(zhēng)議產(chǎn)業(yè)政策
        產(chǎn)業(yè)政策:在前進(jìn)中反思,在反思中前進(jìn)
        主動(dòng)對(duì)接你思維的知識(shí)圖譜
        国内免费AV网站在线观看| 2021国产精品久久| 成人国产一区二区三区精品不卡| 一本色道精品亚洲国产一区| 九九九免费观看视频| 国产高清在线精品一区二区三区| 国产啪精品视频网给免丝袜| 在线视频一区二区三区中文字幕| 日韩亚洲一区二区三区四区| 伊人久久大香线蕉av不卡| 国产99r视频精品免费观看| 亚洲国产精品免费一区| 日本高清一区二区三区在线| 婷婷久久国产综合精品| 五十路丰满中年熟女中出| 无码午夜剧场| 亚洲女同高清精品一区二区99| 亚洲av无码乱码国产麻豆| 人妻av中文字幕无码专区| 亚洲精品中文字幕观看| 91国产精品自拍视频| 人人鲁人人莫人人爱精品| 精品久久久久久中文字幕大豆网| 无码高清视频在线播放十区 | 日本一区二区三区综合视频| 日本丰满熟妇videossexhd| 欧美真人性做爰一二区| 无码天堂在线视频| 亚洲美女毛多水多免费视频 | 亚洲av中文无码字幕色三| 国产成人精品男人的天堂网站| 国产精品性色av麻豆| 国产男女猛烈无遮挡免费网站| 欧洲一卡2卡三卡4卡免费网站| 欧洲熟妇乱xxxxx大屁股7| 国产激情视频在线观看首页| 日韩激情av不卡在线| 国产精品久久久久一区二区三区| 伊在人天堂亚洲香蕉精品区| 国产福利酱国产一区二区| 久久精品伊人久久精品伊人|