亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于句法規(guī)則的文本挖掘技術(shù)的設(shè)計

2016-02-15 07:07:19寧琳

現(xiàn)代情報 2016年2期

關(guān)鍵詞：分詞句法規(guī)則

寧琳

（重慶交通大學(xué)圖書館，重慶400074）

一種基于句法規(guī)則的文本挖掘技術(shù)的設(shè)計

寧琳

（重慶交通大學(xué)圖書館，重慶400074）

文本挖掘是數(shù)據(jù)挖掘技術(shù)的一個重要方面，本文根據(jù)句法規(guī)則的特征，利用文本挖掘技術(shù)，提出基于句法規(guī)則的文本知識挖掘設(shè)計模型，從數(shù)據(jù)準(zhǔn)備、句法規(guī)則構(gòu)造、文本預(yù)處理、文本知識挖掘、挖掘結(jié)果評價等方面對工作原理進(jìn)行了分析，重點(diǎn)闡述了句法規(guī)則的構(gòu)造過程，最后通過實驗驗證了該模型，該設(shè)計對實現(xiàn)文本知識的智能化挖掘具有一定的研究意義和應(yīng)用價值。

文本挖掘；句法規(guī)則；模式匹配；文本預(yù)處理

隨著信息技術(shù)、網(wǎng)絡(luò)技術(shù)和各種數(shù)字化資源的建設(shè)，人們正面臨著海量、快速增長的文本數(shù)據(jù)資源，傳統(tǒng)的搜索引擎和查找技術(shù)已遠(yuǎn)遠(yuǎn)不能滿足人們的需求。如何從大量原始的、未經(jīng)處理的文本數(shù)據(jù)集合中挖掘出潛在未知的知識，滿足人們獲取各種信息和知識的需要，已成為一個重要的研究課題。

1 文本挖掘及句法規(guī)則概述

文本挖掘（Text Mining，TM）是在數(shù)據(jù)挖掘的基礎(chǔ)上發(fā)展起來的一個分支，它以文本數(shù)據(jù)作為挖掘?qū)ο螅饕蝿?wù)是對隱藏于海量文本中沒有檢測到的非結(jié)構(gòu)化知識進(jìn)行提取的過程［1］。文本挖掘處理的對象是由多數(shù)據(jù)源組成的大量文本文檔，包括新聞文章、研究論文、書籍期刊、報告會議、檔案文獻(xiàn)、Internet網(wǎng)絡(luò)信息等半結(jié)構(gòu)化或者高度非結(jié)構(gòu)化的數(shù)據(jù)［2］。

漢語句子的結(jié)構(gòu)非常自由，但其蘊(yùn)含的基本規(guī)則相對穩(wěn)定，句法規(guī)則是從漢語本身的屬性特點(diǎn)出發(fā)，將構(gòu)成句子的詞或詞組按一定的語法關(guān)系和句子結(jié)構(gòu)，組合成能夠表達(dá)完整意思的規(guī)則［3］，如詞語的分類、句式結(jié)構(gòu)的確定、句法描述體系和句法構(gòu)成元素的建立等，它是對句子結(jié)構(gòu)的抽象概括，通過組合和聚合關(guān)系造出無數(shù)合格的句子，是對句子分析的一種總結(jié)結(jié)果。

2 基于句法規(guī)則的文本知識挖掘技術(shù)的分析與設(shè)計

本文采用句法規(guī)則構(gòu)造實現(xiàn)文本知識挖掘，主要設(shè)計如下：首先，根據(jù)知識的表示和用戶的不同需求，構(gòu)造出能全面準(zhǔn)確表達(dá)文本內(nèi)容的句法規(guī)則；其次，針對多源文本數(shù)據(jù)的特點(diǎn)和存在的問題進(jìn)行預(yù)處理操作，為核心挖掘提供干凈、準(zhǔn)確、簡潔的目標(biāo)數(shù)據(jù)；再次，基于模式匹配算法，執(zhí)行句法規(guī)則與目標(biāo)文本數(shù)據(jù)的匹配，得出滿足句法規(guī)則條件的挖掘結(jié)果；最后，通過一定的指標(biāo)對挖掘結(jié)果進(jìn)行評價，將滿足用戶需求的知識可視化表達(dá)到用戶界面，供其選擇和使用，具體過程如圖1所示：

圖1 基于句法規(guī)則的文本知識挖掘設(shè)計

2.1 數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)準(zhǔn)備主要是多源文本數(shù)據(jù)的獲取，它通過多種數(shù)據(jù)源獲取用于文本知識挖掘的數(shù)據(jù)，并存儲在本地硬盤中［4］。文本數(shù)據(jù)的獲取有多種途徑，主要來源是Internet網(wǎng)絡(luò)信息、研究成果、各種專題數(shù)據(jù)，以及其他文獻(xiàn)資料。選擇文本數(shù)據(jù)的數(shù)據(jù)源需要遵循以下原則：一是能為對象提供詳細(xì)、準(zhǔn)確數(shù)據(jù)；二是要考慮數(shù)據(jù)的可整合性、可挖掘性和現(xiàn)勢性。文本知識的挖掘是一種基于句法規(guī)則的集中式挖掘，務(wù)必要求多源文本數(shù)據(jù)在結(jié)構(gòu)上能夠整合到同一平臺框架下，并且保持一定的現(xiàn)勢性，從而簡化挖掘操作，提高知識獲取的準(zhǔn)確度。

2.2 句法規(guī)則構(gòu)造

句法規(guī)則構(gòu)造是根據(jù)知識的表示方法和漢語的句法組成結(jié)構(gòu)，通過對表達(dá)語料庫的的詳細(xì)分析，將知識規(guī)則化，為核心挖掘提供模式匹配的基礎(chǔ)條件。它主要分為3個層次：模板元素、句法規(guī)則、規(guī)則庫。建立用于構(gòu)造句法規(guī)則和約束文本分詞、詞性標(biāo)注的模板元素，構(gòu)造出用于模式匹配的句法規(guī)則，構(gòu)建相應(yīng)的規(guī)則樹。從模板元素建立到句法規(guī)則構(gòu)造，再到規(guī)則庫的構(gòu)建帶有明顯的層次性和結(jié)構(gòu)性。

句法規(guī)則構(gòu)造過程分為以下幾步：一是收集并提煉出資料中的模板元素并建立相應(yīng)的模板元素庫；二是根據(jù)語法要求和句法結(jié)構(gòu)將模板元素組合成句法規(guī)則；三是把句法規(guī)則存放入規(guī)則庫。

2.2.1 句法規(guī)則的模板元素

模板元素是用戶作為約束文本預(yù)處理結(jié)果的一種擴(kuò)充詞典，各個模板元素之間相互作用、相互影響構(gòu)成了表達(dá)文本內(nèi)容的句法規(guī)則。在這里借鑒漢語句法結(jié)構(gòu)組成和本體概念的構(gòu)建方法，將構(gòu)成規(guī)則的每個〈詞語〉抽象為詞性，每種詞性下面包含了能夠反映該詞性性質(zhì)的元素，稱為模板元素，規(guī)則中的每個模板元素都是該事件的參與者，一個句法規(guī)則看作是一個句子的語義的某種抽象化表示［5］，用模板元素表示該句子的語義，具體表示為：

〈模板元素1〉＋〈模板元素2〉＋〈模板元素3〉＋…＋〈模板元素n〉（1）

從式（1）可以看出，多個模板元素根據(jù)漢語句子的語法要求和句法結(jié)構(gòu)組合，即可構(gòu)成能夠表示特定文本知識的規(guī)則，我們稱這種表示知識的規(guī)則為句法規(guī)則。因此，本文的句法規(guī)則是以模板元素為基本單位，根據(jù)人們表達(dá)習(xí)慣將多個模板元素按照語法關(guān)系組合成能夠表達(dá)知識的句子。模板元素作為句法規(guī)則的組成，是一種類似本體的表達(dá)類型，可表示為屬性（內(nèi)容1，內(nèi)容2，…，內(nèi)容n），其中屬性抽象為能夠表達(dá)該領(lǐng)域知識的任意一種詞性，如“詞性：名詞”，內(nèi)容則表示該模板元素范圍內(nèi)包含的所有詞的集合。

本文在采用中科院ICTCLAS分詞系統(tǒng)漢語詞性標(biāo)記統(tǒng)計的基礎(chǔ)上，提出了多個屬性類別選項以描述模板元素，具體如表1所示：

表1 詞類標(biāo)注表

然后，對各詞類內(nèi)容進(jìn)行具體劃分，如以謂詞表為例：

表2 謂詞表

2.2.2 句法規(guī)則構(gòu)造

句法規(guī)則是模式匹配的邏輯核心，是知識表示內(nèi)容的形式化概要，起到把要挖掘的知識內(nèi)容類型化和結(jié)構(gòu)化的作用。一條句法規(guī)則通常指出模板元素之間的關(guān)系，當(dāng)句法規(guī)則與目標(biāo)文本進(jìn)行匹配時，必須合理約束各模板元素之間的語法關(guān)系和句法結(jié)構(gòu)，嚴(yán)格按照每個模板元素在句法規(guī)則中的出現(xiàn)順序?qū)ζ溥M(jìn)行匹配［4］。例如：北京是中國的首都，與天津市相鄰，它的句法化表達(dá)為：〈主語〉＋〈謂詞〉＋〈地名〉，〈連詞〉＋〈地名〉＋〈謂詞〉，它的句法規(guī)則為：n/v/ns/f/w2/cc/ns/v。

2.2.3 規(guī)則庫

規(guī)則庫是用戶需求與目標(biāo)文本之間進(jìn)行問題求解的基礎(chǔ)，用于描述相應(yīng)領(lǐng)域內(nèi)知識概要的產(chǎn)生式集合［6］，它包含了所有能反應(yīng)和表達(dá)實體文本知識的方法和表現(xiàn)形式，能夠為用戶提供不同的抽象描述，形成不同的推理鏈，得出不同的挖掘結(jié)果。本文規(guī)則庫采用規(guī)則樹結(jié)構(gòu)存儲，如圖2所示：

圖2 規(guī)則樹的建立

圖2 中，規(guī)則庫作為樹的根結(jié)點(diǎn)，共包含24個子結(jié)點(diǎn)，分別代表本文構(gòu)造的24條句法規(guī)則。按照結(jié)點(diǎn)所在層次由高到低分別定義為一級、二級、三級和四級規(guī)則。該規(guī)則樹構(gòu)建的基本策略是：

（1）將所有的句法規(guī)則置于一個集合中，即規(guī)則庫作為規(guī)則樹的根結(jié)點(diǎn)；

（2）根據(jù)句法規(guī)則的組成結(jié)構(gòu)對其進(jìn)行劃分，將相互獨(dú)立并且不被包含的句法規(guī)則按編號順序（從A到X）依次作為第二層的子結(jié)點(diǎn)，定義為一級規(guī)則；

（3）將其余句法規(guī)則根據(jù)包含與被包含的關(guān)系，依次劃分到相應(yīng)子結(jié)點(diǎn)下面，并分別定義為二級、三級和四級規(guī)則。

采用以上樹結(jié)構(gòu)存儲句法規(guī)則，結(jié)構(gòu)清晰，便于執(zhí)行與目標(biāo)文本的匹配，減少部分句法規(guī)則與目標(biāo)文本之間不必要的匹配。

2.3 文本預(yù)處理

文本預(yù)處理是文本挖掘的基礎(chǔ)，主要對目標(biāo)對象的多源文本數(shù)據(jù)進(jìn)行操作，將多數(shù)據(jù)源中獲取的文本數(shù)據(jù)進(jìn)行處理，為下一步的文本知識挖掘提供比較“滿意”的目標(biāo)數(shù)據(jù)。預(yù)處理主要包括文本快速整合、文本分詞和詞性標(biāo)注、目標(biāo)文本存儲等，本文采用中科院的開源ICTCLAS分詞系統(tǒng)對文本進(jìn)行分詞和詞性標(biāo)注。

文本預(yù)處理主要分為3個步驟：

（1）多源文本數(shù)據(jù)快速整合。將目標(biāo)對象的多源文本數(shù)據(jù)集成到同一文本文檔中。

（2）中文分詞和詞性標(biāo)注。將經(jīng)過整合的目標(biāo)對象文本數(shù)據(jù)分詞、標(biāo)注詞性。

（3）目標(biāo)文本存儲。將目標(biāo)文本以段為單位編碼并索引標(biāo)記，建立兩個二維表分開存儲目標(biāo)文本分詞結(jié)果和目標(biāo)文本詞性標(biāo)注結(jié)果。例如，對于預(yù)處理之后的目標(biāo)文本：南京/n位于/v江蘇省/ns中部/f，我們采用表3和表4所示存儲：

表3 目標(biāo)文本分詞

表4 目標(biāo)文本詞性

2.4 文本知識挖掘

文本預(yù)處理完成以后，即可進(jìn)行文本挖掘操作。文本知識挖掘是采用模式匹配算法，將規(guī)則庫中的句法規(guī)則和目標(biāo)文本執(zhí)行精確匹配，得出符合規(guī)則條件的文本結(jié)果，并將其保存。它的主要任務(wù)是通過各種算法挖掘出用戶需要的信息，主要包括特征提取、文本分類、文本聚類、文本提取、關(guān)聯(lián)分析等［7］。本文采用KMP（Knuth－Morris－Pratt）算法進(jìn)行模式匹配，基本思想是：當(dāng)匹配過程中出現(xiàn)字符比較不相等時，模式串利用已經(jīng)得到的“部分匹配”結(jié)果將模式串向右“滑動”，重新開始下一趟的匹配。例如對于主串“acabaabaabcac”，模式串“abaabcac”，利用KMP算法進(jìn)行匹配的過程如下：

表5 KMP算法匹配的過程

具體挖掘流程如圖3：

圖3 基于句法規(guī)則的文本知識挖掘流程

基于句法規(guī)則的模式匹配的執(zhí)行步驟為：

（1）讀取句法規(guī)則庫，輸入目標(biāo)文本詞性和目標(biāo)文本分詞，啟動基于句法規(guī)則的模式匹配。

（2）對規(guī)則庫中的句法規(guī)則按照由高到低級別依次和所有編碼的目標(biāo)文本詞性執(zhí)行匹配。采用匹配算法遍歷目標(biāo)文本詞性執(zhí)行精確匹配，直到所有句法規(guī)則與目標(biāo)文本詞性執(zhí)行完匹配，輸出所有句法規(guī)則匹配結(jié)果。若無句法規(guī)則匹配結(jié)果，則匹配失敗，結(jié)束整個模式匹配。

（3）將所有句法規(guī)則匹配結(jié)果轉(zhuǎn)換為對應(yīng)文本字符。根據(jù)二維表編碼關(guān)聯(lián)返回到對應(yīng)目標(biāo)文本分詞中，根據(jù)索引標(biāo)記將句法規(guī)則匹配結(jié)果轉(zhuǎn)換成相對應(yīng)的文本字符，該文本字符即為文本知識挖掘結(jié)果。

（4）輸出所有基于句法規(guī)則的挖掘結(jié)果，匹配結(jié)束。

2.5 挖掘結(jié)果評價和知識表達(dá)

評價是指通過一定的評價標(biāo)準(zhǔn)對挖掘結(jié)果進(jìn)行評估，把符合條件的結(jié)果返回到可視化模塊。知識表達(dá)是將評價后的結(jié)果表達(dá)到用戶界面，供用戶選擇使用，最終經(jīng)過可視化表達(dá)的結(jié)果即為用戶期待已久的知識。文本挖掘質(zhì)量評估是對挖掘結(jié)果的整體衡量，若挖掘結(jié)果滿足評價指標(biāo)，則挖掘完成，否則重新挖掘。

3 實驗結(jié)果驗證

下面我們以鄭州市地理信息文本知識的挖掘為例，利用VisualStudio 2010作為開發(fā)平臺，介紹整個挖掘?qū)崿F(xiàn)過程。

3.1 數(shù)據(jù)選取

打開數(shù)據(jù)源接口，通過Internet搜索引擎選取30篇鄭州市地理信息數(shù)據(jù)，并保存到“F：＼鄭州市地理信息文本數(shù)據(jù)”中。

3.2 文本預(yù)處理

對以上選取的文本數(shù)據(jù)進(jìn)行預(yù)處理。在ICTCLAS分詞系統(tǒng)上進(jìn)行設(shè)置，通過選擇文本、添加用戶詞典、分詞并標(biāo)注詞性、結(jié)果保存，實現(xiàn)文本快速整合、分詞和詞性標(biāo)注。對預(yù)處理后的目標(biāo)文本設(shè)置過濾功能，將對應(yīng)的目標(biāo)文本分詞和目標(biāo)文本詞性以段為單位編碼同時用索引標(biāo)記，分開存儲。存儲結(jié)果如下圖所示：

圖4 目標(biāo)文本詞性

圖5 目標(biāo)文本分詞

3.3 文本知識挖掘

文本知識挖掘是在本文2.2句法規(guī)則構(gòu)造的基礎(chǔ)上進(jìn)行，主要分為3個過程：匹配條件提交、匹配實現(xiàn)和結(jié)果轉(zhuǎn)換。匹配條件提交指讀取規(guī)則庫、輸入目標(biāo)文本詞性和目標(biāo)文本分詞，匹配實現(xiàn)通過執(zhí)行模式匹配算法代碼來實現(xiàn)，結(jié)果轉(zhuǎn)換利用句法規(guī)則匹配結(jié)果的編碼和索引標(biāo)記將其轉(zhuǎn)換為對應(yīng)的目標(biāo)文本分詞字符，實現(xiàn)挖掘結(jié)果。挖掘結(jié)果分別如圖6所示：

圖6 文本知識挖掘

3.4 評價和表達(dá)

在完成文本知識挖掘以后，便對挖掘結(jié)果進(jìn)行評價，并按相對優(yōu)劣次序?qū)⒌乩砦恢梦谋局R可視化表達(dá)，并可導(dǎo)出為常用的EXCEL、WORD等文檔格式，如圖7所示：

圖7 挖掘結(jié)果與表達(dá)

通過以上實例可以看出，采用基于句法規(guī)則的文本挖掘方法，能夠為用戶在挖掘結(jié)果中得到比較滿意的信息，從而較好的達(dá)到設(shè)計的目的。

4 結(jié)束語

隨著文本數(shù)據(jù)資源的不斷增長，僅僅通過簡單的搜索引擎和數(shù)據(jù)篩選功能已經(jīng)無法滿足人們對信息和知識的需求，迫切需要高效率的信息分析方法。采用基于句法規(guī)則的文本知識挖掘設(shè)計方案，能夠從句法規(guī)則設(shè)計入手，利用現(xiàn)有文本挖掘技術(shù)，從眾多文本數(shù)據(jù)中快速地獲取用戶需求的知識，對實現(xiàn)文本知識智能化挖掘具有一定的借鑒意義。

［1］Antonis Spinakis．Text Mining A Powerful Tool for Knowledge Management［EB/OL］．http：∥www．quantos－stat．com/articles/Text-Mining．pdf，2010，（7）．

［2］張雯雯，許鑫．文本挖掘工具述評［J］．圖書情報工作，2012，（4）：26．

［3］楊暉．言語實踐中的句法認(rèn)知［J］．吉林師范大學(xué)學(xué)報：人文社會科學(xué)版，2007，（4）：64－66．

［4］馬紹龍．基于句法規(guī)則的地理位置文本知識挖掘［C］．鄭州：信息工程大學(xué)論文集，2014（4）：170－173．

［5］吳平．論元控制謂詞與非論元控制謂詞的邏輯語義分析與計算［J］．外語與外語教學(xué)，2006，17（3）：5－10．

［6］劉晨帆．基于規(guī)則引擎的軍事地理信息自定義查詢技術(shù)研究與實現(xiàn)［D］．鄭州：信息工程大學(xué)，2010：23．

［7］黃曉斌，趙超．文本挖掘在網(wǎng)絡(luò)輿情信息分析中的應(yīng)用［J］．情報科學(xué)，2009，（1）：96．

（本文責(zé)任編輯：孫國雷）

Text Mining Design Based on Syntactic Rules

Ning Lin
（Library，Chongqing Jiaotong University，Chongqing 400074，China）

Text mining is an important aspect of data mining technology．According to the features of syntactic rules，the paper uses the text mining technology，and puts forward the design model based on the syntactic rules text knowledge mining．It analyzes the working principles of the data preparation，the syntactic rules knowledge structure，the text preprocessing，the text mining and the evaluation of mining results．Meanwhile it expounds the process of the construction of the syntax rules．At last，the paper identifies the model after some physical experiments．All in all，the design has certain research significance and application value to implement the intelligent of the text knowledge mining．

text mining；syntactic rules；pattern matching；text pretreatment

10．3969/j．issn．1008－0821．2016．02．027

TP391

1008－0821（2016）02－0140－05

2015－11－05

寧琳（1979－），女，館員，碩士，研究方向：信息管理，發(fā)表論文10余篇。