遼河流域是我國七大流域之一,國家針對(duì)遼河流域的治理經(jīng)歷了漫長的過程,并得出了大量的技術(shù)成果。本文針對(duì)遼河流域水環(huán)境管理技術(shù)文檔的存儲(chǔ)現(xiàn)狀,設(shè)計(jì)了遼河流域水環(huán)境管理技術(shù)庫,并采用語義分析技術(shù)對(duì)庫內(nèi)的技術(shù)文檔進(jìn)行分析,實(shí)現(xiàn)了自動(dòng)提取知識(shí)規(guī)則,并將其存入知識(shí)規(guī)則庫。該方法提高了用戶對(duì)大量技術(shù)文檔的查閱效率和準(zhǔn)確率。
【關(guān)鍵詞】遼河流域 技術(shù)庫 語義分析 知識(shí)規(guī)則庫
我國水環(huán)境管理涉及各部委及各省、市、自治區(qū)相應(yīng)機(jī)構(gòu),基本上屬于分散型管理體制。鑒于我國的水環(huán)境特點(diǎn)和國情,加強(qiáng)對(duì)水環(huán)境有關(guān)方面的技術(shù)文檔的利用,建立一系列的數(shù)據(jù)庫表對(duì)其內(nèi)容進(jìn)行存儲(chǔ)辨析,以實(shí)現(xiàn)智能提取文檔內(nèi)容,提高文檔檢索效率,加速推進(jìn)水環(huán)境管理技術(shù)文檔的利用。針對(duì)遼河流域水環(huán)境管理現(xiàn)狀,本文提出了遼河流域水環(huán)境管理技術(shù)庫的構(gòu)建方法。
1 技術(shù)庫構(gòu)建方法研究
1.1 數(shù)據(jù)庫構(gòu)建技術(shù)
在系統(tǒng)的設(shè)計(jì)和開發(fā)過程中,數(shù)據(jù)庫是系統(tǒng)的核心和基礎(chǔ),把大量相關(guān)的數(shù)據(jù)存入系統(tǒng)所設(shè)計(jì)的數(shù)據(jù)庫中,可以按一定的模型組織起來,為這些數(shù)據(jù)的存儲(chǔ)、維護(hù)、檢索提供方便的操作,使系統(tǒng)可以方便、及時(shí)、準(zhǔn)確地從數(shù)據(jù)庫中獲得所需的信息。在數(shù)據(jù)庫構(gòu)建過程中,需要遵循以下基本原則:
(1)實(shí)現(xiàn)數(shù)據(jù)庫構(gòu)建的標(biāo)準(zhǔn)化和規(guī)范化。
(2)對(duì)表中參數(shù)使用統(tǒng)一命名規(guī)則,并添加清晰易懂注釋信息。
(3)使用自定義域定義出現(xiàn)頻率高的字段,有利于調(diào)整和修改。
(4)設(shè)置常用的隱藏字段來滿足特殊需要, 使數(shù)據(jù)庫表的設(shè)計(jì)更加符合系統(tǒng)的具體應(yīng)用。
1.2 語義分析技術(shù)
在一個(gè)社會(huì)網(wǎng)絡(luò)中常有節(jié)點(diǎn)之間的信息交流??梢詫?duì)這種社會(huì)網(wǎng)絡(luò)進(jìn)行分析的一種強(qiáng)大的用來獲得和理解文本信息的技術(shù)被稱為語義分析技術(shù)。作為一個(gè)在人工智能和計(jì)算語言學(xué)的方法,它為知識(shí)推理和語言提供了一個(gè)結(jié)構(gòu)和過程。
對(duì)此,將技術(shù)文檔中的句子提取出來,根據(jù)語義中包含的目標(biāo)詞內(nèi)容進(jìn)行語義類型的分析,并形成一種語義搭配,從而對(duì)傳統(tǒng)的檢索技術(shù)進(jìn)行改進(jìn),找出語義相近的內(nèi)容,設(shè)計(jì)檢索系統(tǒng)可以檢索到相近的語句內(nèi)容。計(jì)算機(jī)的語義分析應(yīng)用于技術(shù)文檔的分析,可以消除專家們?cè)谔釤捨臋n內(nèi)容過程中的主觀意見,計(jì)算機(jī)語義分析則客觀的檢索文檔中可能與檢索的關(guān)鍵詞相關(guān)的內(nèi)容。
由于檢索時(shí)需要選定目標(biāo)詞匯,在系統(tǒng)設(shè)計(jì)過程中,根據(jù)用戶檢索不同目標(biāo)詞,系統(tǒng)設(shè)置了記憶功能,對(duì)用戶感興趣的內(nèi)容進(jìn)行整理歸納,并對(duì)新用戶進(jìn)行推薦,節(jié)約了用戶再次對(duì)相同內(nèi)容查詢時(shí)檢索的時(shí)間。而隨著文檔數(shù)逐漸增多,文檔相關(guān)詞匯也在不斷增加,檢索系統(tǒng)不斷自我完善,區(qū)別文檔語義和詞義的精確度會(huì)有所提高。
2 水環(huán)境管理技術(shù)庫設(shè)計(jì)
在技術(shù)庫實(shí)現(xiàn)過程中,用戶可根據(jù)系統(tǒng)的功能,在文檔中自動(dòng)提取技術(shù)文檔的參數(shù)值,并作為計(jì)算參數(shù)存入知識(shí)規(guī)則庫。系統(tǒng)可以根據(jù)文檔內(nèi)容自動(dòng)分析文檔成分,并提出有價(jià)值的知識(shí)供使用者查閱及學(xué)習(xí)。
2.1 技術(shù)庫邏輯結(jié)構(gòu)設(shè)計(jì)
遼河流域水環(huán)境管理技術(shù)庫的構(gòu)建主要包括技術(shù)文檔信息表、關(guān)鍵字詞典表、本地化參數(shù)表及參數(shù)屬性表等試題。各實(shí)體的邏輯設(shè)計(jì)如下:
2.1.1 類別
根據(jù)“分區(qū)、分類、分級(jí)、分期”的基本理念,將技術(shù)庫文檔進(jìn)行分類,將技術(shù)文檔數(shù)據(jù)規(guī)范化管理,更加高效科學(xué)。
2.1.2 技術(shù)文檔
技術(shù)文檔可以存儲(chǔ)在本數(shù)據(jù)表中,用戶可以通過查詢此數(shù)據(jù)表來查看技術(shù)文檔的詳細(xì)內(nèi)容。
2.1.3 關(guān)鍵字詞典
技術(shù)文檔通過檢索比對(duì)關(guān)鍵字詞典表篩選有用內(nèi)容和知識(shí),系統(tǒng)可以對(duì)篩選內(nèi)容作進(jìn)一步處理。
2.1.4 本地化參數(shù)
根據(jù)對(duì)上述系統(tǒng)的詳細(xì)分析,針對(duì)不同地域使用不同的數(shù)據(jù)進(jìn)行計(jì)算,將數(shù)據(jù)更精確化,是計(jì)算結(jié)果更加準(zhǔn)確。
2.1.5 參數(shù)屬性
每一個(gè)本地化參數(shù)對(duì)應(yīng)一個(gè)或多個(gè)屬性,此數(shù)據(jù)表將用來存儲(chǔ)本地化參數(shù)的屬性。
2.2 技術(shù)庫物理結(jié)構(gòu)設(shè)計(jì)
對(duì)技術(shù)文檔的主要相關(guān)內(nèi)容采用Oracle數(shù)據(jù)庫進(jìn)行建表存儲(chǔ),遼河流域水環(huán)境管理技術(shù)庫數(shù)據(jù)庫構(gòu)建了以下屬性表:水環(huán)境管理技術(shù)文檔類別表(編號(hào),類別名稱,類別描述),水環(huán)境管理技術(shù)文檔表(編號(hào),名稱,描述,所屬類別,上傳時(shí)間,操作員,路徑),水環(huán)境管理技術(shù)關(guān)鍵字詞典表(編號(hào),關(guān)鍵字,關(guān)鍵字描述,關(guān)鍵字等級(jí)),水環(huán)境管理技術(shù)本地化參數(shù)表(編號(hào),文檔編號(hào),參數(shù)名稱,參數(shù)描述,備注),水環(huán)境管理技術(shù)參數(shù)屬性表(編號(hào),屬性編號(hào),屬性值,參數(shù)表示區(qū)域)。
通過對(duì)項(xiàng)目需求的分析及前期設(shè)計(jì),完成了技術(shù)庫表的建立,并建立了數(shù)據(jù)表之間的邏輯關(guān)系,實(shí)現(xiàn)了表之間的相互關(guān)聯(lián)。
3 水環(huán)境管理知識(shí)規(guī)則庫設(shè)計(jì)
根據(jù)水環(huán)境技術(shù)庫的要求,將技術(shù)文檔中各種內(nèi)容進(jìn)行整理,并將那些較為重要的內(nèi)容存入輔助的知識(shí)規(guī)則庫。知識(shí)規(guī)則庫的設(shè)計(jì)是基于水環(huán)境管理的技術(shù)庫以及政策庫文檔的收集分析而形成的。系統(tǒng)管理員根據(jù)實(shí)際情況收集技術(shù)、政策文檔并上傳,并將實(shí)際內(nèi)容存儲(chǔ)于數(shù)據(jù)庫中,供分析模塊分析使用。通過對(duì)技術(shù)庫以及政策庫內(nèi)存儲(chǔ)的文檔進(jìn)行分析,并將分析內(nèi)容進(jìn)行整理,存入知識(shí)規(guī)則庫中。
系統(tǒng)通過使用者提交文檔,并對(duì)文檔內(nèi)容形式進(jìn)行劃分,區(qū)別公式、表格以及文本等內(nèi)容,并對(duì)不同的內(nèi)容進(jìn)行不同的處理方式。對(duì)文本內(nèi)容才去傳統(tǒng)的文本分析,提取有用的內(nèi)容并將這些內(nèi)容進(jìn)行進(jìn)一步的篩選處理,提供給用戶;對(duì)表格內(nèi)容,系統(tǒng)提取了表名并將表格內(nèi)容呈現(xiàn)給用戶;對(duì)于文檔中的公式內(nèi)容,文檔提取出了部分公式介紹內(nèi)容對(duì)公式進(jìn)行注釋,同時(shí)提取保存公式內(nèi)容的圖片存入數(shù)據(jù)庫,而公式的存儲(chǔ)則需要人工協(xié)助錄入,實(shí)現(xiàn)對(duì)文檔的半智能分析。
4 結(jié)論
本文根據(jù)遼河流域現(xiàn)階段水環(huán)境管理現(xiàn)狀,通過對(duì)水環(huán)境相關(guān)的技術(shù)文檔進(jìn)行整理存儲(chǔ),并采用語義分析方法對(duì)存儲(chǔ)文檔進(jìn)行分析,根據(jù)關(guān)鍵字詞典進(jìn)行分析預(yù)測(cè),將各種不規(guī)則的文檔內(nèi)容進(jìn)行統(tǒng)一整理,提取表格、公式及關(guān)鍵文本等相關(guān)內(nèi)容,并將其存儲(chǔ)為知識(shí)規(guī)則,以便于用戶對(duì)關(guān)鍵技術(shù)的查閱和學(xué)習(xí)。
參考文獻(xiàn)
[1]孟偉.遼河流域水污染治理和水環(huán)境管理技術(shù)體系構(gòu)建[J].中國工程科學(xué),2013(03):4-10 .
[2]程麗麗.企業(yè)信息化建設(shè)中數(shù)據(jù)庫的結(jié)構(gòu)設(shè)計(jì)應(yīng)用[J].福建電腦,2008(07):41-42.
[3]李博湘.數(shù)據(jù)庫設(shè)計(jì)技巧[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2006(19):237-238.
[4]王水利,黃廣君.基于語義分析的查詢擴(kuò)展方法[J].計(jì)算機(jī)工程,2011(08):77-79.
[5]劉云峰,齊歡.中文信息的潛在語義分析[J].華南理工大學(xué)學(xué)報(bào),2004.
作者簡(jiǎn)介
夏廣鋒,現(xiàn)任職于遼寧省環(huán)境科學(xué)研究院,主要從事水污染及大氣污染治理方面研究工作。
付立冬,現(xiàn)任職于沈陽理工大學(xué)。主要研究方向?yàn)橛?jì)算機(jī)應(yīng)用技術(shù)。
吳赫,現(xiàn)為沈陽理工大學(xué)研究生。計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)。
作者單位
1.遼寧省環(huán)境科學(xué)研究院 遼寧省沈陽市 110161
2.沈陽理工大學(xué)信息科學(xué)與工程學(xué)院 遼寧省沈陽市 110159