亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于電力公司的多格式文檔智能信息檢索系統(tǒng)的設計與實現(xiàn)

2014-08-14 07:36:34方躍勝姚宏亮

重慶科技學院學報(自然科學版) 2014年4期

方躍勝姚宏亮

(1.安徽水利水電職業(yè)技術學院，合肥 231603; 2.合肥工業(yè)大學計算機與信息學院，合肥 230009)

隨著互聯(lián)網(wǎng)的發(fā)展，用戶采集到的信息數(shù)據(jù)量大、格式繁多，使得發(fā)掘有用信息的難度變大。本系統(tǒng)旨在克服多種文檔格式給檢索造成的困難，同時提高檢索的質(zhì)量，使用戶瀏覽較少文檔即可找到需要的文檔。

系統(tǒng)設計目標如下：將多格式文檔轉(zhuǎn)換為txt文檔，克服文檔格式對檢索造成的困難；生成自動文摘，用戶花費較少時間即可了解文檔內(nèi)容；采用基于詞索引的全文檢索技術，信息模型采用向量空間模型，同時加入“去停用詞”處理，實現(xiàn)信息檢索。

1 文檔格式轉(zhuǎn)換簡介

文檔格式分為純文本文檔和非純文本文檔。純文本文檔是只包含純文字的文件，這些文字沒有格式，如擴展名為“.txt”、“.html”的文檔。使用任何編輯器都可以打開純文本文檔，在編程中用文件操作函數(shù)即可讀取文件內(nèi)容。另一類文檔為非純文本文件，如擴展名為“.pdf”、“.doc”、“.xls”的文檔。打開非純文本文檔需要特殊的編輯器，讀取內(nèi)容需要使用特殊解析工具[1]。

目前已有多種工具可以解析“.pdf”文檔的格式并讀取其內(nèi)容。最常見的“.pdf”文本抽取工具包括PDFBox和Xpdf。PDFBox是一個開源的Java PDF庫。Java PDF庫允許用戶訪問“.pdf”文檔的各項信息，通過PDFBox提供的API，可從“.pdf”文檔中提取出文本信息。用PDFBox處理“.pdf”文檔，需要下載PDFBox，并在Java工程中調(diào)用相應的jar包。相對于PDFBox，Xpdf可對中文文件提供更強大的支持。除了下載相應的Xpdf版本，使用Xpdf還需下載一個中文包“Xpdf-chinese-simplified.tar.gz”，并在Java工程中調(diào)用相應的jar包。同時，Xpdf提供的可執(zhí)行文件可以在PHP中直接調(diào)用，但是經(jīng)常出現(xiàn)亂碼。

DOC和XLS文檔作為Microsoft Office系列的辦公軟件，實現(xiàn)了自動化的COM組件，可以通過調(diào)用COM組件讀取其內(nèi)容?！?xls”文檔還提供可供PHP調(diào)用的類spreadsheet_excel_reader，以讀取“.xls”文檔內(nèi)容。經(jīng)過測試，COM組件讀取“.xls”文檔的質(zhì)量較高，而spreadsheet_excel_reader類讀取“.xls”文檔的速度較快。

“.html”文本是由HTML命令組成的描述性文本，HTML命令可以說明文字、圖形、動畫、聲音、表格、鏈接等。HTML的結(jié)構(gòu)包括頭部和主體兩大部分，其中頭部描述瀏覽器所需的信息，而主體則包含所要說明的具體內(nèi)容。由于轉(zhuǎn)換成txt文檔的過程中不需要HTML標簽的信息，因此，在讀取完字符串后應運用PHP中的字符串處理函數(shù)對其做相應處理，去除不必要的HTML標簽。

2 自動文摘方法

文摘是全面準確地反映文獻中心內(nèi)容的簡單連貫的短文,自動文摘是指利用計算機自動地從原始文獻中提取文摘[2]。生成自動文摘的主要方法包括基于統(tǒng)計的自動文摘、基于理解的自動文摘、信息抽取和基于結(jié)構(gòu)的自動文摘[3]?；诮y(tǒng)計的自動文摘將句子視為詞的線性序列，將文本視為句子的線性序列，通過計算詞的權值，從而計算句子的權值，再針對句子權值排序，將權值最高的若干句子作為文摘句，按照其在原文中出現(xiàn)的順序輸出?；诶斫獾淖詣游恼匀斯ぶ悄?，特別是自然語言理解技術為基礎而發(fā)展起來的文摘方法，不僅需要語言學知識判斷語言結(jié)構(gòu)，而且需要利用領域知識進行判斷、推理，得到文摘的意義，從而生成摘要。信息抽取適用于特定的領域?；诮Y(jié)構(gòu)的自動文摘把篇章作為一個結(jié)構(gòu)體，對篇章結(jié)構(gòu)的引入可以提高文摘質(zhì)量，但實現(xiàn)較為困難。

2.1 中文分詞

中文分詞是指將一個漢字序列切分成一個一個單獨的詞，分詞就是將連續(xù)的字序列按照一定的規(guī)范組合成詞的序列[4]。中文分詞是自動文摘以及信息檢索的基礎，其算法有基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法[5]。

基于字符串匹配的分詞方法又稱做機械分詞方法，它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行匹配，若在詞典中找到某個字符串，則匹配成功?；诶斫獾姆衷~方法通過計算機模擬人對句子的理解，達到識別詞的效果。其基本思想是在分詞的同時進行句法、語義分析，利用句法信息和語義信息來處理歧義現(xiàn)象，目前基于理解的分詞系統(tǒng)還處于試驗階段?；诮y(tǒng)計的分詞方法認為：詞是穩(wěn)定的字的組合，在上下文中，相鄰的詞出現(xiàn)的次數(shù)越多，就越有可能構(gòu)成一個詞。這種方法只需對語料中的字組頻率進行統(tǒng)計，不需要切分詞典，又叫做無詞典分詞法或統(tǒng)計取詞方法。對于任何一個成熟的分詞系統(tǒng)，不可能單獨依靠某一種算法來實現(xiàn)，都要綜合不同的算法。

ICTCLAS是中科院研制的漢語詞法分詞系統(tǒng)，全部采用CC++語言編寫，支持Linux、FreeBSD及Windows系列操作系統(tǒng)，同時支持CC++C#DelphiJava等主流的開發(fā)語言。ICTCLAS系統(tǒng)主要功能包括：中文分詞；詞性標注；命名實體識別；新詞識別；用戶詞典。ICTCLAS3.0版分詞速度達到單機996kBs，分詞精度98.45%，API不超過200kB，各種數(shù)據(jù)壓縮后不到3M。本實驗室的分詞系統(tǒng)采用基于memcached的動態(tài)四字雙向詞典機制[6]，將詞典按一定的數(shù)據(jù)結(jié)構(gòu)首先儲存于數(shù)據(jù)庫中，在服務器啟動后通過程序自動載入內(nèi)存，利用memcached對其進行管理，為以后的分詞提供服務。四字詞典與傳統(tǒng)詞典相比，增加了四字內(nèi)字串的前后綴信息。因為文本大部分詞都在四字以內(nèi)，這樣有利于使用雙向最大匹配算法，以最少的詞典訪問數(shù)切分出最大匹配詞。

2.2 基于句子特征的文本摘要生成方法

基于句子特征的文本摘要技術通過計算文中句子的權重，將句子按照權重排序，輸出權重較高的句子作為文摘句[7]。在計算句子權重之前，需要對txt文件進行分詞和詞性標注，系統(tǒng)采用C++調(diào)用ICTCLAS分詞系統(tǒng)來實現(xiàn)。句子的權重通過句子的位置特征、句子的長度特征、句子的詞項特征、句子中包含的專有名詞個數(shù)、句子中包含的數(shù)字信息的特征、句子與標題的相似度等幾項特征來計算。

句子的位置特征，如式(1)所示：

(1)

式中，Si為文本中的第i個句子，N為句子的總數(shù)。

句子的長度特征，如式(2)所示：

(2)

式中，Len(Si)為句子第i個句子中包含實名詞的個數(shù)。

句子的詞項特征，通過式(3)(4)反映：

TF.IDF(w,S)=TF(w,S)

×g(|S|SF(w))

(3)

×Wposition(k)

(4)

式中：TF(w,S)為詞語w在句子S中出現(xiàn)的次數(shù)；|S|為句子的總數(shù)；SF(w)表示包含詞語w的句子的數(shù)目；n為句子中詞項的格式；WTF.ISF(k)為句子Si的第k個詞項的TF.ISF值；Wpos(k)為句子Si的第k個詞項的詞性權重;Wposition(k)為句子Si的第k個詞項的位置權重。

句子中包含的專有名詞個數(shù)，通過式(5)反映：

W4(Si)=句子Si中專有名詞的個數(shù)句子Si中詞的總數(shù)

( 5)

式中，專有名詞是指特定的某人、地方或機構(gòu)的名稱，如人名、地名、國家名、單位名、組織名，等。

句子包含數(shù)字信息的特征，通過式(6)反映：

W5(Si)=句子Si中數(shù)字信息的個數(shù)句子Si中詞的總數(shù)

(6)

句子與標題的相似度，通過式(7)反映：

( 7)

在對句子特征分析基礎上，可以決定句子的特征計算公式：

(8)

2.3 性能評測

自動文摘模塊性能評價采用內(nèi)部評價方法，通過直接分析摘要的質(zhì)量來評價文摘系統(tǒng)[8]。以覆蓋率作為評價指標，選取25篇文章共496句話，由3人手工選取20%的摘要句作為系統(tǒng)理想文摘。由于主觀因素的影響，3人選取的文摘句可能不同，通過對文摘句賦權值削弱這一因素的干擾，當一句話同時被3人選擇則其權值為1，被兩人同時選取則權值為23,只被一人選取則權值為13。把理想文摘與系統(tǒng)生成文摘作比較，不是理想文摘的句子賦值為0，將系統(tǒng)文摘的權值之和與理想文摘最高權值做除法，所得即為該文摘的覆蓋率。通過測試，覆蓋率根據(jù)文章的不同有所變化，最高可達100%，最低可達0%，平均覆蓋率為37.7%。文摘覆蓋率如圖1所示。

圖1 文摘覆蓋率

3 全文檢索

全文檢索是指計算機程序通過掃描文章中的每一個詞，對每一個詞建立一個索引，指明該詞在文章中出現(xiàn)的次數(shù)和位置。當用戶查詢時根據(jù)建立的索引查找，類似于通過字典的檢索字表查字的過程。全文檢索系統(tǒng)是按照全文檢索理論建立起來的用于提供全文檢索服務的軟件系統(tǒng)。功能上全文檢索系統(tǒng)需要具有建立索引，處理查詢返回結(jié)果集，增加索引，優(yōu)化索引結(jié)構(gòu)等功能。系統(tǒng)采用基于倒排表的中文全文檢索方式[9]。

3.1 索引數(shù)據(jù)庫

依據(jù)基于倒排表的檢索方式中依據(jù)詞索引的檢索要求[10]，系統(tǒng)索引數(shù)據(jù)庫包括三部分：存儲文件的表、存儲關鍵詞的表和倒排表。文件表(如圖2所示)存儲文件名和文件序號，關鍵詞表(如圖3所示)存儲關鍵詞及其序號，倒排表(如圖4所示)存儲關鍵詞在文件中出現(xiàn)的次數(shù)。

圖2 文件表結(jié)構(gòu)截圖

圖3 關鍵詞表結(jié)構(gòu)截圖

3.2 向量空間模型

向量空間模型(VSM：Vector Space Model)[11]把對文本內(nèi)容的處理簡化為空間向量中的向量計算，并且它以空間上的相似度表示語義的相似度，直觀易懂。當文檔被表示為文檔空間的向量，就可以通過計算向量間的相似性來度量文檔間的相似性。文本處理中最常用的相似度度量方式是余弦距離。

圖4 倒排表結(jié)構(gòu)截圖

系統(tǒng)首先對檢索語句進行分詞和去停用詞處理[12]，分別將詞及詞出現(xiàn)的次數(shù)存入數(shù)組，形成索引向量。然后在關鍵詞表中查詢對應詞得到該詞出現(xiàn)的倒排表及其在倒排表中位置，每一文檔針對關鍵詞形成文檔向量，運用向量空間模型計算文檔向量與關鍵詞向量夾角的余弦值，作為相關度。設定閾值為0.7，將相關度高于閾值的文檔信息輸出。

當檢索句較長時，文中包含關鍵詞的句子可能很多，通過計算句子向量與關鍵詞向量的相似度，將相似度最高的三個句子輸出，同時輸出文檔的摘要信息、創(chuàng)建時間以及鏈接供用戶選擇。

4 結(jié) 語

本系統(tǒng)基本實現(xiàn)了對存儲的多格式文檔進行智能檢索。運用了將多種格式文檔進行轉(zhuǎn)換從而方便檢索的思想，同時對文檔生成自動文摘，方便用戶參考；在檢索模塊，運用空間向量模型計算相似度，同時加入了去停用詞處理，提高檢索速度和質(zhì)量。但是，系統(tǒng)還存在不足，下一步的目標是進一步提高自動文摘的質(zhì)量，同時嘗試用PHP直接實現(xiàn)PDF格式文檔的轉(zhuǎn)換，實現(xiàn)編程語言的統(tǒng)一。

[1] 張秀秀，張立峰.PDF文件文本內(nèi)容提取研究[J].科技情報開發(fā)與經(jīng)濟，2008(3)：118-120．

[2] 袁津生，李群，蔡岳．搜索引擎原理與實踐[M]．北京：郵電大學出版社，2008：1-2，28．

[3] 李曉明，閆宏飛，王繼民．搜索引擎：原理、技術與系統(tǒng)[M]．北京：科學出版社，2005．

[4] Sproat R，Emerson T．The First International Chinese Word Segmen-tion Bakeoff[C]Proceedings of the Second SIGHAN Workshop on Chinese Language Processing．Sapporo，Japan,2003：133-143．

[5] 史偉.中文自動分詞關鍵技術研究與實現(xiàn)[D]．成都：電子科技大學，2008：100-103．

[6] 張培穎，李村合.一種中文分詞詞典新機制：四字哈希機制[J]．微型電腦應用，2006(10)：35-36.

[7] 張培穎．基于句子特征和語義距離的文本摘要技術[J]．微計算機應用，2009(7)：14-18.

[8] 黃麗瓊，何中市，張杰慧．基于文本相似度的自動文摘評價方法[J]．計算機應用研究，2007(8)：97-99.

[9] 楊安生．基于倒排表的中文全文檢索研究[J]．情報檢索，2009(7)：77-80.

[10] 熊回香，夏立新．基于詞索引的中文全文檢索關鍵技術及其發(fā)展方向[J]．中國圖書館學報，2007(4)：45-49.

[11] Salton G，Wong A，Yang C S．A Vector Space Model for Automated Indexing [J]．Communications of ACM，1975，18(11)：613-620．