亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于電力公司的多格式文檔智能信息檢索系統(tǒng)的設計與實現(xiàn)

        2014-08-14 07:36:34方躍勝姚宏亮
        關鍵詞:全文檢索分詞文摘

        方躍勝 姚宏亮

        (1.安徽水利水電職業(yè)技術學院, 合肥 231603; 2.合肥工業(yè)大學計算機與信息學院, 合肥 230009)

        隨著互聯(lián)網(wǎng)的發(fā)展,用戶采集到的信息數(shù)據(jù)量大、格式繁多,使得發(fā)掘有用信息的難度變大。本系統(tǒng)旨在克服多種文檔格式給檢索造成的困難,同時提高檢索的質(zhì)量,使用戶瀏覽較少文檔即可找到需要的文檔。

        系統(tǒng)設計目標如下:將多格式文檔轉(zhuǎn)換為txt文檔,克服文檔格式對檢索造成的困難;生成自動文摘,用戶花費較少時間即可了解文檔內(nèi)容;采用基于詞索引的全文檢索技術,信息模型采用向量空間模型,同時加入“去停用詞”處理,實現(xiàn)信息檢索。

        1 文檔格式轉(zhuǎn)換簡介

        文檔格式分為純文本文檔和非純文本文檔。純文本文檔是只包含純文字的文件,這些文字沒有格式,如擴展名為“.txt”、“.html”的文檔。使用任何編輯器都可以打開純文本文檔,在編程中用文件操作函數(shù)即可讀取文件內(nèi)容。另一類文檔為非純文本文件,如擴展名為“.pdf”、“.doc”、“.xls”的文檔。打開非純文本文檔需要特殊的編輯器,讀取內(nèi)容需要使用特殊解析工具[1]。

        目前已有多種工具可以解析“.pdf”文檔的格式并讀取其內(nèi)容。最常見的“.pdf”文本抽取工具包括PDFBox和Xpdf。PDFBox是一個開源的Java PDF庫。Java PDF庫允許用戶訪問“.pdf”文檔的各項信息,通過PDFBox提供的API,可從“.pdf”文檔中提取出文本信息。用PDFBox處理“.pdf”文檔,需要下載PDFBox,并在Java工程中調(diào)用相應的jar包。相對于PDFBox,Xpdf可對中文文件提供更強大的支持。除了下載相應的Xpdf版本,使用Xpdf還需下載一個中文包“Xpdf-chinese-simplified.tar.gz”,并在Java工程中調(diào)用相應的jar包。同時,Xpdf提供的可執(zhí)行文件可以在PHP中直接調(diào)用,但是經(jīng)常出現(xiàn)亂碼。

        DOC和XLS文檔作為Microsoft Office系列的辦公軟件,實現(xiàn)了自動化的COM組件,可以通過調(diào)用COM組件讀取其內(nèi)容?!?xls”文檔還提供可供PHP調(diào)用的類spreadsheet_excel_reader,以讀取“.xls”文檔內(nèi)容。經(jīng)過測試,COM組件讀取“.xls”文檔的質(zhì)量較高,而spreadsheet_excel_reader類讀取“.xls”文檔的速度較快。

        “.html”文本是由HTML命令組成的描述性文本,HTML命令可以說明文字、圖形、動畫、聲音、表格、鏈接等。HTML的結(jié)構(gòu)包括頭部和主體兩大部分,其中頭部描述瀏覽器所需的信息,而主體則包含所要說明的具體內(nèi)容。由于轉(zhuǎn)換成txt文檔的過程中不需要HTML標簽的信息,因此,在讀取完字符串后應運用PHP中的字符串處理函數(shù)對其做相應處理,去除不必要的HTML標簽。

        2 自動文摘方法

        文摘是全面準確地反映文獻中心內(nèi)容的簡單連貫的短文,自動文摘是指利用計算機自動地從原始文獻中提取文摘[2]。生成自動文摘的主要方法包括基于統(tǒng)計的自動文摘、基于理解的自動文摘、信息抽取和基于結(jié)構(gòu)的自動文摘[3]?;诮y(tǒng)計的自動文摘將句子視為詞的線性序列,將文本視為句子的線性序列,通過計算詞的權值,從而計算句子的權值,再針對句子權值排序,將權值最高的若干句子作為文摘句,按照其在原文中出現(xiàn)的順序輸出?;诶斫獾淖詣游恼匀斯ぶ悄?,特別是自然語言理解技術為基礎而發(fā)展起來的文摘方法,不僅需要語言學知識判斷語言結(jié)構(gòu),而且需要利用領域知識進行判斷、推理,得到文摘的意義,從而生成摘要。信息抽取適用于特定的領域?;诮Y(jié)構(gòu)的自動文摘把篇章作為一個結(jié)構(gòu)體,對篇章結(jié)構(gòu)的引入可以提高文摘質(zhì)量,但實現(xiàn)較為困難。

        2.1 中文分詞

        中文分詞是指將一個漢字序列切分成一個一個單獨的詞,分詞就是將連續(xù)的字序列按照一定的規(guī)范組合成詞的序列[4]。中文分詞是自動文摘以及信息檢索的基礎,其算法有基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法[5]。

        基于字符串匹配的分詞方法又稱做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功?;诶斫獾姆衷~方法通過計算機模擬人對句子的理解,達到識別詞的效果。其基本思想是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象,目前基于理解的分詞系統(tǒng)還處于試驗階段?;诮y(tǒng)計的分詞方法認為:詞是穩(wěn)定的字的組合,在上下文中,相鄰的詞出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。這種方法只需對語料中的字組頻率進行統(tǒng)計,不需要切分詞典,又叫做無詞典分詞法或統(tǒng)計取詞方法。對于任何一個成熟的分詞系統(tǒng),不可能單獨依靠某一種算法來實現(xiàn),都要綜合不同的算法。

        ICTCLAS是中科院研制的漢語詞法分詞系統(tǒng),全部采用CC++語言編寫,支持Linux、FreeBSD及Windows系列操作系統(tǒng),同時支持CC++C#DelphiJava等主流的開發(fā)語言。ICTCLAS系統(tǒng)主要功能包括:中文分詞;詞性標注;命名實體識別;新詞識別;用戶詞典。ICTCLAS3.0版分詞速度達到單機996kBs,分詞精度98.45%,API不超過200kB,各種數(shù)據(jù)壓縮后不到3M。本實驗室的分詞系統(tǒng)采用基于memcached的動態(tài)四字雙向詞典機制[6],將詞典按一定的數(shù)據(jù)結(jié)構(gòu)首先儲存于數(shù)據(jù)庫中,在服務器啟動后通過程序自動載入內(nèi)存,利用memcached對其進行管理,為以后的分詞提供服務。四字詞典與傳統(tǒng)詞典相比,增加了四字內(nèi)字串的前后綴信息。因為文本大部分詞都在四字以內(nèi),這樣有利于使用雙向最大匹配算法,以最少的詞典訪問數(shù)切分出最大匹配詞。

        2.2 基于句子特征的文本摘要生成方法

        基于句子特征的文本摘要技術通過計算文中句子的權重,將句子按照權重排序,輸出權重較高的句子作為文摘句[7]。在計算句子權重之前,需要對txt文件進行分詞和詞性標注,系統(tǒng)采用C++調(diào)用ICTCLAS分詞系統(tǒng)來實現(xiàn)。句子的權重通過句子的位置特征、句子的長度特征、句子的詞項特征、句子中包含的專有名詞個數(shù)、句子中包含的數(shù)字信息的特征、句子與標題的相似度等幾項特征來計算。

        句子的位置特征,如式(1)所示:

        (1)

        式中,Si為文本中的第i個句子,N為句子的總數(shù)。

        句子的長度特征,如式(2)所示:

        (2)

        式中,Len(Si)為句子第i個句子中包含實名詞的個數(shù)。

        句子的詞項特征,通過式(3)(4)反映:

        TF.IDF(w,S)=TF(w,S)

        ×g(|S|SF(w))

        (3)

        ×Wposition(k)

        (4)

        式中:TF(w,S)為詞語w在句子S中出現(xiàn)的次數(shù);|S|為句子的總數(shù);SF(w)表示包含詞語w的句子的數(shù)目;n為句子中詞項的格式;WTF.ISF(k)為句子Si的第k個詞項的TF.ISF值;Wpos(k)為句子Si的第k個詞項的詞性權重;Wposition(k)為句子Si的第k個詞項的位置權重。

        句子中包含的專有名詞個數(shù),通過式(5)反映:

        W4(Si)=句子Si中專有名詞的個數(shù)句子Si中詞的總數(shù)

        ( 5)

        式中,專有名詞是指特定的某人、地方或機構(gòu)的名稱,如人名、地名、國家名、單位名、組織名,等。

        句子包含數(shù)字信息的特征,通過式(6)反映:

        W5(Si)=句子Si中數(shù)字信息的個數(shù)句子Si中詞的總數(shù)

        (6)

        句子與標題的相似度,通過式(7)反映:

        ( 7)

        在對句子特征分析基礎上,可以決定句子的特征計算公式:

        (8)

        2.3 性能評測

        自動文摘模塊性能評價采用內(nèi)部評價方法,通過直接分析摘要的質(zhì)量來評價文摘系統(tǒng)[8]。以覆蓋率作為評價指標,選取25篇文章共496句話,由3人手工選取20%的摘要句作為系統(tǒng)理想文摘。由于主觀因素的影響,3人選取的文摘句可能不同,通過對文摘句賦權值削弱這一因素的干擾,當一句話同時被3人選擇則其權值為1,被兩人同時選取則權值為23,只被一人選取則權值為13。把理想文摘與系統(tǒng)生成文摘作比較,不是理想文摘的句子賦值為0,將系統(tǒng)文摘的權值之和與理想文摘最高權值做除法,所得即為該文摘的覆蓋率。通過測試,覆蓋率根據(jù)文章的不同有所變化,最高可達100%,最低可達0%,平均覆蓋率為37.7%。文摘覆蓋率如圖1所示。

        圖1 文摘覆蓋率

        3 全文檢索

        全文檢索是指計算機程序通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置。當用戶查詢時根據(jù)建立的索引查找,類似于通過字典的檢索字表查字的過程。全文檢索系統(tǒng)是按照全文檢索理論建立起來的用于提供全文檢索服務的軟件系統(tǒng)。功能上全文檢索系統(tǒng)需要具有建立索引,處理查詢返回結(jié)果集,增加索引,優(yōu)化索引結(jié)構(gòu)等功能。系統(tǒng)采用基于倒排表的中文全文檢索方式[9]。

        3.1 索引數(shù)據(jù)庫

        依據(jù)基于倒排表的檢索方式中依據(jù)詞索引的檢索要求[10],系統(tǒng)索引數(shù)據(jù)庫包括三部分:存儲文件的表、存儲關鍵詞的表和倒排表。文件表(如圖2所示)存儲文件名和文件序號,關鍵詞表(如圖3所示)存儲關鍵詞及其序號,倒排表(如圖4所示)存儲關鍵詞在文件中出現(xiàn)的次數(shù)。

        圖2 文件表結(jié)構(gòu)截圖

        圖3 關鍵詞表結(jié)構(gòu)截圖

        3.2 向量空間模型

        向量空間模型(VSM:Vector Space Model)[11]把對文本內(nèi)容的處理簡化為空間向量中的向量計算,并且它以空間上的相似度表示語義的相似度,直觀易懂。當文檔被表示為文檔空間的向量,就可以通過計算向量間的相似性來度量文檔間的相似性。文本處理中最常用的相似度度量方式是余弦距離。

        圖4 倒排表結(jié)構(gòu)截圖

        系統(tǒng)首先對檢索語句進行分詞和去停用詞處理[12],分別將詞及詞出現(xiàn)的次數(shù)存入數(shù)組,形成索引向量。然后在關鍵詞表中查詢對應詞得到該詞出現(xiàn)的倒排表及其在倒排表中位置,每一文檔針對關鍵詞形成文檔向量,運用向量空間模型計算文檔向量與關鍵詞向量夾角的余弦值,作為相關度。設定閾值為0.7,將相關度高于閾值的文檔信息輸出。

        當檢索句較長時,文中包含關鍵詞的句子可能很多,通過計算句子向量與關鍵詞向量的相似度,將相似度最高的三個句子輸出,同時輸出文檔的摘要信息、創(chuàng)建時間以及鏈接供用戶選擇。

        4 結(jié) 語

        本系統(tǒng)基本實現(xiàn)了對存儲的多格式文檔進行智能檢索。運用了將多種格式文檔進行轉(zhuǎn)換從而方便檢索的思想,同時對文檔生成自動文摘,方便用戶參考;在檢索模塊,運用空間向量模型計算相似度,同時加入了去停用詞處理,提高檢索速度和質(zhì)量。但是,系統(tǒng)還存在不足,下一步的目標是進一步提高自動文摘的質(zhì)量,同時嘗試用PHP直接實現(xiàn)PDF格式文檔的轉(zhuǎn)換,實現(xiàn)編程語言的統(tǒng)一。

        [1] 張秀秀,張立峰.PDF文件文本內(nèi)容提取研究[J].科技情報開發(fā)與經(jīng)濟,2008(3):118-120.

        [2] 袁津生,李群,蔡岳.搜索引擎原理與實踐[M].北京:郵電大學出版社,2008:1-2,28.

        [3] 李曉明,閆宏飛,王繼民.搜索引擎:原理、技術與系統(tǒng)[M].北京:科學出版社,2005.

        [4] Sproat R,Emerson T.The First International Chinese Word Segmen-tion Bakeoff[C]Proceedings of the Second SIGHAN Workshop on Chinese Language Processing.Sapporo,Japan,2003:133-143.

        [5] 史偉.中文自動分詞關鍵技術研究與實現(xiàn)[D].成都:電子科技大學,2008:100-103.

        [6] 張培穎,李村合.一種中文分詞詞典新機制:四字哈希機制[J].微型電腦應用,2006(10):35-36.

        [7] 張培穎.基于句子特征和語義距離的文本摘要技術[J].微計算機應用,2009(7):14-18.

        [8] 黃麗瓊,何中市,張杰慧.基于文本相似度的自動文摘評價方法[J].計算機應用研究,2007(8):97-99.

        [9] 楊安生.基于倒排表的中文全文檢索研究[J].情報檢索,2009(7):77-80.

        [10] 熊回香,夏立新.基于詞索引的中文全文檢索關鍵技術及其發(fā)展方向[J].中國圖書館學報,2007(4):45-49.

        [11] Salton G,Wong A,Yang C S.A Vector Space Model for Automated Indexing [J].Communications of ACM,1975,18(11):613-620.

        猜你喜歡
        全文檢索分詞文摘
        IAPA文摘
        結(jié)巴分詞在詞云中的應用
        智富時代(2019年6期)2019-07-24 10:33:16
        文摘
        寶藏(2017年2期)2017-03-20 13:16:46
        值得重視的分詞的特殊用法
        Oracle數(shù)據(jù)庫全文檢索性能研究
        基于KySou的全文檢索系統(tǒng)的分析與優(yōu)化
        特色數(shù)據(jù)庫全文檢索系統(tǒng)的設計
        高考分詞作狀語考點歸納與疑難解析
        論英語不定式和-ing分詞的語義傳承
        外語學刊(2011年3期)2011-01-22 03:42:20
        用JSP調(diào)用Lucene包來實現(xiàn)全文檢索
        精品欧美在线| 亚洲熟伦在线视频| 长腿丝袜在线观看国产 | 91九色老熟女免费资源| 无码va在线观看| 久久青青热| 国产美女高潮流白浆免费观看| 黄色一区二区三区大全观看| 亚洲色图三级在线观看| 日韩一区国产二区欧美三区| 欧美视频二区欧美影视| 亚洲人成网站在线播放小说| 亚洲一区二区三区视频免费看| 大学生粉嫩无套流白浆| 久久无码av中文出轨人妻| 久久棈精品久久久久久噜噜| 在线国产视频精品视频| 中文字幕日韩人妻在线| 亚洲一区二区三区地址| 免费看黑人男阳茎进女阳道视频| 久久久窝窝午夜精品| 亚洲国产精品免费一区| 人妻少妇精品视频一区二区三区l| 国精品午夜福利视频不卡| 欧美三级一区| 亚洲视频一区二区蜜桃| 亚洲精品视频在线一区二区| 亚洲性爱视频| 国产成人免费高清激情明星 | 91av小视频| 国产毛片一区二区三区| 久久午夜精品人妻一区二区三区| 国产天美传媒性色av| 亚洲一区日韩无码| 色婷婷综合一区二区精品久久| 中文字幕一区二区三区视频 | AV无码最在线播放| 日韩色久悠悠婷婷综合| 国产成人精品免费久久久久| 失禁大喷潮在线播放| 囯产精品无码va一区二区|