亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本信息的PDF文檔管理系統(tǒng)設計與實現(xiàn)

        2020-12-08 07:54:16王春偉李英偉
        燕山大學學報 2020年6期
        關鍵詞:詞頻文檔排序

        王春偉,侯 方,申 升,南 賽,李英偉,*

        (1. 燕山大學 信息科學與工程學院,河北 秦皇島 066004;2. 大慶油田信息技術公司 北京分公司,北京 100043)

        0 引言

        目前企業(yè)知識創(chuàng)新成為互聯(lián)網企業(yè)生存并獲取競爭優(yōu)勢的重要砝碼,企業(yè)管理不得不將重心逐漸向知識管理偏移[1],而在互聯(lián)網企業(yè)內部的日常管理、人員管理、設備運行等諸多工作都要依賴IT運維管理系統(tǒng),已經嚴重降低了企業(yè)的效率,缺少知識管理的IT運維管理平臺已經面臨巨大的壓力[2]。在智能化IT運維管理平臺中,其有形知識主要存儲在數(shù)據庫或者企業(yè)的終端電腦中,而隱性知識則存儲在企業(yè)內部員工的大腦中,隱性知識只能通過員工之間的交流、總結、會議和匯報等非正式方式獲取[3]。因此,在研發(fā)智能化IT運維管理平臺時,加入對PDF文檔管理研發(fā)的需求,使用戶能夠快速有效檢索到想要查詢的文檔內容,在企業(yè)內部之間實現(xiàn)知識共享[4]。但是針對PDF文檔管理系統(tǒng)的研發(fā)存在幾點問題,例如,文檔解析工具不足,企業(yè)信息知識多以PDF文檔的格式進行存儲,只能根據PDF文檔的標題進行分析檢索,造成了信息檢索準確度的降低,無法將有效的相關PDF文檔全部檢索出來[5],知識文檔檢索效率低,企業(yè)內部員工在查閱知識文檔時非常耗時,導致知識的傳遞效率低,不利于企業(yè)工作人員高效學習現(xiàn)有知識,而且也沒有辦法為平臺故障及時提供有效的解決方案,造成了資源的浪費[6]。

        PDF文檔管理系統(tǒng)中存在的上述問題已經給智能化IT運維管理平臺的長遠發(fā)展帶來了威脅,因此,如何盡快地提供一個有效解決智能化IT運維管理平臺故障的方案,提高工作效率,已經成為企業(yè)不可避免的難題。通過構建PDF文檔管理系統(tǒng)可以形成企業(yè)內部知識庫,然后通過PDF文檔管理系統(tǒng)進行知識共享,提高企業(yè)員工的日常工作效率和對知識的創(chuàng)新,與此同時可以為智能化IT運維平臺故障提供高效的解決方法,省去人力物力資源的消耗[7]。

        1 PDF文檔管理系統(tǒng)整體設計

        PDF文檔管理系統(tǒng)的核心模塊主要是PDF文檔解析模塊和檢索模塊。系統(tǒng)工作流程如圖1所示,企業(yè)中員工將值得學習與分享的文檔上傳到企業(yè)文檔庫中,形成一個不斷更新的PDF文檔庫,當其他員工或部分組織想查看相關文檔時,只需通過檢索界面進行搜索。在系統(tǒng)搜索的過程中,PDF文檔首先需要進行文檔解析轉換為.txt格式文件,再通過結合向量空間模型的TF-IDF(Term Frequency-Inverse Document Frequency)算法計算文本權重值,最后根據計算所得權重值將一定數(shù)量的文檔排序,且展示在前端web界面上,使得排序結果更符合檢索者的需求。

        2 系統(tǒng)核心模塊設計與實現(xiàn)

        2.1 基于Stream流的PDF文檔解析模塊

        PDF是現(xiàn)在企業(yè)知識管理中存儲知識的主要方式,而基于對整個系統(tǒng)的性能和效率的考慮,本系統(tǒng)解析模塊采用C語言從文檔格式上進行編程,通過對Stream流的分析來加快PDF文檔內容解析的速度,在對其解析之前,將基于Linux系統(tǒng)的Stream流解析環(huán)境搭建好,之后通過Linux環(huán)境中的stat()接口函數(shù)去讀取PDF文檔的大小并將其轉換成二進制流讀入,之后加載一些解析配置文件。本系統(tǒng)的解析模塊根據PDF文檔的結構特性和一系列文檔中的對象屬性標簽,可以很容易找到Page頁對象屬性后面的/Contents,再通過pdf_get_cidcontents()接口函數(shù)獲取Contents內容信息,將所有的內容對象信息進行提取和拼接操作,最終得到整個PDF文檔的文本內容數(shù)據。

        PDF文檔中字型信息被放在額外資源的Pages或Page對象的Resources屬性中,對于轉碼操作先判斷字型信息中ToUnicode相關屬性是否存在,若存在,則將后接的串流對象表示用來轉換成Unicode碼的CMap碼;若不存在,則需要觀察Type屬性和Subtype屬性,Type后接名稱對象Font;Subtype后接表示字型型態(tài)的名稱對象,分別為Type0、Type1、MMType1、Type和TrueType。對于非Type0的字型,輸入的字符編碼都是1 byte,將輸入字碼從Encoding CMap信息中取得該字碼對應的字符名稱,依照取得的字符名稱轉成對應的Unicode字碼;而Type0字型的輸入字碼可以是多位,1 byte、2 byte和4 byte可以一起混用,所以要取得寬度信息和 Unicode 字碼是比較復雜的。Type0字型轉碼流程如圖2所示。

        2.2 PDF文檔檢索模塊

        PDF文檔檢索的排序功能是通過計算檢索問題與文檔關鍵詞之間的相似度,通過排序幫助用戶盡快獲得其需求的文檔或解決平臺的告警的問題,本文采取基于TF-IDF的空間向量模型排序算法實現(xiàn)排序功能。由于傳統(tǒng)的TF-IDF算法具有許多缺點[9],對于詞頻(TF,Term Frequency)來說,詞頻值大時,確實可以象征其對文本的代表性,但是當詞頻超過一定閾值后繼續(xù)增大,會導致文檔權重偏高,不能更準確地反映出文檔權重。且TF-IDF算法不能反映詞的位置信息,在對關鍵詞進行提取的時候,詞的位置信息,例如文本的標題、文本的首句和尾句等含有較重要的信息,應該賦予較高的權重。逆文檔頻率(IDF,Inverse Document Frequency)表示包含該關鍵字的PDF文檔數(shù)量,文檔集中包含關鍵詞的文檔數(shù)量越多,表示該關鍵字在搜索的問題中不重要。為此,針對詞頻(TF)和逆文檔頻率(IDF)進行了相應的改進。由于在檢索的時候關鍵詞在文檔集中沒有出現(xiàn),可能導致分母為零,造成系統(tǒng)拋出異常,因此,fIDF計算表達式為

        (1)

        式中,M為文檔集總數(shù),當t=1,fIDF值為最大的時候,該關鍵字在搜索中重要性為主要的詞匯;當t=M的時候fIDF的值接近為0,說明任意一篇知識文檔都包含該詞,因此在文檔集中是屬于無關緊要的詞匯。

        詞頻表示文檔的關鍵詞在某一篇PDF文檔中出現(xiàn)的次數(shù),得到的詞頻次越大,表示該文檔與檢索的關鍵詞越有可能相關。如果PDF文檔內的某個關鍵詞出現(xiàn)的次數(shù)太多,會影響權重值的計算,導致最終PDF文檔的權重值很高,進而排序的名次很高,影響排序的公正性。針對上述缺陷對詞頻進行改進的解決方案有兩種,一種是“亞線性變換”,另一種是“BM25變換”,如圖3所示,亞線性變換就是使用log函數(shù),函數(shù)y=x的增長率要比函數(shù)y=log(x+1)大很多,因此,當一篇文檔中關鍵詞的詞頻越多,超過某一個值后,對權重的影響也就變得趨近于一直穩(wěn)定的值。而對于y=log(log(x+1)+1)函數(shù),開始時刻隨詞頻增量的增加,fTF值并沒有相對較快的增加變化,并不符合相應需求。修改后的fTF表達式為

        fTF(w,d)=log[1+c(w,d)]。

        (2)

        圖3中,BM25變換在記錄詞頻的時候給出一個上限,當一個詞從無到有,是有很重要的價值,但是如果一個文檔中包含了該關鍵詞10次及以上,基本上不會產生太大的差異,所以在設計的時候適當降低詞頻的影響,隨著詞頻的變大,可以得到表達式為

        (3)

        式中y的值最終會無限接近于k+1,其中k為設置詞頻的上限。進而得到改進的fTF′表達式為

        (4)

        通過圖3(k值設為2,對數(shù)函數(shù)使用lg),比較上述兩種解決方案,可以看到BM25變換要優(yōu)于亞線性變換,所以在系統(tǒng)設計中選用BM25變換的解決方案。另一種可能是一個很長的文檔敘述了很多內容,每個內容是一個小段落,這樣的文檔其實就是一篇篇小文檔構成的,在這種情況下,詞的權重計算值是不同的,因此,對篇幅較長的文檔中的關鍵詞加入扼制因子,對于篇幅較短的則反之。這里采用的算法為Pivoted Length Normalization,該算法需要參數(shù)fnormalizer來進行TF-IDF的權重平衡,fnormalizer的計算式為

        (5)

        圖4為算法Pivoted Length Normalization的變化規(guī)律,當b=0的時候,所有值都為1,沒有扼制,對文檔沒有任何影響;當b>0的時候,當文本長度小于avdl,fnormalizer的值小于1,關鍵詞權重值則增加;當文本長度大于avdl,fnormalizer的值大于1,關鍵詞權重值則減小。

        加入扼制因子后fTF-IDF表達式為

        fTF-IDF=

        (6)

        式中,參數(shù)z通過判斷關鍵詞在文檔中的位置增加或者減小該關鍵詞在文檔中的權重,如果關鍵詞的位置在標題中出現(xiàn),則增加該關鍵詞的權重值,如果沒有則為1。

        經過上述對TF-IDF算法的改進研究,我們需要將改進算法融入向量空間模型中使用,向量空間模型是一種廣泛應用于文本分類等領域的計算模型[10],在根據優(yōu)化后的TF-IDF算法得到文檔關鍵詞的權重后,利用空間向量模型對每個文檔的權重進行計算排序,按照最終的每篇文檔權重值從高到低進行展示。

        3 系統(tǒng)性能測試與分析

        為了驗證本系統(tǒng)對PDF文本解析速度的高效性,引入Apache-Tika工具[10]作為對比。Tika是基于Java的內容檢測和分析的開源工具包,可對多種文件類型進行內容分析,普遍應用于文本管理系統(tǒng)的解析模塊。本實驗通過比較Tika工具和本文PDF文檔解析方法的時間,分析兩種方法解析的效率。PDF文檔解析時間對比如圖5所示,本文方法對PDF文檔解析的時間明顯小于Tika工具對文檔解析的時間,證明了本文方法在性能上要比Tika文檔解析工具更快,提高了系統(tǒng)的性能。

        然而對于排序功能與性能的測試,通過對檢索排序算法的優(yōu)化融合和程序上的實現(xiàn),將500篇IT運維技術相關PDF文檔添加到數(shù)據庫中。從知識文檔管理系統(tǒng)主界面圖可以看到,通過對IT運維管理中常見的問題“服務器CPU占用率過高內容溢出”進行檢索,可以從界面顯示得到與該問題相關的14篇文檔,然后記錄前10篇PDF文檔的權重值計算結果和檢索時間。PDF文檔檢索信息結果如表1所示。為保證系統(tǒng)性能,從檢索時間對本文算法與TF-IDF算法與空間向量模型計算文檔權重的時間進行比對。從圖6中可以看到對于檢索不同的IT運維問題,3種不同排序算法所需要的時間對比,本文算法相對比TF-IDF算法和空間向量模型的計算耗時要略長一些,但僅僅是幾十毫秒間的差距,況且在用戶檢索過程中,頁面加載用時要遠遠超過算法用時,界面加載時間可能跟文檔的大小、界面等因素有很大的關系,因此本文算法產生的額外耗時可以忽略不計。除算法耗時外,可以針對不同排序算法的準確度進行比較。

        表1 PDF文檔檢索信息表Tab.1 Table of retrieval information for PDF documents

        準確度(Precision,P)是返回結果中用戶需要的文檔所占的比例,對于評價該方法的準確度而言,需要對不同的問題進行查詢測試,對每次查詢分別計算Pk(Precision atk)[12],當k=5時,P5表示返回前5個結果的準確度,將查詢20次的結果P5平均值作為系統(tǒng)整體的P5值。對于查詢q問題時,檢索結果中位置k處的準確率公式為

        (7)

        式中,dk為排序列表中位置k處用戶需求文檔標簽,用戶檢索問題符合則標簽為1,反之為0。針對IT運維管理系統(tǒng)中比較容易出現(xiàn)的故障進行檢索,檢索結果分別用TF-IDF、空間向量模型和改進算法進行排序,分別對每種算法的準確率結果進行統(tǒng)計,得到的結果本文算法在準確率上要比TF-IDF和空間向量模型算法更高。檢索排序準確率統(tǒng)計結果如表2所示。

        表2 檢索排序準確率統(tǒng)計結果Tab.2 Statistical results of retrieval and sorting accuracy

        從表2中可以看到當k=3時,本文改進算法的準確率明顯高于TF-IDF算法和空間向量模型方法,當k=5時,3種算法的準確率相差不多,可見本文算法的效果要好于TF-IDF算法和空間向量模型方法。

        4 結論

        本文根據PDF文本管理系統(tǒng)設計需求,針對PDF文件解析速度慢,自行利用C語言編寫設計PDF解析工具,完成內容解析模塊的開發(fā)。又針對TF-IDF算法存在的天然缺陷進行改進,融合向量空間模型,提出新穎的檢索排序算法并完成檢索模塊的開發(fā)。最后經過系統(tǒng)測試,證明了本文PDF文檔管理系統(tǒng)在文本解析效率上對比開源的Tika工具具有明顯效率優(yōu)勢,且在文本檢索功能的準確率上高于TF-IDF、向量空間模型方法,為企業(yè)級智能文檔管理平臺提供有效和實用的方案。

        猜你喜歡
        詞頻文檔排序
        排序不等式
        基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        有人一聲不吭向你扔了個文檔
        恐怖排序
        節(jié)日排序
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        基于RI碼計算的Word復制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        詞頻,一部隱秘的歷史
        云存儲中支持詞頻和用戶喜好的密文模糊檢索
        国产自拍三级黄片视频| 日韩国产自拍精品在线| 亚洲AV日韩AV高潮喷潮无码| 青青草一级视频在线观看| 美女福利视频网址导航| 91色综合久久熟女系列| 色偷偷亚洲第一综合网| 亚洲无人区乱码中文字幕动画| 亚洲一区二区日韩专区| 亚洲国产亚综合在线区| 又色又爽又黄高潮的免费视频| 婷婷中文字幕综合在线| 色婷婷欧美在线播放内射| 亚洲AⅤ永久无码精品AA| 91尤物在线看| 亚洲无av码一区二区三区| 东京热加勒比久久精品| 日韩乱码人妻无码系列中文字幕| 国产xxx69麻豆国语对白| 中文亚洲成a人片在线观看| 成人区人妻精品一区二区不卡网站 | 毛片av中文字幕一区二区| 国产一级黄色片一区二区| 亚洲av无码日韩av无码网站冲| 亚洲啪av永久无码精品放毛片| 免费无码毛片一区二区三区a片| 亚洲人在线观看| 欧美精品高清在线xxxx| 亚洲国产丝袜美女在线| 久久久精品亚洲一区二区国产av| 久久精品国产亚洲av麻豆长发| 国产成人涩涩涩视频在线观看| 国产主播一区二区三区在线观看 | 国产精品国产午夜免费福利看 | 中文字日产幕码三区做法| 日韩精品久久无码中文字幕| 亚洲av无码av在线播放 | 亚洲av高清不卡免费在线| 亚洲熟妇av一区二区三区| 在线永久免费观看黄网站| 四虎无码精品a∨在线观看 |