亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向內(nèi)容文檔管理系統(tǒng)的研究

        2012-10-14 15:55:30劉義豐
        科技傳播 2012年6期
        關(guān)鍵詞:詞法關(guān)鍵字詞典

        劉 楊,陳 帥,趙 穩(wěn),劉義豐

        天津市博盈科技發(fā)展有限公司,天津 300200

        1 系統(tǒng)的研究目標(biāo)

        隨著信息技術(shù)的深入發(fā)展,計(jì)算機(jī)給工作、生活等帶來了極大的方便,在極大地提高勞動生產(chǎn)率的同時,給社會帶來了無限的商機(jī)與財(cái)富。但隨著各個企事業(yè)單位對計(jì)算機(jī)使用程度的不斷加深,大量的、不同類型的電子文檔管理和利用成為越來越顯著的難題。盡管文檔管理人員花費(fèi)了大量的精力和時間通過各種分類方法去管理和維護(hù)電子文檔,但在實(shí)際工作中檢索所需文檔依舊要花費(fèi)大量時間。如何有效、安全的對大量電子文檔進(jìn)行管理和利用成為文檔管理人員和文檔使用人員的當(dāng)務(wù)之急。工作人員在檢索文件的時候往往不是需要找到“包含”某個關(guān)鍵字的文檔,而是希望找到與搜索目標(biāo)相關(guān)性最大的文檔。

        因此,理想的文檔管理軟件的目標(biāo)設(shè)定為:

        1)高效率:在檢索海量文檔的時候,能以較高的速度返回結(jié)果。

        2)高準(zhǔn)確性:可根據(jù)文檔內(nèi)容進(jìn)行查詢,并根據(jù)待查詢文檔和查詢條件之間的相關(guān)性進(jìn)行排序,在最短的時間內(nèi)找到內(nèi)容最相關(guān)的文檔。

        3)高靈活性 :管理各類文檔 :txt、eml、doc、docx、html、xml、pdf等等;同時考慮一個文檔的多個版本。

        4)高適應(yīng)性:適應(yīng)各個行業(yè)的特點(diǎn)。比如律師行業(yè)、建筑行業(yè)、會計(jì)師事務(wù)所等等所用的文檔中的詞匯有較大不同,應(yīng)該區(qū)別對待。

        5)高易用性:支持模糊查詢,支持復(fù)雜查詢條件,支持同義詞;

        2 系統(tǒng)的關(guān)鍵技術(shù)路線

        文章涉及到的技術(shù)原理簡述及設(shè)計(jì)原理如圖1。

        圖1 設(shè)計(jì)原理圖

        在設(shè)計(jì)文檔管理系統(tǒng)中,開發(fā)的重點(diǎn)和關(guān)鍵技術(shù)如下:

        1)文件分析分析技術(shù):通過文件分析器,將用戶納入管理的電子文件進(jìn)行分析。通過分析配置器使文件分析器能面向多種格式文檔的內(nèi)容,忽略文檔格式,以保證面向多類型文件;

        2)詞法分析。根據(jù)系統(tǒng)管理員設(shè)置的精度和選擇的專業(yè)詞典,將信息轉(zhuǎn)化為關(guān)鍵字信息;

        3)專用索引數(shù)據(jù)庫開發(fā)及使用技術(shù):開發(fā)專用數(shù)據(jù)庫以保存文檔相關(guān)關(guān)鍵字、文檔訪問路徑、權(quán)值(相關(guān)度)、訪問權(quán)限、文件版本信息等信息。分析用戶權(quán)限、根據(jù)關(guān)鍵字組合對索引數(shù)據(jù)庫進(jìn)行掃描,得到組合權(quán)值最高的前若干條數(shù)據(jù),反饋給用戶,對之后部分?jǐn)?shù)據(jù)進(jìn)行緩存。當(dāng)關(guān)鍵字組合查詢頻度較高時,緩存前一部分的查詢結(jié)果,以提高查詢效率;

        4)服務(wù)接口,根據(jù)協(xié)議提供文件利用、備份接口。

        面向內(nèi)容文檔管理系統(tǒng)的技術(shù)路線分為以下幾個步驟:文件分析、詞法分析、索引保存、用戶檢索關(guān)鍵字分析、數(shù)據(jù)檢索、返回結(jié)果。系統(tǒng)框架如圖2。

        圖2 系統(tǒng)框架圖

        1)文件分析:通過文件分析器,將用戶納入管理的電子文件進(jìn)行分析。通過分析配置器使文件分析器能面向多種格式文檔,忽略文檔格式,將文檔內(nèi)容生成XML文件進(jìn)入內(nèi)容詞法分析。同時,分析文檔是否修改文檔和重復(fù)文檔,是否有安全級別等等;

        2)詞法分析。根據(jù)系統(tǒng)管理員設(shè)置的精度和選擇的專業(yè)詞典,將信息轉(zhuǎn)化為關(guān)鍵字、出現(xiàn)頻度和文章權(quán)重的信息,并將如下信息提交給專用文檔索引數(shù)據(jù)庫;

        3)索引保存。保存關(guān)鍵字、文檔訪問路徑、權(quán)值(相關(guān)度)、訪問權(quán)限、文件版本信息等信息;

        4)用戶檢索關(guān)鍵字分析。通過詞法分析中間件對用戶搜索關(guān)鍵信息進(jìn)行分析,將搜索信息分解成為搜索關(guān)鍵字和同義詞并提交索引數(shù)據(jù)庫進(jìn)行檢索;

        5)數(shù)據(jù)檢索。分析用戶權(quán)限、根據(jù)關(guān)鍵字組合對索引數(shù)據(jù)庫進(jìn)行掃描,得到組合權(quán)值最高的前20條數(shù)據(jù),反饋給用戶,對后60條數(shù)據(jù)進(jìn)行緩存。當(dāng)關(guān)鍵字組合查詢頻度較高時,緩存前20條查詢結(jié)果,以提高查詢效率;

        6)返回結(jié)果。用戶根據(jù)返回結(jié)果對文件進(jìn)行訪問,如果訪問出現(xiàn)異常,則記錄異常、標(biāo)記異常文檔。

        主要的功能的在現(xiàn)有的產(chǎn)品如Lucense中有比較完善的實(shí)現(xiàn),但仍然有許多需要進(jìn)一步細(xì)化的工作:

        1)面向多種文檔的特征配置器的開發(fā)使用。提高系統(tǒng)的可擴(kuò)展性,使系統(tǒng)能面向多種文檔。文檔提供者提供的文檔往往是多類型的。文檔可能包含幾個大類:MS Office,PDF,金山Office,文本文件,email,其他文檔?,F(xiàn)有的檢索只能識別對其中的幾類文檔。應(yīng)該可以通過對文檔特征的配置,增加指定文檔的特征配置文件,以保證文檔可以進(jìn)行分析查詢,使系統(tǒng)具備了近乎無限的擴(kuò)展性;

        2)結(jié)合專業(yè)詞典及專業(yè)詞典生成器。保證分詞的準(zhǔn)確和詞匯量的豐富。根據(jù)各個行業(yè)專業(yè)詞匯的不同,對詞語精度的要求,對同義詞的定義等等,以明確使用各類的詞典,減少語言的歧義性。生成器可以分析多篇專業(yè)文檔并和日常工作詞典相比較,自動生成專業(yè)詞典生成器;

        3)面向多類型文檔的高速分析器。結(jié)合windows/Linux底層文件系統(tǒng)構(gòu)建文件分析中間件,結(jié)合文檔定義以進(jìn)行高速分析并索引;

        4)多方式詞法分析技術(shù)。引入多種詞法分析技術(shù),根據(jù)用戶不同的要求,可按照不同精度進(jìn)行詞法分析?;谧址ヅ涞姆衷~方法、基于理解的分詞方法、基于統(tǒng)計(jì)的分詞方法。

        3 系統(tǒng)展望

        內(nèi)容相關(guān)文檔管理系統(tǒng)是海量文檔管理的必然方向,是文檔共享和資源利用的有效手段。為了有效的體現(xiàn)文檔資源社會價(jià)值和經(jīng)濟(jì)價(jià)值,可以對不涉密的文檔向局域網(wǎng)或internet網(wǎng)進(jìn)行共享。可以說面向內(nèi)容文檔管理系統(tǒng)有著廣闊的市場前景和巨大的經(jīng)濟(jì)價(jià)值。

        [1]Hector Garcia-Molina,Jeffrey D.Ullman,Jennifer Widom.Database Systems:The Complete Book(數(shù)據(jù)庫系統(tǒng)全書).Prentice Hall/Pearson,2003(機(jī)械工業(yè)出版社影印版).

        [2]Baeza-Yates, R.&B.Ribeiro-Neto.eds.Modern Information Retrieval.ACM Press, 1999(國內(nèi)有機(jī)械工業(yè)出版社出版的影印版和中文翻譯版).

        [3]李國輝,等著.信息的組織與檢索.科學(xué)出版社,2003.

        [4]Witten, Ian et al.Managing Gigabytes.Orlando, FL:Morgan Kaufmann Publishers Incorporated,1999.

        [5]William Frakes & Ricardo Baeza-Yates, Information Retrieval Data Structures and Algorithms.PrenticeHall,1992.

        [6]Karen Sparck Jones & Peter Willet eds.Readings in Information Retrieval, Morgan Kaufmann,1997.

        [7]李曉明,閆宏飛,王繼民著.搜索引擎-原理、技術(shù)與系統(tǒng).北京:科學(xué)出版社,2005.

        猜你喜歡
        詞法關(guān)鍵字詞典
        詞法 名詞、代詞和冠詞
        履職盡責(zé)求實(shí)效 真抓實(shí)干勇作為——十個關(guān)鍵字,盤點(diǎn)江蘇統(tǒng)戰(zhàn)的2021
        華人時刊(2022年1期)2022-04-26 13:39:28
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        成功避開“關(guān)鍵字”
        評《現(xiàn)代漢語詞典》(第6版)
        應(yīng)用于詞法分析器的算法分析優(yōu)化
        詞典例證翻譯標(biāo)準(zhǔn)探索
        談對外漢語“詞法詞”教學(xué)
        《胡言詞典》(合集版)刊行
        基于用戶反饋的關(guān)系數(shù)據(jù)庫關(guān)鍵字查詢系統(tǒng)
        久久亚洲精品成人无码| 久久久人妻一区精品久久久| 亚洲国产精品激情综合色婷婷| 无码毛片内射白浆视频| 久热这里只有精品视频6| 欧美成人a在线网站| 热门精品一区二区三区| 日本一级特黄aa大片| 成人网站免费看黄a站视频| 国产啪精品视频网给免丝袜| 一本久久综合亚洲鲁鲁五月夫| 风韵犹存丰满熟妇大屁股啪啪 | 国内精品卡一卡二卡三| 久久永久免费视频| 少妇久久高潮不断免费视频| 麻豆精品一区二区av白丝在线| 久久精品免费一区二区三区 | 骚小妹影院| 日本特黄a级高清免费大片| 日韩在线精品免费观看| 蜜臀av在线播放一区二区三区 | 在线观看日本一区二区三区| 亚洲精品无码永久中文字幕| 免费无码毛片一区二区三区a片 | 男女啦啦啦视频在线观看| 国产极品美女高潮无套| 熟妇的荡欲色综合亚洲| 国内精品久久久久久久久蜜桃| 视频区一区二在线观看| 18禁黄污吃奶免费看网站| 5级做人爱c视版免费视频| 黑丝美女喷水在线观看| 国产极品裸体av在线激情网| 日本做受高潮好舒服视频| 欧美成人高清手机在线视频| 九九精品国产亚洲av日韩| 亚洲一区二区三区香蕉| 亚洲国产一区在线二区三区| 国产黄色三级三级三级看三级| 色欲av伊人久久大香线蕉影院| 曰本无码人妻丰满熟妇5g影院|