亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DRIS系統(tǒng)中的中文自動分詞模塊設(shè)計與實現(xiàn)

        2016-08-25 05:39:28張昭楠馬亞蕾
        電子設(shè)計工程 2016年14期
        關(guān)鍵詞:哈希分詞詞典

        張昭楠,馬亞蕾

        (陜西職業(yè)技術(shù)學(xué)院 陜西 西安 710000)

        基于DRIS系統(tǒng)中的中文自動分詞模塊設(shè)計與實現(xiàn)

        張昭楠,馬亞蕾

        (陜西職業(yè)技術(shù)學(xué)院 陜西 西安710000)

        隨著信息檢索技術(shù)越來越受到人們的重視,其中的中文自動分詞技術(shù)就顯得越來越重要。計算機通過對文本中的詞語進行識別與處理,直接將結(jié)果傳送給搜索引擎進行檢索。文中在域內(nèi)資源整合系統(tǒng)(DRIS)的基礎(chǔ)上,設(shè)計并開發(fā)了一個全新的中文自動分詞模塊。通過算法的比對,選擇了正向匹配算法作為該模塊的基本算法,對其文件結(jié)構(gòu),中文詞典初始化及識別處理過程做出詳細介紹。經(jīng)后期使用后可比較出該模塊在檢索效率與服務(wù)質(zhì)量上都有了很大程度上的提高,達到了設(shè)計要求。

        DRIS系統(tǒng);中文自動分詞;搜索引擎;正向最大匹配法

        隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,其應(yīng)用的層面也越來越廣泛。這就直接導(dǎo)致了互聯(lián)網(wǎng)上的信息資源出現(xiàn)了迅速的膨脹和增長。隨著資源的不斷擴充,其管理及檢索服務(wù)逐漸無法滿足人們對速度及準(zhǔn)確性等越來越高的要求?;ヂ?lián)網(wǎng)在快速發(fā)展中產(chǎn)生的問題特別是在進行信息檢索時產(chǎn)生的問題與當(dāng)前流行的數(shù)字圖書館信息資源檢索類似,其檢索理論與設(shè)計有著很大的通用性。文中提出的域內(nèi)資源整合系統(tǒng),即DRIS,就是將各類信息及資源進行有序管理以及提供有效檢索的服務(wù)系統(tǒng)。本系統(tǒng)可將無序混亂的各種文字資源進行合理整合,方便使用者調(diào)用及查詢。在使用信息管理及檢索的實際操作下,系統(tǒng)利用的核心技術(shù)就是自動分詞技術(shù)。所以中文自動分詞模塊就是設(shè)計開發(fā)者研究的重點[1-2]。所謂中文自動分詞模塊,就是模塊設(shè)計者設(shè)計的對于需要進行分詞的文本進行一系列統(tǒng)計,授權(quán),分類等工作,然后將最后分析比對得出的結(jié)果發(fā)送給系統(tǒng)進行檢索的過程。所以該操作過程直接反映及影響了系統(tǒng)的檢索或者索引的效率及準(zhǔn)確性。通過上述對檢索過程的描述,可以發(fā)現(xiàn)對于信息收集檢索系統(tǒng)或某種搜索引擎來說,決定其檢索效率,穩(wěn)定性及準(zhǔn)確性的正是系統(tǒng)中的中文自動分詞模塊的好壞。因此,本文設(shè)計實現(xiàn)的基于DRIS系統(tǒng)中的中文分析模塊,對于網(wǎng)絡(luò)或信息量龐大的資源庫,在進行檢索或者索引時,可使系統(tǒng)中文詞定位精度得到很大的提高,并且在詞匯查全率,調(diào)取速度,準(zhǔn)確性和適用性等方面都有很大程度的提高[3-4]。

        1 DRIS理論介紹

        域內(nèi)資源整合系統(tǒng)(Domain Resource Integration System,DRIS)理論的提出是基于互聯(lián)網(wǎng)以及數(shù)字圖書館的快速發(fā)展以及對未來的情況來分析的。DRIS理論不是憑空得來的,而是在分析和綜合了傳統(tǒng)的集中式和分布式兩種搜索方式的優(yōu)缺點綜合出來的全新的信息檢索收集分析系統(tǒng)理論。其在原有分布式方式的基礎(chǔ)上擴大了搜集范圍,并結(jié)合了集中式的方式對網(wǎng)內(nèi)資源進行立體式的組織和管理。DRIS使用的結(jié)構(gòu)和框架與DNS的類似,其將互聯(lián)網(wǎng)根據(jù)一定的規(guī)則劃分為一個個獨立的區(qū)域,在每個區(qū)域中都存在著一個信息中心,也就是中心節(jié)點。中心節(jié)點的作用就是將各個區(qū)域中與系統(tǒng)有關(guān)且可能會被使用的資源進行定義和索引,并通過設(shè)置傳輸協(xié)議進行備份。從而實現(xiàn)了層與層之間,區(qū)域與區(qū)域之間的資源共享[5]。如圖1所示,DRIS從低到高可分為三個層次:第三層即總體結(jié)構(gòu)中最下面的一層,可將其理解為一個范圍區(qū)域,比如一坐大樓或一個小區(qū)。其主要作用就是負責(zé)收集區(qū)域內(nèi)所有信息資源,并在收集的過程中對其進行模式化的處理,為索引提供便利,然后將數(shù)據(jù)源傳送到上層結(jié)構(gòu)中。該結(jié)構(gòu)的優(yōu)勢就是區(qū)域內(nèi)的所有信息都會被按照一定的規(guī)律進行統(tǒng)計,數(shù)據(jù)使用效率特別高且易于管理。第二層,即總體結(jié)構(gòu)的中間層,其主要作用就是接收第三層發(fā)送過來的信息元數(shù)據(jù)。由于在中間層,該層還起著承上啟下的作用。內(nèi)置各種不同格式的數(shù)據(jù)接口,提供各種文本格式的檢索和查詢。第一層,即系統(tǒng)的最高層。該層只接收檢索接口傳來的描述類型的數(shù)據(jù),所以對接口的格式要求較高,需要符合設(shè)計標(biāo)準(zhǔn)。檢索時各個子系統(tǒng)的工作是由中心系統(tǒng)負責(zé)調(diào)控和管理的,DRIS在規(guī)定的檢索區(qū)域內(nèi)(三級域)采用穩(wěn)定的信息檢索結(jié)構(gòu),搭建了一個高效率,高穩(wěn)定性的網(wǎng)絡(luò)信息管理框架[6-7]。

        圖1 DRIS總體結(jié)構(gòu)

        2 中文自動分詞模塊設(shè)計方案

        數(shù)據(jù)信息資源檢索服務(wù)的好壞主要就體現(xiàn)在DRIS系統(tǒng)中的中文自動分詞模塊。本文設(shè)計開發(fā)的中文自動分詞模塊是基于Lucene.Net的底層DRIS搜索引擎中使用的分詞器元件。為使用者提供更加穩(wěn)定快捷的服務(wù)。在一般的檢索系統(tǒng)中,系統(tǒng)對于中文分詞的自動算法的選擇,通常是傾向于選擇詞語類型的小型化。但這種規(guī)律不是一成不變的。系統(tǒng)算法還需要對詞語的查全率,準(zhǔn)確率,及時效性進行綜合的考慮,同時在面對專有名字和專業(yè)詞匯時也需要做出特殊的處理。這些都是不得不考慮的因素[8-9]。具體來說,本文選擇的索引檢索器對分詞模塊的要求不僅僅是可以同時處理中文和英文字符,并且在數(shù)據(jù)信息資源經(jīng)過分詞處理后產(chǎn)生的元數(shù)據(jù)也必須具備有效地意義。例如:在進行檢索或者索引時,系統(tǒng)或者使用者需要明確作者,上傳時間,更新時間,編碼長度等信息的同時還需要保證引擎的速度和準(zhǔn)確率。這時,分詞模塊就必須兼顧查詢的精度,完整性及速度等等,并且在使用時的廣泛性和拓展性也是必不可少的,因此對所選擇的中文自動分詞算法均要從以上多個方面綜合考慮。經(jīng)過對幾種常用算法的比較和分析得出FMM算法和RMM算法相對于普通常用算法,在對分詞的準(zhǔn)確度定位,全面性,反應(yīng)速度,模糊音,歧義字等方面都具有明顯的優(yōu)勢。雖然FMM算法在速度上于RMM算法相比略有不足,但其更適合人們大腦的分詞習(xí)慣,并且在后期使用和維護中都有著明顯的優(yōu)勢[10]。因此,本文所設(shè)計的DRIS系統(tǒng)中的中文自動分詞模塊采用基于中文詞典的正向最大匹配中文自動分詞算法。

        3 中文自動分詞模塊的設(shè)計與實現(xiàn)

        中文自動分詞模塊最重要的部分就是詞典的初始化操作。所謂詞典的初始化,就是將普通詞典的文本及文件輸入到計算機中去。在計算機分詞系統(tǒng)的存儲和處理后,以一種以比較特殊的此類表格的數(shù)據(jù)結(jié)構(gòu)存儲在系統(tǒng)的數(shù)據(jù)庫內(nèi)存中,為中文詞典的分詞程序的使用做好準(zhǔn)備。對于一般的中文詞典進行初始化操作,并以一種特殊的格式錄入存儲器中,其處理的流程圖如圖2所示。由系統(tǒng)首先處理的詞表是以兩層哈希表的數(shù)據(jù)結(jié)構(gòu)表示的[11-12]。外層哈希表是以數(shù)字體現(xiàn)的,其作用是存儲導(dǎo)入詞典中詞語的長度并且按照一定的順序進行排列。而與其對應(yīng)的就是內(nèi)層哈希表,其是以字符串的形式體現(xiàn)的,該形式實際就是表明導(dǎo)入模塊內(nèi)的詞語經(jīng)過處理的次數(shù)。舉例來說,若一個詞語有4個字,則分比別將該詞的首個字,前兩個字,前3個字,以及整個字按照字節(jié)的大小附入哈希表外面的層面上,隨后再將短語的字順次的作為表格鍵放入哈希表的內(nèi)層中,并將內(nèi)層哈希表所對應(yīng)的初始值設(shè)置為1。如果表內(nèi)重復(fù)的插入相同的鍵位,則數(shù)值自動的進行遞增處理。舉例來說,對“美利堅合眾國”這個常規(guī)名詞做初始化的操作,模塊會自動提出“美”這個詞,并且長度設(shè)為1。由上文可知,該詞會被插入到鍵為1所對應(yīng)的內(nèi)層哈希表的鍵位中。此時若“美”這個單字沒有曾經(jīng)被識別的記錄,則放入內(nèi)層表中作為記錄的標(biāo)識值就顯示為1,若出現(xiàn)重復(fù)處理的記錄,則在1的基礎(chǔ)上做加法操作,跨度為1。第二次將“美利”一次提出,該詞字符的長度就是2,即插入到鍵為2所對應(yīng)的內(nèi)層哈希表的鍵位中。這時模塊中的處理器會對其進行識別,若是首次被插入,則對應(yīng)的表中鍵位值就設(shè)為1,若在此之前以有了被插入的記錄,則自動在原來的基礎(chǔ)上加1.后面的三、四、五次也是依次按照此規(guī)律進行排列和設(shè)計。假設(shè)系統(tǒng)中又錄入 “美利”一詞,如上文所介紹的流程,單字“美”首先會被識別和處理,由于其已經(jīng)存在哈希表的內(nèi)層中,系統(tǒng)會自動對其進行加1的操作。順次放置到哈希表的內(nèi)層中。第二次分析“美利”一詞時,也是同理推出,進行內(nèi)層哈希表鍵位的加1操作[13-14]。

        4 實現(xiàn)結(jié)果及問題分析

        對中文自動分詞模塊進行實際的索引和引用操作后,發(fā)現(xiàn)無論是中文文本,英文文本,甚至中英混合文本,都可以利用本文所設(shè)計的模塊進行快速準(zhǔn)確地分析和處理,獲得使用者希望得到的有效信息,獲取滿足使用者檢索要求的字段。集成了該中文自動分詞模塊的Lucene.Net對 Web網(wǎng)頁源文件進行索引而得到的標(biāo)準(zhǔn)顯示結(jié)果如圖3所示.在DRIS系統(tǒng)中,信息資源的處理過程為:底層將各個節(jié)點采集的所有信息資源經(jīng)過處理和整合成元數(shù)據(jù)后,傳遞到中間層進行處理,最后在第一層利用模塊自有的檢索方式進行儲存和檢索。在此過程中,網(wǎng)絡(luò)資源存在著很多冗余的無用信息,這就使在信息資源的處理過程中也會產(chǎn)生巨大的多余信息,這就導(dǎo)致了許多信息被重復(fù)的進行存儲和索引,這就影響到了搜索引擎的效率,也就是合并問題。產(chǎn)生這一問題的根本原因就是網(wǎng)絡(luò)信息資源的冗余性[15-17]。為了解決這一問題,本系統(tǒng)根據(jù)DRIS在體系結(jié)構(gòu)上分布性強及層次鮮明的特點,在層與層之間實現(xiàn)無縫連接,在數(shù)據(jù)傳輸?shù)耐瑫r進行檢索處理,并對元數(shù)據(jù)進行去重合處理。

        圖2 中文詞典初始化程序流程圖

        圖3 索引結(jié)果

        5 結(jié) 論

        文中在歸納和總結(jié)可中文自動分詞系統(tǒng)的性能標(biāo)準(zhǔn)以及分析了傳統(tǒng)系統(tǒng)面臨的問題的基礎(chǔ)上,設(shè)計開發(fā)出了基于DRIS理論與系統(tǒng)的中文自動分詞模塊。詳細說明了模塊設(shè)計的基本原理,并結(jié)合實際需要,通過算法的比對,選擇了正向匹配算法作為該模塊的基本算法,并對其文件結(jié)構(gòu),中文詞典初始化及識別處理過程做出詳細介紹。最后根據(jù)模塊的常見問題,提出了有效的解決方案,最終使檢索效率與服務(wù)質(zhì)量都有了很大程度上的提高,達到了設(shè)計要求。

        [1]劉開瑛.中文文本自動分詞和標(biāo)注[M].北京:商務(wù)印書館,2000.

        [2]梁南元.書面漢語自定分詞系統(tǒng)——CDWS[J].中文信息學(xué)報,1987,1(2):44-52.

        [3]李朝虹,陸建湖.現(xiàn)代漢語自動分析研究現(xiàn)狀綜述[J].廣西教育學(xué)院學(xué)報,2003(1):112-116.

        [4]韓克松,王永成.漢語語言的無詞典分詞模型系統(tǒng)[J].計算機應(yīng)用研究,1999(10):8-9.

        [5]付國宏,王平,王曉龍.漢語分詞和詞性標(biāo)注一體化分析的方法研究[J].計算機應(yīng)用研究,2001(7):24-26.

        [6]劉穎.用隱馬爾柯夫模型對漢語進行切分和標(biāo)注排歧[J].計算機工程與設(shè)計,2001,22(4):58-60.

        [7]劉開瑛.現(xiàn)代漢語自動分詞評測技術(shù)研究[J].語言文學(xué)應(yīng)用,1997(1):101-106.

        [8]王鑫,王丁.基于漢語分詞的信息抽取技術(shù)[J].信息技術(shù),2003,27(4):101-104.

        [9]黃德根,楊元生.基于統(tǒng)計方法的中文姓名識別[J].中文信息學(xué)報,2001,15(2):31-37.

        [10]孫茂松,張維杰.計算語言學(xué)研究與應(yīng)用[M].北京:北京語言學(xué)院出版社,1993.

        [11]張小衡,王玲.中文機構(gòu)名稱的識別與分析[J].中文信息學(xué)報,1997,12(4):21-32.

        [12]孫茂松,鄒嘉彥.漢語自動分詞研究評述[J].當(dāng)代語言學(xué),2001,3(1):22-32.

        [13]孫茂松,左正平.高頻最大交集型歧義切分字段在漢語自動分詞中的作用[J].中文信息學(xué)報,1999(1):27-34.

        [14]譚瓊,史忠植.分詞中的歧義處理[J].計算機工程與應(yīng)用,2002(11):125-127.

        [15]傅立云,劉新.基于詞典的漢語自動分詞算法的改進[J].情報雜志,2006(1):40-41.

        [16]張龍,苗紅霞,顧菁.基于GPIO的DC-DC Buck變換器Backstepping不匹配抗干擾設(shè)計[J].陜西電力,2016(5):39-43.

        [17]李娟,張玉杰.IFIX在電廠輔控系統(tǒng)中冗余的實現(xiàn)[J].陜西電力,2013(8):71-74.

        Design and implementation of Chinese automatic word segmentation module based on DRIS system

        ZHANG Zhao-nan,MA Ya-lei
        (Shaanxi Vocational and Technical College,Xi’an 710000,China)

        With more and more get people’s attention,information retrieval technology of Chinese automatic word segmentation technology becomes more and more important.Computer through to identify and handle the words in the text,direct to send search engine search results.Domain resource integration system(DRIS)is presented in this paper,on the basis of design and develop a new Chinese automatic word segmentation module.Through the alignment algorithm,a forward matching algorithm as the basic algorithm of the module,the file structure,Chinese dictionary initialized and recognition process in detail.After the late use comparable out the module on the retrieval efficiency and quality of service has improved to a great extent,has reached the design requirements.

        DRIS;Chinese words auto-segmentation;search engine;forward maximum match method

        TN99

        A

        1674-6236(2016)14-0158-03

        2016-03-22稿件編號:201603291

        張昭楠(1986—),女,陜西渭南人,碩士研究生,助教。研究方向:中國古代文學(xué),語言學(xué)及應(yīng)用語言學(xué)。

        猜你喜歡
        哈希分詞詞典
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        評《現(xiàn)代漢語詞典》(第6版)
        詞典例證翻譯標(biāo)準(zhǔn)探索
        值得重視的分詞的特殊用法
        基于OpenCV與均值哈希算法的人臉相似識別系統(tǒng)
        基于維度分解的哈希多維快速流分類算法
        計算機工程(2015年8期)2015-07-03 12:20:04
        基于同態(tài)哈希函數(shù)的云數(shù)據(jù)完整性驗證算法
        計算機工程(2014年6期)2014-02-28 01:25:40
        一種基于Bigram二級哈希的中文索引結(jié)構(gòu)
        高考分詞作狀語考點歸納與疑難解析
        天天碰免费上传视频| 97超碰国产一区二区三区| 成h视频在线观看免费| 欧美黑人又大又粗xxxxx| 真人直播 免费视频| 国产在线欧美日韩一区二区| 丁香婷婷激情俺也去俺来也| 新中文字幕一区二区三区| 国产亚洲欧美精品久久久| 欧美巨大精品欧美一区二区| 新久久久高清黄色国产| 亚洲一区二区三区2021| 亚洲中文字幕成人无码| 国产精品天堂| 日韩熟女一区二区三区| 亚洲第一幕一区二区三区在线观看| 亚洲娇小与黑人巨大交| 首页动漫亚洲欧美日韩 | 青青草视频国产在线观看| av天堂最新在线播放| 国产喷水1区2区3区咪咪爱av| 在线视频制服丝袜中文字幕| 中文字幕人妻少妇久久| 久久精品一区午夜视频| 西西人体444www大胆无码视频| 无码中文av有码中文av| 亚洲一区二区三区在线激情| 放荡的美妇在线播放| 亚洲精品欧美二区三区中文字幕 | 高清亚洲成av人片乱码色午夜 | 午夜亚洲精品一区二区| 国产精品久久久久久久久久红粉 | 国产精品无码无片在线观看| 男女男生精精品视频网站| 中文字幕亚洲精品一区二区三区| 国产精品三级在线观看无码| 精品国产乱码一区二区三区在线| 情av一区二区三区在线观看| 少妇熟女天堂网av| 一本久道久久综合婷婷五月| 自拍偷拍另类三级三色四色|