亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文分詞關(guān)鍵技術(shù)研究

        2017-02-26 02:45:54湖北工業(yè)大學(xué)葉曉龍
        湖北農(nóng)機(jī)化 2017年6期
        關(guān)鍵詞:搜索引擎信息

        湖北工業(yè)大學(xué) 葉曉龍

        中文分詞關(guān)鍵技術(shù)研究

        湖北工業(yè)大學(xué) 葉曉龍

        中文信息處理對(duì)于人們?nèi)粘I钪蝎@取信息起著舉足輕重的作用,是信息檢索和搜索引擎必不可少的基礎(chǔ)性工作?,F(xiàn)有的中文分詞方法有很多,它們以字符串匹配、統(tǒng)計(jì)模型、理解、路徑以及語(yǔ)義等為基礎(chǔ),并輔以分詞詞典和規(guī)則庫(kù),能夠在一定程度上對(duì)中文信息進(jìn)行切分。分詞結(jié)果一般符合邏輯,符合日常生活中語(yǔ)言表達(dá)規(guī)范。因此,能很好被人們所理解運(yùn)用,但由于漢語(yǔ)本身的特殊性和復(fù)雜性,中文分詞面臨許多難點(diǎn),目前的中文分詞技術(shù)普遍存在歧義詞處理和未登錄詞(新詞)識(shí)別2個(gè)難點(diǎn)。因此,一個(gè)性能良好的中文分詞方法不但需要具備高效的分詞算法和詞典機(jī)制,而且要準(zhǔn)確識(shí)別歧義詞和未登錄詞。本文對(duì)搜索引擎的中文分詞技術(shù)進(jìn)行研究,具有一定的理論價(jià)值和實(shí)際意義。

        中文分詞;關(guān)鍵技術(shù);研究

        Internet,中文正式譯名為因特網(wǎng),又叫做國(guó)際互聯(lián)網(wǎng)。它是由那些使用公用語(yǔ)言互相通信的計(jì)算機(jī)連接而成的全球網(wǎng)絡(luò)。一旦你連接到它的任何一個(gè)節(jié)點(diǎn)上,就意味著您的計(jì)算機(jī)已經(jīng)連入Internet網(wǎng)上了。目前Internet的用戶(hù)已經(jīng)遍及全球,有超過(guò)幾億人在使用Internet,并且它的用戶(hù)數(shù)還在以等比級(jí)數(shù)上升。它是一個(gè)全球性的巨大的計(jì)算機(jī)網(wǎng)絡(luò)體系,它把全球數(shù)萬(wàn)個(gè)計(jì)算機(jī)網(wǎng)絡(luò),數(shù)億臺(tái)主機(jī)連接起來(lái),包含了難以計(jì)數(shù)的信息資源,向全世界提供信息服務(wù)。它的出現(xiàn),是世界由工業(yè)化走向信息化的必然和象征。Internet構(gòu)成了當(dāng)今信息社會(huì)的基礎(chǔ)結(jié)構(gòu)。因特網(wǎng)(Internet)是一組全球信息資源的總匯。因特網(wǎng)最高層域名分為機(jī)構(gòu)性域名和地理性域名兩大類(lèi),目前主要有14種機(jī)構(gòu)性域名。1995年10月24日,“聯(lián)合網(wǎng)絡(luò)委員會(huì)”通過(guò)了一項(xiàng)有關(guān)決議:將“互聯(lián)網(wǎng)”定義為全球性的信息系統(tǒng)。通過(guò)全球性的唯一的地址邏輯地鏈接在一起。這個(gè)地址是在互聯(lián)網(wǎng)協(xié)議(IP)或傳輸控制協(xié)議和Internet協(xié)議(TCP/IP協(xié)議),或其他繼承人的協(xié)議或互聯(lián)網(wǎng)協(xié)議(IP)進(jìn)行通信兼容的基礎(chǔ)上的其他協(xié)議。讓公共用戶(hù)或者私人用戶(hù)使用高水平的服務(wù)。這項(xiàng)服務(wù)是在上述通信及相關(guān)基礎(chǔ)設(shè)施。實(shí)際上由于互聯(lián)網(wǎng)是劃時(shí)代的,它不是為某一種需求設(shè)計(jì)的,而是一種可以接受任何新的需求的總的基礎(chǔ)結(jié)構(gòu)。你也可以從社會(huì)、政治、文化、經(jīng)濟(jì)、軍事等各個(gè)層面去解釋理解其意義和價(jià)值?;蛘哒f(shuō)Internet是一項(xiàng)正在向縱深發(fā)展的技術(shù),是人類(lèi)進(jìn)入網(wǎng)絡(luò)文明階段或信息社會(huì)的標(biāo)志。

        近十幾年來(lái),人們使用它的生產(chǎn)和數(shù)據(jù)收集能力大大提高,如數(shù)百數(shù)千數(shù)據(jù)庫(kù)企業(yè)管理、政府機(jī)關(guān)、科研和工程開(kāi)發(fā)等,而且這種趨勢(shì)將繼續(xù)發(fā)展。因此,提出了一個(gè)新的挑戰(zhàn):它被稱(chēng)為信息爆炸、信息超載的時(shí)代,幾乎每個(gè)人都需要面對(duì)的問(wèn)題。怎樣才能不被信息的汪洋大海所淹沒(méi),從中及時(shí)發(fā)現(xiàn)有用的知識(shí),變得越發(fā)的重要。要想使數(shù)據(jù)真正成為一個(gè)公司的資源,只有充分利用它為公司自身的業(yè)務(wù)決策和戰(zhàn)略發(fā)展服務(wù)才行,否則大量的數(shù)據(jù)可能成為包袱,甚至成為垃圾。因此,數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)DMKD技術(shù)應(yīng)運(yùn)而生,并得以蓬勃發(fā)展,越來(lái)越顯示出其強(qiáng)大的生命力。

        正向最大化匹配就是按照從左到右的順序最大化的匹配詞組,這個(gè)是中文分詞中最常見(jiàn)的一種分詞方式。當(dāng)在百度中輸入“如何徹底消滅家里的蟑螂”,在搜索結(jié)果中,首先匹配的是文本框中輸入的詞或詞組,可以看出選擇關(guān)鍵詞是多么重要。

        正向最大匹配算法:從左到右將待分詞文本中的幾個(gè)連續(xù)字符與詞表匹配,如果匹配上,則切分出一個(gè)詞。但這里有一個(gè)問(wèn)題:要做到最大匹配,并不是第一次匹配到就可以進(jìn)行切分的,切分組合有很多,我們需要尋找最合適的組合。我們來(lái)舉個(gè)例子:待分詞文本: content[]={“中”,“華”,“民”,“族”,“從”,“此”,“站”,“起”,“來(lái)”,“了”,“?!眪

        詞表:dict[]={“中華”,“中華民族”,“從此”,“站起來(lái)”}

        (1)從content[1]開(kāi)始,當(dāng)掃描到content[2]的時(shí)候,發(fā)現(xiàn)“中華”已經(jīng)在詞表dict[]中了??墒沁€是不能切分得出結(jié)果,因?yàn)槲覀儾恢篮竺娴脑~語(yǔ)能不能組成更長(zhǎng)的詞(最大匹配)。

        (2)繼續(xù)掃描content[3],發(fā)現(xiàn)“中華民”并不是dict[]中的詞,但是我們還不能確定是否前面找到的"中華"已經(jīng)是最大的詞了。因?yàn)椤爸腥A民”是dict[2]的前綴。

        (3)掃描content[4],發(fā)現(xiàn)“中華民族”是dict[]中的詞。繼續(xù)掃描下去。

        (4)當(dāng)掃描content[4]的時(shí)候,發(fā)現(xiàn)“中華民族從”并不是詞表中的詞,也不是詞的前綴。因此可以切分出前面最大的詞——“中華民族”。

        由此可見(jiàn),最大匹配出的詞必須保證下一個(gè)掃描不是詞表中的詞或詞的前綴才可以結(jié)束。

        本文對(duì)中文分詞停留于一個(gè)簡(jiǎn)單的應(yīng)用層面上,只能運(yùn)用這些算法進(jìn)行簡(jiǎn)單的對(duì)比并且進(jìn)行實(shí)現(xiàn),以及將現(xiàn)有的分詞算法嵌入到Lucene搜索引擎,但是本文提出一個(gè)改進(jìn)的分詞系統(tǒng)設(shè)計(jì)想法。希望在以后的學(xué)習(xí)過(guò)程中,能完善自己的想法,并且能夠?qū)崿F(xiàn)該改進(jìn)的中文分詞算法。

        [1]Chang Jyun-Shen,C.-D.Chenand Shun-De Chen"Chinese Word Segmentation through constraint satisfactionand statistical optimization",Proc.of ROCLING IV,ROCLING,Taipei,pp 147-165.

        [2]Richard Sproat,Chilin Shih,William Gale and Nancy Chang(1996),"A Stochastic Finite-State WordSegmentationAlgorithm for Chinese",Computational Linguistics,Vol 22,Number 3,1996.

        [3]Jian-Cheng Dai and Hsi-Jian Lee,"Paring with Tag Information in a probabilistic generalized LR parser"(1994),InternationalConferenceon Chinese Computing,Singapore,pp33-39.

        [4]Chang,Jyun-Shen,Shun-De Chen,Ying Zhen,Xian-Zhong Liu and Shu-Jin Ke(1992),"Large-corpus-based methods for Chinese personal name recognition",Journal of Chinese Information Processing,6(3):7-15.

        2017-10-10)

        猜你喜歡
        搜索引擎信息
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
        展會(huì)信息
        基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)
        廣告主與搜索引擎的雙向博弈分析
        知識(shí)漫畫(huà)
        搜索,也要“深搜熟濾”
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        国产网站一区二区三区| 国产一级淫片免费大片| 风韵丰满妇啪啪区老老熟女杏吧| 亚洲av老熟女一区二区三区| av色欲无码人妻中文字幕| 两个人看的www高清视频中文| 久久99中文字幕久久| 青青久久精品一本一区人人| 国产乡下妇女做爰| 国产精品黄在线观看免费软件| 白白色发布在线播放国产| 粉色蜜桃视频完整版免费观看在线| 日韩经典午夜福利发布| 国产精品久久久久久无码| 国产成年无码久久久免费| 中文字幕在线亚洲精品一区| av无码电影一区二区三区| 色欲aⅴ亚洲情无码av蜜桃| 亚洲综合久久1区2区3区| 亚洲日本中文字幕乱码在线| 未满十八勿入av网免费| 国产精美视频| 黄色国产一区在线观看| 日韩 亚洲 制服 欧美 综合| 九九99久久精品国产| 人妖另类综合视频网站| 国产一区二区三区精品乱码不卡| 国产办公室秘书无码精品99| 大胆欧美熟妇xxbbwwbw高潮了| 久久精品韩国日本国产| 丰满的少妇av一区二区三区| 成人午夜福利视频镇东影视| 久久无码精品精品古装毛片| 青青视频在线播放免费的| 丰满熟妇人妻av无码区| 蜜桃臀无码内射一区二区三区| 色人阁第四色视频合集网| 国产精品亚洲三级一区二区三区| 国产高清一区二区三区视频| 99久久国产综合精品女乱人伦| 国产一区二区黑丝美胸|