亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        漢語(yǔ)詞匯分詞研究

        2015-05-30 19:39:10張慧芳
        2015年34期
        關(guān)鍵詞:分詞檢索漢語(yǔ)

        張慧芳

        摘要:漢語(yǔ)分詞是從動(dòng)態(tài)的信息中檢索出符合用戶個(gè)性化需求的詞匯理論,它能為用戶提供及時(shí)、個(gè)性化的信息服務(wù)。筆者探討了漢語(yǔ)詞匯分詞在網(wǎng)絡(luò)信息檢索中的應(yīng)用,提出隱式分詞詞典,該詞典在漢語(yǔ)文本輸入的同時(shí)進(jìn)行分詞聯(lián)想,更好的解決了中文信息處理中需要分詞的問(wèn)題。

        關(guān)鍵詞:漢語(yǔ);分詞;檢索;隱性詞典

        信息技術(shù)時(shí)代,從網(wǎng)絡(luò)中學(xué)習(xí)知識(shí)和發(fā)布相關(guān)信息的人越來(lái)越多的人,互聯(lián)網(wǎng)信息技術(shù)發(fā)生了前所未有的爆炸式發(fā)展,這種變化在給用戶帶來(lái)方便的同時(shí),也讓用戶陷入信息泥潭。如何更加準(zhǔn)確、快捷地幫助用戶尋找其感興趣的信息,如何提高檢索質(zhì)量和檢索精度,將會(huì)成為“互聯(lián)網(wǎng) +”時(shí)代研究人員逐漸關(guān)注的焦點(diǎn)。漢語(yǔ)分詞正是用來(lái)從動(dòng)態(tài)的信息流中抽取出符合用戶個(gè)性化需求的信息,從而為用戶提供及時(shí)、個(gè)性化的信息服務(wù)。漢語(yǔ)分詞的準(zhǔn)確性直接影響到搜索結(jié)果是否符合用戶的目標(biāo)需求。

        近幾十年來(lái),分詞技術(shù)取得可觀的研究成果,但在用戶提取信息時(shí)效果還是不盡人意。本文提出了建立隱式分詞詞典的設(shè)想,該詞典進(jìn)行中文文本輸入的同時(shí)后臺(tái)程序進(jìn)行分詞聯(lián)想,并將文本以相關(guān)詞串的形式儲(chǔ)存在計(jì)算機(jī)。我們期待這種方法能很大程度上解決中文信息處理中需要分詞的問(wèn)題。

        一、現(xiàn)存的分詞方法及其局限性

        1.現(xiàn)有的分詞方法

        自動(dòng)分詞作為自然語(yǔ)言處理的前處理階段事關(guān)重大,它是各種漢語(yǔ)信息處理包括語(yǔ)音處理、主題詞檢索、詞頻統(tǒng)計(jì)、文摘生成等工作的基礎(chǔ)工程,也一直是制約中文信息處理飛躍的“ 瓶頸” 之一。關(guān)于分詞的必要性,筆者在另一篇文章《漢語(yǔ)詞匯分詞規(guī)范的理念和實(shí)踐》一文中已陳述,在此不做贅述。這里就現(xiàn)有的分詞方法做簡(jiǎn)單概括并對(duì)其局限性做出評(píng)價(jià)。

        目前的分詞系統(tǒng)采用的分詞方法主要有三種類型:

        (1)機(jī)械分詞法。這種分詞方法很普遍,又叫字符串匹配的分詞方法,百度就是此類分詞。它又具體又分為:正向最大匹配法、逆向最大匹配法、最短路徑分詞法和雙向最大匹配法等。

        a.正向最大匹配法,由左到右的方向。舉個(gè)例子:“不知道你在說(shuō)什么”,這句話采用正向最大匹配法是 “不知道,你,在,說(shuō)什么”。

        b.逆向最大匹配法,由右到左的方向?!安恢滥阍谡f(shuō)什么”用逆向最大匹配法來(lái)分,即“不,知道,你在,說(shuō),什么”。

        c.最短路徑分詞法,使每一句中切出的詞數(shù)最小?!安恢滥阍谡f(shuō)什么”最短路徑分詞法就是 “不知道,你在,說(shuō)什么”,分出來(lái)就只有3個(gè)詞了。

        d.雙向最大匹配法,進(jìn)行由左到右、由右到左兩次掃描。

        正向最大匹配法,最終切分結(jié)果為:“我們/在野/生動(dòng)/物/園/玩”,其中,兩字詞3個(gè),單字字典詞為2,非詞典詞為1。

        (2)語(yǔ)義分詞法。語(yǔ)義分詞法引入了語(yǔ)義分析,對(duì)自然語(yǔ)言自身的語(yǔ)言信息進(jìn)行更多的處理,如擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)法、知識(shí)分詞語(yǔ)義分析法、鄰接約束法、綜合匹配法、后綴分詞法等。

        (3)理解分詞法,又稱人工智能法。這種分詞方法是通過(guò)讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象。

        2.現(xiàn)有分詞方法的局限性

        現(xiàn)有的分詞方法,無(wú)論是機(jī)械分詞法、語(yǔ)義分詞法,還是人工智能分詞法都不能有效解決漢語(yǔ)詞自動(dòng)切分中存在兩大困難。

        a.歧義識(shí)別。主要的歧義有兩種:交集型歧義和組合型歧義,例如:表面的,因?yàn)椤氨砻妗焙汀懊娴摹倍际窃~,那么這個(gè)短語(yǔ)就可以分成“表面 的”和“表 面的”。這種稱為交集型歧義(交叉歧義)。

        b.未登錄詞的識(shí)別。未登錄詞也就是那些在分詞詞典中沒有收錄,但又確實(shí)能稱為詞的那些詞。除了“duang、閱兵藍(lán)”這樣的新詞以外,還有機(jī)構(gòu)名、人名、地名、產(chǎn)品名、商標(biāo)名、簡(jiǎn)稱、省略語(yǔ)等都是很難處理的問(wèn)題,而且這些又正好是人們經(jīng)常使用的詞,因此對(duì)于搜索引擎來(lái)說(shuō),分詞系統(tǒng)中的新詞識(shí)別十分重要。

        二、漢語(yǔ)分詞在信息檢索中的應(yīng)用

        隨著技術(shù)進(jìn)步,漢語(yǔ)自動(dòng)分詞技術(shù)的應(yīng)用之廣自然不必言說(shuō),分詞系統(tǒng)應(yīng)支持不同的應(yīng)用目標(biāo),包括各種輸入方式、簡(jiǎn)繁轉(zhuǎn)換、語(yǔ)音合成、翻譯、檢索、文摘等等;支持不同領(lǐng)域的應(yīng)用,包括自然科學(xué)、社會(huì)和技術(shù)及日常辦公、新聞、交際等;支持不同地區(qū)(包括灣、澳、臺(tái)等地)的漢語(yǔ)處理,應(yīng)能適應(yīng)不同地區(qū)的不同用字、不同用詞、不同語(yǔ)言風(fēng)格,不同專有名詞構(gòu)成方式等。具體到信息檢索領(lǐng)域的應(yīng)用,對(duì)漢語(yǔ)自動(dòng)分詞技術(shù)的特殊性需要分詞詞典。智能信息檢索無(wú)論是機(jī)械分詞法還是基于理解的分詞法,都依賴于分詞詞典。分詞詞典應(yīng)具備以下特性:

        a.顆粒度問(wèn)題。鑒于每個(gè)用戶的查詢請(qǐng)求各不相同,為了適應(yīng)用戶的查詢,檢索系統(tǒng)的詞庫(kù)的分詞單位應(yīng)該較小,應(yīng)該是現(xiàn)代漢語(yǔ)中最基本、最穩(wěn)定的詞。

        b.專業(yè)詞典。雖然使用了雙向分詞算法,但也還存在著一定的失誤率,主要原因是基于字典、詞庫(kù)匹配的分詞方法對(duì)詞庫(kù)的依賴性較強(qiáng)。由于我們所研究的網(wǎng)頁(yè)信息有較強(qiáng)的專業(yè)性,所以我們可以通過(guò)盡可能地?cái)U(kuò)大專業(yè)詞庫(kù),從而更大地降低分詞失誤率,專業(yè)詞典的編制是降低自然語(yǔ)言處理與智能信息檢索實(shí)現(xiàn)難度的有利輔助。

        3、總體詞數(shù)越少越好,在相同字?jǐn)?shù)的情況下,總詞數(shù)越少,說(shuō)明語(yǔ)義單元越少,那么相對(duì)的單個(gè)語(yǔ)義單元的權(quán)重會(huì)越大,因此準(zhǔn)確性會(huì)越高。

        因此,我們?cè)O(shè)想出隱式分詞詞典,這種詞典可以最大程度上解決漢語(yǔ)分詞問(wèn)題。

        三、設(shè)置隱式分詞詞典的必要性及其功能

        漢語(yǔ)分詞問(wèn)題是大數(shù)據(jù)時(shí)代的產(chǎn)物,是計(jì)算機(jī)處理中文信息的需要,所以分詞問(wèn)題應(yīng)該由計(jì)算機(jī)技術(shù)來(lái)實(shí)現(xiàn)。本文提出的隱式分詞詞典在文本錄入的同時(shí)由分詞軟件進(jìn)行同步分詞,這種方法是未來(lái)大數(shù)據(jù)時(shí)代解決分詞問(wèn)題必須考慮的。

        首先,之前人們研究出的增加分詞符或者改變漢字書寫方式等自動(dòng)分詞系統(tǒng)都要付出一定的改變,改變?nèi)藗兊囊沧x書寫習(xí)慣,若是信息量很龐大,要想改變?nèi)藗兏畹俟痰牧?xí)慣需要巨大開銷。反之,我們這種隱式分詞詞典系統(tǒng)幾乎很巧妙的解決了這個(gè)后顧之憂,不需要為分詞再付出額外的人力物力開銷。

        其次,要實(shí)現(xiàn)分詞連寫,首要問(wèn)題分詞必須要規(guī)范。在歷來(lái)的分詞爭(zhēng)議的歷史長(zhǎng)流中,漢語(yǔ)分詞都沒有統(tǒng)一的規(guī)范。即使是現(xiàn)在,已經(jīng)出了分詞規(guī)范,也很少有人能把分詞的國(guó)家規(guī)范記得清清楚楚,至于準(zhǔn)確地應(yīng)用則更是少之又少。而采用隱式分詞詞典,就可以由輸入軟件機(jī)器來(lái)記住分詞規(guī)范,使得所有在機(jī)內(nèi)的文本都是規(guī)范統(tǒng)一的,用戶需要時(shí)可以自由提取。

        再次,對(duì)于分詞中固有歧義切分的識(shí)別,隱式分詞詞典在用戶輸入的時(shí)候,就通過(guò)與用戶的直接意愿交互來(lái)獲取這個(gè)信息,從而消除這種固有歧義切分?,F(xiàn)有的中文輸入法中基本上都采取了與用戶交互的方式來(lái)消除歧義,因此增加消除固有歧義切分的交互并不會(huì)給用戶帶來(lái)什么不便。

        最后,隱式分詞連寫輸入法中的“隱式”是指在輸入時(shí)并不要求用戶去進(jìn)行分詞工作,而是由輸入軟件來(lái)進(jìn)行分詞工作,這對(duì)用戶來(lái)說(shuō)分詞連寫是隱式的。另外,輸入的文本將以分詞的形式保存在計(jì)算機(jī)中,但是分詞標(biāo)記卻是隱式的,若是用戶刻意要求顯示分詞標(biāo)記點(diǎn)擊選項(xiàng)即可顯示。這種隱式分詞詞典的引入將使信息處理邁入嶄新時(shí)代。

        綜上所述,隱式分詞連寫輸入法主要有以下幾個(gè)功能:

        1.隱式的自動(dòng)分詞詞典

        隱式分詞詞典好比現(xiàn)在的英語(yǔ)“有道”軟件,該詞典將按照信息處理用國(guó)家分詞規(guī)范(GB/T 13715.92)進(jìn)行自動(dòng)分詞。只要鼠標(biāo)點(diǎn)擊到詞那就自動(dòng)呈現(xiàn)該詞對(duì)應(yīng)的英語(yǔ)詞匯,我們的分詞詞庫(kù)也可以做到:根據(jù)用戶需要,可以自定設(shè)置是否顯示分詞,想要展示時(shí)就鼠標(biāo)點(diǎn)到那?;蛘呦袂袚Q中英文屏幕那樣切換到分詞屏幕;信息檢索時(shí),也可以自動(dòng)聯(lián)想所需要的分詞,這在極大程度上解決了信息處理的分詞歧義問(wèn)題,這樣大大方便我們的語(yǔ)言生活。

        2.中文文本的錄入

        隱式分詞詞典具有向計(jì)算機(jī)輸入中文文本的功能。我們暫且計(jì)劃采用已有的拼音編碼進(jìn)行輸入,當(dāng)然,隨著技術(shù)成熟,以后將擴(kuò)展到五筆字型等其它編碼形式。

        3.保存并顯示文本

        通過(guò)該詞典輸入法錄入的文本將以詞串的形式保存在機(jī)內(nèi),文本內(nèi)容可隱可顯。用戶根據(jù)需求自行設(shè)置是否顯示分詞標(biāo)記,這樣既解決了分詞問(wèn)題又不需要人們改變?nèi)粘A?xí)慣。

        計(jì)算機(jī)裝上這樣的分詞詞典就可以自動(dòng)識(shí)別分詞。

        四、展望和困難

        分詞連寫是一種民族思維的數(shù)字化工程?;ヂ?lián)網(wǎng)時(shí)代,漢語(yǔ)數(shù)字化的歷史進(jìn)程卻是不可抗拒的。漢語(yǔ)實(shí)行分詞連寫,將極大地提高漢民族集體智能的數(shù)字化程度,從而大大加快中國(guó)的現(xiàn)代化歷史進(jìn)程。

        隱式分詞詞典的前景是光明的,路途不免遇到各種困難:

        1.分詞規(guī)范問(wèn)題。分詞標(biāo)準(zhǔn)的界定問(wèn)題是漢語(yǔ)語(yǔ)法的一個(gè)基本、長(zhǎng)期的問(wèn)題。它涉及到核心詞表、詞的變形,詞綴等等方面。因此,《信息處理用現(xiàn)代漢語(yǔ)分詞詞表》針對(duì)語(yǔ)言信息處理的需求所提出的是:“這個(gè)詞表既要向根據(jù)語(yǔ)言學(xué)理念建立起來(lái)的詞表盡量靠攏,同時(shí)又要與老百姓心目中‘朦朦朧朧但又確乎存在的‘詞表盡量兼容?!?隱式分詞詞典不妨就按照這樣的分詞規(guī)范來(lái)做。

        2.詞典的編制與運(yùn)作。我們?cè)O(shè)想還要能夠讓詞典動(dòng)起來(lái),通過(guò)建立程序讓詞典可以自我更新,既得會(huì)“納新”有得會(huì)“吐陳”。對(duì)于出現(xiàn)達(dá)到一定的頻率的未登錄詞加以吸收使詞表完善,并對(duì)于過(guò)時(shí)的長(zhǎng)期不用的詞語(yǔ)進(jìn)行刪除,這樣一進(jìn)一出使詞典基本保持平衡運(yùn)作。

        3.檢索用戶多樣化,需求不一。用戶層次的多樣化、層次不一,、需求深度不同,檢索系統(tǒng)需要針對(duì)不同用戶的特殊需求提供程度不一樣的檢索服務(wù)。對(duì)于不同領(lǐng)域的專業(yè)人士,檢索服務(wù)達(dá)到什么水平才算滿足大多數(shù)用戶的要求,這個(gè)尺度不易把握。(作者單位:北方民族大學(xué)文史學(xué)院)

        基金項(xiàng)目:北方民族大學(xué)2014年區(qū)級(jí)大學(xué)生創(chuàng)新項(xiàng)目(項(xiàng)目編號(hào)QJCX-2014-001);北方民族大學(xué)2014年研究生創(chuàng)新院級(jí)項(xiàng)目;北方民族大學(xué)2015年研究生創(chuàng)新項(xiàng)目校級(jí)項(xiàng)目(項(xiàng)目編號(hào)YCX1507)

        參考文獻(xiàn):

        [1]楊端志《漢語(yǔ)詞匯理論、詞典分詞與“詞”的認(rèn)知》《山東大學(xué)學(xué)報(bào)》(哲學(xué)社會(huì)科學(xué)版)2003 年第6 期

        [2]黃電,符紹宏自動(dòng)分詞技術(shù)及其在信息檢索中應(yīng)用的研究.現(xiàn)代圖書情報(bào)技術(shù),2001;(1)

        [3]黃昌寧.中文信息處理中的分詞問(wèn)題語(yǔ)言文字應(yīng)用,1997;(1)

        [4]國(guó)家技術(shù)監(jiān)份局,《中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)一信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范》(GB/T13715一92),s,中國(guó)標(biāo)準(zhǔn)出版社,1993年第一版。

        [5]曹娟,周經(jīng)野.《隱式分詞連寫輸入方法—解決漢語(yǔ)分詞問(wèn)題的根本途徑》,第二屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集,2004.8

        [6]曹倩,丁艷,王超,等.漢語(yǔ)自動(dòng)分詞研究及其在信息檢索中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2004,(5):71~ 73.

        猜你喜歡
        分詞檢索漢語(yǔ)
        學(xué)漢語(yǔ)
        金橋(2022年6期)2022-06-20 01:36:16
        輕輕松松聊漢語(yǔ) 后海
        金橋(2020年11期)2020-12-14 07:52:56
        結(jié)巴分詞在詞云中的應(yīng)用
        2019年第4-6期便捷檢索目錄
        追劇宅女教漢語(yǔ)
        漢語(yǔ)不能成為“亂燉”
        值得重視的分詞的特殊用法
        專利檢索中“語(yǔ)義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
        論英語(yǔ)不定式和-ing分詞的語(yǔ)義傳承
        在线观看一区二区蜜桃| 久久精品这里只有精品| 丰满少妇棚拍无码视频| 午夜蜜桃视频在线观看| 欧美成人www在线观看| 亚洲av无码第一区二区三区| 亚洲三区二区一区视频| 国产视频一区二区三区久久亚洲| 日本污ww视频网站| 免费xxx在线观看| 日韩久久av电影| 男女视频一区二区三区在线观看 | 国产精品日韩高清在线蜜芽| 青青青草国产熟女大香蕉| 在线播放国产自拍av| 国产乱人激情h在线观看| 99久久精品自在自看国产| 视频一区二区三区中文字幕狠狠| 91精品国产一区国产二区久久| 精品三级av无码一区| aaa毛片视频免费观看| 给我播放的视频在线观看 | 欧美精品videosex极品| 免费无码不卡视频在线观看| 欧美第一黄网免费网站| 亚州AV成人无码久久精品| 女同av一区二区三区| 男人边做边吃奶头视频 | av网站不卡的av在线| 欧美变态另类刺激| 久久尤物AV天堂日日综合| 色婷婷亚洲一区二区在线| 精品国产粉嫩内射白浆内射双马尾| 国产在线不卡一区二区三区| 91免费国产| 蜜臀av一区二区三区久久| 在厨房被c到高潮a毛片奶水| 亚洲精品国产第一区二区尤物| 久久国产品野战| 凹凸世界视频a一二三| 亚洲日韩中文字幕无码一区|