亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于搜索引擎的中文歧義詞收集系統(tǒng)研究

        2010-01-01 00:00:00吉向東
        現(xiàn)代情報 2010年6期

        [摘要]本文構(gòu)建了一個基于搜索引擎技術(shù)的中文歧義詞收集系統(tǒng)。該系統(tǒng)從Irttemet上抓取網(wǎng)頁內(nèi)容,清除掉HTML標記及其他腳本后,得到網(wǎng)頁內(nèi)容的純文本形式,然后采用雙向掃描法找出歧義詞住置并保存,接著做進一步的分析處理,得到包含歧義詞的句子及歧義詞在句中的相對位置。該結(jié)果可以供分詞消岐算法研究人員使用,能夠有效解決分詞消歧研究中測試語料難以獲取和不同消歧算法的結(jié)呆難以對比的問題。

        [關(guān)鍵詞]搜索引擎;歧義詞;語料收集

        DOl:10.3969/j.issn.1008-0821.2010.06.036

        [中圖分類號]TP391 [文獻標識碼]A [文章編號]1008—0821(2010)06—0125—03

        黑格爾曾經(jīng)說,中國語言是那樣不確定,沒有連詞,沒有格位的變化,只是一個字一個字并列著,所以在中文里的規(guī)定(或概念)停留在無規(guī)定(或無確定性)之中。

        以漢語(Chinese Lanugage)為代表的中文是世界主要語言之一,也是世界上使用人數(shù)最多的語言。除了中國大陸、香港特別行政區(qū)、澳門和臺灣以外,漢語還分布在新加坡、馬來西亞等地,甚至日語、韓語中也有大量的漢語字詞。以漢語為母語的人大約有13億,還有3000萬人把漢語作為第二語言。漢語作為世界特有的象形文字語言,文字高度統(tǒng)一、規(guī)范,現(xiàn)代漢語有統(tǒng)一和規(guī)范的語法,盡管方言發(fā)音差異特別大,但是書面語言規(guī)范,不存在方言差異造成的書面交流障礙。漢語的超方言性對維系中華民族的統(tǒng)一起了巨大的作用。

        世界上計算機存儲的信息80%以上是英文。漢語作為一種“表意”文字,與以英語為代表的“表音”文字分屬完全不同的語系。漢語是聯(lián)合國的工作語言之一,形象生動、千變?nèi)f化的漢語對于二進制的計算機系統(tǒng)而言顯得過于復(fù)雜,因此在信息管理過程中漢語就會產(chǎn)生諸多歧義。為了讓中文成為世界性語言、成為科學的計算機語言,勢必要解決中文在計算機識別中的詞組分隔、歧義消除即分詞消歧等問題。本文試圖對現(xiàn)有分詞消歧算法的局限性進行分析,并試圖構(gòu)建具有廣泛性和普適性的基于搜索引擎的中文歧義詞收集系統(tǒng),力圖為中文的計算機自動識別提供更科學合理的技術(shù)保障。

        1 現(xiàn)有分詞消歧研究的局限性

        對中文信息處理而言,中文分詞是基礎(chǔ)性的工作。這主要是因為中文和西文的語法、詞法、書寫習慣等不同造成的。西文的基本文字單元是字母和單詞,在西文書寫過程中,連續(xù)的單詞之間用空格分割,因此在其信息處理過程中就不存在分詞問題,更不存在語意分歧。但是中文的基本文字單元是字,由字再組成詞,而且詞還有單音詞與合成詞之別;中文的書寫也沒有空格習慣,中文書寫時字與詞之間、詞與詞之間不存在明顯的分隔標記,因而造成了中文信息自動化處理過程中獨特的分詞困擾,進而導(dǎo)致了各種語意分歧。

        對于中文分詞,研究人員提出了很多方法,取得了較好的效果,但仍有不少問題困擾著研究人員,歧義詞問題就是其中之一。目前,對中文分詞消歧的研究主要集中在消歧算法的設(shè)計和改進完善,對分詞消歧測試樣本的收集系統(tǒng)研究,目前尚未見到公開報道。在分詞消歧算法的測試中,大部分研究人員選用的測試樣本都存在數(shù)量少、內(nèi)容單一等問題,或者所用樣本基本相同,或者通過綜合公開發(fā)表論文中的測試樣本進行測試。

        在當前的消除歧義詞的研究中,主要存在如下局限:

        1.1 樣本單一,效率低下,測試內(nèi)容交叉重復(fù)

        進行中文分詞消歧研究時,必須具備大量的供測試之用的中文語言樣本,即測試語料。測試語料比較難以獲取,要么取樣范圍狹窄,不具備廣泛性;要么測試方法單一,缺乏權(quán)威性。據(jù)梁南元先生統(tǒng)計,在30812個詞組成的中文材料中,歧義字段只有1204個(其中包括686個組合歧義字段和518個交集歧義字段),占總詞數(shù)的3.9%。而且在進行分詞測試時,研究人員都是各自去準備歧義字段作分詞消歧算法的測試樣本,造成了大量的重復(fù)性勞動,降低了工作效率,提高了研究成本。

        1.2 各自為政,閉門造車,系統(tǒng)測試與技術(shù)開發(fā)混為一團

        每個研究團隊各自準備自己的分詞消歧測試樣本,并對自己所提出的分詞消岐方法進行測試,既是裁判員又是運動員。從軟件工程,特別是軟件測試實踐的角度而言。這并不是科學的方法。首先,在軟件測試實踐中,必須選擇各種有代表性的語料樣本,進行大量的有針對性的單元測試。單元測試作為獨立單一的抽樣調(diào)查,是一種基礎(chǔ)性研究,為系統(tǒng)研究提供素材。其次,在軟件測試實踐中,要進行反復(fù)的集成測試工作。在單元測試的基礎(chǔ)上,為了提高系統(tǒng)應(yīng)用的普及性,還必須隨機抽取不具有代表性的語料樣本多次進行集成測試,集成測試樣本要具有適應(yīng)性和廣泛性。最后,在軟件測試實踐中,一般還要將測試人員和開發(fā)人員分離,以保持測試工作的獨立性和科學性[9l。只有這樣才能保證測試工作對技術(shù)開發(fā)的有效反饋作用,從而避免為了證明技術(shù)的正確而專門尋找符合自己既定結(jié)論的測試樣本。

        1.3 眾說紛紜,莫衷一是,缺乏統(tǒng)一的評價標準

        由于測試語料的不同,測試環(huán)境的差異,測試技術(shù)的區(qū)別,不同研究人員的分詞消歧算法的研究結(jié)果很難按照統(tǒng)一的標準進行對比評價,因此研究的權(quán)威性和實用性就存在一定的局限,在一定程度上影響了研究成果的普及與推廣。一種具有生命力的科研成果,必須具有兩大特征:其一,試驗樣本數(shù)量大、范圍廣,具有說服力;其二,測試技術(shù)成熟,易于操作實施。任何完美的個案都不能夠稱其為科學。

        2 基于搜索引擎的中文歧義詞收集系統(tǒng)

        基于以上對現(xiàn)有中文分詞消歧系統(tǒng)局限性的認識,筆者設(shè)計了一個中文歧義詞收集系統(tǒng)。該系統(tǒng)通過采用搜索引擎中的網(wǎng)絡(luò)爬蟲技術(shù)和web網(wǎng)頁文本預(yù)處理技術(shù)。從互聯(lián)網(wǎng)上抓取web頁面,清除掉HTML,標記及其他多余內(nèi)容后,得到網(wǎng)頁內(nèi)容的純文本形式,然后采用雙向掃描法找出歧義詞位置并保存,接著做進一步的處理,得到包含歧義詞的句子及歧義詞在句中的相對位置。該結(jié)果可以供分詞消岐算法研究人員廣泛應(yīng)用,有效解決分詞消歧研究中測試語料難以獲取和不同消歧算法的結(jié)果難以對比評價的問題,共同促進中文分詞消歧研究的發(fā)展。

        2.1 中文歧義字段的分類

        在中文自動分詞過程中出現(xiàn)的有多種切分可能的字段,稱為歧義字段。歧義字段可分為交集型歧義字段和組合型歧義字段。

        交集型歧義字段:假設(shè)ABC分別代表由一個或多個字組成的字符串,如果在ABC字段中A,AB,BC,C分別都是分詞詞典中的詞,則稱該字段為交集型歧義字段。例如字段“里面的”,它可產(chǎn)生“里/面的”和“里面/的”兩種切分結(jié)果,屬于交集型歧義字段。

        組合型歧義字段:假設(shè)A,B分別代表由一個或多個字組成的字符串,如果A,B,AB分別都是分詞詞典中的詞,則稱AB為組合型歧義字段。例如“把手”,“十分”等。

        2.2 中文歧義詞的收集流程 基于搜索引擎的中文歧義詞收集系統(tǒng)的處理流程如圖1所示。

        2.2.1 抓取頁面并緩存

        通過網(wǎng)絡(luò)爬蟲Crawler從互聯(lián)網(wǎng)上抓取web頁面,在本地緩存,然后為該頁面計算并創(chuàng)建本地保存路徑。為了便于后續(xù)分析和處理,需要對抓取的文本進行適當?shù)慕M織。系統(tǒng)根據(jù)網(wǎng)頁的uRL信息計算其本地保存位置。比如對頁面http://2008.qq.com/a/20080805/000294.htm,系統(tǒng)首先分析出站點地址2008.qq.com。為其建立相應(yīng)的站點文件夾2008.qq.com,然后再根據(jù)該文件在相應(yīng)站點的組織層次,逐層為其建立相應(yīng)的子文件夾\\a\\20080805,接著根據(jù)文件在站點的名字為相應(yīng)的文本命名000294.txt,最終拼接成該頁面的本地保存路徑……\\2008.qq.com\\a\\20080805\\000294.txt。

        2.2.2 處理文本并保存

        Crawler抓取的頁面包含有指向其他站點或者本站其他頁面的URL,系統(tǒng)需要將其分析保存,以便網(wǎng)絡(luò)爬蟲進一步爬行這些頁面。此外,這些頁面還包含有許多HTML標記、注釋、Javaseript腳本等。為了便于后續(xù)的分詞處理,系統(tǒng)將其一一加以清除,得到純文本文件,并根據(jù)上面所得到的位置保存。

        2.2.3 采集字段并分析

        在得到純文本文件后,就可以進行分詞處理和分詞歧義字段的采集工作了。目前常用的歧義字段采集技術(shù)有以下兩種: (1)雙向掃描法 對同一字段分別采用正向最大匹配和反向最大匹配方法切分,如果兩種方法所得結(jié)果不同,則認為是歧義字段。例如:“從小學”,正向最大匹配結(jié)果為:“從小/學”,反向最大匹配結(jié)果為:“從/小學”,就可以斷定它就是要找的分詞歧義位置。 (2)逐詞掃描法 對漢字串N1N2……Nn(Ni為字)。在字串N1N1……Nn中逐詞掃描,找到第一個為詞的位置i,即NiNi+1為詞(假設(shè)詞的長度為2),再從Ni+1開始,逐詞掃描找到不成詞的位置j,即Ni+1+1……Nj為詞,Ni+1……Nj+1不為詞。則NiNi+1+Ni+2……Nj為交集歧義字段。

        本系統(tǒng)采用雙向掃描法來找分詞歧義位置,即采用正向最大匹配法和反向最大匹配法掃描文本,分別對其進行分詞,將得到的結(jié)果保存,以便后續(xù)分析處理。

        分析的主要任務(wù),就是對正向分詞和反向分詞結(jié)果進行比較,正向分詞和反向分詞結(jié)果不同的位置,即為分詞歧義位置,系統(tǒng)需一一標明該句子在文本中的位置,以及出現(xiàn)差異的字段在該句中的位置,并將初步的分析結(jié)果保存。

        正向分詞和反向分詞的結(jié)果有差異的位置,有可能是分詞歧義位置,也有可能是其他原因造成的,并非真正的分詞歧義位置。比如可能是因為分詞詞典的收詞不當引起的,嚴格而言,并不是本系統(tǒng)耍找的分詞消歧測試語料,所以還需要后續(xù)的人工判斷。為了便于人工判斷,系統(tǒng)可以將包含有分詞歧義的句子從正向分詞結(jié)果文本和反向分詞結(jié)果文本中抽取出來,并對有分詞差異的位置著色顯示,非常便于人工判斷。人工判斷后的最終結(jié)果就是本系統(tǒng)要收集的分詞消歧測試語料。

        2.3 歧義詞收集系統(tǒng)的測試結(jié)果

        筆者將該系統(tǒng)以http://news.qq.com為URL種子,抓取了騰訊新聞頻道16241個詞的文本,其內(nèi)容涵蓋了新聞、體育、娛樂、財經(jīng)、手機、證券、音樂、動漫等頻道。系統(tǒng)測試結(jié)果是,計算機初步分析出706個歧義詞,占總詞數(shù)的4.34%,比梁南元先生的統(tǒng)計超出0.44%,二者比較接近。經(jīng)人工逐一甄選和判別,需要從中剔除并非真正歧義詞的個數(shù)為6,占系統(tǒng)找出的總歧義詞的0.8%。這主要是由于分詞詞典收錄的詞語過分追求全面性而收錄了一些不是詞的中文短語而引起的,比如,“為北京撐起一面巨大的保護傘”這個句子,正向分詞的結(jié)果為:/為/北京/撐起/一/面/巨大/的/保護傘/,而反向分詞的結(jié)果為:/為/北京/撐起/一/面/巨/大的/保護傘/,系統(tǒng)會將“巨大的”作為分詞歧義位置。經(jīng)檢查發(fā)現(xiàn),這是由于分詞詞典將“大的”作為一個詞收錄,導(dǎo)致系統(tǒng)找出的歧義位置“巨大的”不正確。但從總體而言,這樣的比例并不多,僅占系統(tǒng)找出總歧義詞數(shù)量的0.8%,這可以通過人工甄選或修改現(xiàn)有分詞詞典加以改進。本次實驗系統(tǒng)找出的其他歧義詞都可以作為比較好的分詞消歧的測試樣本,其中有相當一部分我國尚未用于分詞消歧測試。如: /本周/末/ /本/周末/ /大家/庭/ /大/家庭/ /出/現(xiàn)在/ /出現(xiàn)/在/ /當中/國/ /當/中國/ /經(jīng)濟體/制/ /經(jīng)濟/體制/

        3 結(jié)論

        分詞消岐研究一直是中文信息處理的熱點問題。目前,大多數(shù)研究人員都比較關(guān)注消岐算法的研究,并根據(jù)提出的算法構(gòu)建了各自的消岐系統(tǒng)。對于中文歧義詞的自動收集系統(tǒng)設(shè)計,目前還沒有公開的報道,更沒有比較成熟的應(yīng)用性系統(tǒng),這對于中文成為全球性計算機語言無疑是個巨大的障礙。本文構(gòu)建的中文歧義詞收集系統(tǒng),通過采用搜索引擎中的網(wǎng)絡(luò)爬蟲技術(shù)和web網(wǎng)頁文本預(yù)處理技術(shù),可以得到豐富的非典型性中文文本,從而提取大量的中文分詞消歧測試語料,供研究人員選用。這樣,一方面從一定程度上解決了研究人員找分詞消歧測試語料難的問題,另一方面,如果不同研究人員采用不同的分詞消歧方法,通過大量隨機測試語料進行測試,得出的結(jié)果就具有可比性,這對于中文的自動化信息管理無疑具有深遠的理論意義和應(yīng)用價值。

        国产色视频一区二区三区不卡 | 国产两女互慰高潮视频在线观看 | 精品人妻69一区二区三区蜜桃| 国产精品毛片无遮挡| 熟妇人妻无码中文字幕| 免费国产h视频在线观看86| 成年男女免费视频网站点播| 国内永久福利在线视频图片| 久青草久青草视频在线观看| 久久青草国产精品一区| 最全精品自拍视频在线| 亚洲国产婷婷六月丁香| 国产精品久久久| 2020亚洲国产| 国产久色在线拍揄自揄拍 | 日韩人妻无码一区二区三区| 久久国产欧美日韩高清专区| 中文字幕手机在线精品| 国产精品高清一区二区三区不卡| 免费人成无码大片在线观看 | 淫妇日韩中文字幕在线| 国产高潮流白浆视频在线观看| 国产又色又爽又高潮免费视频麻豆| 无码不卡高清毛片免费| 狼人综合干伊人网在线观看| 亚洲av无码乱码国产麻豆 | 久久精品国产亚洲av热九| 麻豆最新国产av原创| 亚洲av成人无码精品电影在线| 亚洲一区二区三区av链接| 日本不卡一区二区三区在线观看| 久久久久亚洲av成人片| 国产美女遭强高潮网站| av网页在线免费观看| 亚洲av久播在线一区二区 | 一级毛片60分钟在线播放| 一区二区三区国产亚洲网站| 亚洲国产精品成人天堂| 亚洲av无码一区二区三区性色| 久久久久无码中文字幕| 干日本少妇一区二区三区|