亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于眾包的詞匯聯(lián)想網(wǎng)絡的獲取和分析

        2013-04-23 10:10:38車萬翔張梅山
        中文信息學報 2013年3期
        關鍵詞:語義詞匯游戲

        丁 宇,車萬翔,劉 挺,張梅山

        ( 哈爾濱工業(yè)大學 計算機學院社會計算與信息檢索研究中心,黑龍江 哈爾濱 150001)

        1 引言

        詞典是中文自然語言處理的一項基礎資源,它為很多中文自然語言處理的相關任務提供了支撐,例如中文分詞[1]、命名實體識別[2]、 詞義分析[3]等。

        目前在中文自然語言處理領域影響較大的詞典包括《知網(wǎng)》[4]、《同義詞詞林》[5]等。“《知網(wǎng)》是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內(nèi)容的常識知識庫”[4],其結(jié)構復雜不易擴展,需要很深的語言基礎才能理解,因此編撰這一詞典需要很大代價,作者董振東先生就用了逾十年時間才建立了這個約9萬詞的詞典?!锻x詞詞林》由梅家駒等人于1983年編纂而成,一共包含了近7萬詞匯,和《知網(wǎng)》相比易于理解,是一部漢語分類詞典,其語義建立在近義和反義基礎上,因此所表示的語義信息沒有《知網(wǎng)》豐富。很顯然,以上詞典都是專家構造的手工詞典。

        眾包是群體智慧的一種體現(xiàn)形式,它是一種新的資源建設的手段,并且這種資源建設的手段代價更低。例如,ESPGame[6]以游戲的形式讓用戶為圖像打標簽,是首個成功地用眾包的思想免費收集到大量標注數(shù)據(jù)的案例;亞馬遜土耳其機器人(Amazon Mechanical Turk)是亞馬遜公司提供眾包服務的網(wǎng)絡平臺,已有很多自然語言處理相關的工作通過這一平臺來采集有用的語料,例如Irvine and Klementiev,2010;Jha et al., 2010;Lawson et al.,2010[7-9]。

        本文將眾包和詞典構建相結(jié)合提出了一種代價更小的方式自動構建語義相關性詞典。首先面向互聯(lián)網(wǎng)設計一個網(wǎng)頁游戲,提供利于用戶進行自然聯(lián)想的環(huán)境。詞典的獲取方式是給用戶提供觸發(fā)詞,用戶填寫由該觸發(fā)詞聯(lián)想到的詞,從而得到詞語之間由聯(lián)想關系組成的網(wǎng)絡,因此將語義相關性詞典命名為詞匯聯(lián)想網(wǎng)絡。因為用戶的每一次相關聯(lián)想產(chǎn)生的詞語對,兩個詞語之間都存在語義相關性或相似性,因此,詞匯聯(lián)想網(wǎng)絡中帶有很強的詞匯語義信息。獲取詞匯聯(lián)想網(wǎng)絡后,任意兩個詞語的相關度使用隨機游走算法進行計算。隨后,本文對詞匯聯(lián)想網(wǎng)絡和知網(wǎng)、同義詞詞林以及微博ngram文本進行了對比,表明了詞匯聯(lián)想網(wǎng)絡與其他詞典是有著比較大的差異的,而且更符合人對詞語的理解,從而體現(xiàn)了詞匯聯(lián)想網(wǎng)絡的價值。

        本文內(nèi)容如下組織: 第2節(jié)介紹詞匯聯(lián)想網(wǎng)絡;第3節(jié)介紹眾包設計數(shù)據(jù)獲取;第4節(jié)介紹使用隨機游走的方法利用獲取的數(shù)據(jù)構建詞匯聯(lián)想網(wǎng)絡,以及對詞匯聯(lián)想網(wǎng)絡的分析;第5節(jié)將詞匯聯(lián)想網(wǎng)絡與知網(wǎng)、微博ngram文本、同義詞詞林進行比較和分析;最后給出總結(jié)和未來的工作。

        2 詞匯聯(lián)想網(wǎng)絡

        2.1 定義

        為了能夠更好地表達詞匯聯(lián)想網(wǎng)絡中詞語之間的相關程度和拓撲關系,將詞匯聯(lián)想網(wǎng)絡建立成圖結(jié)構;圖結(jié)構能夠更加直觀形象地刻畫出詞匯聯(lián)想網(wǎng)絡的形態(tài)。下面將詞匯聯(lián)想網(wǎng)絡從圖結(jié)構的角度重新定義。

        詞匯聯(lián)想網(wǎng)絡詞匯聯(lián)想網(wǎng)絡是由一個帶權重的圖結(jié)構G=(V,E,W)組成,其中V代表圖中的節(jié)點,由詞語組成,E是邊,邊上的權重由W給出,邊和權重反應了詞語之間聯(lián)想的緊密程度,權重越高,表明這兩個詞越容易組成聯(lián)想對。

        同一聯(lián)想串中,后一個詞是在前一個詞的基礎上聯(lián)想出來的,因為很多情況下聯(lián)想關系是不對稱的,如由“踢”能想到“足球”,而很難從“足球”聯(lián)想到“踢”。所以圖G=(V,E,W)是有向圖。

        圖1為詞匯聯(lián)想網(wǎng)絡的一部分,圖上邊的權重最高的為“踢”→“足球”,這表明人們很容易從“踢”聯(lián)想到“足球”。權重賦值將在詞匯聯(lián)想網(wǎng)絡的構建中討論。

        圖1 詞匯聯(lián)想網(wǎng)絡局部截圖

        2.2 相關度計算

        2.1.1 隨機游走

        隨機游走算法[10]假設存在一個粒子沿著圖上的邊隨意漫游,而粒子每次移動都移動到一個特定詞語的鄰居節(jié)點上,一段時間后粒子將周期性地、以相同的順序遍歷圖上的節(jié)點,從而得到關于某個詞語的概率平穩(wěn)分布。隨機游走算法的優(yōu)勢是將詞語的直接關系和間接關系結(jié)合起來計算詞語相關度;另外,通過遍歷所有詞語間的聯(lián)系,游走的過程將局部相關性統(tǒng)計信息聚集起來并擴散到整個圖中。

        P是轉(zhuǎn)移矩陣,詞匯聯(lián)想網(wǎng)絡中任意兩個詞語i和j,若i和j出現(xiàn)在同一個聯(lián)想串中且詞語i緊隨

        詞語j出現(xiàn),則計算從j到i的概率p(ni|nj),否則p(ni|nj)=0。而粒子在每一步轉(zhuǎn)移時都以概率β返回到θ(0),發(fā)現(xiàn)θ(0)收斂到分布θ(∞)的迭代次數(shù)與β-1成正比,通過實驗一系列的β值,發(fā)現(xiàn)結(jié)果對參數(shù)β不敏感。設定收斂準則為‖θ(t)-θ(t-1)‖<10-8,對于本文得到的圖,設置β=0.08,平均收斂次數(shù)是50。

        下面用三個頂點構成的圖進一步說明算法過程。

        圖2 三個點的有向圖,隨機游走從頂點A開始

        2.1.2 相關度計算

        通過以上方法已經(jīng)得到了詞語的概率平穩(wěn)分布,下面討論詞語的相關度計算。直觀來講,如果隨機游走過程分別從兩個詞語出發(fā),都傾向于漫游到相同的節(jié)點上,那么這兩個詞語語義相關更強。因此,任意兩個詞語的相關度可以通過衡量關于這兩個詞語的概率平穩(wěn)分布的差異得到。

        假設待計算相關度的兩個詞語,它們對應的游走概率平穩(wěn)分布分別是P和Q, 一個普遍的選擇,

        是將分布P和分布Q看作兩個一維向量,從而用余弦相似度衡量P和Q的差異,如式(2)所示。

        3 眾包設計

        本文將詞匯聯(lián)想任務設計成網(wǎng)頁小游戲,游戲名稱是“心有靈犀對對碰”。游戲以完成任務的形式進行,每個任務開始,系統(tǒng)都給出一個觸發(fā)詞,用戶填寫由該觸發(fā)詞最先聯(lián)想到的詞,然后,系統(tǒng)將觸發(fā)詞按照用戶填寫的詞語切換,用戶再進行下一步的聯(lián)想,如此往復,最終得到一個長度大于某一閾值的詞語串,任務完成。游戲記錄完成該任務所用的時間,通過結(jié)合聯(lián)想串的內(nèi)容和聯(lián)想用時進行相關計算,給出用戶通過每次聯(lián)想任務尋找到的心有靈犀伙伴。

        從用戶的角度講,游戲的目標是尋找心有靈犀的伙伴,心有靈犀對象是與已知聯(lián)想串“相悅”指數(shù)最大的 3個(3是最大值)聯(lián)想串和聯(lián)想用戶?!跋鄲偂敝笖?shù)是當某個詞在聯(lián)想串集合中兩個以上的聯(lián)想串中出現(xiàn),那么這些聯(lián)想串彼此之間“相悅”指數(shù)就加1,若有多個“相悅”指數(shù)相同的聯(lián)想串存在,則用時短的聯(lián)想串被優(yōu)先選擇。用戶只有填入正規(guī)詞才可能尋找到更多的心有靈犀伙伴。心有靈犀結(jié)果在同一時刻分別推送給“被心有靈犀”的3個用戶,如圖3彈出窗口所示, 使得心有靈犀成為一種實時的、相互的關系。從心理學角度講,當人們找到心有靈犀對象即與他人產(chǎn)生共鳴時會倍感興奮,因此,這大大增加了游戲的趣味性。

        圖3 “心有靈犀對對碰”游戲界面

        為提高獲取到的數(shù)據(jù)的質(zhì)量,游戲?qū)τ脩舻妮斎脒M行了一定的約束。用戶每次輸入的內(nèi)容只能是漢字,若出現(xiàn)英文字母、標點符號等,系統(tǒng)會給出錯誤提示,并給出正確輸入引導,如圖4所示。另外,在同一個任務中,用戶輸入的詞語前后不能重復。

        圖4 錯誤輸入提示

        圖5 心有靈犀顯示

        只有用戶最自然最直觀的聯(lián)想,才能使得具有聯(lián)想關系的兩個詞語間存在語義相關性的事實更可信,因此游戲中不能出現(xiàn)任何元素干擾用戶聯(lián)想,而從以下幾方面努力吸引用戶參與,第一,增強界面美觀程度;第二,增強游戲易用性;第三,提高交互設計,增強用戶體驗。

        在交互設計方面,游戲在用戶做聯(lián)想任務時,給用戶的每次輸入打出一個經(jīng)驗值,并用動畫累加到經(jīng)驗值積分區(qū),積分區(qū)在圖3右上角,不同的經(jīng)驗值動畫呈現(xiàn)的顏色不同,按照分數(shù)從低到高的順序顏色逐漸由暗到亮變化。游戲還設置了積分和經(jīng)驗值排行榜激勵用戶完成更多的任務。

        4 詞匯聯(lián)想網(wǎng)絡構建

        為了描述詞匯聯(lián)想網(wǎng)絡的性質(zhì),也為了便于對其進行分析,本節(jié)詳細說明詞匯聯(lián)想網(wǎng)絡的構建過程。由于詞匯聯(lián)想網(wǎng)絡也是一個語義相關性詞典,所以本文除了構建詞匯聯(lián)想網(wǎng)絡,還提供計算詞語相關度的接口。

        4.1 數(shù)據(jù)預處理

        4.1.1 數(shù)據(jù)過濾

        詞匯聯(lián)想網(wǎng)絡來自互聯(lián)網(wǎng)用戶,因此難免出現(xiàn)類似語氣詞、短句和過于個性化,這幾類詞對于詞匯聯(lián)想網(wǎng)絡都是噪聲,構建詞匯聯(lián)想網(wǎng)絡之前需要去噪。

        S代表收集到的聯(lián)想串集合,M代表S中的詞語集合?;ヂ?lián)網(wǎng)上收集的數(shù)據(jù)普遍具有冗余性,所以首先統(tǒng)計詞頻,將頻數(shù)小于閾值γ(本文γ取1)的詞語過濾出來形成集合{M′},然后人工檢查{M′}中的每個詞是否屬于噪聲詞。為了降低人工檢查的工作量,將{M′}與大規(guī)模詞脈取交集,得到集合{M′},再人工檢查{M″}。因為大規(guī)模詞脈是最新建立的詞典,融入了網(wǎng)絡新詞,收納的詞匯量更多,因此將{M′}與大規(guī)模詞脈取交集,能極大地縮小{M″}的規(guī)模,從而減少了人的工作量。若找到噪聲詞,則將聯(lián)想串從噪聲處截斷,因為噪聲詞后面的詞語是經(jīng)由該噪聲詞聯(lián)想出來的,并不能與噪聲詞前面的詞語構成合理的相關聯(lián)想串。

        4.1.2 圖構建與權重賦值

        將詞匯聯(lián)想網(wǎng)絡表達成圖結(jié)構,優(yōu)勢在于詞語之間關聯(lián)度的強弱可以由頂點之間關聯(lián)度的強弱表示,即由連通頂點之間的邊的權重表示。

        G=(V,E,W)中的每一條邊都被賦予權重,權重定義如下:

        其中,若vi和vj在s中緊鄰出現(xiàn),則weight(s;vi,vj)的值為1.0,否則為0。如果兩個頂點沒有在任何一個詞語串中緊鄰出現(xiàn),則它們之間的權重設為一個正極小值。

        4.2 實驗結(jié)果與分析

        “心有靈犀對對碰”于2012年 5月17日上線,截止到今年8月1日,共有216名用戶參與游戲,其中登錄用戶121個,匿名用戶95個。

        游戲初始從大規(guī)模詞脈中選取2 500個通用詞作為觸發(fā)詞,詞語類型包括人和動作兩個類別。游戲上線兩個半月共收集長度大于4的聯(lián)想串3 650個,詞語26 892個,獲得的數(shù)據(jù)中最長的聯(lián)想串包含詞語15個,平均每個聯(lián)想串的詞語數(shù)為5.65。按照前文方法進行數(shù)據(jù)過濾并建圖,得到 9 150個頂點。運用3.2節(jié)的方法計算詞語的相關度。

        漢語詞語相關度度量目前并沒有一個統(tǒng)一的標準,在條件不具備的情況下,對隨機游走計算相關度的評價方法是,先將詞語對按照計算得到的相關度數(shù)值降序排列,再將排序后的詞語列表和人的直覺比較。

        表1 詞語對按相關度結(jié)果降序排列

        從表1可以發(fā)現(xiàn),絕大多數(shù)相關度計算結(jié)果是符合人的直覺的。相關度比較高的詞對,例如“結(jié)婚”和“小三”,“結(jié)婚”和“男人”,相關度高說明人們?nèi)菀讖摹敖Y(jié)婚”直接聯(lián)想到“小三”和“男人”,而現(xiàn)今社會,人們對“小三”的關注程度確實比較高。從這個角度講,本文的相關度結(jié)果也能反應出社會大眾的普遍觀點。而“結(jié)婚”和“帥氣”,“結(jié)婚”和“貧窮”的相關度比較低,表明人們很少從“結(jié)婚”立刻想到“帥氣”和“貧窮”,而實際上“帥氣”和“貧窮”是兩個修飾人的形容詞,而“結(jié)婚”是抽象名詞,因此較低的相關度結(jié)果也是合理的。

        5 詞匯聯(lián)想網(wǎng)絡與其他詞典比較

        5.1 詞匯聯(lián)想網(wǎng)絡與《知網(wǎng)》比較

        度量詞語關系有相似度和相關度兩個指標。與詞語相似度比,相關度更側(cè)重反應詞語的語義關聯(lián)程度,例如“醫(yī)生”和“疾病”相似性非常低而相關性卻很高。此外相關度和相似度又有著密切的聯(lián)系,一般詞語的相似度若比較高,那么相關度也會比較大,反之則不然。

        為了進一步探究詞語相關度和相似度概念間的聯(lián)系與差別,本文將計算的相關度結(jié)果與詞語相似度結(jié)果進行比較。因為目前基于詞典的相似度計算多是針對《知網(wǎng)》進行的,故選擇劉群,李素建(2002)[12]的結(jié)果進行對比。

        表2 相關度結(jié)果與基于《知網(wǎng)》的相似度結(jié)果比較

        從表2可以看出,多數(shù)詞語的相關度與基于《知網(wǎng)》的相似度結(jié)果相接近,例如“男人”和“女人”,“男人”和“蘋果”等,但也存在差異如“男人”和“高興”,即不同詞性的詞語相似度一般比較低而相關度比較高,因為“高興”和“男人”之間存在修飾關系,并且“高興”多是修飾人的情緒的,因此較高的相關度是符合實際的,從這一點可以發(fā)現(xiàn),相關度能夠更準確地描述出詞語之間的關系,如修飾關系、補充關系等。

        另外,表格中“男人”和“工作”,“男人”和“責任”的相似度很低,而相關度數(shù)值較高,這和“醫(yī)生”、“疾病”類似,因為詞語之間的某一些屬性不同因此相似度很低,而詞語的語義關聯(lián)程度實際上很高。本文的數(shù)據(jù)來自人腦,因此可以獲取到更多這種符合人們的認知的詞語對。

        5.2 詞匯聯(lián)想網(wǎng)絡與微博文本ngram比較

        直覺上可以發(fā)現(xiàn),對于一些人們很容易產(chǎn)生聯(lián)想的詞語對,其在微博ngram中共現(xiàn)時的距離應該越近,因為微博也是人們思想的一種表達,也就是說詞匯聯(lián)想網(wǎng)絡獲中的詞語對在微博ngram文本中的共現(xiàn)情況比較高。為了探究這一問題,我們篩選出詞匯聯(lián)想網(wǎng)絡中共現(xiàn)次數(shù)最大的120個詞語對,查找其在微博文本中的共現(xiàn)情況。

        微博文本包含新浪微博987 743條,平均字數(shù)為25。分別查找每個詞語對在每條微博中是否共現(xiàn),若共現(xiàn)則記錄兩個詞語的最近間隔字數(shù),共現(xiàn)距離用所有間隔字數(shù)距離的平均值表示。

        圖6 詞語對在微博文本中的共現(xiàn)距離

        詞語1詞語2微博ngram中共現(xiàn)距離微博ngram中共現(xiàn)次數(shù)改革開放0102無窮無盡018愛因斯坦相對論03帥哥美女495團結(jié)力量524美好未來5138事件發(fā)生8137科學研究16119研究成果2624

        200個詞語對中105個在文本中共現(xiàn),共現(xiàn)的105個詞語對中共現(xiàn)距離大于6的占69.5%,共現(xiàn)距離大于 10 的占38.1%。

        圖6表示在微博ngram中共現(xiàn)距離在0~3個字之間的詞語對數(shù)目是15,共現(xiàn)距離在4~7個字之間的詞語對數(shù)目是25等等。

        從圖6可以看出大多數(shù)詞對在微博ngram中的共現(xiàn)距離比較小,尤其像改革開放、無窮無盡這種,但凡出現(xiàn)必然兩詞共現(xiàn)。而另外存在小部分詞對,雖然語義關聯(lián)也很強,在微博中共現(xiàn)距離很遠。這充分說明詞匯聯(lián)想網(wǎng)絡中的詞語對在微博ngram文本中的共現(xiàn)情況較高。從另一個角度講,這部分共現(xiàn)距離遠的詞對能夠說明,詞匯聯(lián)想網(wǎng)絡的獲取手段是不能被替代的,即詞匯聯(lián)想網(wǎng)絡中的詞語對不能完全從微博中抽取出來。

        5.3 詞匯聯(lián)想網(wǎng)絡與《同義詞詞林》比較

        詞匯聯(lián)想網(wǎng)絡包括同義詞、同類詞、語義相關聯(lián)的詞等,這點與《同義詞詞林》很相似。由于《同義詞詞林》將同類詞組織到同一個小類中,所以考慮將詞匯聯(lián)想網(wǎng)絡進行聚類,將聚類后得到的詞語集合與詞林中對應的小類比較,從而對比兩者在詞語的組成和組織結(jié)構上的差別。

        考慮到聚類開始前并不知道可能的聚類中心點和類的個數(shù),本文在詞匯聯(lián)想網(wǎng)絡構建的圖結(jié)構上選擇Affinity Propagation(Frey and Dueck, 2007[13])聚類,AP算法繼承隨機游走的思想,因此聚成一類的詞語將是語義相近或相關的。

        隨機選擇聚類后的一個詞語集合,找到詞林中對應的小類,表4分別列出兩個詞語集合中關于“病人”的相關詞語。

        表4 詞語相關度結(jié)果與基于《知網(wǎng)》的相似度結(jié)果比較

        從表4可以看出,小類中的詞群是由同義詞和反義詞以及同類詞組成的,每個詞群又是由同義詞組成。另外,同義詞詞林是從語言學的角度整理詞語的,詞語中包含有常用詞和規(guī)范書面詞。詞匯聯(lián)想網(wǎng)絡中的類是由一系列跟中心詞有關的事物組成,不僅僅局限于同詞性的詞,另外,詞語多是常用詞,也包括網(wǎng)絡新詞,如腦殘、高護。因此,兩個詞匯集合不僅結(jié)構不同,組成詞匯集合的詞語本身也存在差異。詞匯聯(lián)想網(wǎng)絡的特點不僅能獲取流行的網(wǎng)絡新詞,而且在不同時期,詞匯聯(lián)想網(wǎng)絡的詞語將會不斷更新,某些詞語之間的聯(lián)想關系也會發(fā)生變化,體現(xiàn)出很強的擴展性。

        從表4還能發(fā)現(xiàn),雖然目前獲取的數(shù)據(jù)量不是很大,但是對一個中心詞的關聯(lián)事物展現(xiàn)的還是比較全面的,與“病人”相關的“家屬”、“醫(yī)院”、“醫(yī)生”、“疾病”、“病情”等幾大類事物均有出現(xiàn),構成了一個關于“病人”更大更全面的網(wǎng)絡,這些詞與同義詞詞林中的對應小類中的詞語有交叉,若將同義詞詞林中的詞語融合到詞匯聯(lián)想網(wǎng)絡中,加入更多同義詞,那么會使關于“病人”的周邊詞匯更加全面。另外,因為同義詞詞林中的詞有部分并不是常用詞,所以即使有更多的用戶參與聯(lián)想,也很難收集到這部分詞語。

        6 結(jié)論

        本文將眾包與詞典構建相結(jié)合,提出了一種代價更小的方式自動構建語義相關性詞典,這個語義相關性詞典也是一個詞匯聯(lián)想網(wǎng)絡。對收集到的數(shù)據(jù)進行一定步驟的處理以后建立圖結(jié)構,使用隨機游走算法計算詞語相關度。實驗表明,詞匯聯(lián)想網(wǎng)絡是解讀人腦而來,本文計算的相關度結(jié)果非常符合人的直覺。另外,通過實驗將詞匯聯(lián)想網(wǎng)絡分別與《知網(wǎng)》、微博文本ngram和《同義詞詞林》比較,結(jié)果更是表明詞匯聯(lián)想網(wǎng)絡不同于已有的其他詞典,能表達出詞語之間更密切的語義聯(lián)系,并且詞匯聯(lián)想網(wǎng)絡中的詞匯是動態(tài)更新的,擴展性強。

        綜合全文,詞匯聯(lián)想網(wǎng)絡的眾包獲取手段為構建大規(guī)模語義詞典資源提供了一個非常廉價且有效的方式。

        下一步的工作,首先,希望將詞匯聯(lián)想網(wǎng)絡與其他現(xiàn)有詞典相融合,如《同義詞詞林》、《知網(wǎng)》,詞匯聯(lián)想網(wǎng)絡中更加充分的詞語關系將提升現(xiàn)有詞典的性能。另外,探究融合后的詞典在語義分析實際應用中的效能。

        [1] 張梅山, 鄧知龍, 車萬翔,等. 統(tǒng)計與詞典相結(jié)合的領域自適應中文分詞[C]//第十一屆全國計算語言學學術會議(CCL2011), 中國洛陽,2011:28-33.

        [2] Amit Chandel, P C Nagesh, S Sarawagi. Efficient batch top-k search for dictionary-basedentity recognition[C]//Proceedings of the 22nd International Conference on Data Engineering, 2006:28.

        [3] Simonetta Montemagni, Lucy Vanderwende. Structural patterns vs. string patterns for extracting semantic information from dictionaries[C]//Proceedings of the 14th conference on Computational linguistics, August,1992: 23-28.

        [4] 董振東,董強. 知網(wǎng). http://www.keenage.com[M]. 2000.

        [5] 梅家駒,竺一鳴, 高蘊琦,等. 同義詞詞林(第二版)[M]. 上海辭書出版社.1996.

        [6] Luis von Ahn, Labeling Images with a Computer Game[C]//ACM Conf. on Human Factors in Computing Systems, CHI 2004: 319-326.

        [7] Ann Irvine, Alexandre Klementiev. Using Mechanical Turk to Annotate Lexicons for Less Commonly Used Languages[C]//Proceedings of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon’s Mechanical Turk, pages 108-113, Los Angeles, California, June 2010.

        [8] Mukund Jha, Jacob Andreas, Kapil Thadani, et al. Corpus creation for new genres: a crowdsourced approach to PP attachment[C]//Proceedings of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon’s Mechanical Turk, Los Angeles, California. Bremaud. Markov chains: Gibbs fields, montecarlo simulation, and queues.Springer-Verlag. 1999: 13-20.

        [9] Nolan Lawson, Kevin Eustice, Mike Perkowitz, et al. Annotating large email datasets for named entity recognition with mechanical turk[C]//Proceedings of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon’s Mechanical Turk, Los Angeles, California, 2010:13-20.

        [10] Thad Hughes, Daniel Ramage. Lexical Semantic Relatedness with Random Graph Walk[C]//Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Prague, June 2007: 581-589.

        [11] Bremaud. Markov chains: Gibbs fields, mon-tecarlo simulation, and queues[M]. Springer-Verlag,1999.

        [12] 劉群,李素建. 基于“知網(wǎng)”的詞匯語義相似度計算[C]//計算語言學與中文語言處理——第三屆漢語詞匯語義學研討會論文集. 2002:59-76.

        [13] Brendan J Frey, Delbert Dueck. 2007. Clustering by passing messages between data points[J].SCIENCE, 2007, 315: 972-976.

        猜你喜歡
        語義詞匯游戲
        本刊可直接用縮寫的常用詞匯
        一些常用詞匯可直接用縮寫
        語言與語義
        本刊可直接用縮寫的常用詞匯
        數(shù)獨游戲
        瘋狂的游戲
        飛碟探索(2016年11期)2016-11-14 19:34:47
        爆笑游戲
        “上”與“下”語義的不對稱性及其認知闡釋
        第八章直接逃出游戲
        小學科學(2015年7期)2015-07-29 22:29:00
        認知范疇模糊與語義模糊
        久久天堂av色综合| 48久久国产精品性色aⅴ人妻 | 人妻少妇被猛烈进入中文字幕| 久久无码一一区| 国产无套粉嫩白浆内精| 国产美女主播视频一二三区| 久久精品噜噜噜成人| 国产又色又爽又刺激视频| 国产一区二区三区涩涩涩| 国产视频自拍一区在线观看| 四虎影视永久在线观看| 国产精品主播视频| 亚洲影院天堂中文av色| 人妻无码中文专区久久AV| av免费一区二区久久| 色欲综合一区二区三区| 中国极品少妇videossexhd| 国产激情一区二区三区在线蜜臀 | 国产精品久久久久久久久免费 | 久久人人爽天天玩人人妻精品| 日本视频一区二区三区免费观看 | 久久国产黄色片太色帅| 丰满人妻熟妇乱又伦精品软件 | 久草视频华人在线观看| 中文字幕亚洲综合久久综合| 一区二区三区乱码在线 | 欧洲| 午夜婷婷国产麻豆精品| 日韩av中文字幕一卡二卡| 欧美黑人巨大videos精品| 国内揄拍国内精品人妻浪潮av| 亚洲中文无码精品久久不卡| 国产精品亚洲一区二区三区在线| 国产免费艾彩sm调教视频| 国产在线手机视频| 中文字幕一区二区区免| 性欧美丰满熟妇xxxx性久久久 | 色综合久久人妻精品日韩| 国产tv不卡免费在线观看 | 国产美腿丝袜一区二区| 国产乱了真实在线观看| 最新国产午夜福利|