亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用詞的分布式表示改進(jìn)作文跑題檢測(cè)

        2015-04-21 10:52:02陳志鵬陳文亮朱慕華
        中文信息學(xué)報(bào) 2015年5期
        關(guān)鍵詞:詞項(xiàng)跑題范文

        陳志鵬,陳文亮,朱慕華

        (1. 蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2. 軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心,江蘇 蘇州 215006;3. 淘寶(中國(guó))軟件有限公司,浙江 杭州 311100)

        ?

        利用詞的分布式表示改進(jìn)作文跑題檢測(cè)

        陳志鵬1,2,陳文亮1,2,朱慕華3

        (1. 蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2. 軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心,江蘇 蘇州 215006;3. 淘寶(中國(guó))軟件有限公司,浙江 杭州 311100)

        作文跑題檢測(cè)任務(wù)的核心問(wèn)題是文本相似度計(jì)算。傳統(tǒng)的文本相似度計(jì)算方法一般基于向量空間模型,即把文本表示成高維向量,再計(jì)算文本之間的相似度。這種方法只考慮文本中出現(xiàn)的詞項(xiàng)(詞袋模型),而沒(méi)有利用詞項(xiàng)的語(yǔ)義信息。該文提出一種新的文本相似度計(jì)算方法:基于詞擴(kuò)展的文本相似度計(jì)算方法,將詞袋模型(Bag-of-Words)方法與詞的分布式表示相結(jié)合,在詞的分布式表示向量空間中尋找與文本出現(xiàn)的詞項(xiàng)語(yǔ)義上相似的詞加入到文本表示中,實(shí)現(xiàn)文本中單詞的擴(kuò)展。然后對(duì)擴(kuò)展后的文本計(jì)算相似度。該文將這種方法運(yùn)用到英文作文的跑題檢測(cè)中,構(gòu)建一套跑題檢測(cè)系統(tǒng),并在一個(gè)真實(shí)數(shù)據(jù)中進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果表明該文的跑題檢測(cè)系統(tǒng)能有效識(shí)別跑題作文,性能明顯高于基準(zhǔn)系統(tǒng)。

        文本相似度;詞分布式表示;跑題檢測(cè);文本表示

        1 引言

        作文跑題指文章偏離了預(yù)設(shè)的主題。舉個(gè)例子,例如,現(xiàn)在有一個(gè)題目“online shopping”,很明顯是要求寫關(guān)于網(wǎng)上購(gòu)物的文章。如果學(xué)生寫的文章與此無(wú)關(guān),而是寫的其他主題的文章,比如寫的是關(guān)于讀書的文章或者是關(guān)于大學(xué)生活的文章,我們就認(rèn)為該作文跑題。作文的質(zhì)量和是否跑題沒(méi)有必然聯(lián)系,有的文章雖然寫的很短很差,但是并沒(méi)有跑題。作文跑題的原因很多,可能是作者有意為之,也可能是無(wú)意間的提交錯(cuò)誤。

        作文跑題檢測(cè)用于判斷一篇作文是否跑題,其核心是計(jì)算文本之間的相似度,根據(jù)相似度和跑題標(biāo)準(zhǔn)來(lái)判斷文章是否跑題[1]。文本相似度是表示兩個(gè)文本之間相似程度的一個(gè)度量參數(shù)。除了用于文章跑題檢測(cè),在文本聚類[2]、信息檢索[3]、圖像檢索[4]、文本摘要自動(dòng)生成[5]、文本復(fù)制檢測(cè)[6]等諸多領(lǐng)域,文本相似度的有效計(jì)算都是解決問(wèn)題的關(guān)鍵所在。

        目前最常用的文本表示模型是向量空間模型VSM (Vector Space Model)。向量空間模型的基本思想是用向量形式來(lái)表示文本:vd=[w1,w2,w3,……,wn],其中wi是第i個(gè)特征項(xiàng)的權(quán)重。最典型的向量空間模型是詞袋模型(Bag-of-Words)。該方法以文本中的詞作為特征項(xiàng)形成向量表示,并且采用詞的TF-IDF值作為特征權(quán)重*TF-IDF是常用的特征權(quán)重計(jì)算方法。除此之外,亦可采用二元特征或者以詞頻作為權(quán)重。。詞袋模型方法簡(jiǎn)單而且有一定效果,但是這種方法忽略了文本中詞項(xiàng)的語(yǔ)義信息,沒(méi)有考慮到詞與詞之間的語(yǔ)義相似度。例如,“筆記本”和“手提電腦”這兩個(gè)詞在詞袋模型中被認(rèn)為兩個(gè)獨(dú)立的特征而沒(méi)有考慮這兩個(gè)詞在語(yǔ)義上的相近性。

        針對(duì)傳統(tǒng)向量空間模型在文本相似度計(jì)算中存在的問(wèn)題,很多研究人員進(jìn)行了研究,其中詞擴(kuò)展是最常見(jiàn)的一種策略。現(xiàn)有詞擴(kuò)展方法主要采用基于詞典的方法,比如使用WordNet[7]、HowNet等詞典。文獻(xiàn)[8]提出了基于WordNet詞擴(kuò)展計(jì)算英語(yǔ)詞匯相似度的方法。文獻(xiàn)[9]提出了基于HowNet計(jì)算詞匯語(yǔ)義相似度的方法,并將其用于文本分類。這些方法嚴(yán)重依賴于人工構(gòu)造的詞典資源,在新語(yǔ)言和新領(lǐng)域應(yīng)用中會(huì)遇到很多問(wèn)題。

        針對(duì)上述現(xiàn)有方法的不足,本文將詞袋模型與詞語(yǔ)的語(yǔ)義信息結(jié)合起來(lái),提出一種基于詞分布式表示[10]的文本相似度計(jì)算方法。我們首先對(duì)文本中單詞進(jìn)行分布式表示,即將它們映射為向量形式,然后在分布式的詞向量空間中找出與其語(yǔ)義上相近的詞,并將它們加入到文本表示中,最后再計(jì)算擴(kuò)展后的文本相似度。本文將這種方法運(yùn)用到英文作文的跑題檢測(cè)中,構(gòu)建了一套跑題檢測(cè)系統(tǒng),并在一個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行了測(cè)試。實(shí)驗(yàn)結(jié)果表明本文的跑題檢測(cè)系統(tǒng)能有效識(shí)別跑題作文,性能明顯高于基準(zhǔn)系統(tǒng)。

        本文的其余部分做如下安排:第2節(jié)對(duì)相關(guān)工作進(jìn)行介紹;第3節(jié)詳細(xì)介紹我們提出的計(jì)算文本相似度的方法。第4節(jié)介紹實(shí)驗(yàn)和結(jié)果分析,第5節(jié)是結(jié)論和下一步工作介紹。

        2 相關(guān)工作

        TF-IDF方法是一種經(jīng)典的基于向量空間模型的文本相似度計(jì)算方法。它用詞的TF-IDF值來(lái)衡量其對(duì)于文本的重要程度,一個(gè)詞的重要程度與它在文章中出現(xiàn)的次數(shù)成正比,但同時(shí)也會(huì)與它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比。這里包含了兩個(gè)重要的概念。

        詞頻(TermFrequency),即一個(gè)詞在文檔中出現(xiàn)的次數(shù)。一個(gè)詞在文章中出現(xiàn)的次數(shù)越多,它對(duì)這篇文章就越重要,它與文章的主題相關(guān)性也就越高。要注意的是停用詞(stopwords),像中文的“的”、“了”,英文的“a”、“the”,這些詞并不具備這種性質(zhì),它們雖然出現(xiàn)的次數(shù)比較多,但是它們不能反映文章的主題,應(yīng)該將它們過(guò)濾掉。

        逆文檔頻率(InverseDocumentFrequency),如果一個(gè)詞在文檔集合中出現(xiàn)的次數(shù)越多,說(shuō)明這個(gè)詞的區(qū)分能力越低,越不能反映文章的特性;反之,如果一個(gè)詞在文檔集合中出現(xiàn)的次數(shù)越少,那么它越能夠反映文章的特性。例如,有100篇文檔,如果一個(gè)詞A只在一篇文檔中出現(xiàn),而詞B在100篇文檔中都出現(xiàn),那么,很顯然,詞A比詞B更能反映文章的特性。

        將上面兩個(gè)概念結(jié)合起來(lái),我們可以計(jì)算一個(gè)詞項(xiàng)的TF-IDF值,對(duì)于一個(gè)詞項(xiàng)(wi):

        (1)

        其中TFIDF(wi)表示當(dāng)前詞項(xiàng)wi的TF-IDF值,tf(wi)表示詞項(xiàng)wi的詞頻,idf(wi)表示詞項(xiàng)wi的逆文檔頻率,詞項(xiàng)wi的TFIDF(wi)等于tf(wi)乘以idf(wi)。很顯然,詞頻就等于一篇文檔中該詞項(xiàng)出現(xiàn)的次數(shù)除以文章的總詞數(shù),而逆文檔頻率的計(jì)算公式如式(2)所示。

        (2)

        N表示的是文檔集合中文檔的總數(shù),df(wi)是包含詞項(xiàng)wi的文檔的總數(shù),加1是為了防止分母為0。將式(2)帶入到式(1)中,詞項(xiàng)TF-IDF值的計(jì)算公式為

        (3)

        根據(jù)上述公式計(jì)算出文本中每個(gè)詞項(xiàng)wi的TD-IDF值,然后利用這些TF-IDF值,將文檔轉(zhuǎn)化成一個(gè)向量空間模型,再利用余弦公式來(lái)計(jì)算相似度。余弦公式[11]如下:

        (4)

        其中,D1,D2表示兩個(gè)文本向量,a1k表示第一篇文章D1中單詞的TF-IDF值,a2k表示第二篇文章D2中單詞的TF-IDF值。

        TF-IDF方法是一種簡(jiǎn)單有效的計(jì)算文本相似度的方法,但是這種方法并沒(méi)有考慮詞語(yǔ)背后的語(yǔ)義信息,忽視了詞與詞之間的相似度。人們?yōu)榱烁鼫?zhǔn)確的計(jì)算文本相似度,提出了一些基于語(yǔ)義的相似度計(jì)算法:文獻(xiàn)[12]和文獻(xiàn)[13]提出了基于本體的文本特征抽取和相似度計(jì)算方法。文獻(xiàn)[14]提出了基于HowNet語(yǔ)義詞典的文本相似度計(jì)算方法。文獻(xiàn)[15]利用WordNet語(yǔ)義詞典研究局部相關(guān)性信息以此來(lái)確定文本之間的相似性。這些方法利用了特定領(lǐng)域的知識(shí)庫(kù)來(lái)構(gòu)建詞語(yǔ)之間的語(yǔ)義關(guān)系,與基于統(tǒng)計(jì)學(xué)的方法相比準(zhǔn)確率有提高,但是知識(shí)庫(kù)的建立是一項(xiàng)復(fù)雜而繁瑣的工程,需要耗費(fèi)大量人力。與上述方法不同的是,本文將詞進(jìn)行分布式向量表示,在新的分布式表示空間,自動(dòng)地找出與某個(gè)詞項(xiàng)語(yǔ)義上相似的單詞,將這些詞加入到文本的表示中,然后再用傳統(tǒng)的方法對(duì)文本進(jìn)行相似度計(jì)算。

        作文跑題檢測(cè)的研究起于國(guó)外,目的是為了提高作文自動(dòng)評(píng)分系統(tǒng)的性能。隨著研究的深入,許多研究者提出了檢測(cè)作文跑題的方法。文獻(xiàn)[1]提出了一種不需要特定主題訓(xùn)練數(shù)據(jù)的跑題檢測(cè)方法。文獻(xiàn)[16]利用主題描述來(lái)檢測(cè)作文跑題的方法,通過(guò)計(jì)算文章與主題描述的相似性來(lái)判斷文章是否跑題。和這些方法相比,本文的不同之處在于計(jì)算文章與范文的相似度來(lái)判斷是否跑題,計(jì)算時(shí)采用了基于詞分布式表示的詞擴(kuò)展方法,提高了檢測(cè)系統(tǒng)的性能。

        3 作文跑題檢測(cè)

        本文將詞的分布式表示和向量空間模型結(jié)合,提出一種新的作文跑題檢測(cè)方法。

        3.1 詞的分布式表示(WordDistributedRepresentation)

        自然語(yǔ)言處理中,將一個(gè)詞表示為向量的最簡(jiǎn)單、最常用方式是One-hotRepresentation。這種方法把詞表中的每個(gè)詞表示為一個(gè)很長(zhǎng)的向量,向量的維度是詞表大小,其中絕大多數(shù)元素為 0,只有一個(gè)維度的值為 1,這個(gè)維度就代表了當(dāng)前的詞。比如:“筆記本”和“手提電腦”,“筆記本”的表示為[0,0,0,1,0…0…],“手提電腦”的表示為[0,0,0,0,0,0,1,0,0…0…]。這種表示方法簡(jiǎn)單有效,不過(guò)忽視了詞的語(yǔ)義信息,“筆記本”和“手提電腦”是語(yǔ)義上近似的詞,但這種方法表示出的向量卻無(wú)法反映這點(diǎn)。

        詞的分布式表示(WordDistributedRepresentation)是指將詞表中的詞映射為一個(gè)稠密的、低維的實(shí)值向量,每一維表示詞的一個(gè)潛在特征。這種方法基于深度學(xué)習(xí),可以表示出詞與詞之間的聯(lián)系。例如,“筆記本”表示成[0.231,0.678,-0.535,0.178…],“手提電腦”表示成[0.032,0.561,0.233,0.411…],向量的維數(shù)可以在訓(xùn)練前通過(guò)手工設(shè)定,是一個(gè)固定的值。雖然我們無(wú)法確切解釋每一個(gè)維度具體表示什么,但是我們可以根據(jù)單詞的向量形式找出與其語(yǔ)義上相近的詞。

        3.2 基于詞分布式表示的詞擴(kuò)展

        基于詞的分布式表示,本節(jié)先進(jìn)行詞擴(kuò)展,然后基于詞擴(kuò)展結(jié)果計(jì)算文檔間相似度。基于詞擴(kuò)展的文檔相似度計(jì)算具體描述如下所示。

        3.3 跑題檢測(cè)

        在本文跑題檢測(cè)任務(wù)中,對(duì)每個(gè)作文題目給定K篇文章作為范文。利用上節(jié)描述的詞擴(kuò)展得到的文本表示,計(jì)算學(xué)生作文和范文之間的相似度。本文使用余弦相似度(Cosine)來(lái)計(jì)算相似度。假設(shè)給定的K篇范文集合記為D,其中第m篇范文記為dm(1≤m≤K),學(xué)生作文dx,則相似度計(jì)算過(guò)程如下。

        首先,使用之前所述的方法計(jì)算范文與學(xué)生作文的相似度Sim(dm,dx),然后系統(tǒng)取均值作為最終相似度Sim(dx),如式(5)所示。

        (5)

        我們用最終相似度作為系統(tǒng)對(duì)文章的評(píng)分,將其與系統(tǒng)的閾值進(jìn)行對(duì)比,以此來(lái)判斷作文有沒(méi)有跑題。

        4 實(shí)驗(yàn)

        本節(jié)先介紹實(shí)驗(yàn)數(shù)據(jù),再介紹如何構(gòu)造標(biāo)準(zhǔn)集,以及實(shí)驗(yàn)的評(píng)價(jià)方法,最后一部分是實(shí)驗(yàn)的結(jié)果和分析。

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        本次實(shí)驗(yàn)中,我們收集了10 709篇英文作文,共包括20個(gè)不同的題目,每個(gè)題目下有500篇左右的文章。這些文章都有教師對(duì)文章的總體評(píng)分,評(píng)分越高的文章寫得越好,為了便于比較,在實(shí)驗(yàn)前,我們先對(duì)每個(gè)題目下的文章評(píng)分進(jìn)行歸一化處理,將文章的人工評(píng)分映射到0到1的范圍。對(duì)于每個(gè)作文題目,選擇人工評(píng)分靠前的K篇文章作為我們的范文。

        為了學(xué)習(xí)詞語(yǔ)的idf值和訓(xùn)練詞向量,我們另外收集了41 225篇不帶評(píng)分的英文作文。

        詞向量的訓(xùn)練方法有很多,Bengio等人提出FFNNLM模型[17](Feed-forwardNeuralNetLanguageModel)可以訓(xùn)練出詞的向量表示形式,不過(guò)FFNNLM并非是專門用來(lái)訓(xùn)練詞向量,詞向量只是訓(xùn)練模型過(guò)程中產(chǎn)生的副產(chǎn)品。Google開(kāi)源了一款專門用來(lái)訓(xùn)練詞向量的工具Word2Vec[18-20],它可以根據(jù)給定的語(yǔ)料庫(kù),通過(guò)訓(xùn)練后的模型將詞表示成向量形式,并能找出與某個(gè)詞語(yǔ)義上相近的詞。相比較FFNNLM模型,Word2Vec對(duì)訓(xùn)練模型做出了優(yōu)化,運(yùn)行速度更快。我們的實(shí)驗(yàn)使用Word2Vec工具*https://github.com/NLPchina/Word2VEC_java來(lái)訓(xùn)練詞向量。

        4.2 構(gòu)造標(biāo)準(zhǔn)集

        標(biāo)準(zhǔn)集里面包含的是人工判斷為跑題的文章的集合。由于文章數(shù)目較多,不可能人工檢查所有文章,因此我們借助教師評(píng)分自動(dòng)構(gòu)造標(biāo)準(zhǔn)集。構(gòu)造標(biāo)準(zhǔn)集的步驟如下。

        (1) 將各個(gè)題目下的文章按照人工評(píng)分從高到低排序。評(píng)分越高說(shuō)明文章寫得越好,這部分文章幾乎不會(huì)跑題;而分?jǐn)?shù)越低說(shuō)明文章寫得越不好,這里面可能就有跑題的文章出現(xiàn)。

        (2) 對(duì)于每個(gè)作文題目的文章,取得分最低的十篇文章,人工閱讀每一篇文章,判斷它有沒(méi)有跑題,如果跑題則將它加入到標(biāo)準(zhǔn)集中。對(duì)于這十篇文章,如果它們?nèi)桥茴}的文章,或者絕大多數(shù)是跑題的文章,就接著往上檢查十篇文章,循環(huán)操作直到出現(xiàn)大部分的不跑題文章為止。如果這十篇文章只有少部分跑題,或者完全沒(méi)有跑題的文章,就完成該作文題目的跑題作文人工檢查工作。

        最后得到的標(biāo)準(zhǔn)集共有54篇文章。每個(gè)題目下的跑題文章數(shù)是不一樣的,有的題目比較好寫,沒(méi)有文章跑題;而有的題目比較難寫,相對(duì)而言,跑題文章較多。表1給出了不同題目下跑題文章的分布。

        從表1中我們可以看出,有13個(gè)題目下沒(méi)有跑題文章,占65%,很大的比例;另外,有三個(gè)題目下跑題文章數(shù)在1到5篇之間;跑題文章數(shù)為在6—10篇之間和11篇以上的題目數(shù)都是兩個(gè)。

        表1 跑題文章的分布

        4.3 實(shí)驗(yàn)評(píng)價(jià)方法

        我們利用準(zhǔn)確率(Precision)、召回率(Recall)和F1值來(lái)評(píng)價(jià)系統(tǒng)。首先要構(gòu)造標(biāo)準(zhǔn)集和預(yù)測(cè)集兩個(gè)集合,標(biāo)準(zhǔn)集是正確答案的集合,按上述方法構(gòu)造。預(yù)測(cè)集是系統(tǒng)預(yù)測(cè)答案的集合。我們用M來(lái)表示標(biāo)準(zhǔn)集合中元素的數(shù)目,N表示預(yù)測(cè)集中元素的數(shù)目,假設(shè)預(yù)測(cè)集中有K個(gè)元素是標(biāo)準(zhǔn)集中的元素。用P來(lái)表示準(zhǔn)確率,R表示召回率,F(xiàn)表示F1值,則計(jì)算方法如下:

        (6)

        (7)

        (8)

        為了更好地分析系統(tǒng),我們計(jì)算召回率取不同

        值的時(shí)候的準(zhǔn)確率和F1值,具體就是計(jì)算出當(dāng)召回率為0.1、0.2、0.3.....1.0的時(shí)候的系統(tǒng)的準(zhǔn)確率和F1值,以此作為我們?cè)u(píng)價(jià)系統(tǒng)的依據(jù)。

        4.4 實(shí)驗(yàn)結(jié)果

        本次實(shí)驗(yàn),我們共構(gòu)建了四套不同的跑題檢測(cè)系統(tǒng)。除了上述的TF-IDF方法和基于詞分布式表示的詞擴(kuò)展方法,還有另外兩種方法作為比較:Word2Vec方法和Sent2Vec方法。Word2Vec方法是進(jìn)行簡(jiǎn)單地替代和拼接。用單詞訓(xùn)練出的詞向量來(lái)代替TF-IDF方法中的TF-IDF值,然后再將所有單詞的詞向量首尾相連,拼接成一個(gè)長(zhǎng)的向量,最后使用余項(xiàng)公式來(lái)計(jì)算相似度。假設(shè)之前TF-IDF方法中的文章表示為一個(gè)1×M的向量,每一維表示一個(gè)詞的TF-IDF值,使用Word2Vec訓(xùn)練出的詞向量是N維,用詞向量代替TF-IDF值后,文章就表示為一個(gè)1×MN的向量。Sent2Vec方法是使用Sent2Vec工具*http://research.microsoft.com/en-us/downloads/731572aa-98e4-4c50-b99d-ae3f0c9562b9/,與Word2Vec不同的是它可以對(duì)句子進(jìn)行分布式向量表示,我們將一篇英文文章看作一句話,然后訓(xùn)練出一篇文章的向量表示,直接用余弦公式計(jì)算文章之間的相似度。

        圖1和圖2是選取一篇文章作為范文的實(shí)驗(yàn)結(jié)果,對(duì)于詞擴(kuò)展(WordExtend)方法,每個(gè)單詞擴(kuò)展了50個(gè)詞。

        圖1 一篇范文時(shí)準(zhǔn)確率隨召回率變化的曲線

        圖2 一篇范文時(shí)F1值隨召回率變化的曲線

        圖3和圖4是選取五篇文章作為范文的實(shí)驗(yàn)結(jié)果。

        圖3 五篇范文時(shí)準(zhǔn)確率隨召回率變化的曲線

        圖4 五篇范文時(shí)F1值隨召回率變化的曲線

        從實(shí)驗(yàn)結(jié)果,我們可以看出:

        (1)Word2Vec方法性能略低于傳統(tǒng)的TF-IDF方法,Sent2Vec方法的性能最差,而詞擴(kuò)展方法的性能要明顯優(yōu)于其他三種方法。

        (2) 當(dāng)范文數(shù)為一的時(shí)候,我們可以看到:R=0.6的時(shí)候,TF-IDF方法的F1達(dá)到峰值,為0.455, 而詞擴(kuò)展方法的F1值為0.611;TF-IDF方法的準(zhǔn)確率只有0.363;而詞擴(kuò)展方法的準(zhǔn)確率為0.611,相比較之下,使用詞擴(kuò)展方法的系統(tǒng)的整體

        性能有明顯的提升。

        (3) 當(dāng)范文數(shù)為5的時(shí)候,TF-IDF方法的F1值最高為0.635,而詞擴(kuò)展方法的F1值的峰值為0.66,略高于TF-IDF方法。

        (4) 另外,對(duì)比范文數(shù)為1的和范文數(shù)為5的結(jié)果。我們可以發(fā)現(xiàn),范文數(shù)少的情況下,詞擴(kuò)展方法的效果比傳統(tǒng)的TF-IDF方法明顯要好很多。這是因?yàn)橥ㄟ^(guò)詞擴(kuò)展的方式,一篇范文所包含的語(yǔ)義信息更加豐富,所以系統(tǒng)的判斷也會(huì)更加準(zhǔn)確。在實(shí)際使用中這點(diǎn)很有用,因?yàn)閷?shí)際情況下一般不會(huì)提供太多范文。

        5 結(jié)論和下一步工作介紹

        本文提出了一種基于詞分布式表示的作文跑題檢測(cè)方法。這種方法將傳統(tǒng)的TF-IDF方法和單詞語(yǔ)義信息相結(jié)合,尋找與文本中單詞語(yǔ)義上相近的詞,并將其加入到文本的表示中,實(shí)現(xiàn)了對(duì)文本的詞擴(kuò)展。在此基礎(chǔ)上,對(duì)擴(kuò)展后的文本用TF-IDF方法計(jì)算相似度。實(shí)驗(yàn)結(jié)果表明這種方法要明顯優(yōu)于傳統(tǒng)的TF-IDF方法。

        在接下來(lái)的工作中,我們還會(huì)進(jìn)行更深入的研究。例如,文中的詞擴(kuò)展數(shù)目是人工選取的50個(gè)單詞,雖然效果提升明顯,但還不是最優(yōu)解,還有待于通過(guò)開(kāi)發(fā)集來(lái)選取最優(yōu)值。另外,還可以改進(jìn)我們?cè)~擴(kuò)展的方式,尋找一種更好的方式來(lái)將單詞的語(yǔ)義信息融入到文本相似度的計(jì)算中。

        [1]DHiggins,JBursteinAttali.Identifyingoff-topicstudentessayswithouttopic-specifictrainingdata[J],NaturalLanguageEngineering, 2006, 12(2): 145-159.

        [2]AHuang.Similaritymeasuresfortextdocumentclustering[C]//ProceedingsoftheNewZealandComputerScienceResearchStudentConference, 2008: 44-56.

        [3]KUMARN.Approximatestringmatchingalgorithm[J].InternationalJournalonComputerScienceandEngineering, 2010, 2(3): 641-644.

        [4]COELHOTAS,CALADOPP,SOUZALV, 等.Imageretrievalusingmultipleevidenceranking[J].IEEETransonKnowledgeandDataEngineering, 2004, 16(4): 408-417.

        [5]KOY,PARKJ,SEOJ.Improvingtextcategorizationusingtheimportanceofsentences[J].InformationProcessingandManagement,2004, 40(1): 65-79.

        [6]THEOBALDM,SIDDHARTHJ,SpotSigs:robustandefficientnearduplicatedetectioninlargewebcollection[C]//Proceedingsofthe31stAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.NewYork:ACMPress, 2008: 563-570.

        [7]MillerG.Wordnet:AnOn-lineLexicalDatabase[J].InternationalJournalofLexicography, 1990, 3(4): 235-244.

        [8] 顏 偉, 荀恩東. 基于WordNet的英語(yǔ)詞語(yǔ)相似度計(jì)算[C]//計(jì)算機(jī)語(yǔ)言學(xué)研討會(huì)論文集. 2004.

        [9] 朱嫣嵐, 閔錦, 周雅倩, 等. 基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J]. 中文信息學(xué)報(bào), 2006, 20(1):14-20.

        [10]Lee,DanielD,H.SebastianSeung.Algorithmsfornon-negativematrixfactorization[C]//ProceedingsoftheAdvanceinNeuralInformationProcessingSystem.MITPress,2001:556-562.

        [11] 張霞, 王建東, 顧?;? 一種改進(jìn)的頁(yè)面相似性度量方法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2010, 46(19): 141-144.

        [12]SánchezJA,MedinaMA,StarostenkoO, 等.OrganizingOpenArchivesviaLightweightOntologtoFacilitatetheUseofHeterogeneousCollection[J].AslibProceedings, 2012, 64(1): 46-66.

        [13]VicientC,SánchezD,MorenoA.AnAutomaticApproachforOntology-BasedFeatureExtractionfromHeterogeneousDocumentalResource[J].EngineeringApplicationofArtificialIntelligence, 2013, 26: 1092-1106.

        [14]LiuQ,LiSJ.SemanticSimilarityCalculationBasedonHowNet[C]//Proceedingsofthe3rdChineseLexicalSemanticsWorkshop.Taipei,China, 2002: 59-76.

        [15]RamageD,RaffertyAN,ManningCD.Randomwalksfortextsemanticsimilarity[C]//Proceedingsofthe2009WorkshoponGraph-basedMethodsforNaturalLanguageProcessing.Suntec,Singapore, 2009: 23-31.

        [16]ALouis,DHiggins.Off-topicessaydetectionusingshortprompttexts[C]//ProceedingsoftheNAACLHLT2010FifthWorkshoponInnovativeUseofNLPforBuildingEducationalApplications,LosAngeles,California, 2010:92-95.

        [17]YBengio,RDucharme,PVincent,etal.Aneuralprobabilisticlanguagemodel[J].JournalofMachineLearningResearch, 3:1137-1155.

        [18]TomasMikolov,KaiChen,GregCorrado,etal.EfficientEstimationofWordRepresentationsinVectorSpace[C]//ProceedingsofWorkshopatICLR, 2013.

        [19]TomasMikolov,IlyaSutskever,KaiChen,etal.DistributedRepresentationsofWordsandPhrasesandtheirCompositionality[C]//ProceedingsofNIPS, 2013.

        [20] Tomas Mikolov, Wen-tau Yih, Geoffrey Zweig. Linguistic Regularities in Continuous Space Word Representations[C]//Proceedings of NAACL HLT, 2013:746-751.

        Exploiting Distributed Representation of Words for Better Off-Topic Essay Detection

        CHEN Zhipeng1,2, CHEN Wenliang1,2,ZHU Muhua3

        (1. School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006, China;2. Collaborative Innovation Center of Novel Software Technology and Industrialization, Suzhou, Jiangsu 215006, China;3.Taobao (China) Software Co., Ltd,Hangzhou,Zhejiang 311100, China)

        Similarity measure is the core component of off-topic essays detection. To compute the text similarity, the bag-of-words model is widely used, which represents a text as a vector with each dimension corresponds to a word. To further capture the word semantic information, this paper proposes a new method to compute text similarity: a method exploits word distributed representation. The proposed method combines the traditional bag-of-words model with the word semantic information. For each word in a text, we search for a set of similar words in a text collection, and then extend the text vector with these words. Finally we compute text similarity with the updated text. Experimental results show that our method is more effective than baseline systems.

        text similarity; word distributed representation; digress test; text representation

        陳志鵬(1991—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E-mail:chenzhipeng341@163.com陳文亮(1977—),通信作者,博士,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E-mail:wlchen@suda.edu.cn朱慕華(1981—),博士,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E-mail:zhumuhua@gmail.com

        1003-0077(2015)05-0178-07

        2015-06-29 定稿日期: 2015-09-18

        國(guó)家自然科學(xué)基金(61203314, 61333018)

        TP391

        A

        猜你喜歡
        詞項(xiàng)跑題范文
        作文跑題不可怕
        范文引路 習(xí)得方法
        自然種類詞項(xiàng)二難、卡茨解決與二維框架
        李強(qiáng)平面設(shè)計(jì)作品
        春色幾許(簡(jiǎn)譜)
        東方教育(2017年2期)2017-04-21 10:36:09
        高考模擬題精選之書面表達(dá)題參考范文
        我不會(huì)寫作文
        老爸說(shuō)話愛(ài)“跑題”
        英語(yǔ)詞項(xiàng)搭配范圍及可預(yù)見(jiàn)度
        依據(jù)語(yǔ)篇中多層次信息的句法分析方法
        大家(2011年9期)2011-08-15 00:45:37
        免费无码又爽又刺激网站直播| 亚洲黄片久久| 国产精品久久国产精品久久 | 青楼妓女禁脔道具调教sm| 亚洲尺码电影av久久| 国产成人精品cao在线| 精品国产精品久久一区免费| 19款日产奇骏车怎么样| 无码熟妇人妻av影音先锋 | 人妻aⅴ无码一区二区三区 | 最近日本免费观看高清视频| 午夜无码一区二区三区在线| 日本高清视频在线一区二区三区| 日韩av一区二区三区精品久久| 无遮掩无码h成人av动漫| 国产精品无码久久久久| 亚洲乱码一区二区三区成人小说| 日本二区三区视频免费观看| 国产精品黑丝美腿美臀| 日本高清视频wwww色| 在线播放无码高潮的视频| 亚洲国产成人无码电影 | 国产一区二区黄色的网站| 疯狂做受xxxx国产| 国产肉丝袜在线观看| 精品高清国产乱子伦| 日本女优中文字幕亚洲| 极品美女扒开粉嫩小泬图片| 色一情一乱一伦一区二区三区日本 | 国产精品成人无码久久久久久| 午夜成人鲁丝片午夜精品| 中文字幕亚洲精品第1页| 丰满熟女人妻一区二区三区| 国产毛片av最新视频| 国产尤物自拍视频在线观看 | 精品国免费一区二区三区| 亚洲av天堂一区二区| 水蜜桃男女视频在线观看网站| 蜜臀亚洲av无码精品国产午夜.| 欧美人与动牲交a欧美精品| 涩涩国产在线不卡无码|