陳 鴻,金培權(quán),岳麗華,胡玉娟,殷鳳梅
(1.合肥師范學(xué)院公共計(jì)算機(jī)教學(xué)部,合肥230091;2.中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥230027)
基于上下文特征分類的評(píng)論長(zhǎng)句切分方法
陳 鴻1,金培權(quán)2,岳麗華2,胡玉娟1,殷鳳梅1
(1.合肥師范學(xué)院公共計(jì)算機(jī)教學(xué)部,合肥230091;2.中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥230027)
商品評(píng)論文本對(duì)消費(fèi)者和商家的決策都有重要參考價(jià)值。用戶在評(píng)論中使用的語(yǔ)言較為隨意,語(yǔ)法結(jié)構(gòu)不規(guī)則,給文本分析帶來(lái)很大難度。正確的句子切分是文本信息抽取和挖掘工作的基礎(chǔ)。為解決商品評(píng)論中用戶省略標(biāo)點(diǎn)情況下的句子切分問(wèn)題,基于上下文特征,提出使用機(jī)器學(xué)習(xí)的方法對(duì)評(píng)論長(zhǎng)句進(jìn)行切分。根據(jù)大規(guī)模評(píng)論語(yǔ)料的統(tǒng)計(jì)特征選取候選句子切分點(diǎn),對(duì)每一個(gè)候選句子切分點(diǎn)提取其上下文特征,并根據(jù)語(yǔ)料的統(tǒng)計(jì)特征,使用邏輯回歸對(duì)候選切分點(diǎn)進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效解決商品評(píng)論中用戶省略標(biāo)點(diǎn)情況下的句子切分問(wèn)題。
句子切分;標(biāo)點(diǎn)省略;機(jī)器學(xué)習(xí);上下文特征;N元文法;邏輯回歸
商品評(píng)論作為用戶和用戶以及用戶和商家間的一種溝通工具,對(duì)用戶和商家的決策都有重要的參考價(jià)值。對(duì)商品評(píng)論的觀點(diǎn)句識(shí)別、情感分析[1]等研究工作也進(jìn)行了很長(zhǎng)時(shí)間?,F(xiàn)有針對(duì)商品評(píng)論的研究工作在基于句子切分正確的基礎(chǔ)上,即假設(shè)輸入為經(jīng)過(guò)切分并且正確切分的句子。然而在很多電子商務(wù)網(wǎng)站上,用戶的商品評(píng)論具有語(yǔ)言風(fēng)格較為隨意、語(yǔ)法結(jié)構(gòu)不規(guī)則等特點(diǎn),而其中一個(gè)重要方面就是標(biāo)點(diǎn)符號(hào)的省略,例如:“這款彩電畫(huà)質(zhì)很好音效也很不錯(cuò)但是價(jià)格偏貴”,“衣服很漂亮價(jià)錢也很便宜很符合我的品味我很喜歡”。第1個(gè)句子由3個(gè)子句組成(即“這款彩電畫(huà)質(zhì)很好”,“音效也很不錯(cuò)”和“但是價(jià)格偏高”),而第2個(gè)句子由4個(gè)子句組成(即“衣服很漂亮”,“價(jià)錢也很便宜”,“很符合我的口味”和“我很喜歡”)。標(biāo)點(diǎn)符號(hào)的省略對(duì)句子的切分造成了很大的影響,傳統(tǒng)的基于標(biāo)點(diǎn)符號(hào)的句子切分方法在這種情形下無(wú)法適用。而句子切分的不準(zhǔn)確也對(duì)之后的研究工作產(chǎn)生很大影響。
目前的漢語(yǔ)句子切分研究工作中,絕大部分工作都是基于標(biāo)點(diǎn)符號(hào)的切分,這種簡(jiǎn)單的切分方法主要是為了提高之后詞語(yǔ)切分和詞性標(biāo)注[2-4]以及更為復(fù)雜的抽取和挖掘工作的準(zhǔn)確率,而對(duì)于標(biāo)點(diǎn)省略情況下的句子切分工作研究很少。目前針對(duì)句子切分的研究集中在少數(shù)民族語(yǔ)言[5-8]和一些特定的應(yīng)用領(lǐng)域,比如古漢語(yǔ)句子切分[9-11]。文獻(xiàn)[9]利用詞匯和模式在農(nóng)業(yè)古籍上取得了0.48的斷句準(zhǔn)確率和0.36的標(biāo)點(diǎn)準(zhǔn)確率。文獻(xiàn)[10]采取N元文法在《論語(yǔ)》上取得了0.638的斷句F1分?jǐn)?shù)值,而文獻(xiàn)[11]使用在現(xiàn)代漢語(yǔ)分詞中取得成功的條件隨機(jī)場(chǎng)模型,并引入互信息和t-測(cè)試差2個(gè)統(tǒng)計(jì)量作為特征,在《論語(yǔ)》上取得了0.762的斷句F1分?jǐn)?shù)值和0.621的標(biāo)點(diǎn)F1分?jǐn)?shù)值;在《史記》上取得了0.682的斷句F1分?jǐn)?shù)值和0.531的標(biāo)點(diǎn)F1分?jǐn)?shù)值。
古漢語(yǔ)的句子切分和現(xiàn)代漢語(yǔ)的句子切分研究有所不同,現(xiàn)在漢語(yǔ)的分詞和詞性標(biāo)注研究時(shí)間較長(zhǎng),可以使用上下文的詞袋和詞性特征進(jìn)行句子切分。
針對(duì)不存在標(biāo)點(diǎn)情況下的句子切分問(wèn)題,本文提出使用機(jī)器學(xué)習(xí)的方法對(duì)長(zhǎng)句進(jìn)行切分。將句子切分問(wèn)題定義為一個(gè)二分類問(wèn)題,首先對(duì)大規(guī)模的評(píng)論文本語(yǔ)料提取其統(tǒng)計(jì)特征,根據(jù)這些統(tǒng)計(jì)特征,對(duì)于一個(gè)不含終結(jié)符號(hào)的評(píng)論長(zhǎng)句,抽取長(zhǎng)句的候選切分點(diǎn)集合。其次對(duì)每個(gè)候選切分點(diǎn),根據(jù)大規(guī)模評(píng)論語(yǔ)料的統(tǒng)計(jì)特征提取句子的上下文詞袋文法特征以及上下文詞性特征,并抽取候選切分點(diǎn)前后的長(zhǎng)度和詞性數(shù)量特征,最后使用邏輯回歸分類器對(duì)候選切分點(diǎn)進(jìn)行分類,判斷其是否為切分點(diǎn)。
本文方法框架如圖1所示。
圖1 句子切分方法框架
切分方法的實(shí)現(xiàn)包括如下步驟:
(1)大規(guī)模評(píng)論語(yǔ)料統(tǒng)計(jì)特征抽取
首先在大規(guī)模商品評(píng)論語(yǔ)料中抽取標(biāo)點(diǎn)符號(hào)上下文的詞袋n-gram模型和上下文n元詞性模型,這2個(gè)模型將用于接下來(lái)的候選切分點(diǎn)抽取以及候選切分點(diǎn)二分類的特征抽取。
(2)候選切分點(diǎn)抽取
對(duì)于一個(gè)待切分的句子,首先使用中科院分詞系統(tǒng)NLPIR進(jìn)行分詞和詞性標(biāo)注。對(duì)標(biāo)注結(jié)果詞序列中的每2個(gè)連續(xù)詞,使用統(tǒng)計(jì)特征判斷這2個(gè)詞之間是否存在一個(gè)候選切分點(diǎn),若統(tǒng)計(jì)特征大于一定閾值,則將這2個(gè)詞之間標(biāo)記為一個(gè)候選的切分點(diǎn),注意到一個(gè)待切分句子中可能會(huì)存在多個(gè)候選切分點(diǎn)。
(3)候選切分點(diǎn)特征抽取
對(duì)于一個(gè)待切分句子中的每一個(gè)切分點(diǎn),抽取它的上下文特征,作為下一步分類的特征輸入。方法的特征主要包含2類:基本的上下文特征,比如候選切分點(diǎn)前后的詞性數(shù)量統(tǒng)計(jì)、長(zhǎng)度統(tǒng)計(jì),以及抽取的上下文的語(yǔ)料統(tǒng)計(jì)特征。
(4)候選切分點(diǎn)分類
對(duì)于抽取的特征,使用邏輯回歸分類器對(duì)每一個(gè)候選切分點(diǎn)進(jìn)行分類。
3.1 評(píng)論語(yǔ)料
使用某電子商務(wù)網(wǎng)站提供的商品評(píng)論語(yǔ)料數(shù)據(jù)集。該數(shù)據(jù)集總共包含2×106條左右的商品評(píng)論文本。將該評(píng)論語(yǔ)料分為2個(gè)部分,即訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料。鑒于工作目的,測(cè)試評(píng)論語(yǔ)料中的評(píng)論文本必須符合以下2個(gè)要求:(1)評(píng)論文本的字符長(zhǎng)度大于10;(2)評(píng)論文本中不含任何標(biāo)點(diǎn)符號(hào)。
提出這2個(gè)要求的原因是,長(zhǎng)度大于一定值并且其中不含標(biāo)點(diǎn)符號(hào)的句子很大可能是由于用戶省略了標(biāo)點(diǎn)符號(hào),因此這些句子符合工作的出發(fā)點(diǎn)。
與此同時(shí),在抽取訓(xùn)練文本語(yǔ)料時(shí),忽略掉那些長(zhǎng)度小于10并且文本中不含任何標(biāo)點(diǎn)的文本。
3.2 統(tǒng)計(jì)特征抽取
在訓(xùn)練語(yǔ)料中抽取統(tǒng)計(jì)特征,這些統(tǒng)計(jì)特征主要包括2個(gè)方面:詞袋特征和詞性特征。將這些特征總結(jié)為如表1所示。為了抽取下述特征,使用中科院分詞工具NLPIR對(duì)評(píng)論文本進(jìn)行分詞和詞性標(biāo)注。還進(jìn)行了一些預(yù)處理操作,比如將連續(xù)的相同標(biāo)點(diǎn)符號(hào)簡(jiǎn)化成只有一個(gè)標(biāo)點(diǎn)(比如“。。。。。。?!被?jiǎn)為“?!保?。在工作中,句子切分的標(biāo)點(diǎn)符號(hào)包括終結(jié)標(biāo)點(diǎn)符號(hào)(比如“?!?、“!”、“?”等)以及用戶在評(píng)論文本中常用的符號(hào)(比如空格、“~”等)。
表1 評(píng)論語(yǔ)料統(tǒng)計(jì)特征
抽取統(tǒng)計(jì)特征的基本假設(shè)是:在訓(xùn)練文本中,終結(jié)標(biāo)點(diǎn)符號(hào)前后出現(xiàn)的詞袋序列組合以及詞性序列組合具有一定的概率分布,對(duì)于訓(xùn)練語(yǔ)料中的每條評(píng)論文本,抽取文本中每個(gè)終結(jié)標(biāo)點(diǎn)符號(hào)前后的詞袋和詞性統(tǒng)計(jì)規(guī)律。
(1)詞袋特征:表1中的一元(二元)文法為分詞后得到的詞袋序列中連續(xù)1個(gè)(2個(gè))詞的組合,而標(biāo)點(diǎn)符號(hào)前后的一元(二元)文法組合為標(biāo)點(diǎn)符號(hào)前的一元(二元)文法和標(biāo)點(diǎn)符號(hào)后的一元(二元)文法的組合。以分詞后得到的序列:“衣服/n很/d好看/a。/w j價(jià)格/n也/d很/d便宜/a”為例,在該句子中存在著一個(gè)終結(jié)標(biāo)點(diǎn)符號(hào),即句號(hào)“?!?。句號(hào)前的一元文法為<好看>,句號(hào)前的二元文法為<很,好看>,而句號(hào)后的一元文法為<價(jià)格>,句號(hào)后的二元文法為<價(jià)格,也>。那么該句號(hào)前后的一元文法組合為<好看,價(jià)格>,二元文法組合為<很,好看,價(jià)格,也>。由于時(shí)間和空間復(fù)雜度的限制以及效果提升的不明顯,并未抽取三元文法的特征。
詞袋特征中的文法標(biāo)點(diǎn)共現(xiàn)概率可由式(1)描述:
其中,Ngrami可為某個(gè)具體的一元文法組合或者二元文法組合;分子#(Ngrami,Punc)為文法組合i和標(biāo)點(diǎn)符號(hào)在語(yǔ)料庫(kù)中共同出現(xiàn)的次數(shù);分母#Punc為終結(jié)標(biāo)點(diǎn)符號(hào)在語(yǔ)料庫(kù)中的出現(xiàn)次數(shù)。該特征描述的是一個(gè)文法組合在標(biāo)點(diǎn)符號(hào)前后出現(xiàn)的概率。
詞袋特征中的文法標(biāo)點(diǎn)概率可由式(2)描述,其中分母#Ngrami為一個(gè)文法組合在語(yǔ)料庫(kù)中的出現(xiàn)次數(shù)。該公式描述的是對(duì)于某個(gè)具體的文法組合Ngrami,該文法組合出現(xiàn)在終結(jié)標(biāo)點(diǎn)符號(hào)前后的次數(shù)與文法組合出現(xiàn)總次數(shù)的比值。
(2)詞性特征:除了詞袋特征之外,標(biāo)點(diǎn)符號(hào)前后的詞性對(duì)一個(gè)候選切分點(diǎn)是否為切分點(diǎn)也有重要的影響。在表1所列出的特征中,一(二、三)元詞性為連續(xù)的一(二、三)個(gè)詞性的序列,而標(biāo)點(diǎn)前后的詞性組合則類似詞袋特征中的文法組合,在此不再贅述。值得注意的是在本文方法中,對(duì)于每一個(gè)詞性,只保留它的根類,例如對(duì)于不同的名詞/ns,/nr,/nt,只保留根類詞性/n作為該詞的詞性,這個(gè)做法可以極大地減小模型的復(fù)雜度。還是以分詞后得到的序列:“衣服/n很/d好看/a。/w j價(jià)格/n也/d很/d便宜/a”為例,在該句中,對(duì)于句號(hào)的上下文,得到的一元詞性組合為<a,n>,二元詞性組合為<d,a,n,d>,三元詞性組合為<n,d,a,n,d,d>。詞性的字典大小比詞袋的字典大小小很多,本文方法中抽取的最長(zhǎng)詞性組合為三元。
詞袋特征中的詞性標(biāo)點(diǎn)共現(xiàn)概率可由式(3)描述:
其中,POSSeqi可為一元詞性組合或者二元詞性組合;分子#(POSSeqi,Punc)為詞性組合i和標(biāo)點(diǎn)符號(hào)在語(yǔ)料庫(kù)中的共現(xiàn)次數(shù);分母#Punc為標(biāo)點(diǎn)符號(hào)在語(yǔ)料庫(kù)中的出現(xiàn)次數(shù)。該特征描述的是一個(gè)詞性組合在標(biāo)點(diǎn)符號(hào)前后出現(xiàn)的概率。
詞袋特征中的文法標(biāo)點(diǎn)概率可由式(4)描述,其中分母#POSSeqi為一個(gè)文法組合在語(yǔ)料庫(kù)中的出現(xiàn)次數(shù):
對(duì)于一個(gè)給定的待切分長(zhǎng)句,首先根據(jù)第2節(jié)中得到的語(yǔ)料統(tǒng)計(jì)特征選取候選切分點(diǎn),然后對(duì)每個(gè)切分點(diǎn)抽取相應(yīng)的分類特征。
4.1 候選切分點(diǎn)
若以一個(gè)句子中的所有可切分點(diǎn)作為候選切分點(diǎn),則一個(gè)長(zhǎng)度為N的句子中會(huì)存在N個(gè)候選切分點(diǎn),而實(shí)際上一個(gè)評(píng)論句子中的子句數(shù)量遠(yuǎn)小于N,因此,這種做法是不可取的。選取候選切分點(diǎn)的方法基于第2節(jié)中得到的語(yǔ)料統(tǒng)計(jì)特征,選取上下文詞袋和詞性組合在統(tǒng)計(jì)特征中概率較大的作為候選切分點(diǎn)。具體的方法由如下算法所示。
算法 候選分割點(diǎn)提取算法
輸入 待切分句子text,評(píng)論語(yǔ)料統(tǒng)計(jì)特征
輸出 候選切分點(diǎn)集合candidateSet
以分詞后得到的序列:“這/rzv款/q彩電/n畫(huà)質(zhì)/n很好/anew音效/n也/d很/d不錯(cuò)/a但是/c價(jià)格/n偏/d貴/a”為例,對(duì)每2個(gè)相鄰的詞(例如“這”和“款”、“款”和“彩電”、“彩電”和“畫(huà)質(zhì)”等),判斷這2個(gè)詞之間是否為一個(gè)候選切分點(diǎn)。首先根據(jù)第2節(jié)中的語(yǔ)料統(tǒng)計(jì)特征得到每2個(gè)相鄰詞的統(tǒng)計(jì)特征值(由前所述,總共10個(gè)特征值),對(duì)于這10個(gè)特征值,若其中有一個(gè)特征值排在該特征值所有值大小的前K(K=500)位,則將這2個(gè)相鄰詞中間的坐標(biāo)點(diǎn)加入候選切分點(diǎn)集合中。對(duì)于上面的例句,得到了2個(gè)切分點(diǎn),即“很好”和“音效”、“不錯(cuò)”和“但是”。
4.2 分類特征抽取
對(duì)于每個(gè)切分點(diǎn),提取了2大類特征作為分類器的輸入,這2類特征為方法框架圖中所示的上下文基本特征和上下文語(yǔ)料統(tǒng)計(jì)特征。上下文語(yǔ)料統(tǒng)計(jì)特征即為第2節(jié)中所述的切分點(diǎn)前后詞袋和詞性特征,而上下文基本特征如表2所示。
表2 上下文基本特征
基本的上下文特征包括候選切分點(diǎn)前后的句子長(zhǎng)度與句子總長(zhǎng)度的比值,以及候選切分點(diǎn)前后的名詞、動(dòng)詞、形容詞數(shù)量與候選切分點(diǎn)前后的總詞數(shù)量的比值。抽取這2類特征首先因?yàn)榻K結(jié)符號(hào)的出現(xiàn)與其在句子中的位置有很大關(guān)系,其次作為斷句標(biāo)志的終結(jié)符號(hào),其前后部分作為一個(gè)完整的句子應(yīng)該含有一定數(shù)量的名詞、動(dòng)詞、形容詞作為句子成分(主語(yǔ)、謂語(yǔ)、賓語(yǔ)等)的描述,因此抽取候選切分點(diǎn)前后的名詞、動(dòng)詞、形容詞數(shù)量與前后的句子總次數(shù)作為特征。最后,得到這2組特征,并使用邏輯回歸分類器[12]對(duì)每個(gè)候選切分點(diǎn)進(jìn)行分類。
5.1 數(shù)據(jù)集
在前文中描述的評(píng)論語(yǔ)料中抽取訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。選取長(zhǎng)度大于10并且句子中含有終結(jié)符號(hào)的句子作為訓(xùn)練語(yǔ)料。對(duì)于訓(xùn)練語(yǔ)料中的每一個(gè)句子,可以得到多個(gè)正樣本和多個(gè)負(fù)樣本。首先使用分詞工具NLPIR對(duì)句子進(jìn)行分詞,在得到的詞序列w1,w2,…,wn-1,wn中,若wi為終結(jié)符號(hào),在i位置產(chǎn)生一個(gè)正樣本;否則,對(duì)于2個(gè)均不為終結(jié)符號(hào)的詞袋wi-1,wi,在i位置產(chǎn)生一個(gè)負(fù)樣本。
選取長(zhǎng)度小于等于10并且句子中不含有標(biāo)點(diǎn)符號(hào)的句子作為測(cè)試語(yǔ)料。對(duì)于測(cè)試語(yǔ)料中的每一個(gè)句子,可以得到多個(gè)測(cè)試樣本。在分詞后的詞序列w1,w2,…,wn-1,wn中,對(duì)于每2個(gè)詞袋wi-1,wi,使用3.1節(jié)中的方法判斷2個(gè)詞袋中間的i位置是否為一個(gè)候選切分點(diǎn),若i位置為候選切分點(diǎn),則在i位置產(chǎn)生一個(gè)測(cè)試樣本。
5.2 實(shí)驗(yàn)結(jié)果
在測(cè)試語(yǔ)料上隨機(jī)選取了500條商品評(píng)論進(jìn)行測(cè)試。評(píng)測(cè)標(biāo)準(zhǔn)有2種:(1)基于切分點(diǎn)的評(píng)測(cè),即在一個(gè)未切分的長(zhǎng)句中,可能會(huì)存在多個(gè)切分點(diǎn),基于切分點(diǎn)的評(píng)測(cè)方法統(tǒng)計(jì)的是所有切分點(diǎn)的精確率、召回率和F測(cè)量值;(2)基于句子的評(píng)測(cè),即統(tǒng)計(jì)所有句子完全切分正確(包括對(duì)所有應(yīng)該切分的切分點(diǎn)的正確切分和對(duì)所有不該切分的點(diǎn)的不切分)的準(zhǔn)確率。其中,基于切分點(diǎn)的精確率、召回率、F測(cè)量值分別為70.5%,56.1%,62.5%,基于句子的準(zhǔn)確率為68.0%。
在2種評(píng)測(cè)標(biāo)準(zhǔn)下的準(zhǔn)確率達(dá)到了70%左右,這在用戶省略標(biāo)點(diǎn)并且?guī)в性S多新詞、口語(yǔ)等噪聲的商品評(píng)論語(yǔ)料上是一個(gè)不錯(cuò)的結(jié)果,實(shí)驗(yàn)結(jié)果稍有不足的是召回率不高,這也是今后工作的研究重點(diǎn)。
將語(yǔ)料統(tǒng)計(jì)閾值K對(duì)實(shí)驗(yàn)結(jié)果的影響進(jìn)行了對(duì)比,表3是不同K值下的實(shí)驗(yàn)結(jié)果,其中的所有實(shí)驗(yàn)均使用全部特征??梢?jiàn),基于切分點(diǎn)的召回率隨著K值的增大而增大,而準(zhǔn)確率大體相反,綜合不同K值的情況,選取了K=500的實(shí)驗(yàn)結(jié)果作為最好的結(jié)果。
表3 不同語(yǔ)料統(tǒng)計(jì)閾值結(jié)果對(duì)比
針對(duì)不同特征對(duì)于實(shí)驗(yàn)結(jié)果的影響也進(jìn)行了對(duì)比,表4為選取不同特征時(shí)的實(shí)驗(yàn)結(jié)果。其中,第1組特征為僅使用評(píng)論語(yǔ)料統(tǒng)計(jì)特征,第2組特征為僅使用上下文基本特征,第3組為使用詞性特征,第4組為使用詞袋特征和長(zhǎng)度特征,而第5組為使用所有特征。表4的結(jié)果表明,使用所有特征(第5組)時(shí)得到的實(shí)驗(yàn)結(jié)果最好。
表4 不同特征實(shí)驗(yàn)結(jié)果對(duì)比%
本文使用基于上下文特征的方法,研究用戶商品評(píng)論文本中標(biāo)點(diǎn)符號(hào)缺失情況下句子切分的問(wèn)題。由于在標(biāo)點(diǎn)符號(hào)缺失的情況下傳統(tǒng)基于標(biāo)點(diǎn)符號(hào)的句子切分方法不適用,因此本文提出了使用機(jī)器學(xué)習(xí)的方法進(jìn)行句子切分。根據(jù)大規(guī)模的商品評(píng)論語(yǔ)料統(tǒng)計(jì)特征,對(duì)每一個(gè)候選的切分點(diǎn),抽取候選切分點(diǎn)的上下文文法特征和上下文詞性組合統(tǒng)計(jì)特征,與此同時(shí),還加入了切分點(diǎn)前后的長(zhǎng)度和詞性數(shù)量特征。使用邏輯回歸分類器對(duì)每個(gè)候選切分點(diǎn)進(jìn)行分類,以判斷該候選切分點(diǎn)是否為一個(gè)真正的句子切分點(diǎn)。實(shí)驗(yàn)證明本文方法能夠有效解決商品評(píng)論中用戶省略標(biāo)點(diǎn)情況下的句子切分問(wèn)題。下一步工作旨在提高切分句子的召回率,并對(duì)斷句之后的子句進(jìn)行信息抽取。
[1] Pang Bo,Lee L.Opinion Mining and Sentiment Analysis[J].Foundations and Trends in Information Retrieval,2008,2(1/2):1-135.
[2] 劉 群,張華平,俞鴻魁,等.基于層疊隱馬模型的漢語(yǔ)詞法分析[J].計(jì)算機(jī)研究與發(fā)展,2004,41(8):1421-1429.
[3] 周俊生,戴新宇,尹存燕,等.基于層疊條件隨機(jī)場(chǎng)模型的中文機(jī)構(gòu)名自動(dòng)識(shí)別[J].電子學(xué)報(bào),2006,34(5):804-809.
[4] 俞鴻魁,張華平,劉 群,等.基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別[J].通信學(xué)報(bào),2006,27(2):87-94.
[5] 李 響,才藏太,姜文斌,等.最大熵和規(guī)則相結(jié)合的藏文句子邊界識(shí)別方法[J].中文信息學(xué)報(bào),2011,25(4):39-44.
[6] 艾山·吾買爾,吐?tīng)柛ひ啦嚼?維吾爾語(yǔ)句子邊界識(shí)別算法的設(shè)計(jì)與實(shí)現(xiàn)[J].新疆大學(xué)學(xué)報(bào):自然科學(xué)版,2008,25(3):360-363.
[7] 艾山·吾買爾,吐?tīng)柛ひ啦嚼?基于最大熵的維吾爾語(yǔ)句子邊界識(shí)別模型[J].計(jì)算機(jī)工程,2010,36(6):24-26.
[8] 艾山·吾買爾,吐?tīng)柛ひ啦嚼?統(tǒng)計(jì)與規(guī)則相結(jié)合的維吾爾語(yǔ)句子邊界識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(14):162-165.
[9] 黃建年,侯漢清.農(nóng)業(yè)古籍?dāng)嗑錁?biāo)點(diǎn)模式研究[J].中文信息學(xué)報(bào),2008,22(4):31-38.
[10] 陳天瑩,陳 蓉,潘璐璐,等.基于前后文n-gram模型的古漢語(yǔ)句子切分[J].計(jì)算機(jī)工程,2007,33(3):192-196.
[11] 張開(kāi)旭,夏云慶,宇 航.基于條件隨機(jī)場(chǎng)的古漢語(yǔ)自動(dòng)斷句與標(biāo)點(diǎn)方法[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2009,49(10):1733-1736.
[12] Hosmer D W,Lemeshow S,Sturdivant R X.Introduction to the Logistic Regression Model[M].Hoboken,USA:John W iley&Sons,Inc.,2000.
編輯 顧逸斐
Comment Long Sentence Segmentation Method Based on Contextual Feature Classification
CHEN Hong1,JIN Peiquan2,YUE Lihua2,HU Yujuan1,YIN Fengmei1
(1.Department of Public Computer Studies,Hefei Norm al University,Hefei 230091,China;2.School of Computer Science and Technology,University of Science and Technology of China,Hefei 230027,China)
Product reviews can help both businesses and consumers make better decisions.The arbitrary nature and irregular grammer structure of user published review makes it difficult for further textual analysis.Aim ing at resolving the problem of long sentence segmentation when users om it punctuations,entence segmentation is the foundation of the follow ing text information extraction and textmining work.Since the traditional punctuation-based methods do not work well in this condition,it proposes a machine learning based method to solve this problem.It first extracts candidate segmentation point based on statistical feature of large-scale product review corpus.Then for each candidate segmentation point,its contextual features are extracted as well as the statistical features of product review corpus and employ logistic regression to classify the candidate point.Experimental results show that this method can im prove the performance of sentence segmentation when user om its punctuations.
sentence segmentation;puntuation omitting;machine learning;contextual feature;N-gram;logistic regression
陳 鴻,金培權(quán),岳麗華,等.基于上下文特征分類的評(píng)論長(zhǎng)句切分方法[J].計(jì)算機(jī)工程,2015,41(9):233-237,244.
英文引用格式:Chen Hong,Jin Peiquan,Yue Lihua,et al.Comment Long Sentence Segmentation Method Based on Contextual Feature Classification[J].Computer Engineering,2015,41(9):233-237,244.
1000-3428(2015)09-0233-05
A
TP311
10.3969/j.issn.1000-3428.2015.09.043
合肥師范學(xué)院青年基金資助項(xiàng)目(2015QN06)。
陳 鴻(1984-),女,助教、碩士研究生,主研方向:搜索引擎,自然語(yǔ)言處理;金培權(quán),副教授;岳麗華,教授、博士生導(dǎo)師;胡玉娟,教授;殷鳳梅,講師。
2014-08-18
2014-10-20 E-m ail:chenho@mail.ustc.edu.cn