亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于全切分獲取網(wǎng)絡(luò)流行語方法研究

        2009-01-01 00:00:00吳保珍何婷婷
        計算機應用研究 2009年4期

        (華中師范大學 a.計算機科學系; b.國家語言資源監(jiān)測與研究中心網(wǎng)絡(luò)媒體分中心, 武漢 430079)

        摘 要:

        利用統(tǒng)計和規(guī)則相結(jié)合的算法從互聯(lián)網(wǎng)的動態(tài)信息流中提取網(wǎng)絡(luò)流行語。在利用全切分算法獲取候選詞集的基礎(chǔ)上,依次對候選詞集進行三次過濾:首先基于向量空間模型的權(quán)重過濾,運用語言模型進行過濾;然后利用垃圾串過濾規(guī)則獲取網(wǎng)絡(luò)流行詞語候選詞集;最后利用提出的流行詞語評分模型進行篩選得到網(wǎng)絡(luò)流行詞語。實驗表明,在不影響流行詞語準確率的前提下,利用該方法自動獲取網(wǎng)絡(luò)流行詞語的速度明顯提高。

        關(guān)鍵詞:網(wǎng)絡(luò)流行詞語; 中文信息處理; 全切分

        中圖分類號:TP391文獻標志碼:A

        文章編號:1001-3695(2009)04-1260-03

        Study on popular words and phrases extraction of networkbased on omni-segmentation

        WU Bao-zhena,b, HE Ting-tinga,b, LI Lia,b, ZHANG Yonga,b, CHEN Longa,b

        ( a.Dept. of Computer Science, b.Monitor Research Center for National Language Resource Network Multimedia Sub-branch Center, Huazhong Normal University, Wuhan 430079, China)

        Abstract:

        This paper aimed to extract popular words and phrases of network by specific algorithm. It filtrated the candidate words set three times based on the algorithm of omni-segmentation. The first was the weight filtration based on the vector space model ,then used the model of language regulation ,and the last through the filtration of rubbish cluster. Finally, it mined the popular words and phrases from the candidate set by the popular words determinant formula. The experimentation indicates that without reducing the correct rate of catchwords, the speed of extacting, the popular words and phrases of network impoves distinctly.

        Key words:popular words and phrases of network; Chinese information processing; omni-segmentation

        作為網(wǎng)絡(luò)語言的一部分,網(wǎng)絡(luò)流行語言目前正逐漸走向非網(wǎng)絡(luò)載體并且日益向約定俗成的自然語言滲透。流行語[1]具有普遍意義的概念,從語言學角度來看,它指的是在某一時期、某一范圍迅速盛行并廣為傳播的語言。其中,“詞語”是流行語[2]的類別屬性,它應該是一種語言符號,或者是一個已有的詞,或者是一個新詞,或者是由若干詞組成的短語。迅速盛行、廣為傳播是流行語與其他詞語屬性的區(qū)別,它的特點是從新出現(xiàn)或較少使用到廣泛使用經(jīng)歷的時間短,因此會給人異峰突起的感覺。某一時期、某一范圍則為不同類別的流行語提供了時空觀點。

        1 研究現(xiàn)狀

        流行詞語作為對語言的一種評價,反映出社會的發(fā)展與進步。國內(nèi)外許多研究者在流行語類型分析方面已經(jīng)做了大量的工作,而且大多數(shù)都是基于統(tǒng)計學的方法,或基于語言學的方法。張普[2]在基于DCC動態(tài)流通語料庫研究中給流行語提供了一個比較科學的界定,并為機器自動提取流行語提供參考。謝學敏等人[3]提出在大規(guī)模動態(tài)流通語料庫中提取流行語的方法及流行語自動分類、資源庫開發(fā)研究和流行語的定義提取等相關(guān)研究。何婷婷等人[1]提出在術(shù)語提取的基礎(chǔ)之上基于詞語屬性通過量化設(shè)置評分機制和淘汰機制,得到候選流行詞語,驗證了流行詞語判定屬性規(guī)范的合理性,為機器輔助判定詞語特性提供了參考數(shù)據(jù)。

        相比之下,如何利用計算機自動、準確、快速地獲取網(wǎng)絡(luò)流行詞語,特別是在減少預處理和人工干預方面,國內(nèi)外很少研究。在本項目組以前所做的流行詞發(fā)現(xiàn)[1,2]和熱點事件發(fā)現(xiàn)研究[4,5]中,研究人員基于詞語屬性提取出名詞來分析歷年流行詞的走勢曲線圖,歸納出流行詞的特征,并對這些特征進行量化,得到度量流行詞的公式,結(jié)合活動曲線和公式對候選的流行詞語排序,并最終得到流行詞語。上述研究方法都能夠很好地幫助本文在基于全切分利用流行詞語模型算法快速獲取網(wǎng)絡(luò)流行詞語。

        2 基于全切分獲取流行語方法

        文獻[2]指出流行詞語主要有名詞、動詞及其他詞性。其中名詞包括專有名詞和普通名詞,專有名詞又包括人名、地名和機構(gòu)團體名。如表1所示,詞語總量比例依次為75%、21.7%、3.3%??梢娏餍性~語主要集中在名詞上。而在名詞中,專有名詞占全部名詞的28.9%,接近1/3。其中流行詞語分雙音節(jié)、三音節(jié)、四音節(jié)和四音節(jié)以上,其統(tǒng)計比例分別為雙音節(jié)占33.3%,三音節(jié)占19.2%,四音節(jié)占42.1%,四音節(jié)以上占5.3%,如表2所示??梢娏餍性~語總的趨勢是向多音節(jié)化發(fā)展。其中四音節(jié)以及四音節(jié)以上的流行詞語占大多數(shù),超過四個音節(jié)的流行詞語除了一些比較專有名詞之外,很多情況是經(jīng)過歸納概括之后的語言,實際上其核心還是四音節(jié)以內(nèi)的詞語。因此獲取網(wǎng)絡(luò)流行詞語,必須把所有形式切分出來。

        網(wǎng)絡(luò)流行詞語的形式多而且雜,如何才能夠獲取這些形式呢?本文提出了全切分的方法。全切分的分詞法[6]能夠把所有的切分形式列出,以備后續(xù)語義分析得出正確的切分形式。由于全切分要求根據(jù)詞典獲得輸入漢字序列的所有可接受的切分形式,從根本上避免了可能切分形式的遺漏,是確?;跈C械切分的分詞方法獲得正確分詞結(jié)果的前提之一。但全切分是一個隨輸入長度增加而復雜性呈指數(shù)性增長的問題,切分結(jié)果呈現(xiàn)幾何增長,句子越長,結(jié)果越多,分詞系統(tǒng)效率急劇下降。如何在確保獲得全部切分形式的同時保證高的切分效率就成為關(guān)鍵。

        2.1 全切分

        定義1 全切分。設(shè)C=C1C2…Cn(Ci∈漢字集,1 ≤i≤n)為待切分的漢字串, W=H1H2…Hn(Hj∈基于詞典的漢詞集, 1 ≤j ≤m ,1 ≤m ≤n) 為C的一種切分形式, K為所有可能的切分形式的數(shù),W(C)={Wi|1≤i≤K|}為C的所有可能的切分形式集合。則W(C)是對C的全切分集合,對C的全切分就是求解W(C) 的過程。

        定義2 字符串集合的串接運算。設(shè)字符串集合A、B,則AB={a-b|a∈A,b∈B} 。

        例如:{乒乓}{ 球,球拍}={乒乓—球,乒乓—球拍}。

        定義3 串首詞集合FW(C)。設(shè)漢字C=C1C2…Cn(Ci∈漢字集,1 ≤i≤n), 則C的串首詞集合定義為

        FW(C)={FWj|FWj=C1C2…Ci,C1C2…Ci∈漢字集,

        1≤i≤n,1≤j≤n}(1)

        設(shè)W(C) 是關(guān)于字符串C 的全切分集合,那么關(guān)于輸入字符串C 的全切分集合的求解公式如下:

        W(C)=∪kj=1({FWj}W(substr(C,strlen(FWj)+1)))(2)

        其中:FWj∈FW(C); k 為FW(C)的元素個數(shù);substr() 是取子串函數(shù); strlen () 是串長度函數(shù)??梢宰C明,對輸入漢字串C按照以上全切分集合的求解公式計算,得到的是基于詞庫的關(guān)于C的全切分集合。

        從全切分的求解公式可看出,對一個漢字串的全切分過程就是首先求得串首詞, 再對剩余的子串遞歸全切分的過程。

        例如:設(shè) C=“幼兒園地節(jié)目”為待切分的漢字串,設(shè)幼兒、幼兒園、園、地、園地、節(jié)目為詞典約束下的合法詞, 則對C 的全切分集合 W(C)= {“幼兒—園—地—節(jié)目”,“幼兒—園地—節(jié)目”,“幼兒園—地—節(jié)目”} 。

        全切分可以用如圖1 所示的一棵切分樹表示。其中,切分樹的節(jié)點表示切分的狀態(tài),每個節(jié)點對應輸入串一個切分位置。根節(jié)點表示切分的起始狀態(tài),它的切分位置在輸入串的串首。葉節(jié)點標志切分的終止狀態(tài), 它的切分位置在輸入串的串尾。邊表示從一個節(jié)點到另一個節(jié)點的切分關(guān)系, 每條邊上標有數(shù)據(jù),即切分出的漢詞。在一個非終止切分狀態(tài)A(非葉節(jié)點) 下進行切分,將得到一個漢詞W ,并到達另一個切分狀態(tài)B (另一個節(jié)點), 從而建立了一條從A 到B 的一條有向邊,該邊上標有切分出的漢詞W 。

        對任何待切分漢字串 C進行全切分就得到了它的切分樹T。全切分的過程就是切分樹分支不斷擴展的過程。切分樹中每條從根到某個葉節(jié)點的分支路徑對應 C的一種切分形式,所有這些路徑的集合就是該漢字串的全切分集合。由圖1得,“幼兒園地節(jié)目”的全切分集合為 W(C) = {“幼兒—園—地—節(jié)目”,“幼兒—園地—節(jié)目”,“幼兒園—地—節(jié)目”}。

        2.2 詞語過濾處理

        2.2.1 基于向量空間模型詞條權(quán)重過濾

        通過全切分獲取候選詞集,按年度統(tǒng)計出詞串出現(xiàn)的頻次以及出現(xiàn)該詞串的文檔數(shù)。由于流行詞語的特性[7]為迅速盛行、廣為傳播,它出現(xiàn)的時間段快,出現(xiàn)的范圍相對廣,流行詞語在語料庫中的出現(xiàn)頻率也相對較高。因此,視語料庫規(guī)模的情況,要對候選詞集進行基于向量空間模型詞條權(quán)重過濾[6,8],語料規(guī)模越大,過濾的閾值就越大。

        計算詞條權(quán)重公式如下:

        weight(i,j)=tfi,j×log(n/dfi)/∑cfik=1(tfi,j×log(n/dfi))2(3)

        其中:有tfi,j為詞條頻度(term frequency),指單詞i在文檔j中出現(xiàn)的次數(shù);dfi為文檔頻度 (document frequency),是出現(xiàn)單詞i的文檔數(shù)??梢曰谶@樣的事實:詞i在文檔中出現(xiàn)的頻率越大,它成為流行詞的可能性就越大,通過預先設(shè)定的權(quán)重λ如果得到的weight值大于預先設(shè)定的權(quán)重閾值,則說明該詞可能為流行詞語。

        2.2.2 語言模型過濾規(guī)則

        語言模型過濾規(guī)則是指根據(jù)語言學知識的規(guī)則文法,對候選詞集中不符合目標詞集的詞語進行過濾。該過濾方法中用到的詞表是對史曉東分詞軟件詞典進行了部分修改,主要是對其中的名詞部分替換成全切分獲得的字表中的頻次大于200的名詞,即常用名詞,并增加了地名后綴字表和地名噪聲字表。

        候選詞串集中存在一些特殊結(jié)構(gòu)的詞串,收集這些特殊構(gòu)詞的類型可以發(fā)現(xiàn), 它們的構(gòu)詞類型有“abb”“aabb”“a-a”“aab”“abac”五種, “a”“b”和“c”分別指代不同的字符。例如:“黃澄澄”“蹦蹦跳跳”“問一問”“裝裝樣”“跳來跳去”等。判斷串符合上述類型的,則將該串過濾掉。

        通過分析流行詞語的構(gòu)詞特征,人工獲取以下過濾規(guī)則:

        規(guī)則1 若N 元組含有停用詞,則將該字串去除。

        規(guī)則2 若N元組末尾為詞表中的形容詞, 則將該字串去除。

        規(guī)則3 若N元組中包含數(shù)詞后面緊跟量詞的情況,則將該字串去除。

        規(guī)則4 若N元組中包含稱謂或機構(gòu)名, 則將該字串去除。

        規(guī)則5 若N元組中包含地名或串尾為地名后綴表中的字且串尾前為地名噪聲詞, 則將該字串去除。

        規(guī)則6 若N元組中字串符合特殊構(gòu)詞類型中的“abb”“aabb”“a-a”“aab”“abac”類型, 則將該字串去除。

        2.2.3 垃圾串過濾

        考慮到候選詞集中可能會出現(xiàn)這樣的垃圾串,特別是在由全切分方法得到的候選詞集中。例如,串“易市場進行監(jiān)”,上下文為“對證券交易市場進行監(jiān)督”,其中“交易”和“監(jiān)督”均為常用詞,則該串為垃圾串,要被過濾掉。該條規(guī)則為:通過查找串上下文,判斷該串的前后字符是否與上下文結(jié)合緊密,如果結(jié)合緊密則將該串過濾掉。

        通過以上過濾,候選詞集中的串已經(jīng)基本符合了流行詞語的詞形要求,但是難免還存在一些形似的垃圾串,因此還需要考慮該串是否具有新意義。鑒于語料都是來自網(wǎng)絡(luò)這一特點,可以利用搜索引擎來過濾掉沒有意義的串。如果該串具有意義的話,那么就可以在搜索引擎上搜索到相關(guān)的網(wǎng)頁內(nèi)容。如果搜索不到,則認為該串為垃圾串。該條規(guī)則是:獲得候選詞集中的每個串在Internet上的出現(xiàn)次數(shù),過濾掉出現(xiàn)0次的串。

        2.3 流行語評分模型

        在本文中,用頻次、頻率、使用率三個量來描述流行語的特征[8,9],可以歸納為:a)出現(xiàn)時起點比較低(甚至頻次為0),迅速增長,在實驗期間可以達到或接近最大值。b)最大值達到一定的閾值,該閾值表明詞語被廣泛使用。在圖中表現(xiàn)為波峰[10]。c)最大值與起始值之間的差值比較大。

        2.3.1 流行詞語的特征量化

        cf (comman frequency),表示詞語在一個時間單元內(nèi)出現(xiàn)的頻次。

        cf=w1×f1+w2×f2(4)

        其中:w1 為標題區(qū)域的權(quán)重;w2為主體區(qū)域的權(quán)重;f1 為詞語在標題區(qū)域出現(xiàn)的次數(shù);f2 為詞語出現(xiàn)在主體區(qū)域的次數(shù)。

         ct (continue time),表示詞語在一個時間單元內(nèi)連續(xù)出現(xiàn)的天數(shù),一般設(shè)單位時間為一周。對應一周的常用度cf是每天詞語常用度的累加。

        vd (variance degree),表示詞語在單位時間內(nèi)的變遷程度。vd1 為詞語常用度的最大值與最小值之差;vd2 為平穩(wěn)階段中詞語常用度的最大值和最小值之差。

        2.3.2 流行詞語的評分公式

        ∑ni=1[(cfi/Di+cti/T+∫vd1vd2vdi)×cfmax/cfw](5)

        其中:n是半年內(nèi)的時間單元個數(shù);cfi是該詞語在時間單元i中出現(xiàn)的文檔頻率;Di是在時間單元i中文檔的總數(shù);cti是該詞語在時間單元i中持續(xù)的天數(shù);T是一個時間單元的天數(shù);vdi為詞語在時間單元內(nèi)的變遷程度[11];cfmax是詞語常用度的最大值;cfw是常用度最大值的閾值,cfw=500。

        獲取網(wǎng)絡(luò)流行詞語的系統(tǒng)流程如圖2所示。

        3 實驗及結(jié)果分析

        3.1 實驗數(shù)據(jù)和分析

        本實驗采用從五大門戶網(wǎng)站(搜狐、網(wǎng)易、新浪、騰訊、Tom)下載的2007年1月1日~6月30日的網(wǎng)頁內(nèi)容,共有約132 922篇。文本根據(jù)主題存放,共有六組,即國內(nèi)、國際、體育、科技、財經(jīng)和娛樂,每組作為一個語料庫。該實驗得到詞語約為11.5萬個,正確的詞語個數(shù)為98 164,總體的準確率為84.80%,在垃圾串過濾規(guī)則過濾得到60 927個候選詞語,通過算法篩選得到有效的流行詞語個數(shù)為45 695,準確率為74.58%。具體的實驗數(shù)據(jù)如表3所示。

        表3 網(wǎng)絡(luò)流行語提取的實驗數(shù)據(jù)

        階段過程詞語數(shù)量階段過程詞語數(shù)量

        全切分736 526 658垃圾串過濾60 927

        權(quán)重過濾115 750流行語模型篩選45 695

        語言模型過濾98 164人工挑選269

        3.2 實驗結(jié)果及分析

        經(jīng)過流行詞語判定公式得到的4萬多個候選詞語,人工篩選就只剩余269個網(wǎng)絡(luò)流行詞語。表4給出了由本文實驗得到的2007年上半年排名前20位的網(wǎng)絡(luò)流行詞語。

        表4 排名前20的流行語

        序號流行語序號流行語

        1人民幣升值11香港回歸十周年

        2奧運精神12提高存款準備金率

        3豬肉漲價13和諧社會

        4黑磚窯14牛市

        5開放式基金15燃油稅

        6住房公積金16曬工資

        7網(wǎng)絡(luò)暴民17二手房

        8國際油價18炒權(quán)證

        9房地產(chǎn)走勢19外資銀行

        10政府信息公開20溫室氣體排放

        關(guān)于用計算機自動獲取并處理得到網(wǎng)絡(luò)流行詞語的評價是比較困難的,缺乏客觀的標準。本文通過實驗結(jié)果和其他權(quán)威媒體發(fā)布的十大流行語,對本文的方法進行討論分析。

        在國家語言資源監(jiān)測與研究中心、北京語言大學等四家單位聯(lián)合發(fā)布“2007年春夏季中國主流報紙十大流行語”中的110個流行詞語[7],本實驗的結(jié)果有90%都在分布的110個詞語中,證明該實驗的有效性和準確性。

        結(jié)果表明,本文提出的快速獲取網(wǎng)絡(luò)流行詞語的方法是可行的,而且該方法能較好地得到一年中各個領(lǐng)域的流行詞語;同時還能夠從流行詞語的歷史走勢曲線圖清晰得到該流行詞語的流行時間和突起時刻。

        4 結(jié)束語

        本文提出了一種基于全切分獲取網(wǎng)絡(luò)流行詞語的方法,利用五大官方網(wǎng)站下載的網(wǎng)頁內(nèi)容為研究資源,基于全切分進行切分得到所有詞串,經(jīng)過權(quán)重過濾、語言模型過濾規(guī)則篩選候選詞表,再利用搜索引擎,獲得每個串在Internet上的出現(xiàn)次數(shù)(帶引號搜索),過濾掉出現(xiàn)0次的串,然后通過流行詞語判定公式提取出流行詞語,取得了理想的結(jié)果。該方法運用計算機處理的公正性,在判斷某一個詞語是否為流行詞語時最大限度地減少了人工的干預。

        從實驗結(jié)果來看,其中存在一些不足的地方。例如,預處理部分的處理結(jié)果直接影響了最后的結(jié)果;在對候選詞集過濾的時候,過濾率高雖然能給后續(xù)處理帶來

        很大方便,但是同時也擔心過濾掉了新詞語,而且閾值的設(shè)置一直是個很大的難題,一般都是在統(tǒng)計多次實驗對比的基礎(chǔ)上選擇一個更合適的值;本文的基于向量空間模型的權(quán)重過濾和流行詞語判定公式過濾中,選擇的閾值都是偏向于高門檻的方式,有可能過濾掉成為流行詞語的新詞。所以在這些方面還需要更多的實驗來解決。筆者將在接下來的工作中,實驗其他算法,尋求更適合量化流行詞語的公式,找到更好描述流行詞語的方法,并且減小閾值對實驗結(jié)果的影響。

        參考文獻:

        [1]何婷婷,朱薏,張勇,等.基于詞語屬性的計算機輔助獲取流行詞語研究[J].中文信息學報, 2006,6(6): 38-45.

        [2]張普.基于DCC的流行語動態(tài)跟蹤與輔助發(fā)現(xiàn)研究[M]//孫茂松,陳群秀.語言計算與基于內(nèi)容的文本處理.北京:清華大學出版社,2003:47-53.

        [3]謝學敏,吳志山,史艷嵐. 流行語動態(tài)跟蹤研究綜述[C]//第二屆全國學生計算語言學研討會論文集. 2004.

        [4]李保利,俞士汶.話題識別與跟蹤研究[J].計算機工程與應用,2003,39(17):6-10.

        [5]HE Ting-ting, QU Guo-zhong, TU Xin-hui, et al. Semi-automatic hot event detection[C]//Proc of ADMA. 2006: 1008-1016.

        [6]楊文峰,李星.基于PAT TREE 統(tǒng)計語言模型與關(guān)鍵字自動提取[J].計算機工程與應用,2001,37(15):17-19.

        [7]國家語言資源監(jiān)測與研究中心.中國語言生活狀況報告(2006)下篇[R]. 北京:商務印書館,2006: 166-170.

        [8]張普.關(guān)于語感與流通度的思考[J].語言教學與研究,1999(2):83-96.

        [9]孫承杰, 關(guān)毅.基于統(tǒng)計的網(wǎng)頁正文信息抽取方法的研究[J].中文信息學報,2004,18(5):17-22.

        [10]史中琦,張普.基于DCC動態(tài)流通語料庫的流行語類型分析[C]//第三屆全國語言文字應用學術(shù)研討會論文集. 香港:科技聯(lián)合出版社,2004.

        [11]隋巖,張普.基于“動態(tài)流通語料庫”的“有效字符串”提取研究[J].語言文字應用,2005,5(2):143.

        [12]CHIEN L F. PAT-tree-based keyword extraction for Chinese informationretrieval[C]//Proc of ACMSIGIR97. Philadelphia:[s.n.],1997:50-58.

        [13]HU Wen-min, HE Ting-ting, ZHANG Yong. Extraction of Chinese term based on chi-square test[J]. Journal of Computer Applications, 2007(12):3019-3020.

        国产三级视频一区二区| 97精品国产手机| 污污污污污污WWW网站免费| 丰满少妇棚拍无码视频| 九一精品少妇一区二区三区| 国产av精品一区二区三| 天天爽夜夜爽夜夜爽| 国产一区二区牛影视| 久久精品国产福利亚洲av| 精品一区二区三区芒果| 精品国产一区二区三区av片| 久久香蕉成人免费大片| 亚洲色图在线视频观看| 蜜桃视频网站在线观看一区| 高清不卡一区二区三区| 午夜短视频日韩免费| 乱码午夜-极品国产内射| 午夜精品久视频在线观看| 国产夫妻自偷自拍第一页| 国产三级在线观看完整版| 国产亚洲av片在线观看18女人| 国产午夜三级一区二区三| 无码高清视频在线播放十区| 国产成人精品一区二区不卡| 日韩欧美aⅴ综合网站发布| 亚洲一区av无码少妇电影| 国产精品国产三级国产AvkTV| 美女把内衣内裤脱了给男人舔| 女同三级伦理在线观看| 久久精品国产精油按摩| 国产精品亚洲一区二区无码国产| 国产粉嫩高清| 国产成人一区二区三区影院| 中文字幕av一区二区三区人妻少妇| 成人综合网亚洲伊人| 国产自精品在线| 护士人妻hd中文字幕| 成人性生交大片免费看96| 亚洲天堂中文| 少妇久久一区二区三区| 少妇人妻中文字幕hd|