基于子主題選擇與三級分層結(jié)構(gòu)的Web文本挖掘方法

2016-11-20 02:55:31史玉珍單冬紅

電信科學(xué) 2016年5期

關(guān)鍵詞：排序方法

史玉珍，單冬紅

（平頂山學(xué)院軟件學(xué)院，河南平頂山 467000）

基于子主題選擇與三級分層結(jié)構(gòu)的Web文本挖掘方法

史玉珍，單冬紅

（平頂山學(xué)院軟件學(xué)院，河南平頂山 467000）

針對用戶和查詢之間的意圖差距導(dǎo)致的查詢模糊寬泛和數(shù)據(jù)稀疏問題，根據(jù)流行性和多樣性返回可能子主題的排名列表，利用子主題選擇與排序的分層結(jié)構(gòu)進行Web文本挖掘。首先，在名詞性短語和可替代部分查詢的基礎(chǔ)上，使用簡單模式提取各種相關(guān)的短語作為候選子主題；然后，使用網(wǎng)頁文檔集合中的相關(guān)文檔構(gòu)建候選子主題的三級層次結(jié)構(gòu)；最后，綜合考慮流行性和多樣性，利用該結(jié)構(gòu)和估計的流行度進行排序。實驗使用了NTCIR-9庫的100個日文查詢和來自TREC 2009庫的100個英文查詢以及網(wǎng)絡(luò)跟蹤多樣性任務(wù)，實驗結(jié)果驗證了本文方法可有效應(yīng)用于各種搜索，對于高排名的子主題挖掘優(yōu)于外部資源。

數(shù)據(jù)稀疏；文本挖掘；層次結(jié)構(gòu)；多樣性；流行性

1 引言

智能設(shè)備的出現(xiàn)大大影響了網(wǎng)絡(luò)搜索環(huán)境，不同于PC時代，現(xiàn)在需要加強搜索服務(wù)，以獲得準確的搜索結(jié)果，因為當代用戶更傾向于在個人環(huán)境中簡化查詢。事實上，很多網(wǎng)絡(luò)查詢模糊不清，一些用戶無法選擇合適的關(guān)鍵詞進行搜索，也有些用戶省略了搜索所需的關(guān)鍵信息［1］。用戶意圖和查詢之間的差距導(dǎo)致了查詢結(jié)果模糊寬泛［2］。在模糊查詢［2］中，用戶獲取的結(jié)果可能與意圖完全不同；而對于寬泛查詢［3］來說，用戶獲取的結(jié)果不如預(yù)期的具體。雖然網(wǎng)絡(luò)搜索引擎已經(jīng)提供查詢建議服務(wù)，幫助用戶探索和表達自己查詢所需的信息［4］。但是，查詢建議并沒有明確考慮建議查詢的流行性和多樣性，因此這方面的研究很有現(xiàn)實意義。

子主題挖掘與查詢建議緊密相關(guān)，這是因為子主題和查詢建議獲取的結(jié)果相似。通常情況下，建議使用查詢?nèi)罩镜牟樵兎椒?。將?jīng)常共同出現(xiàn)在相同搜索場景的查詢看作相關(guān)查詢［5］，通過歷史點擊數(shù)據(jù)找到相似的查詢，這些相似的查詢通常共享大量的點擊網(wǎng)址［6］。并利用＜查詢，點擊鏈接＞二分圖內(nèi)建議查詢之間的相似性分析來提高多樣性［7］。

除了查詢?nèi)罩就?，也使用鏈接文本和外部資源［8］，并將＜鏈接文本，點擊鏈接＞看作＜查詢，點擊鏈接＞，來彌補數(shù)據(jù)稀疏［9］。參考文獻［4］使用網(wǎng)絡(luò)文檔語料庫中的共生詞語，該方法建議包含原始查詢中靠前詞語的新查詢及靠后詞語的短語，但是，因為n元語法詞語，這些建議查詢可能是不完整的短語。

NTCIR-9子主題挖掘任務(wù)推動了中日兩種語言不同方法的發(fā)展。給中文（SougouT）和日文（ClueWeb09-JA）提供了網(wǎng)絡(luò)文檔集，但是只給中文查詢（SougouQ）提供了日志。為了獲取高水平性能，參與者使用網(wǎng)絡(luò)搜索引擎（如百度、谷歌和雅虎）的建議查詢和查詢?nèi)罩荆?0，11］。然而，日文的子主題挖掘任務(wù)在只使用外部資源網(wǎng)絡(luò)文檔的情況下，才能獲得最佳性能。參考文獻［12］使用從網(wǎng)絡(luò)文檔中提取出來的鏈接和鏈接文本，并不依賴于任何其他資源。但是由于這些候選子主題必須與查詢匹配，會出現(xiàn)數(shù)據(jù)稀疏問題。

之前大多數(shù)的研究都依靠查詢?nèi)罩緛戆l(fā)現(xiàn)子主題，這樣會因為查詢?nèi)罩局泻苌倩虿淮嬖诤币姷牟樵冎黝}而出現(xiàn)數(shù)據(jù)稀疏。此外，流行性和多樣性并不成比例。而好的子主題必須與給定查詢相關(guān)，同時需滿足高流行性和高多樣性。

為了解決這些問題，本文在相關(guān)文檔的基礎(chǔ)上通過候選子主題的簡單模式和分層結(jié)構(gòu)來挖掘子主題。其主要貢獻如下：

·只使用網(wǎng)絡(luò)文檔集，而不是查詢?nèi)罩竞屯獠抠Y源；

·為了找到各種各樣的相關(guān)候選子主題，盡可能多地從網(wǎng)絡(luò)文檔中提取“可理解”語句，這些語句通過簡單模式與原始查詢完全或部分匹配；

·本文的分層結(jié)構(gòu)可以保持流行性和多樣性之間的平衡。

2 提出的方法

本文方法包括兩個步驟，如下所述。

（1）子主題提取

子主題提取是從網(wǎng)絡(luò)文檔中盡可能多地提取各式各樣的相關(guān)候選子主題。根據(jù)名詞短語和可部分替換的查詢創(chuàng)建簡單模式，然后用這些模式找到候選子主題，最后通過過濾，降低相似候選子主題的冗余度。

（2）子主題排序

子主題排序是在考慮多樣性和流行性之間平衡的基礎(chǔ)上將子主題排序。在相關(guān)文檔的基礎(chǔ)上，給提取出來的候選子主題創(chuàng)建分層結(jié)構(gòu)，并根據(jù)結(jié)構(gòu)和流行性對子主題進行排序。

2.1 簡單模式下的子主題提取

在開始階段中，最重要的事情是盡可能正確地提取各式各樣的候選子主題，一旦提取出不相關(guān)或不完整的短語作為候選子主題，在下一階段中將會受到這些錯誤的影響，即錯誤傳播。相反，如果在較高標準下提取候選子主題就會提高準確性，但也會出現(xiàn)一些問題，如數(shù)據(jù)稀疏、多樣性低等。因此本文在相對寬松的標準下提取候選子主題，假設(shè)這些子主題都包含原始查詢和至少一個使原始查詢更具體的名詞短語。根據(jù)這一假設(shè)，只考慮包含原始查詢的名詞短語，這些短語必須比原始查詢表述得更具體。由于名詞和真實查詢詞語之間的比例遠高于其他詞類［13］，從名詞中提取出來的各式各樣的候選子主題可變?yōu)樾虏樵?，對發(fā)現(xiàn)給定查詢隱藏的查詢意圖很有幫助。

從語法角度來說，短語的主導(dǎo)詞是決定句法類型的詞語，短語中其他詞稱為修飾詞。主導(dǎo)詞和修飾詞之間的關(guān)系對句法分析起到重要作用。將子主題的結(jié)構(gòu)定義如下：

·名詞短語+可選的其他詞+查詢+可選的其他詞+名詞短語；

·查詢+可選的其他詞+名詞短語；

·名詞短語+可選的其他詞+查詢。

這些結(jié)構(gòu)都包含距查詢最近的名詞短語，因此它們可以在不使用句法分析的情況下盡可能多地滿足主導(dǎo)詞—修飾詞之間的關(guān)系。為了提取合適的能滿足該結(jié)構(gòu)的候選子主題，設(shè)計的簡單模式如下。

其中，“？”代表“0”或“1”，“+”代表“≥1”，* 代表“≥0”。

為了使該模式的實用性更強，對“（形容詞）？（名詞）”中名詞短語的形式進行了限制，對名詞以外的其他詞語進行設(shè)定。將模式1應(yīng)用到查詢的前1 000個相關(guān)文檔中，由BM25模型［14］提取。因為該模式包含真實的短語和文檔中的完整查詢及名詞短語，所以發(fā)現(xiàn)的候選子主題都與之相關(guān)。比如，句子“我們提供糙米粥的飲食食譜”，如果查詢是“飲食”，使用模式1提取出來的候選子主題是“糙米粥的飲食食譜”。

如果查詢包含≥2個詞語，模式1并不足以將各種樣式的候選子主題提取完整，因為候選子主題和查詢之間的完整匹配減少。為了改善這一缺陷，在原始查詢中使用可部分替換的查詢qleft和qright進行部分查詢。首先連續(xù)刪除查詢的右邊詞語產(chǎn)生所有可能的左邊部分短語，針對每一個短語，提取前N位的相關(guān)文檔并與原始查詢比較。如果這些文檔與原始查詢有超過50%的相同度，那么該左邊部分短語就是可部分替換查詢qleft的候選。在包含文檔最多的候選中，選出最短的qleft來提高匹配的可能性。如果沒有包含超過50%相關(guān)文檔的候選短語，選取最長的短語qleft，因為這樣可以包含最多的查詢信息。同理，右邊部分查詢qright選取方法相似。所以每個原始查詢只有一個qleft和qright。用qleft和qright代替查詢，創(chuàng)建新的簡單模式如下：

值得注意的是，qright前面和qleft附近的名詞短語并沒有反映在模式中，因為可應(yīng)用的名詞短語的范圍未知，使用新的模式從檢索文檔中提取不同短語，比如，句子“你必須注意飲食的副作用”。如果查詢的是“粥飲食”，用模式3找出的子主題為“粥飲食的副作用”。即使這些子主題并不是文檔中真實的短語，仍可以降低數(shù)據(jù)稀疏度，并提高多樣性。

為了降低冗余度，過濾相似的子主題。設(shè)snp是每一個子主題開始或末端的名詞短語“（形容詞）？（名詞）+”中的一組詞匯。如果有不少于兩個候選子主題有完全相同的snp，則認為它們相似，因為snp包含重要的關(guān)鍵詞，正是這些關(guān)鍵詞決定了每一個子主題的意義。所以將相似子主題的頻率信息合并，并選擇其中頻率最高的候選子主題，該頻率反映了用戶的喜好程度。比如，假設(shè)給定的查詢“粥飲食”有3個頻率較高的候選子主題：＜“米粥的飲食食譜，”9＞、＜“米粥所有的飲食食譜，”9＞和＜“加米的粥飲食食譜，”7＞。因為這些這些候選子主題有相同的snp｛食譜，米｝，將頻率信息合并，如9+9+7=25，然后選擇“米粥的飲食食譜”。最后，如果候選子主題的頻率小于閾值（實驗設(shè)置為3），該候選子主題將被排除在外，因為在實際文檔中基本不出現(xiàn)。

2.2 使用子主題的分層結(jié)構(gòu)排序

對于給定的查詢，若使用排序的方法，其候選子主題的數(shù)量十分有限，因為用戶并不想看到太多的子主題。然而，若僅依靠子主題的流行性來排序，大多數(shù)排序靠前的子主題極可能只包含一小部分的搜索意圖。相反，若僅依靠子主題的多樣性來排序，普通用戶可能對排序靠前的子主題并不感興趣，因為其流行性可能較低。因此，本文提出子主題的三級分層結(jié)構(gòu)，獲取數(shù)量相對較小的子主題，但是這些子主題涵蓋了原始查詢各式各樣的搜索意圖。

將查詢的子主題組織成層級結(jié)構(gòu)。如果查詢模糊不清，有不少于兩個子主題，會變成查詢（根部）的語句子輩（層級1），更具體的子主題是孫輩（層級2）。因為可能的查詢搜索意圖不斷縮小，層次結(jié)構(gòu)的深度加深，由此可知高層級的子主題反映查詢更廣泛的搜索意圖，層級較低對應(yīng)的范圍較窄。

相比低層級而言，少數(shù)層級較高的子主題包含了查詢?nèi)康囊鈭D。如果任一高層級子主題的搜索意圖不夠具體，其子節(jié)點（子主題）對涵蓋更具體的搜索意圖用途很大。然而，這種結(jié)構(gòu)有時候會太具體，為了簡單起見，本文提出子主題的三層分層結(jié)構(gòu)，如圖1所示。給定查詢?yōu)楦?，子?jié)點為“主要子主題”，每一個葉節(jié)點為“次級子主題”。主要子主題對搜索意圖進行去歧化和具體化，也可能會選取一組主要子主題來滿足搜索意圖較高的多樣性。次級子主題更加具體，縮小了主要子主題搜索意圖的范圍，滿足了主要子主題搜索意圖的多樣性。

圖1 子主題的三級層次結(jié)構(gòu)

為了創(chuàng)建所提出的分層結(jié)構(gòu)，假設(shè)與給定查詢相關(guān)度較高的文檔代表了用戶所有可能的搜索意圖，文檔中候選子主題代表了一些搜索意圖。一個主要候選子主題必須滿足兩個條件。首先，能包含許多高相關(guān)文檔，從而反映較廣泛的搜索意圖。一般情況下每個相關(guān)文檔只有一個主要子主題。因此，包含主要子主題的一組相關(guān)文檔（如圖2中集合A）很少與包含其他子主題的其他集合重疊。而且，該文檔集可能包含一些子集（如圖 2中集 A-1、A-2、A-1-1和A-1-2），從相應(yīng)文檔集重疊的角度來看，主要子主題和次級子主題或其他子主題截然不同，主要子主題的文檔集比其他文檔集的清晰度更高。

本文提出了評分衡量（selection score，SS）法，這一參數(shù)核實候選子主題包含高相關(guān)文檔的數(shù)量以及相應(yīng)的文檔集與其他的不同之處為：

其中，st是候選子主題，ST是從查詢排名前N的相關(guān)文檔中提取出來所有候選子主題的集合；D（st）是包含查詢排名前N的相關(guān)文檔中的st文檔集合；US是聯(lián)合文檔集，包含之前選出的主要子主題；USc是US集合的補集。

在上述SS測量中，將覆蓋率和清晰度因素加和，從而避免選擇偏見，為了包含新的高相關(guān)文檔（隱藏的搜索意圖），這些文檔并不包含在之前的主要子主題中。接著，再測量文檔集的清晰度，本文選擇了清晰度熵（distinctness entropy，DE）的方法［15］。

圖2 查詢“莫扎特”的相關(guān)文檔集

這里將傳統(tǒng)的文檔聚類問題轉(zhuǎn)換為短語排序問題。因為文檔聚類中存在差異巨大的文檔聚類，所以為了保證文檔聚類應(yīng)用與所提出方法的各個步驟對應(yīng)，在處理過程中添加了一些額外操作，即提取候選子主題，用子主題為聚類命名，并按照聚類間差異進行排序。

如前文所述，主要子主題和次級子主題分組都是相對較小的分組，用以滿足父節(jié)點的多樣性搜索意圖，在主要子主題和次級子主題之間存在著繼承的流行度。基于這些特點，本文給出了一種依賴于三級層次結(jié)構(gòu)的子主題排序序列，用以平衡子主題的流行度和多樣性（如圖3所示）。首先對主要子主題進行排序，通過少量子主題實現(xiàn)高多樣性。然后選擇首次排序的主要子主題的次級子主題，須考慮該節(jié)點與父節(jié)點間的流行度以及此節(jié)點搜索意圖的多樣性。繼而，在下一次循環(huán)中對主要子主題排序后，按流行度對其次級子主題進行排序。此外，經(jīng)排序的主要子主題和次級子主題數(shù)量小于目標數(shù)量時，其他子主題按照流行度排序，直接添加到經(jīng)排序的子主題隊尾。算法1和算法2描述了子主題篩選和排序的過程。

圖3 子主題分組滿足父節(jié)點多樣性搜索意圖

算法1 子主題選擇

輸入：文檔集合R，和子主題候選集合ST

輸出：子主題順序列表L

算法2 子主題排序

輸入：給定的前N個相關(guān)文檔集HRquery，從HRquery提取的所有候選子主題集STall和子主題數(shù)量K

輸出：最終的子主題排列列表Lfinal

3 子主題流行度估算

在網(wǎng)絡(luò)搜索環(huán)境中，流行度與重要程度相關(guān)。因為如果消息是重要的，則表明有大量用戶對此感興趣。因此，本文通過關(guān)注子主題的重要性來估計它們的流行度。子主題重要性衡量基于的假設(shè)是：如果在給定查詢時，某一子主題是許多相關(guān)文檔的重要短語，那么它就具有高重要性。本文采用詞頻—逆向文檔頻率（TF-IDF）表示目標詞在文檔中的重要性。子主題（st）和查詢目標相關(guān)文檔集（Rquery）用于TF-IDF的完整語料庫。計算TF-IDF累加和與Rquery中的所有相關(guān)文檔作為st的重要性，計算方式如下：

其中，freq（st，doc）是文檔 st中 doc 的頻率。D（st，Rquery）表示Rquery中包含st的文檔集。

由于文檔比子主題包含更多的信息，如果在估計子主題流行度時，額外考慮相關(guān)文檔的重要性，將會得到區(qū)分度更高的子主題流行度。與查詢高相關(guān)的文檔包含更多關(guān)聯(lián)信息，即這些文檔對用戶查詢很重要。因此，假設(shè)流行度高的子主題能夠檢索到更重要的文檔，就可用文檔覆蓋率函數(shù)（DC）來檢測高相關(guān)子主題文檔覆蓋查詢隊列相關(guān)文檔的數(shù)量。

HRst和HRquery分別是st與查詢的前N個最高相關(guān)文檔集。DSst（doc）和 DSquery（doc）分別是兩者文檔經(jīng) BM 25 模型計算得到的排序評分。

權(quán)重值是子主題與相關(guān)文檔的關(guān)聯(lián)度，用來標記文檔的重要性和重要度評分。如果子主題與某文檔高度相關(guān)，則給該文檔的評分分配高權(quán)值。每個子主題的最終評分（Score）由STFIDF和DC的線性組合表示：

4 實驗及分析

4.1 實驗數(shù)據(jù)集及參數(shù)設(shè)置

為了進行實驗評估，本文挖掘了來自NTCIR-9庫的100個日文查詢和來自TREC 2009庫的100個英文查詢子主題和網(wǎng)絡(luò)跟蹤多樣性任務(wù)，在TREC中，每個查詢都有若干個子主題描述，用以描述其代表的搜索意圖。網(wǎng)絡(luò)跟蹤多樣性任務(wù)沒有提供關(guān)于搜索意圖的流行度信息。因此，評估人員手動將每個挖掘子主題歸類為同一意圖。如果兩個評估人員都認為某一子主題不能歸入同一類，則丟棄它。

給定的日文和英文查詢意圖平均評分為10.91和4.60。實驗僅使用日文文檔集ClueWeb09-JA和英文文檔集TREC的B類。實驗使用日文MeCab POS標簽和英文Stanford POS標簽，執(zhí)行名詞短語劃分和識別，用PROP-x-y標志，其中，x 是語言參數(shù)，如“J（日文）”或“E（英文）”；y 是方案參數(shù)，如“PT”、“HR”、“DC”或“DCA”?；痉桨?PT 使用了最簡單模式和 STFIDF （式（3）），主要方案 HR、DC和DAC同時使用了簡單模式和子主題層次結(jié)構(gòu)。為了評估流行度，HR僅使用了STFIDF，但是DC和DAC同時使用了STFIDF 和 DC（式（4））。評分中的 λ 設(shè)置為 0.5（式（5）），為了避免過度處理，限制最高相關(guān)文檔數(shù)量N為200。

4.2 結(jié)果和討論

表1～表3中的粗體表示所有方法中的最佳結(jié)果，灰色背景區(qū)域表示本文方法的結(jié)果；在0.01／0.05級的統(tǒng)計意義采用標識Q／q、A／a、B／b 區(qū) 分，分別表示基于基準BASE-J／E-QS、BASE-J／E-AC、BASE-J／E-BP 的改進結(jié)果。正如表中所示，在前10、20、30子主題搜索中，本文方法優(yōu)于基準方法。本文的主要方案間的執(zhí)行方式不一樣，并且基準只具有統(tǒng)計意義。D#-nDCG均值表示的日文意義概率（t-test，2-tailed）為 0.05、0.004 和 0.009（p＜0.01）；英文為0.019、0.003 和 0.004（p＜0.05）。在日文和英文的前 10 個子主題中，D#-nDCG均值結(jié)果表明，HR、DC和DAC能夠使用少量（前10個）子主題覆蓋查詢的各種搜索意圖，并能夠適當?shù)鼐S護流行性和多樣性平衡。對兩種語言而言，與基準BASE-J-BP、BASE-E-QS 比較，PROP-J-DCA和PROP-E-DC是最好的。當D#-nDCG@10時，本文最好的方法提高了9.96%和4.63%。

英文方面，通過使用DC，設(shè)置評分中的λ為0.5，得到最好的整體結(jié)果。均值D#-nDCG結(jié)果表明，當λ值介于0.1和0.7之間時，結(jié)果會更好（如圖4（b）所示），即子主題可從相關(guān)文檔的重要性中獲得合適的可區(qū)分流行度。然而，在日文子主題中，盡管DCA方案獲得了最好的結(jié)果，但與HR結(jié)果沒有顯著的不同，當λ值較大時，D#-nDCG均值減小（如圖 4（a）所示）。

表2 基準結(jié)果和本文方法對日英文排名前20個子主題的搜索結(jié)果

此外，日文查詢中的最好方法甚至優(yōu)于EXT-AC，該方法使用了來自微軟內(nèi)部網(wǎng)絡(luò)搜索平臺的外部網(wǎng)絡(luò)文檔。即通過使用附加的網(wǎng)絡(luò)文檔，本文方法可以更有效地利用有限的資源，并有可能獲得更高的性能。同時，因為DC和DCA更關(guān)注子主題的流行度，所以前10個子主題并沒有包含對多樣性影響很大的子主題。

表3 基準結(jié)果和本文方法對日英文排名前30個子主題的搜索結(jié)果

圖4 日文和英文結(jié)果的前K個子主題的D#-nDCG均值與評分λ值比較

在每種語言的前10、20、30個子主題中，D#-nDCG均值持續(xù)改進，這意味著在考慮流行度和多樣性平衡時，主要方案可以提取更多相關(guān)和多樣性的子主題。當與最好的基準BASE-J-BP／QS和 BASE-E-QS比較時，PROP-J-DCA和PROP-E-DC的 D#-nDCG@20／30均值分別改進了 11.10／10.89%和 6.75／6.31%。

英文方面，通過使用DC，設(shè)置評分中的 λ為 0.5，得到最好的整體結(jié)果。在前20、30個子主題中，DCA方法取得了比HR更好的效果。此外，基于各種λ值（從0.0到1.0，步長為 0.1），均值 D#-nDCG結(jié)果表明，當 λ 值介于0.1和0.7之間時，結(jié)果會更好（如圖5（b）所示），即子主題可從相關(guān)文檔的重要性中獲得合適的可區(qū)分流行度。然而，在日文子主題中，盡管DCA方案獲得了最好結(jié)果，但與HR結(jié)果沒有顯著的不同；在所有案例中，DC沒有比HR執(zhí)行得更好。此外，當λ值較大時，D#-nDCG均值減小（如圖5（a）所示）。由于存在大量無用的術(shù)語，這導(dǎo)致了較低的查詢性能。

此外，在日文和英文查詢中，通過設(shè)置查詢的對應(yīng)評分λ值，DCA方法分別取得了最好的和相對較好的搜索性能。然而，該方案僅考慮了子主題的表面信息，不足以決策更合適的DC和STFIDF的權(quán)重。深入分析評估結(jié)果可知：當相關(guān)文檔具有多個意圖時，DC方法更有優(yōu)勢，而STFIDF適合于只有一個搜索意圖的文檔。為每個查詢檢查PROP-J-DC和PROPE-DC的D#-nDCG，發(fā)現(xiàn)許多查詢比PROP-J-HR性能高，卻比PROP-E-HR性能低。使用DC的查詢都獲得了高性能，在相關(guān)文檔中，會有兩個或多個具有不同搜索意圖的子主題以高頻率同時出現(xiàn)，但是其他查詢的子主題卻沒有遵循此模式。因此，通過給定更合適的DC權(quán)重和基于STFIDF來判斷相關(guān)文檔是否具有多個意圖，來獲得更好的子主題挖掘性能。

在前 10、20、30個子主題中，本文方法在 I-rec和D-nDCG均值中持續(xù)獲得良好性能。即本文方法按照子主題的相關(guān)度、流行性和多樣性來確保子主題的挖掘性能。與最好的基準比較，檢索日文時，I-rec@10、I-rec@20、I-rec@30、D-nDCG@10、D-nDCG@20 和 D-nDCG@30 均值獲得改善程度為 9.63%、13.07%、14.52%、10.30%、8.52%和5.76%；英文則為 8.84%、10.53%、10.26%、0.81%、2.67%和1.73%。綜上所述，在提取子主題階段，簡單模式是有用的，在查找各種相關(guān)子主題時也是有效的。在子主題排序階段，本文的層次結(jié)構(gòu)在平衡流行度和多樣性方面有良好的效果，因為與其他方法相比，HR、DC和DCA的結(jié)果最佳。

5 結(jié)束語

本文提出了一種基于簡單模式的子主題挖掘方法和一種層次結(jié)構(gòu)候選子主題，在日文和英文搜索中采用了網(wǎng)絡(luò)文檔。在提取子主題階段，各種相關(guān)候選子主題使用名詞短語和替代部分查詢的簡單模式。在子主題排序階段，構(gòu)建候選子主題的三級層次結(jié)構(gòu)，并用該結(jié)構(gòu)和估計的流行度進行排序。在實驗中，在前10個子主題中，文中所提出方法性能均優(yōu)于基準，甚至優(yōu)于使用外部網(wǎng)絡(luò)文檔的方法。即本文方法只需少量維持流行度和多樣平衡的子主題便可覆蓋查詢的各種搜索意圖。在前20、30個子主題中，搜索結(jié)果穩(wěn)步提升，這是因為提取的相關(guān)的和多樣性的子主題越來越多。

在今后研究中，仍有進一步改進的空間，例如精煉候選子主題，為每種語言設(shè)計合適的排序方法，將本文方法與資源開放型方法結(jié)合。此外，子主題的復(fù)雜評估也是一個重要問題，尤其是在平衡多樣性和流行度方面。

［1］唐曉波，肖璐.基于單句粒度的微博主題挖掘研究［J］.情報學(xué)報，2014，33（6）：214-219.TANG X B，XIAO L.Research of micro-blog topics mining based on sentence granularity［J］.Journal of the China Society for Scientific and TechnicalInformation， 2014， 33 （6）：214-219.

［2］田宇辰.專業(yè)搜索引擎的無日志查詢推薦機制研究及實現(xiàn)［D］.廣州：華南理工大學(xué)，2014.TIAN Y C.Research and implementation of non log query recommendation mechanism for professional search engine ［D］.Guangzhou：South China University of Technology，2014.

［3］李勝浩.基于MapReduce的Web文本挖掘系統(tǒng)的研究與實現(xiàn)［D］.北京：北京郵電大學(xué)，2013.LI S H.Research and implementation of Web text mining system based on MapReduce ［D］.Beijing：Beijing University of Posts and Telecommunications，2013.

［4］BHATIA S，MAJUMDAR D，MITRA P.Query suggestions in theabsenceofquerylogs ［C］／InternationalACM SIGIR Conference on Research & Development in Information Retrieval，July 24-28，2011，Beijing，China.NewYork：ACM Press，2011：795-804.

［5］HE J，HOLLINK V，DE VRIES A.Combining implicit and explicit topic representations for result diversification ［C］／The 35th international ACM SIGIR conference on Research and development in information retrieval，August 12-16， 2012，Poreland， OR，USA.New York：ACM Press，2012：851-860.

［6］肖璐，唐曉波.基于句子成分的微博熱點主題挖掘模型研究［J］.情報科學(xué)，2015，35（11）：137-141.XIAO L，TANG X B.Research on micro-blog hot topic mining model based on sentence composition ［J］.Journal of the China Society for Scientific and Technical Information，2015，35（11）：137-141.

［7］ZHU X，GUO J，CHENG X，et al.A unified framework for recommending diverse and relevant queries ［C］／World Wide Web Conference Series，March 28-April 1，2011，Hyderabad，India.New York：ACM Press，2011：37-46.

［8］ KIM S J，SHIN K Y，LEE J H.Hierarchical subtopic mining for topic annotation ［C］／The 6th international workshop on exploiting semantic annotations in information retrieval，October 28，2013，San Francisco，CA，USA.New York：ACM Press，2013：49-52.

［9］劉少鵬，印鑒，歐陽佳，等.基于MB-HDP模型的微博主題挖掘［J］.計算機學(xué)報，2015，42（7）：1408-1419.LIU S P，YIN J，OU-YANG J，et al.Topic mining from microblogs based on MB-HDP model ［J］.Chinese Journal of Computers，2015，42（7）：1408-1419.

［10］岑榮偉，劉奕群，張敏，等.基于日志挖掘的搜索引擎用戶行為分析［J］.中文信息學(xué)報，2010，24（3）：49-54.CEN R W，LIU Y Q，ZHANG M，et al.User behavior analysis of search engine based on log mining ［J］.Journal of Chinese Information Processing，2010，24（3）：49-54.

［11］譚彩麗.基于主題相關(guān)博客的屬性挖掘模型設(shè)計［D］.北京：北京郵電大學(xué)，2011.TAN C L.Design of attribute mining model based on topic related blog ［D］.Beijing：Beijing University of Posts and Telecommunications，2011.

［12］DANG V，CROFT B W.Term level search result diversification［C］／／International ACM SIGIR Conference on Research &Development in Information Retrieval，July 28-August 1，2013，Dublin，Ireland.New York：ACM Press，2013：603-612.

［13 曾依靈，許洪波，白碩.網(wǎng)絡(luò)文本主題詞的提取與組織研究［J］.中文信息學(xué)報，2008，22（3）：64-70.ZENG Y L，XU H B，BAI S.Research on the extraction and organization of Web text topic words ［J］.Journal of Chinese Information Processing，2008，22（3）：64-70.

［14］劉德喜，萬常選，劉喜平，等.基于結(jié)點權(quán)重模型的XML片段檢索策略［J］.計算機學(xué)報，2013，36（8）：1729-1744.LIU D X，WAN C X，LIU X P，et al.XML fragment retrieval strategy based on node weight model ［J］.Chinese Journal of Computers，2013，36（8）：1729-1744.

［15］劉志勇，耿新青.基于模糊聚類的文本挖掘算法［J］.計算機工程，2009，35（5）：44-45.LIU Z Y，GENG X Q.Text mining algorithm based on fuzzy clustering［J］.Computer Engineering，2009，35（5）：44-45.

Web text mining method based on subtopic selection and three-level stratified structure

SHI Yuzhen，SHAN Donghong
School of Software，Pingdingshan University，Pingdingshan 467000，China

As the problem of fuzzy inquiry and data sparseness cased by intention gap between users and queries，according to the ranking list of possible subtopic from popularity and diversity，subtopic selection and sorting of stratified structure were used for web text mining.Firstly，on the basic of noun phrase and substitute of part query，a simple model was used to extract a variety of related phrases as candidate subtopic.Then，related documents of a web document collection were used to build three-level stratified structure of candidate subtopic.Finally，considering popularity and diversity，the stratified structure and estimated popularity were applied for sorting.Based on 100 Japanese queries from NTCIR-9 library，100 English queries from TREC 2009 library and network tracking diversity task，experiments verify that the proposed method can be effectively applied to a variety of search，and the proposed mining is better than external resources for high ranking subtopics.

data sparseness，text mining，stratified structure，diversity，popularity

Key Project of Science and Technology Department in Henan Province （No.142102210226）

TP391

10.11959／j.issn.1000-0801.2016142

2016-03-03；

2016-05-08

河南省科技廳科技重點攻關(guān)項目（No.142102210226）

史玉珍（1975-），女，平頂山學(xué)院副教授，主要從事Web數(shù)據(jù)挖掘、社團發(fā)現(xiàn)方面的研究工作。

單冬紅（1976-），女，平頂山學(xué)院副教授，主要從事數(shù)據(jù)挖掘方面的研究工作。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于子主題選擇與三級分層結(jié)構(gòu)的Web文本挖掘方法

1 引言

2 提出的方法

2.1 簡單模式下的子主題提取

2.2 使用子主題的分層結(jié)構(gòu)排序

3 子主題流行度估算

4 實驗及分析

4.1 實驗數(shù)據(jù)集及參數(shù)設(shè)置

4.2 結(jié)果和討論

5 結(jié)束語