亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA的問(wèn)答網(wǎng)站話題抽取算法

        2016-05-09 07:07:32戰(zhàn)學(xué)剛
        關(guān)鍵詞:特征向量文檔語(yǔ)義

        戰(zhàn)學(xué)剛 王 曉

        基于LDA的問(wèn)答網(wǎng)站話題抽取算法

        戰(zhàn)學(xué)剛 王 曉

        (遼寧科技大學(xué)軟件學(xué)院 遼寧 鞍山 114051)

        為了幫助用戶在使用問(wèn)答網(wǎng)站時(shí)準(zhǔn)確地描述所提問(wèn)題的話題,對(duì)社會(huì)化問(wèn)答網(wǎng)站問(wèn)題及話題進(jìn)行了建模,發(fā)現(xiàn)問(wèn)題的潛在語(yǔ)義關(guān)系,提出一種基于潛在狄利克雷分布LDA(Latent Dirichlet Allocation)的話題抽取算法。該算法通過(guò)挖掘問(wèn)題與問(wèn)題之間的潛在語(yǔ)義信息,找到潛在語(yǔ)義相類似的問(wèn)題,在語(yǔ)義層面上抽取出話題集合,找到最符合的話題列表。在真實(shí)網(wǎng)站中的數(shù)據(jù)進(jìn)行試驗(yàn)證實(shí),應(yīng)用該算法可以有效擴(kuò)大話題抽取的準(zhǔn)確率和召回率。

        LDA 問(wèn)答網(wǎng)站 協(xié)同過(guò)濾 話題模型

        0 引 言

        社會(huì)化問(wèn)答網(wǎng)站是區(qū)別于傳統(tǒng)問(wèn)答網(wǎng)站(如百度知道)或百科類網(wǎng)站(維基百科)的基于社會(huì)化關(guān)系的新型問(wèn)答網(wǎng)站,它的價(jià)值在于給用戶提供一個(gè)可以流動(dòng)的“知識(shí)庫(kù)”。其“社會(huì)化”的定義主要體現(xiàn)在問(wèn)題、話題、用戶之間的關(guān)注關(guān)系上。在社會(huì)化問(wèn)答網(wǎng)站中,通過(guò)一系列的關(guān)注關(guān)系來(lái)使問(wèn)題及其答案進(jìn)入用戶的視線中,例如用戶可以關(guān)注“社交網(wǎng)站”這一話題,那么日后在該用戶的首頁(yè)就能不斷地推送出關(guān)于該話題下的熱門問(wèn)答內(nèi)容,從而加快知識(shí)的傳播速度。社會(huì)化問(wèn)答網(wǎng)站是互聯(lián)網(wǎng)領(lǐng)域的一個(gè)創(chuàng)新應(yīng)用。社會(huì)化問(wèn)答網(wǎng)站最初的實(shí)現(xiàn)是國(guó)外的Quora(www.quora.com)。近兩年,國(guó)內(nèi)相繼涌現(xiàn)出一批類似的社會(huì)化問(wèn)答網(wǎng)站,包括最初的知乎(www.zhihu.com),以及后來(lái)的百度新知、六達(dá)網(wǎng)等。

        和傳統(tǒng)的問(wèn)答網(wǎng)站相比,社會(huì)化問(wèn)答網(wǎng)站通過(guò)加入社交元素來(lái)體現(xiàn)“社會(huì)化”的概念。通過(guò)使用“話題”來(lái)組織問(wèn)題的結(jié)構(gòu),一個(gè)問(wèn)題可以有多個(gè)話題,一個(gè)話題下包含多個(gè)問(wèn)題。用戶可以通過(guò)關(guān)注特定的話題來(lái)發(fā)現(xiàn)他們感興趣的內(nèi)容,給一個(gè)問(wèn)題添加正確的話題可以讓該問(wèn)題更好的流通[1]。因此,如何能夠自動(dòng)識(shí)別問(wèn)題的話題是問(wèn)答網(wǎng)站數(shù)據(jù)挖掘研究中亟需解決的問(wèn)題。

        傳統(tǒng)的問(wèn)題自動(dòng)識(shí)別話題的方法是通過(guò)搜索引擎匹配關(guān)鍵字,然而該方法存在很大的局限性。例如,對(duì)于問(wèn)題“今年詹姆斯能不能帶領(lǐng)邁阿密熱火隊(duì)奪冠?”,如果通過(guò)搜索引擎來(lái)尋找話題,那么會(huì)匹配“勒布朗·詹姆斯”、“邁阿密熱火”、“奪冠”。而顯然奪冠是不符合該問(wèn)題的,并且如果通過(guò)人來(lái)識(shí)別的話,該問(wèn)題的標(biāo)簽應(yīng)該是“NBA”、“籃球”。

        針對(duì)上面的問(wèn)題,本文提出了一種新的基于LDA的問(wèn)題抽取話題的方法。區(qū)別于已有的方法,該方法在抽取話題的時(shí)候,考慮了問(wèn)題與問(wèn)題之間的語(yǔ)義相關(guān)性,通過(guò)尋找問(wèn)題在語(yǔ)義空間的相類似問(wèn)題,找到問(wèn)答網(wǎng)站內(nèi)已有類似問(wèn)題的話題,來(lái)識(shí)別該問(wèn)題的話題。在尋找類似問(wèn)題時(shí),考慮了潛在語(yǔ)義特征。傳統(tǒng)的問(wèn)題相似性匹配一般基于TFIDF[2]。本文通過(guò)TFIDF結(jié)合LDA來(lái)判定相似問(wèn)題,對(duì)于相似問(wèn)題的話題,抽取出共現(xiàn)概率最高的話題作為最終結(jié)果。其基本思想是:首先根據(jù)數(shù)據(jù)集中已有問(wèn)題以及話題的組合,作為訓(xùn)練數(shù)據(jù)來(lái)估計(jì)LDA模型的參數(shù);然后根據(jù)LDA模型對(duì)所有問(wèn)題進(jìn)行推導(dǎo),構(gòu)成LDA主題空間,當(dāng)有新的問(wèn)題提出的時(shí)候,根據(jù)LDA模型進(jìn)行推導(dǎo),并在主題空間中尋找最相似的問(wèn)題;最后通過(guò)抽取相似問(wèn)題的話題,將最符合的話題取出以作為結(jié)果。

        根據(jù)以上的理論研究,本文在取自目前國(guó)內(nèi)最大的社會(huì)化問(wèn)答網(wǎng)站“知乎”網(wǎng)站內(nèi)的數(shù)據(jù)進(jìn)行了實(shí)驗(yàn)評(píng)測(cè)。實(shí)驗(yàn)結(jié)果表明,本文提出的方法在準(zhǔn)確率、召回率上均優(yōu)于目前已知的算法。

        1 相關(guān)定義及理論

        1.1 基本定義

        在問(wèn)答網(wǎng)站中,信息的流動(dòng)主要依靠問(wèn)題和話題。

        問(wèn)題:一個(gè)問(wèn)題是問(wèn)答網(wǎng)站中最基本的單元,問(wèn)題可以是中文或是英文的字符串。

        話題:一個(gè)話題是對(duì)一個(gè)問(wèn)題所屬領(lǐng)域的抽象描述,一個(gè)問(wèn)題可以有多個(gè)話題,一個(gè)話題也可以分別屬于多個(gè)問(wèn)題。話題通常為一個(gè)詞或者短語(yǔ)。

        1.2 LDA主題模型

        在自然語(yǔ)言處理中,可以將詞項(xiàng)的概率分布定義為“主題”的概念。一個(gè)文檔的產(chǎn)生過(guò)程可以被看成是以一定的概率選擇了某一個(gè)“主題”,再以一定的概率從“主題”中選擇一些詞項(xiàng)的過(guò)程。而主題模型就是對(duì)文檔的生成過(guò)程進(jìn)行模擬。主題模型的起源是隱語(yǔ)義索引(LSI),在LSI的基礎(chǔ)上,Hofmann提出了基于概率的隱語(yǔ)義索引(pLSI)[3]。

        LDA主題模型是由Blei等人提出的[4],LDA在pLSI的基礎(chǔ)上進(jìn)行了擴(kuò)展,將每一個(gè)文檔的主題分布定義成Dirichlet分布,得到了一個(gè)更為完全的概率模型。 LDA模型假設(shè)語(yǔ)料庫(kù)中的每一篇文檔是與每一個(gè)主題的一個(gè)多項(xiàng)分布相對(duì)應(yīng)。每個(gè)主題又與詞匯表中的單詞的一個(gè)多項(xiàng)分布相對(duì)應(yīng)。

        該模型有兩個(gè)參數(shù)需要推斷:一個(gè)是“文檔—主題”分布,另一個(gè)是“主題—單詞”分布。通過(guò)學(xué)習(xí)到這兩個(gè)參數(shù),我們可以對(duì)任意的文檔進(jìn)行主題分布推斷。例如,對(duì)于問(wèn)題“喬布斯的離去對(duì)蘋果產(chǎn)生哪些影響”,LDA可以推斷出句子中的詞“蘋果”與“蘋果公司”意思更接近,而不是與“水果”意思更接近,盡管“蘋果”這個(gè)詞有多重意義。通過(guò)大量的語(yǔ)料進(jìn)行學(xué)習(xí),結(jié)合文本的上下文,通過(guò)LDA模型可以知道文檔的潛在主題。在參數(shù)推斷方法上面,主要的方法有LDA模型的作者提出的變分—EM算法,還有現(xiàn)在常用的Gibbs抽樣法[5]。

        2 LDA模型訓(xùn)練

        基于LDA的話題抽取算法包含離線模型建立部分和在線推薦兩部分。在離線計(jì)算部分,根據(jù)人工標(biāo)注的語(yǔ)料進(jìn)行模型的訓(xùn)練,得到詞對(duì)應(yīng)語(yǔ)義的特征向量,然后根據(jù)訓(xùn)練出的模型對(duì)每個(gè)問(wèn)題進(jìn)行推斷,最終得到每個(gè)問(wèn)題的潛在語(yǔ)義向量。

        在線推薦部分,首先根據(jù)LDA進(jìn)行推斷[5],得到問(wèn)題的特征向量;然后在模型空間中進(jìn)行搜索,拿到搜索結(jié)果后對(duì)結(jié)果進(jìn)行重新排序,引入潛在語(yǔ)義向量的相似度得分,相似度計(jì)算使用余弦相似度計(jì)算法方法;最終得到語(yǔ)義上最相近的問(wèn)題集合,抽取問(wèn)題集合中話題共現(xiàn)率最高的詞作為最終的返回結(jié)果。

        2.1 利用LDA獲取問(wèn)題語(yǔ)義特征向量模型

        設(shè)每一篇訓(xùn)練文檔為d,所有訓(xùn)練文檔的集合為語(yǔ)料集合,表示為D,統(tǒng)計(jì)得出集合D的文檔數(shù)量,表示為M。統(tǒng)計(jì)每個(gè)文檔d的詞項(xiàng)數(shù)目,得到訓(xùn)練語(yǔ)料的總詞項(xiàng)數(shù)目V。

        在LDA 模型中,潛在主題的數(shù)目K是固定不變的,并且需要在模型訓(xùn)練之前人工給定,在K給定的前提下,一個(gè)文檔d的產(chǎn)生可以表示為以下兩個(gè)過(guò)程:

        1) 從Dirichlet分布P(θ|α)中隨機(jī)選擇一個(gè)K維的向量,表示文檔d中的主題混合比例;

        2) 根據(jù)特定的主題比例對(duì)文檔d中的每個(gè)詞w進(jìn)行反復(fù)抽樣,得到P(wn|θα,β)。

        其中a是一個(gè)K維的Dirichlet參數(shù):

        LDA是一個(gè)三層式結(jié)構(gòu),圖模型表示如圖1所示。其結(jié)構(gòu)表現(xiàn)在:α和β是 語(yǔ)料級(jí),每個(gè)corpus抽樣一次;θ是文檔級(jí),每個(gè)文檔抽樣一次;w和z是詞級(jí),每個(gè)文本中每個(gè)詞抽樣一次。LDA的生成過(guò)程如下:

        對(duì)主題進(jìn)行采樣,φ~Dir(β)k∈[1,k]

        對(duì)語(yǔ)料中的第m個(gè)文檔

        得到主題概率分布,θm~Dir(α)m∈[1,M]

        得到文檔長(zhǎng)度Nm~Poiss(ε)

        對(duì)于文檔中的每一個(gè)單詞n,重復(fù)以下過(guò)程:

        選擇一個(gè)主題z~p(z|θ)

        生成一個(gè)單詞w~p(w|z,β)

        圖1 LDA模型圖

        在本文中,訓(xùn)練數(shù)據(jù)為從“知乎”問(wèn)答網(wǎng)站中抽取出的問(wèn)題數(shù)據(jù)。一個(gè)話題下的所有問(wèn)題作為一個(gè)文檔的概念,視為d。所有問(wèn)題的集合視為文檔集合D。在進(jìn)行LDA分析之前需要確定主題數(shù)目K,Dirichlet的先驗(yàn)α 及β。在K值的選取上,我們通過(guò)使用不同的K值進(jìn)行實(shí)驗(yàn)對(duì)比準(zhǔn)確度,最終發(fā)現(xiàn)K定為1000效果比較理想,而α及β的取值一般根據(jù)經(jīng)驗(yàn)可以設(shè)定為α=5/K,β=0.01,起到平滑數(shù)據(jù)的作用[6]。在一些情況下,也可以對(duì)α及β進(jìn)行貝葉斯分析以確定更加準(zhǔn)確的值[7]。

        有了詞—主題矩陣,就可以對(duì)所有問(wèn)題進(jìn)行推斷:對(duì)于一個(gè)問(wèn)題Q來(lái)說(shuō),首先進(jìn)行分詞,得到詞的集合{w1,w2,…,wn}。假設(shè)詞的個(gè)數(shù)為N,根據(jù)LDA分析得到的矩陣Ewt,生成一個(gè)文檔(這里的文檔就是指一個(gè)問(wèn)題)的主題分布,再生成N個(gè)主題,進(jìn)而得到這篇文檔的N個(gè)詞的概率,可表示為:

        其中θ是文檔的主題分布向量,z是N維的主題向量,w是N個(gè)詞組成的向量。

        對(duì)網(wǎng)站內(nèi)已有的所有問(wèn)題進(jìn)行LDA推斷,得到問(wèn)題Q在不同潛在話題下的概率矩陣Eqt,矩陣中每一行代表一個(gè)問(wèn)題在主題上的分布概率,而每一行有K維,每一維代表一個(gè)潛在主題:

        至此,我們得到了問(wèn)題特征向量矩陣,可以作為模型進(jìn)行后續(xù)的計(jì)算。

        2.2 在線推薦

        在線推薦部分,當(dāng)用戶提出問(wèn)題時(shí),首先通過(guò)用戶輸入的問(wèn)題進(jìn)行歸一化處理,去除停用詞,對(duì)英文進(jìn)行大小寫轉(zhuǎn)換等,得到歸一化的問(wèn)題Q。然后根據(jù)LDA模型對(duì)問(wèn)題Q進(jìn)行推導(dǎo),得到問(wèn)題Q在各個(gè)潛在語(yǔ)義話題上的概率向量V。通過(guò)計(jì)算問(wèn)題語(yǔ)義向量與訓(xùn)練好的所有問(wèn)題的向量間的相似度,找到所有相似度大于閾值的相似問(wèn)題集合。

        在計(jì)算相似度部分,我們使用余弦相似度算法來(lái)計(jì)算兩組特征向量的相似性[8],假設(shè)矩陣的一列所代表的問(wèn)題Q′的向量為V′,則問(wèn)題Q與Q′的相似度為:

        因?yàn)樵诰€推薦部分對(duì)性能的要求較高(用戶一般希望在500毫秒以下的時(shí)間內(nèi)返回結(jié)果),而通過(guò)LDA訓(xùn)練所獲得的特征向量矩陣的維度一般較大(視問(wèn)答網(wǎng)站的規(guī)模而定),不能使用順序查找方法。在實(shí)際應(yīng)用中,我們通過(guò)將計(jì)算好的特征向量集合存入多棵KD-Tree中,提高查詢的性能。KD-Tree是一種對(duì)k維空間中的實(shí)例點(diǎn)進(jìn)行存儲(chǔ)以便對(duì)其進(jìn)行快速檢索的樹形結(jié)構(gòu)[10],可以極大地提高多維向量空間中相似向量的檢索效率。多棵KD-Tree可以分別部署到不同的服務(wù)器上,在查詢時(shí)分別返回各自的查詢結(jié)果,最終匯總成最后結(jié)果。

        得到相似問(wèn)題集合后,通過(guò)抽取相似問(wèn)題的話題,計(jì)算話題的共現(xiàn)概率,將共現(xiàn)概率較高的詞作為結(jié)果返回。

        2.3 基于LDA的話題抽取算法

        基于主題模型的話題推薦算法偽代碼描述如下:

        離線計(jì)算部分:

        輸入:?jiǎn)栴}集合Q,話題集合L,問(wèn)題與話題的綁定關(guān)系QL。

        輸出:LDA modelEwt。

        步驟:

        1. D=Set

        2. for 話題I in L:

        3. 根據(jù)QL提取話題I下的問(wèn)題集合Iq={q1,q2,…,qn}

        4. W=Set

        5. for 問(wèn)題q in Iq:

        6. 問(wèn)題q進(jìn)行分詞,得到詞集合W′=(w1,w2,…,wn)

        7. W.union(W′)

        8. end for

        9. 將W作為一個(gè)文檔加入到D

        10. end for

        11. 根據(jù)D訓(xùn)練LDA model得到模型矩陣Ewt

        在線推薦部分:

        輸入:用戶提出的問(wèn)題q,網(wǎng)站已有問(wèn)題集合Q。

        輸出:推薦添加的話題集合L。

        步驟:

        1. 對(duì)問(wèn)題q進(jìn)行分詞,得到詞集合W′={w1,w2,…,wn}

        2. 根據(jù)Ewt推導(dǎo)出問(wèn)題q的特征向量Vq

        3. 初始化相似問(wèn)題集合Qs

        4. for q′ in Q:

        5. 根據(jù)Ewt推導(dǎo)出問(wèn)題q的特征向量Vq′

        6. 得到Vq與Vq′的潛在語(yǔ)義以及TFIDF得分

        7. if 得分>閾值,加入到集合Qs中

        8. end for

        9. 計(jì)算Qs中出現(xiàn)最多的n個(gè)話題作為結(jié)果集合

        3 實(shí)驗(yàn)評(píng)估

        3.1 數(shù)據(jù)獲取與基準(zhǔn)模型選擇

        本文主要處理帶有話題的文檔,選取了國(guó)內(nèi)最大的社會(huì)化問(wèn)答網(wǎng)站知乎(www.zhihu.com)下的5萬(wàn)個(gè)話題,以及話題下的100萬(wàn)個(gè)問(wèn)題,作為訓(xùn)練模型用的數(shù)據(jù)。

        我們選取了5個(gè)領(lǐng)域下用戶新提出的1000個(gè)問(wèn)題,作為測(cè)試用數(shù)據(jù)集合,如表1所示。

        表1 測(cè)試問(wèn)題領(lǐng)域分布

        在實(shí)驗(yàn)中,選擇了兩種基線模型與本文所提算法相對(duì)比。第一種是改進(jìn)的基于TFIDF的協(xié)同過(guò)濾算法(記為TFIDF)[9]。該算法用改進(jìn)的權(quán)重算法表示文本向量,使用改進(jìn)后的文本向量作為特征向量。第二種是搜索引擎搜索關(guān)鍵詞返回的結(jié)果(記為SEARCH)。

        對(duì)于測(cè)試問(wèn)題集合中的1000個(gè)問(wèn)題,本文提出的算法以及兩種對(duì)比算法均會(huì)給出建議添加的話題列表,通過(guò)準(zhǔn)確率、召回率來(lái)評(píng)價(jià)每個(gè)算法的優(yōu)劣程度。準(zhǔn)確率體現(xiàn)了算法所給出的話題的正確程度,而召回率體現(xiàn)了算法給出的話題的多樣性。為了能夠準(zhǔn)確評(píng)價(jià)哪些話題是正確的話題,我們邀請(qǐng)了各個(gè)領(lǐng)域的網(wǎng)站編輯來(lái)進(jìn)行人工標(biāo)注。選用網(wǎng)站編輯的數(shù)據(jù)而不使用普通用戶的操作數(shù)據(jù)是因?yàn)榫W(wǎng)站編輯一般對(duì)于所屬領(lǐng)域比較熟悉,能夠相對(duì)正確、客觀地給出問(wèn)答網(wǎng)站內(nèi)該領(lǐng)域的問(wèn)題所對(duì)應(yīng)的正確話題。

        對(duì)于一個(gè)問(wèn)題Q來(lái)說(shuō),設(shè)|Ls|代表算法對(duì)于問(wèn)題Q給出的話題集合,|Lu|代表網(wǎng)站編輯對(duì)于問(wèn)題Q給出的話題集合。則準(zhǔn)確率(precision)和召回率(recall)分別定義為:

        3.2 實(shí)驗(yàn)結(jié)果及分析

        表2和表3分別給出了使用基于LDA的話題抽取算法的召回率以及準(zhǔn)確率,表4 給出了本文模型與基線模型結(jié)果列表比較的結(jié)果。通過(guò)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),本文所提出的基于LDA的話題抽取算法在召回率與準(zhǔn)確率上均高于對(duì)比算法,并且相比于傳統(tǒng)算法,基于LDA的推薦算法能更好地推薦出反映用戶提問(wèn)時(shí)問(wèn)題的主題。

        表2 召回率測(cè)試結(jié)果

        領(lǐng)域召回率NBA83%建筑74%醫(yī)學(xué)91%音樂(lè)88%心理學(xué)76%

        表3 準(zhǔn)確率測(cè)試結(jié)果

        領(lǐng)域準(zhǔn)確率NBA74%建筑63%醫(yī)學(xué)65%音樂(lè)56%心理學(xué)34%

        表4 對(duì)比基線模型結(jié)果

        通過(guò)記錄每一次話題抽取的起始時(shí)間和結(jié)束時(shí)間,圖2給出了本文算法在這1000個(gè)問(wèn)題上的性能表現(xiàn)。其中橫坐標(biāo)為問(wèn)題編號(hào)(question id),縱坐標(biāo)為相應(yīng)時(shí)間,單位為毫秒(ms)。實(shí)驗(yàn)環(huán)境為2.4 GHz Intel Core i5的CPU,4 GB的內(nèi)存,256 GB硬盤的PC機(jī)2臺(tái),操作系統(tǒng)為L(zhǎng)inux。從圖中可以看到,本文算法的響應(yīng)時(shí)間大部分集中在300 ms左右,在性能上完全滿足在線使用的需求。

        圖2 測(cè)試問(wèn)題話題抽取響應(yīng)時(shí)間

        4 結(jié) 語(yǔ)

        本文參考了經(jīng)典LDA主題模型的優(yōu)點(diǎn),對(duì)社會(huì)化問(wèn)答網(wǎng)站的問(wèn)題進(jìn)行建模,將潛在語(yǔ)義信息融入了話題抽取算法中,彌補(bǔ)了傳統(tǒng)抽取算法在語(yǔ)義相關(guān)度不足的缺點(diǎn),提高了話題推薦的準(zhǔn)確性。通過(guò)實(shí)驗(yàn)表明,該算法能夠顯著提高推薦話題的相關(guān)性,提高現(xiàn)有推薦算法的準(zhǔn)確率以及召回率。目前該算法被應(yīng)用到問(wèn)答網(wǎng)站“知乎”(www.zhihu.com)的提問(wèn)模塊中,如圖3所示。當(dāng)用戶提出一個(gè)問(wèn)題時(shí),該模塊會(huì)自動(dòng)推薦5個(gè)話題。圖3中,當(dāng)用戶提出的問(wèn)題是關(guān)于長(zhǎng)城汽車的問(wèn)題時(shí),系統(tǒng)自動(dòng)推薦了4個(gè)相關(guān)的話題:其中“汽車”,“車輛”,“長(zhǎng)城(汽車品牌)”,是和問(wèn)題具有很強(qiáng)語(yǔ)義相關(guān)性的,可以認(rèn)為是正確的推薦。而“SUV”是長(zhǎng)城這款車的所屬類型,也可以認(rèn)為是正確推薦。

        圖3 實(shí)際運(yùn)行效果

        從該算法的實(shí)際運(yùn)行情況統(tǒng)計(jì),用戶一般會(huì)采納系統(tǒng)推薦的話題中的3~4個(gè),極大地拓展了問(wèn)題的流通渠道。

        [1] 劉高勇,鄧勝利.社交問(wèn)答服務(wù)的演變與發(fā)展研究[J].圖書館論壇,2013(1):17-19.

        [2] 施聰鶯,徐朝軍,楊曉江.TFIDF算法研究綜述[J].計(jì)算機(jī)應(yīng)用,2009(S1):167-171.

        [3] Hofmann T.Probabilistic latent semantic analysis[C]//Proceedings of the 22nd annual international ACM conference on Research and development in information retrieval,1999,15:50-57.

        [4] Blei D,Ng A,Jordan M.Latent DirichletAllocation[J].Journal of Machine Learning Research,2003(3):993-1022.

        [5] Griffiths T L,Steyvers M.Finding scientific topics[J].Proceedings of the National Acdademy of Sciencs,2004,101(S1):5228-5235.

        [6] Liu Zhiyuan,Zhang Yuzhou,Edward Y Chang.PLDA+:Parallel Latent Dirichlet Allocation with data placement and pipeline processing[J].ACM Transactions on Intelligent Systems and Technology,2011,2(3):1-18.

        [7] Steyvers M,Griffiths T.Probabilistic topic models:Latent Semantic Anlysis:A road to meaning[M].Laurence Erlbaum,2006.

        [8] Xian Zhang,Yu Hao,Zhu Xiaoyan.Information distance from a question to an answer[C]//Proceedings of KDD ’07,2007:874-883.

        [9] 鄭霖,徐德華.基于改進(jìn)TFIDF算法的文本分類研究[J].計(jì)算機(jī)與現(xiàn)代化,2014(9):6-9.

        [10] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.

        LDA-BASED Q & A WEBSITES QUESTION LABEL EXTRACTION ALGORITHM

        Zhan Xuegang Wang Xiao

        (SchoolofSoftwareEngineering,UniversityofScienceandTechnologyLiaoning,Anshan114051,Liaoning,China)

        To help people accurately describe the topics of the question raised when using question and answer (Q & A) websites, we modelled the questions and topics in socialised Q&A websites, found the latent semantic relationship among questions, and proposed an LDA-based topic extraction algorithm. The algorithm finds the questions with latent semantics similarity by digging up latent semantic information between questions, extracts the topics set on semantic level, and finds the list of topics that matches the most. It has been proved by the test with the data in actual websites that the application of the algorithm can effectively improve the precision and recall rates of topic extraction.

        Latent Dirichlet allocation (LDA) Q&A websites Collaborative filtering Topic model

        2014-11-20。戰(zhàn)學(xué)剛,副教授,主研領(lǐng)域:自然語(yǔ)言處理,數(shù)據(jù)挖掘。王曉,碩士生。

        TP391.1

        A

        10.3969/j.issn.1000-386x.2016.04.023

        猜你喜歡
        特征向量文檔語(yǔ)義
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
        克羅內(nèi)克積的特征向量
        有人一聲不吭向你扔了個(gè)文檔
        語(yǔ)言與語(yǔ)義
        一類特殊矩陣特征向量的求法
        EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        認(rèn)知范疇模糊與語(yǔ)義模糊
        97人妻精品一区二区三区男同| 亚洲精品无码久久久久av麻豆 | 亚洲一区二区三区四区精品在线| 国产性自爱拍偷在在线播放| 偷拍激情视频一区二区三区| 欧美极品jizzhd欧美| 国产在线一区观看| 国产不卡一区在线视频| 在线不卡av一区二区| 性色视频加勒比在线观看| 亚洲一卡2卡3卡4卡5卡精品| 丰满人妻熟妇乱又伦精品视| 亚洲国产精品久久久天堂不卡海量| 国产在线高清无码不卡| 青青草视频在线观看绿色| 亚洲国产精品无码一线岛国| 国产高清一区二区三区视频| 日韩中文在线视频| 精品国产乱码久久免费看| 亚洲中文字幕乱码一二三| 精品无码一区二区三区爱欲 | 欧美丰满老熟妇aaaa片| 国产精品欧美福利久久| 草草网站影院白丝内射| 国产精品欧美韩国日本久久| 青青草视频在线播放观看| 亚洲日韩精品无码av海量| 人人妻人人澡人人爽人人精品| 亚州五十路伊人网| 最新国产女主播在线观看| 人人妻人人澡人人爽国产一区| 国产麻豆剧传媒精品国产av| 妺妺窝人体色www聚色窝韩国| 国产大片在线观看三级| 日韩精品一二三区乱码| 天天躁日日躁狠狠躁| 丰满少妇愉情中文字幕18禁片| 一区二区免费电影| 最新国内视频免费自拍一区| 狠狠躁夜夜躁人人爽超碰97香蕉| 免费少妇a级毛片人成网|