亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種融合話題和行為的在線問(wèn)答社區(qū)領(lǐng)域?qū)<野l(fā)現(xiàn)方法

        2018-09-17 04:32:12李科霖
        關(guān)鍵詞:回答者專家社區(qū)

        李科霖

        (北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)

        0 引 言

        近年來(lái),由于各類現(xiàn)代技術(shù)的迅猛發(fā)展,人們對(duì)專業(yè)知識(shí)的需求不斷增加,因此常常需要從多種不同的渠道獲取自己需要的知識(shí)來(lái)滿足學(xué)習(xí)或者工作的需求。其中,在線問(wèn)答社區(qū)逐漸成為最為可靠和有效的知識(shí)來(lái)源之一[1]。

        互聯(lián)網(wǎng)和信息技術(shù)的發(fā)展,見(jiàn)證了如Wikipedia、Quora和知乎等中英文在線問(wèn)答社區(qū)的蓬勃發(fā)展。與傳統(tǒng)的專家咨詢系統(tǒng)不同,在線問(wèn)答社區(qū)通常是指由用戶參與問(wèn)題提問(wèn)和回答的知識(shí)分享社區(qū),它的基本模式是用戶根據(jù)自己的知識(shí)需求進(jìn)行提問(wèn),通過(guò)一定的激勵(lì)或者推薦機(jī)制來(lái)發(fā)動(dòng)其他具有相關(guān)領(lǐng)域知識(shí)的用戶回答問(wèn)題,提供個(gè)性化的答案[2]。例如,作為最受歡迎的中文在線問(wèn)答社區(qū)之一,知乎擁有千萬(wàn)級(jí)別用戶,每天產(chǎn)生大量不同領(lǐng)域下的問(wèn)題和答案。然而,由于問(wèn)題回答者的專業(yè)水平良莠不齊,產(chǎn)生的答案質(zhì)量也往往高低不一。因此,準(zhǔn)確地發(fā)現(xiàn)問(wèn)答社區(qū)中不同領(lǐng)域下具有專業(yè)知識(shí)水平和影響力的專家用戶,把提問(wèn)者提出的問(wèn)題及時(shí)推薦給這些專家用戶,將有助于高效而準(zhǔn)確地產(chǎn)生專業(yè)答復(fù),從而提高問(wèn)答社區(qū)知識(shí)庫(kù)的知識(shí)水平,增加用戶對(duì)社區(qū)的粘度,還能為外部搜索引擎提供較高質(zhì)量的信息資源。因此,基于用戶產(chǎn)生的問(wèn)答信息和點(diǎn)贊等行為信息,準(zhǔn)確地發(fā)現(xiàn)在線問(wèn)答社區(qū)中的領(lǐng)域?qū)<矣脩簦惋@得尤為必要。

        針對(duì)在線問(wèn)答社區(qū)領(lǐng)域?qū)<野l(fā)現(xiàn)問(wèn)題,本文根據(jù)答案的產(chǎn)生過(guò)程,提出一種問(wèn)題-回答者-話題(Question-Answerer-Topic, QAT)模型,用來(lái)對(duì)問(wèn)題-回答者對(duì)的話題分布進(jìn)行建模,以此刻畫(huà)不同用戶對(duì)領(lǐng)域內(nèi)不同話題的參與度,并基于此模型融入用戶答案的被點(diǎn)贊數(shù)目信息以衡量用戶在各話題下的專業(yè)水平,最后結(jié)合鏈接分析的方法,提出一種主題敏感的PageRank改進(jìn)模型,進(jìn)一步衡量用戶的權(quán)威度,從而得到用戶的最終專家得分并進(jìn)行排序。

        本文采用Gibbs采樣的方法對(duì)QAT模型進(jìn)行推導(dǎo)和求解,通過(guò)不斷地采樣語(yǔ)料庫(kù)中每個(gè)詞的主題指派來(lái)近似推斷語(yǔ)料庫(kù)中問(wèn)題-回答者對(duì)、主題和詞的聯(lián)合分布。Gibbs采樣收斂后,就可以根據(jù)語(yǔ)料庫(kù)中每個(gè)詞的采樣結(jié)果來(lái)估計(jì)出問(wèn)題-回答者-話題分布。

        本文從中文在線問(wèn)答社區(qū)知乎網(wǎng)上采集了人工智能領(lǐng)域下的真實(shí)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并與現(xiàn)有的專家發(fā)現(xiàn)方法進(jìn)行對(duì)比與分析。實(shí)驗(yàn)結(jié)果表明,相較于現(xiàn)有的專家發(fā)現(xiàn)方法,本文提出的方法能有效地識(shí)別出領(lǐng)域?qū)<矣脩簟?/p>

        本文的工作主要包括以下3點(diǎn):

        1)根據(jù)答案的產(chǎn)生過(guò)程,以及問(wèn)題和答案之間的關(guān)聯(lián)性,提出了問(wèn)題-回答者-話題模型,可有效約束問(wèn)題-回答者對(duì)的話題分布,從而更準(zhǔn)確地發(fā)現(xiàn)回答者的話題分布,刻畫(huà)其領(lǐng)域話題。

        2)基于問(wèn)題-回答者-話題模型,融入答案點(diǎn)贊信息來(lái)計(jì)算用戶在領(lǐng)域內(nèi)各話題下的專業(yè)水平,并結(jié)合鏈接分析的方法,提出一種主題敏感的PageRank改進(jìn)模型,有效衡量用戶在各話題下的權(quán)威度,最終計(jì)算出用戶在領(lǐng)域內(nèi)不同話題下的專家得分,并進(jìn)行排序。

        3)從知乎網(wǎng)采集了一個(gè)高質(zhì)量的人工智能領(lǐng)域問(wèn)答數(shù)據(jù)集,并對(duì)提出的模型進(jìn)行了充分的實(shí)驗(yàn),驗(yàn)證了本文提出的方法的有效性。

        1 相關(guān)工作

        在線問(wèn)答社區(qū)中的專家發(fā)現(xiàn),是指發(fā)現(xiàn)社區(qū)中具有較高專業(yè)水平和影響力、能提供較多高質(zhì)量回答、值得信賴的用戶[3]。對(duì)于在線問(wèn)答社區(qū)的專家發(fā)現(xiàn)問(wèn)題,很多學(xué)者提出了不同的模型和方法。目前,在線問(wèn)答社區(qū)的專家發(fā)現(xiàn)研究主要分為基于統(tǒng)計(jì)分析的方法、基于鏈接分析的方法和基于信息抽取的方法。

        基于統(tǒng)計(jì)分析的方法主要使用一些統(tǒng)計(jì)特征,如答案的相關(guān)性、客觀性、真實(shí)性、易讀性以及問(wèn)答數(shù)目比例關(guān)系等,來(lái)進(jìn)行專家排序。例如,Zhang等人[4]提出基于用戶提問(wèn)和回答數(shù)目的比例關(guān)系的模型,即假定用戶提供的答案越多,問(wèn)題數(shù)量越少,則他們的專業(yè)知識(shí)水平就越高,反之亦然。作者將該模型應(yīng)用于大型的在線問(wèn)答社區(qū)——Java Forum,取得了良好的效果。Jeon等人[5]為每個(gè)答案生成一個(gè)特征向量,記錄答案的接受率、答案長(zhǎng)度、問(wèn)題的評(píng)價(jià)、回答者活躍度、回答者專業(yè)類別等信息來(lái)進(jìn)行評(píng)級(jí)排名。Bouguessa[6]等人將用戶獲得最佳回答者的次數(shù)作為計(jì)算用戶專家權(quán)威度的標(biāo)準(zhǔn)來(lái)進(jìn)行專家排序??傮w來(lái)看,這些基于統(tǒng)計(jì)分析的方法很容易被用戶惡意作弊所欺騙,并且有些評(píng)價(jià)指標(biāo)的得分需要人工手動(dòng)生成,還有一些指標(biāo)特征比較難收集,因此分析起來(lái)也較為費(fèi)時(shí)。

        基于鏈接分析的方法主要包括基于PageRank[7-9]的方法和基于HITS[10-11]的方法。基于PageRank的方法將PageRank應(yīng)用于在線問(wèn)答社區(qū)的專家發(fā)現(xiàn),其核心思想是根據(jù)問(wèn)答關(guān)系構(gòu)建社交網(wǎng)絡(luò),利用網(wǎng)絡(luò)迭代傳播的思想求解用戶專家權(quán)威程度得分。一個(gè)用戶的專家權(quán)威程度得分取決于該用戶幫助的用戶數(shù)量,用戶得分越多,則其專家權(quán)威程度也就越高。HITS的思想與PageRank類似,它將用戶分為Hub和Authority這2組,其中Hub組是提問(wèn)的用戶集合,Authority組是回答問(wèn)題的用戶集合。同樣,Hub和Authority值可以通過(guò)網(wǎng)絡(luò)迭代求解。如果只考慮用戶問(wèn)答關(guān)系網(wǎng)絡(luò),而不考慮答案質(zhì)量,PageRank和HITS在專家發(fā)現(xiàn)方法中應(yīng)用廣泛。然而,據(jù)統(tǒng)計(jì)顯示,問(wèn)答社區(qū)中約有1/3的問(wèn)題存在明顯的不足,約有1/10的答案為低質(zhì)量答案[4]。因此,除了考慮問(wèn)答關(guān)系等鏈接關(guān)系外,還應(yīng)考慮用戶產(chǎn)生內(nèi)容的質(zhì)量。

        基于信息抽取的方法由于其信息覆蓋的全面性和多樣性而受到廣大學(xué)者的青睞。Liu等人[12]將專家用戶定義為在給定的問(wèn)題下,回答過(guò)相似問(wèn)題的用戶,然后基于查詢相似度模型[13]、關(guān)聯(lián)模型[14]和基于聚類的語(yǔ)言模型[15]檢索得到最有可能回答該問(wèn)題的用戶。劉健等人[16]提出了基于LDA話題模型的改進(jìn)模型,在模型生成過(guò)程中抽取專家用戶。Yang等人[17]利用LDA模型抽取用戶興趣的話題分布,并結(jié)合鏈接分析的方法提出以人為中心的專家發(fā)現(xiàn)方法。

        此外,也有不少學(xué)者提出混合模型來(lái)進(jìn)行專家發(fā)現(xiàn)。Wang等人[1]提出融合候選專家經(jīng)驗(yàn)、候選專家權(quán)威度和PageRank鏈接分析的方法來(lái)進(jìn)行在線知識(shí)社區(qū)候選專家排序。Kao等人[18]進(jìn)一步綜合用戶知識(shí)領(lǐng)域、用戶聲譽(yù)和鏈接分析來(lái)評(píng)選專家用戶。Yang等人[19]提出基于LDA的改進(jìn)模型,在模型中融入問(wèn)題標(biāo)簽和點(diǎn)贊信息,并結(jié)合鏈接分析的方法,來(lái)衡量用戶的專家水平和興趣分布。

        上述模型雖然取得了不錯(cuò)的效果,但是并沒(méi)有考慮到問(wèn)題和回答者產(chǎn)生的答案之間的相互約束關(guān)系,即一個(gè)用戶在回答問(wèn)題之前,會(huì)先根據(jù)提問(wèn)信息選擇自己擅長(zhǎng)的問(wèn)題,然后根據(jù)問(wèn)題的描述來(lái)產(chǎn)生自己的答案。基于上述答案生成過(guò)程,本文提出一種QAT模型,并以此為基礎(chǔ)進(jìn)一步提出一種融合話題和行為的領(lǐng)域?qū)<野l(fā)現(xiàn)方法。

        2 領(lǐng)域?qū)<野l(fā)現(xiàn)模型

        本章首先介紹在線問(wèn)答社區(qū)領(lǐng)域?qū)<野l(fā)現(xiàn)方法的整體框架,然后詳細(xì)描述本文提出的問(wèn)題-回答者-話題(QAT)模型,最后介紹基于QAT模型提出的融合話題和行為的領(lǐng)域?qū)<野l(fā)現(xiàn)方法。

        2.1 整體框架

        融合話題和行為的領(lǐng)域?qū)<野l(fā)現(xiàn)方法的整體框架如圖1所示,具體流程為:

        1)針對(duì)某領(lǐng)域內(nèi)的問(wèn)答數(shù)據(jù),進(jìn)行信息抽取和關(guān)系抽取。信息抽取主要是抽取出由問(wèn)題和問(wèn)題下的回答者組成問(wèn)題-回答者對(duì)qa以及問(wèn)題-回答者對(duì)所對(duì)應(yīng)的答案文本信息,關(guān)系抽取主要是根據(jù)問(wèn)答關(guān)系構(gòu)建問(wèn)答關(guān)系網(wǎng)絡(luò)。

        2)利用問(wèn)題-回答者-話題(QAT)模型,計(jì)算問(wèn)題-回答者對(duì)qa的話題分布。

        3)在QAT模型中融入點(diǎn)贊信息,計(jì)算得到用戶在不同話題下的專業(yè)度得分。

        4)結(jié)合基于主題敏感的PageRank改進(jìn)算法,得到用戶在領(lǐng)域內(nèi)不同話題下的最終專家得分。

        圖1 融合話題和行為的領(lǐng)域?qū)<野l(fā)現(xiàn)方法整體框架

        2.2 問(wèn)題-回答者-話題(QAT)模型

        本節(jié)將詳細(xì)介紹問(wèn)題-回答者-話題(QAT)模型,并對(duì)模型進(jìn)行參數(shù)估計(jì),表1列出了本文使用的相關(guān)符號(hào)和含義說(shuō)明。

        表1 相關(guān)符號(hào)及說(shuō)明

        符號(hào)含義D答案數(shù)T話題數(shù)QA問(wèn)題-回答者對(duì)數(shù)V文檔詞庫(kù)數(shù)Nd第d篇文檔的詞數(shù)α, βDirichlet超參數(shù)θ(問(wèn)題-回答者對(duì))-話題分布?話題-詞分布(qa)d第d篇答案的問(wèn)題-回答者對(duì)z語(yǔ)料庫(kù)中的話題指派w語(yǔ)料庫(kù)中的詞qa語(yǔ)料庫(kù)中的問(wèn)題-回答者對(duì)zdn第d篇答案第n個(gè)詞的話題指派wdn第d篇答案第n個(gè)詞

        2.2.1 模型描述

        在線問(wèn)答社區(qū)中,用戶作為提問(wèn)者在提問(wèn)問(wèn)題的時(shí)候,常常將自己的知識(shí)需求以問(wèn)題標(biāo)題加問(wèn)題描述的形式進(jìn)行提問(wèn),而用戶作為回答者在回答問(wèn)題時(shí),通常會(huì)結(jié)合自己所具備的相關(guān)領(lǐng)域知識(shí)和問(wèn)題標(biāo)題、問(wèn)題描述等信息,來(lái)產(chǎn)生自己的答案,此時(shí)用戶所產(chǎn)生的答案通常體現(xiàn)了他們?cè)趩?wèn)題相關(guān)領(lǐng)域的話題類別。即問(wèn)題和回答者共同決定了生成答案的話題分布?;诖耍疚囊訪DA模型為基礎(chǔ),同時(shí)加入問(wèn)題和回答者信息,提出一種問(wèn)題-回答者-話題(QAT)模型。

        QAT模型的直觀含義是:?jiǎn)栴}和回答者共同決定了回答者在每個(gè)問(wèn)題下生成的答案的話題分布,而答案的話題決定了詞的生成。與LDA模型類似,QAT模型仍然是層次式的貝葉斯概率模型,它包含詞、話題、文檔、問(wèn)題-回答者對(duì)這4層結(jié)構(gòu),其概率圖模型如圖2所示。

        圖2 QAT模型盤(pán)式表示

        在QAT模型中,每篇答案d對(duì)應(yīng)一個(gè)問(wèn)題q和回答者a組成的問(wèn)題-回答者對(duì)qa。每個(gè)qa對(duì)應(yīng)的話題的多項(xiàng)式分布為θqa,每個(gè)話題對(duì)應(yīng)詞的多項(xiàng)式分布為φt。該模型的形式化描述詳見(jiàn)算法1:首先,根據(jù)Dirichlet超參數(shù)分布分別采樣問(wèn)題-回答者對(duì)-話題分布θ、話題-詞分布φ,其分別服從Dirichlet分布Dir(α)、Dir(β);然后,對(duì)于每篇答案中的每個(gè)詞,根據(jù)答案對(duì)應(yīng)問(wèn)題-回答者對(duì)的話題分布θ采樣生成一個(gè)話題z,z服從多項(xiàng)式分布Mul(θ);最后,基于生成的話題z獨(dú)立地從話題-詞分布φ中采樣生成一個(gè)詞w,w服從多項(xiàng)式分布Mul(φ)。

        算法1QAT模型的生成過(guò)程

        輸入:α、β、D、T、QA

        輸出:答案文本

        for每個(gè)問(wèn)題-回答者對(duì)qa∈QA do

        根據(jù)超參數(shù)α采樣問(wèn)題-回答者對(duì)的話題分布θqa~Dir(α);

        end for

        for每個(gè)話題z∈T do

        根據(jù)超參數(shù)β采樣話題的詞分布φz~Dir(β);

        end for

        for每篇答案d∈[1,D]以及答案對(duì)應(yīng)的問(wèn)題-回答者對(duì)qa do

        for每個(gè)詞n∈[1,Nd] do

        根據(jù)θqa采樣一個(gè)話題zdn~Mul(θqa);

        根據(jù)φzdn采樣一個(gè)詞wdn~Mul(φzdn);

        end for

        end for

        給定超參數(shù)α、β以及答案d對(duì)應(yīng)的問(wèn)題-回答者對(duì)qa,語(yǔ)料庫(kù)的生成概率如公式(1)所示。

        P(θ,φ,z,w|α,β,qa)

        (1)

        2.2.2 參數(shù)估計(jì)

        Gibbs采樣是Markov鏈Monte Carlo理論(MCMC)中用來(lái)獲取一系列近似等于指定多維概率分布觀察樣本的算法,它通過(guò)迭代采樣來(lái)對(duì)高維復(fù)雜的概率分布進(jìn)行推導(dǎo)。本文采用Gibbs采樣算法來(lái)近似推導(dǎo)QAT模型。為了得到參數(shù)θ、φ,需要計(jì)算詞wdn的話題指派的條件分布p(zdn|z,qa,w,α,β),其中,z指答案d中除第n個(gè)詞外的其它所有詞的話題指派。

        為了簡(jiǎn)化公式描述,引入Δ函數(shù)來(lái)統(tǒng)一表示隱變量θ、φ,含有M維Dirichlet均勻先驗(yàn)δ的Δ函數(shù)被定義為如公式(2)所示:

        ΔM(δ)=Γ(δM)/Γ(Mδ)

        (2)

        其中Γ(·)是伽馬函數(shù)。

        基于圖2所示概率圖模型定義的條件獨(dú)立性假設(shè),給定所有超參數(shù),則話題、問(wèn)題-回答者對(duì)、詞的聯(lián)合分布可以形式化為公式(3)所示:

        P(z,w|α,β)=P(z|α)P(w|z,β)

        (3)

        P(zdn|z,qa,w,α,β)

        (4)

        Gibbs采樣收斂后,就可以根據(jù)采樣結(jié)果估計(jì)問(wèn)題-回答者對(duì)-話題分布θ與話題-詞分布φ,分別如公式(5)和公式(6)所示。

        (5)

        (6)

        2.3 融入點(diǎn)贊信息計(jì)算用戶的專業(yè)水平

        問(wèn)答社區(qū)中的點(diǎn)贊信息作為社區(qū)中瀏覽者對(duì)答案質(zhì)量的一種反饋行為,直接反映了回答者在每個(gè)問(wèn)題下的專業(yè)水平,一個(gè)具備較高專業(yè)水平的回答者所產(chǎn)生的答案往往會(huì)收獲更多的點(diǎn)贊數(shù)。因此,本文考慮融入用戶在每個(gè)問(wèn)題下的答案點(diǎn)贊信息來(lái)更加準(zhǔn)確地衡量用戶的專業(yè)水平。

        利用回答者在每個(gè)問(wèn)題下產(chǎn)生答案所收獲的點(diǎn)贊數(shù)目信息計(jì)算用戶在該問(wèn)題下的答案質(zhì)量權(quán)重,計(jì)算公式如公式(7)所示。

        (7)

        其中v(q,a)表示回答者a在問(wèn)題q下的答案質(zhì)量權(quán)重,Nq表示問(wèn)題q下所有答案的數(shù)目,na表示回答者a在問(wèn)題q下的答案所獲點(diǎn)贊數(shù)。

        然后將回答者在每個(gè)問(wèn)題下的答案質(zhì)量權(quán)重除以該用戶所有答案的質(zhì)量權(quán)重總和作為加權(quán)因子,對(duì)公式(5)得到的每個(gè)問(wèn)題-回答者對(duì)qa的話題分布θ(qa)z進(jìn)行加權(quán)求和,得到回答者在不同話題下的專業(yè)水平得分,其定義如公式(8)所示。

        (8)

        其中EX(ui,z)表示用戶ui在話題z下的專業(yè)水平,Qi表示用戶ui回答問(wèn)題總數(shù),θ(jui)z表示QAT模型推斷出的問(wèn)題j和回答者ui所組成的問(wèn)題-回答者對(duì)jui在話題z下分布的概率。

        2.4 用戶問(wèn)答關(guān)系網(wǎng)絡(luò)

        QAT模型是對(duì)問(wèn)題-回答者信息和文本信息進(jìn)行建模的多隱變量模型,可以根據(jù)用戶的話題分布用來(lái)發(fā)現(xiàn)用戶的領(lǐng)域?qū)iL(zhǎng),并融入答案的點(diǎn)贊信息來(lái)計(jì)算用戶在領(lǐng)域內(nèi)話題下的專業(yè)程度。然而,用戶關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)對(duì)于領(lǐng)域話題下專家專業(yè)水平和權(quán)威度的度量同樣重要。為了得到用戶的網(wǎng)絡(luò)權(quán)威度,本文構(gòu)建問(wèn)答關(guān)系網(wǎng)絡(luò)來(lái)計(jì)算其在網(wǎng)絡(luò)中的重要度。

        在問(wèn)答社區(qū)中,用戶i提出問(wèn)題q,用戶j對(duì)此問(wèn)題進(jìn)行回答,則用戶i和用戶j通過(guò)提問(wèn)-回答的交互產(chǎn)生鏈接關(guān)系。用戶之間問(wèn)答交互的鏈接關(guān)系可以表示為圖3所示,用戶1提出問(wèn)題1,用戶2和用戶3回答問(wèn)題1。通過(guò)這種問(wèn)答交互抽取用戶之間關(guān)系,轉(zhuǎn)化為用戶1分別指向用戶2和用戶3的有向邊,如圖4所示。按照這種方法,構(gòu)建用戶問(wèn)答關(guān)系網(wǎng)絡(luò)。

        用戶問(wèn)答關(guān)系網(wǎng)絡(luò)圖可以形式化為:G=(V,E),其中V={ui}表示領(lǐng)域內(nèi)所有用戶的集合,E={(eij,wij)}表示領(lǐng)域內(nèi)所有有向邊集合,eij為一條邊,表示用戶j回答了用戶i提出的問(wèn)題,wij為邊eij的權(quán)重,表示用戶j回答用戶i所有問(wèn)題的數(shù)目。

        圖3 用戶-問(wèn)題關(guān)系網(wǎng)絡(luò)圖

        圖4 問(wèn)答關(guān)系網(wǎng)絡(luò)圖

        2.5 融合鏈接分析計(jì)算用戶最終專家得分

        根據(jù)已經(jīng)建立好的用戶問(wèn)答關(guān)系網(wǎng)絡(luò),可以利用隨機(jī)游走的方法,求得網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)訪問(wèn)概率的平穩(wěn)分布。在最初利用PageRank算法進(jìn)行專家發(fā)現(xiàn)時(shí),遠(yuǎn)程跳轉(zhuǎn)時(shí)隨機(jī)跳向每個(gè)節(jié)點(diǎn)的概率都是相同的。后來(lái)Zhou等人[9]根據(jù)話題下用戶的相似度設(shè)置隨機(jī)游走跳轉(zhuǎn)概率,提出基于主題敏感PageRank算法的改進(jìn)模型。

        考慮到在隨機(jī)跳轉(zhuǎn)時(shí),往往會(huì)傾向于跳轉(zhuǎn)到專業(yè)水平較高的用戶節(jié)點(diǎn)。因此,與傳統(tǒng)的主題敏感的PageRank算法不同,本文將公式(8)計(jì)算得到的融合點(diǎn)贊信息的用戶話題專業(yè)水平值作為隨機(jī)跳轉(zhuǎn)值,提出一種融合用戶話題專業(yè)水平的主題敏感PageRank算法,求解給定話題z下,用戶的最終專家得分,其定義如公式(9)所示。

        PR(ui,z)=(1-d)EX(ui,z)+

        (9)

        其中PR(ui,z)表示用戶ui在話題z下最終的專家得分,U(ui)為指向用戶ui的所有用戶的集合,N為用戶uj所指向用戶的集合。對(duì)于只參與提問(wèn)而未回答過(guò)問(wèn)題的用戶ui,本文認(rèn)為其專業(yè)水平較低,從而將其EX(ui,z)值設(shè)置為0。

        3 實(shí)驗(yàn)結(jié)果與分析

        本章將基于知乎網(wǎng)人工智能領(lǐng)域的真實(shí)問(wèn)答數(shù)據(jù)集對(duì)提出的方法進(jìn)行實(shí)驗(yàn)驗(yàn)證分析。

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        本文采用的數(shù)據(jù)來(lái)自中文在線問(wèn)答社區(qū)知乎網(wǎng),采集了知乎網(wǎng)人工智能領(lǐng)域下的4396個(gè)精華問(wèn)題及其相關(guān)信息。每個(gè)問(wèn)題的信息包括:

        1)文本信息:?jiǎn)栴}標(biāo)題、問(wèn)題描述以及問(wèn)題下的所有答案。

        2)用戶信息:?jiǎn)栴}提問(wèn)者和回答者的用戶ID。

        3)行為信息:每條答案的被點(diǎn)贊數(shù)目。

        首先對(duì)采集的數(shù)據(jù)進(jìn)行必要的預(yù)處理,包括去除字?jǐn)?shù)答案中少于150字的短文本信息與對(duì)應(yīng)回答者,去除文本中的代碼塊、HTML標(biāo)記和URL鏈接,然后采用NLPIR分詞工具進(jìn)行分詞,在分詞的過(guò)程中去除停用詞和低頻詞,利用TF-IDF方法計(jì)算低權(quán)重詞并去除,最終得到處理后的數(shù)據(jù)集統(tǒng)計(jì)信息如表2所示。

        表2 數(shù)據(jù)集統(tǒng)計(jì)信息

        項(xiàng)目數(shù)量問(wèn)題數(shù)量4396答案數(shù)目56894提問(wèn)者數(shù)目2368回答者數(shù)目16328去除短文本后回答者數(shù)目13331數(shù)據(jù)集詞數(shù)126976有效詞數(shù)63675

        除此之外,知乎網(wǎng)也給出了人工智能領(lǐng)域下的話題劃分,包含自然語(yǔ)言處理、圖像識(shí)別等共20個(gè)話題,在劃分的每個(gè)話題下,知乎網(wǎng)列出了該話題下推選出的優(yōu)秀回答者列表。將這些知乎網(wǎng)劃分的話題根據(jù)關(guān)鍵字與本文方法所得到的話題做一一映射,并采集各個(gè)話題下優(yōu)秀回答者列表中的用戶ID,用本文提出的方法所得到的各個(gè)話題下的專家用戶和采集到的知乎網(wǎng)推選出的各話題下專家用戶做對(duì)比,分析驗(yàn)證實(shí)驗(yàn)結(jié)果。

        3.2 評(píng)價(jià)指標(biāo)

        為了定量評(píng)價(jià)本文提出的方法在領(lǐng)域?qū)<野l(fā)現(xiàn)方面的性能,將得到的話題與采集到的已有話題進(jìn)行映射,然后將映射后各個(gè)話題下的專家用戶與知乎網(wǎng)各個(gè)話題下推薦的專家求交集,具體地選出每個(gè)話題下得到的前10、20、50、100個(gè)用戶,計(jì)算每個(gè)話題下的命中率,最終通過(guò)計(jì)算所有話題下的平均命中率,作為實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)。

        3.3 對(duì)比方法

        為了對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比評(píng)價(jià),選取目前已有的效果較好的專家發(fā)現(xiàn)方法作為對(duì)比,對(duì)比方法包括:

        1)PageRank。該方法由于只使用鏈接分析的方法進(jìn)行專家排序,并未包含隱話題,因此,在使用其作為基準(zhǔn)方法時(shí),本文用它發(fā)現(xiàn)的人工智能領(lǐng)域下所有專家用戶分別與采集到的各個(gè)話題下的專家用戶做對(duì)比,然后計(jì)算平均準(zhǔn)確率。

        2)HITS。該方法與PageRank方法類似,也未包含隱話題。同樣,在使用此方法作為基準(zhǔn)方法時(shí),本文用該方法發(fā)現(xiàn)的人工智能領(lǐng)域下所有專家用戶分別與采集到的各個(gè)話題下的專家用戶做對(duì)比,然后計(jì)算平均準(zhǔn)確率。

        3)InDegree(ID)。該方法[6]通過(guò)計(jì)算用戶在回答問(wèn)題時(shí)獲得問(wèn)題最佳回答者的次數(shù)來(lái)作為評(píng)判標(biāo)準(zhǔn)識(shí)別專家用戶。在實(shí)驗(yàn)中,將每個(gè)問(wèn)題下獲贊最多的用戶標(biāo)記為問(wèn)題的最佳回答者。與PageRank類似,由于該方法不會(huì)產(chǎn)生隱話題分布,本文將該方法識(shí)別出的專家用戶分別與采集到的各個(gè)話題下的專家用戶做對(duì)比,然后計(jì)算平均準(zhǔn)確率。

        4)TSPR。這是Zhou等人[9]提出的綜合話題模型和鏈接分析方法的混合模型。其中,話題模型為L(zhǎng)DA的改進(jìn)模型——用戶話題模型(User-Topic Model),該模型將每位用戶產(chǎn)生的問(wèn)題和答案綜合起來(lái)當(dāng)成一篇文檔,并假設(shè)每位用戶決定了其文檔話題的生成,而話題決定了詞的生成。模型利用所有用戶產(chǎn)生的文檔集合對(duì)每位用戶的話題分布進(jìn)行建模,求解得到每位用戶的話題分布,其概率圖模型如圖5所示。圖中D表示所有用戶產(chǎn)生的文檔集合,Nd表示用戶u所產(chǎn)生文檔的詞數(shù)。該模型的生成過(guò)程是首先根據(jù)用戶u的話題分布θ隨機(jī)采樣生成一個(gè)話題z,z服從多項(xiàng)式分布Mul(θ);然后基于生成的話題z,從話題-詞分布φ中采樣生成一個(gè)詞w,w服從多項(xiàng)式分布Mul(φ)。重復(fù)上述生成過(guò)程直到文檔中所有詞均已生成。與QAT模型求解問(wèn)題-回答者對(duì)的話題分布不同,用戶話題模型以用戶為中心求解每個(gè)用戶的話題分布。在結(jié)合鏈接分析時(shí),TSPR將用戶之間的話題相似度作為影響鏈接跳轉(zhuǎn)的因子,并分別計(jì)算用戶在每個(gè)話題下的專家水平,最后對(duì)各個(gè)話題下的用戶進(jìn)行排序。

        5)QAT-VOTE。本文提出的結(jié)合QAT和點(diǎn)贊行為信息計(jì)算用戶專家專業(yè)水平得分的方法。

        6)QAT-VOTE-LA。本文提出的結(jié)合QAT和點(diǎn)贊行為信息計(jì)算專家用戶專業(yè)水平得分,并融合鏈接分析計(jì)算用戶最終綜合專家得分的方法。

        圖5 TSPR中用戶話題模型盤(pán)式表示

        3.4 參數(shù)設(shè)置

        在實(shí)驗(yàn)中,本文對(duì)各種方法需要的實(shí)驗(yàn)參數(shù)進(jìn)行相同的設(shè)置。對(duì)于話題數(shù)目,為了和知乎網(wǎng)已有話題數(shù)目統(tǒng)一,設(shè)置話題數(shù)目T=20。對(duì)于Dirichlet超參數(shù),根據(jù)文獻(xiàn)[20],將其設(shè)置為固定值:α=50/T、β=0.05。在模型訓(xùn)練的過(guò)程中,發(fā)現(xiàn)在迭代次數(shù)達(dá)到1500次時(shí)基本達(dá)到收斂,因此本文將迭代次數(shù)設(shè)置為2000。對(duì)于參數(shù)d,將其設(shè)置為0.85。

        3.5 實(shí)驗(yàn)結(jié)果

        3.5.1 QAT模型話題聚集結(jié)果

        在QAT模型迭代收斂后,通過(guò)公式(6)計(jì)算得到每個(gè)話題下的詞分布。通過(guò)人工分析每個(gè)話題下的詞義,將QAT模型產(chǎn)生的20個(gè)話題和已有知乎網(wǎng)人工智能領(lǐng)域中的話題做映射,并從20個(gè)話題中隨機(jī)選擇10個(gè)話題,列舉出每個(gè)話題下的前10個(gè)話題詞,如表3所示??梢园l(fā)現(xiàn),QAT模型聚集出來(lái)的話題之間區(qū)別較為明顯,而且每個(gè)話題的語(yǔ)義也較為容易理解,每個(gè)話題在語(yǔ)義上都與話題有較強(qiáng)的相關(guān)性。

        表3 QAT話題模型話題聚集效果

        3.5.2 領(lǐng)域?qū)<野l(fā)現(xiàn)結(jié)果

        將本文提出的QAT-VOTE和QAT-VOTE-LA這2種方法,與4種常用的專家發(fā)現(xiàn)方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表4所示。

        表4 各種方法的專家發(fā)現(xiàn)命中率結(jié)果對(duì)比

        從表4中可以看出,PageRank算法的結(jié)果要好于HITS,這是因?yàn)镠ITS算法中有權(quán)威度(Authority)和中心度(Hub)2個(gè)指標(biāo)。權(quán)威度體現(xiàn)了用戶作為回答者時(shí)的重要性,而中心度體現(xiàn)了用戶作為提問(wèn)者時(shí)的重要性。這2個(gè)指標(biāo)是相互關(guān)聯(lián)耦合的,所以一些提問(wèn)較多的用戶會(huì)影響作為回答者時(shí)的權(quán)威度。

        InDegree算法的結(jié)果比所有方法的結(jié)果都要低,這是因?yàn)镮nDegree僅根據(jù)用戶在回答的問(wèn)題中獲得最佳回答者的數(shù)量來(lái)進(jìn)行專家排序,而沒(méi)有考慮更多例如用戶話題分布情況、用戶鏈接關(guān)系情況等情形。

        TSPR方法的結(jié)果優(yōu)于PageRank、HITS、InDegree和QAT-VOTE方法。這是因?yàn)镻ageRank和HITS算法僅考慮用戶之間的鏈接關(guān)系,InDegree僅考慮用戶作為最佳回答者的數(shù)量信息。QAT-VOTE方法雖然考慮了結(jié)合話題模型和點(diǎn)贊信息,但是并沒(méi)有融合鏈接分析的方法。而TSPR方法既使用LDA改進(jìn)模型對(duì)每個(gè)作者的話題分布進(jìn)行建模,又使用主題敏感PageRank改進(jìn)模型進(jìn)行用戶專家得分計(jì)算。這也在一定程度上說(shuō)明了話題模型和鏈接分析相結(jié)合的方法,在在線問(wèn)答社區(qū)專家發(fā)現(xiàn)研究中傾向于取得更好的結(jié)果。

        本文提出的QAT-VOTE-LA方法,結(jié)果明顯好于前面幾種方法。這是因?yàn)門SPR在使用話題模型時(shí),僅從用戶產(chǎn)生內(nèi)容的角度,對(duì)每位用戶的話題分布進(jìn)行建模,而未考慮用戶在回答問(wèn)題時(shí),問(wèn)題本身也會(huì)對(duì)用戶所產(chǎn)生答案的話題分布產(chǎn)生約束。與TSPR不同,本文提出的QAT模型對(duì)問(wèn)題和回答者組成的問(wèn)題-回答者對(duì)的話題分布進(jìn)行建模,從而對(duì)話題有著更好的聚集效果。此外,QAT-VOTE-LA也引入了每個(gè)答案的獲贊數(shù)據(jù)計(jì)算用戶在每個(gè)話題下的專業(yè)水平,因此,在衡量用戶在各個(gè)話題下的專業(yè)水平時(shí)有著更好的效果。綜合起來(lái),其實(shí)驗(yàn)結(jié)果相較TSPR有明顯的提升。

        4 結(jié)束語(yǔ)

        本文首先根據(jù)在線問(wèn)答社區(qū)中答案的產(chǎn)生過(guò)程,提出了問(wèn)題-回答者-話題(QAT)模型,對(duì)某一領(lǐng)域中問(wèn)題-回答者對(duì)的話題分布進(jìn)行建模;然后在該模型的基礎(chǔ)上,融入每條答案的點(diǎn)贊信息,計(jì)算用戶在領(lǐng)域不同話題分布下的專業(yè)水平;最后結(jié)合鏈接分析的方法,提出一種基于主題敏感PageRank方法的改進(jìn)模型,來(lái)進(jìn)行領(lǐng)域?qū)<野l(fā)現(xiàn)。與傳統(tǒng)的問(wèn)答社區(qū)專家發(fā)現(xiàn)方法相比,本文提出的方法不僅考慮了問(wèn)題-回答者之間話題分布的約束關(guān)系,還將每個(gè)答案的點(diǎn)贊信息作為用戶專業(yè)水平的評(píng)判因素之一,而且還結(jié)合了鏈接分析的方法,因而可以有效地發(fā)現(xiàn)在線問(wèn)答社區(qū)中的領(lǐng)域?qū)<矣脩簟1疚奶岢龅姆椒梢杂糜谠诰€問(wèn)答社區(qū)問(wèn)題推薦和專家推薦等具體的應(yīng)用場(chǎng)景,并以此提高在線問(wèn)答社區(qū)的用戶粘性。

        本文提出的方法也有一定的不足之處。例如,用戶的專業(yè)水平和鏈接關(guān)系往往會(huì)隨著時(shí)間的變化而變化,本文并未將時(shí)序因素考慮在內(nèi),這是一個(gè)有待于繼續(xù)研究的問(wèn)題。

        猜你喜歡
        回答者專家社區(qū)
        致謝審稿專家
        社區(qū)大作戰(zhàn)
        幼兒園(2021年6期)2021-07-28 07:42:08
        3D打印社區(qū)
        接夢(mèng)話
        在社區(qū)推行“互助式”治理
        分答與知識(shí)共享
        請(qǐng)叫我專家
        專家面對(duì)面
        高考模擬題精選之情景交際題參考答案
        如何積極應(yīng)對(duì)社區(qū)老年抑郁癥
        在线视频中文字幕一区二区三区 | 国产成人美女AV| 亚洲传媒av一区二区三区| 亚洲一区二区三区偷拍厕所| 男人边做边吃奶头视频| 在教室伦流澡到高潮h麻豆| 国产精品伦人视频免费看| 91快射视频在线观看| 无码无套少妇毛多18p| 免费人成视频在线观看网站| 国产三级黄色在线观看| 国产我不卡在线观看免费| 中文亚洲av片不卡在线观看| 久久久久久免费毛片精品| 中文字幕国产精品中文字幕| 小黄片免费在线播放观看| 久久久久亚洲av无码专区首| 在线va免费看成| 亚洲精品综合色区二区| 中文字幕一区二三区麻豆| 人妻少妇乱子伦无码视频专区 | 精品中文字幕制服中文| 亚洲激情视频在线观看a五月| 精品亚洲成a人在线观看| 亚洲男同志网站| 亚洲AⅤ男人的天堂在线观看| 在线视频观看一区二区| 亚洲av综合av成人小说| 爱a久久片| 亚洲av免费高清不卡| 国产自拍精品一区在线观看| 熟妇人妻av中文字幕老熟妇| 一区二区三区内射视频在线观看 | 在线视频免费自拍亚洲| 性猛交ⅹxxx富婆视频| 精品欧美乱码久久久久久1区2区| 久久无码中文字幕东京热| 一区二区三区四区中文字幕av| 午夜视频在线在免费| 久久亚洲AV成人一二三区| 国产自拍成人在线免费视频|