杜 卿 王齊軒 黃東平 蔡 毅 王 濤 閔華清(華南理工大學(xué)軟件學(xué)院,廣東廣州510006)
基于社交關(guān)系的問(wèn)答系統(tǒng)及最佳回答者推薦技術(shù)*
杜 卿 王齊軒 黃東平 蔡 毅?王 濤 閔華清
(華南理工大學(xué)軟件學(xué)院,廣東廣州510006)
近年來(lái),社區(qū)問(wèn)答服務(wù)系統(tǒng)(CQA)越來(lái)越受到人們的歡迎,但隨著提問(wèn)規(guī)模的膨脹,獲得回答的問(wèn)題比重逐步降低,且答案質(zhì)量無(wú)法得到保障.為了提高問(wèn)答系統(tǒng)中問(wèn)題被解答的概率,并提升答案可信度,文中提出了基于社交關(guān)系相似度的社交問(wèn)答系統(tǒng)(SQA),主動(dòng)尋找與提問(wèn)者社交關(guān)系緊密且能夠回答問(wèn)題的用戶,并提出了針對(duì)提問(wèn)者與最佳回答者的推薦方法.實(shí)驗(yàn)結(jié)果表明,在主觀性強(qiáng)或?qū)崟r(shí)性強(qiáng)等問(wèn)題集上,文中方法能更快地得到讓提問(wèn)者滿意的答案.
問(wèn)答系統(tǒng);社交關(guān)系相似度;社交網(wǎng)絡(luò)
問(wèn)答系統(tǒng)是信息檢索的一種方式,它支持用自然語(yǔ)言回答用戶用自然語(yǔ)言提出的問(wèn)題,相關(guān)的研究工作非常多[1-7].Guo等[2]將問(wèn)題推薦給用戶,以提高用戶的參與度.Zhou等[3]利用語(yǔ)言模型分析用戶的歷史問(wèn)答數(shù)據(jù),得到他們?cè)诓煌I(lǐng)域的專業(yè)度,然后有針對(duì)性地推薦問(wèn)題.Zhang等[4]通過(guò)對(duì)一個(gè)Java開發(fā)者論壇的研究,發(fā)現(xiàn)一個(gè)問(wèn)題的平均回復(fù)時(shí)間是9h.Li等[5]通過(guò)研究用戶社交圈的知識(shí)覆蓋度,發(fā)現(xiàn)用戶社交圈所覆蓋的知識(shí)面并不廣,這是因?yàn)榕d趣相似的用戶更容易聚集.Mamykina等[6]發(fā)現(xiàn)在StackOverflow網(wǎng)站上一個(gè)軟件開發(fā)者的提問(wèn)平均11min就能得到答復(fù).Li等[7]發(fā)現(xiàn)提問(wèn)者和用戶在話題中的互動(dòng)會(huì)影響問(wèn)答過(guò)程,提出了一種基于互動(dòng)增強(qiáng)標(biāo)簽的傳播算法來(lái)預(yù)測(cè)答案質(zhì)量.
近幾年來(lái),以社區(qū)問(wèn)答系統(tǒng)(CQA)為代表的交互式問(wèn)答系統(tǒng)廣受歡迎.Yahoo!Answer、百度知道、騰訊問(wèn)問(wèn)等網(wǎng)站提供在線提問(wèn)以及回答問(wèn)題的交流平臺(tái),為用戶解決了成千上萬(wàn)的疑問(wèn).Yahoo!Answer每天會(huì)有90 000個(gè)新問(wèn)題被提出.
社區(qū)問(wèn)答系統(tǒng)在為用戶創(chuàng)造便利的同時(shí),也存在著一定的局限性.首先,部分回答的答案質(zhì)量不高.由于系統(tǒng)對(duì)回答者沒有約束,有些回答者并不真正了解相關(guān)知識(shí),他們提供的答案不一定能夠很好地解決提問(wèn)者的疑惑.甚至有些網(wǎng)絡(luò)用戶單純?yōu)榱速嵢》e分而隨意回答,其答案沒有任何價(jià)值.其次,問(wèn)題解答的效率不高,缺乏時(shí)效性.由于新問(wèn)題不斷被提出,問(wèn)題數(shù)量增長(zhǎng)非常快,而回答問(wèn)題的人相對(duì)較少,一個(gè)問(wèn)題被提出后,往往需要等待相當(dāng)長(zhǎng)的時(shí)間才有人回答,還有一部分問(wèn)題根本沒有人回答.因此,當(dāng)前CQA系統(tǒng)中存在兩個(gè)亟待解決的瓶頸問(wèn)題:①提高答案質(zhì)量,尋找熟悉問(wèn)題所屬領(lǐng)域的專業(yè)回答者;②提高問(wèn)題的解答比例,提升用戶參與答題的意愿.
社會(huì)心理學(xué)的研究認(rèn)為那些與提問(wèn)者有人際關(guān)系的用戶比其他人更愿意回答問(wèn)題,同時(shí)提問(wèn)者對(duì)認(rèn)識(shí)人的答案更有信任感.例如,Horowitz等[8]證實(shí)朋友比陌生人更愿意也更有效地解答問(wèn)題. Morris等[9-10]的研究發(fā)現(xiàn),在小規(guī)模的研討中,很多參與者的問(wèn)題都是被關(guān)系緊密的朋友解決的,而且友誼的緊密程度是對(duì)回答問(wèn)題的一種激勵(lì)因子,每種親密程度的人群都會(huì)樂意回答問(wèn)題.現(xiàn)實(shí)生活中,人們遇到問(wèn)題時(shí)首先想到的是問(wèn)朋友,但在大多時(shí)候,人們并不了解朋友是否熟悉問(wèn)題所屬領(lǐng)域,盲目地詢問(wèn)可能會(huì)浪費(fèi)大量的時(shí)間和精力.因此,隨著社交網(wǎng)絡(luò)的發(fā)展,學(xué)術(shù)界和產(chǎn)業(yè)界都提出了一些將社交網(wǎng)絡(luò)應(yīng)用于問(wèn)答系統(tǒng)的方法.如Nardi等[11]提出“并不是查詢你知道什么,而是查詢你認(rèn)識(shí)誰(shuí)”.社交搜索引擎Aardvark會(huì)將用戶的提問(wèn)遞交給用戶的延伸社交網(wǎng)絡(luò)(如Facebook、LinkedIn等)中最有可能回答這個(gè)問(wèn)題的人[12].而網(wǎng)絡(luò)問(wèn)答社區(qū)知乎網(wǎng)通過(guò)建立關(guān)系社區(qū)來(lái)幫助用戶找到更好的答案. Quora的用戶可以對(duì)特定的主題和專家加關(guān)注,就像在Twitter和微博中對(duì)感興趣的人物加關(guān)注一樣,之后就可以回答已關(guān)注主題下面的問(wèn)題,并向已關(guān)注的專家提問(wèn).
考慮到用戶在社交網(wǎng)絡(luò)上的言論和行為可以反映用戶的關(guān)注領(lǐng)域,文中提出了基于社交關(guān)系相似度的社交問(wèn)答系統(tǒng)(SQA),該系統(tǒng)基于社交網(wǎng)絡(luò)提供問(wèn)答服務(wù),在提問(wèn)者信任的用戶群中推薦能回答問(wèn)題的最佳回答者.現(xiàn)有的社區(qū)問(wèn)答系統(tǒng)中提問(wèn)者對(duì)答案的信任來(lái)自于回答者在問(wèn)題領(lǐng)域的權(quán)威性,屬于圖書館范型的系統(tǒng);而社交問(wèn)答系統(tǒng)中用戶對(duì)答案的信任來(lái)自于其和回答者的關(guān)系親密度,屬于鄉(xiāng)村范型的系統(tǒng).結(jié)合目前的研究熱點(diǎn)推薦系統(tǒng)[13]和個(gè)性化檢索技術(shù)[4-5],文中還提出了一種基于提問(wèn)者社交網(wǎng)絡(luò)關(guān)系的最佳回答者推薦方法.該方法首先分析提問(wèn)者的社交關(guān)系,從與提問(wèn)者有直接或間接社交關(guān)系的用戶中找到那些能夠回答問(wèn)題的潛在回答者,然后度量潛在回答者對(duì)特定問(wèn)題提供高質(zhì)量答案的可能性,推薦有意愿回答且熟悉相關(guān)領(lǐng)域的最佳回答者.
1.1系統(tǒng)形式化定義
基于社交關(guān)系的問(wèn)答系統(tǒng)是一種新的個(gè)性化信息檢索方式.它能夠根據(jù)用戶提問(wèn),利用用戶的社交關(guān)系,給用戶推薦問(wèn)題的最佳回答者(即最有可能有效回答提問(wèn)者問(wèn)題的人).
定義1基于社交關(guān)系的問(wèn)答系統(tǒng)是根據(jù)用戶x的輸入問(wèn)題Qx,i和潛在回答者集合p,通過(guò)函數(shù)θ(θ:Qx,i×p→p')對(duì)潛在回答者按照其回答Qx,i的適合程度進(jìn)行排序,得到最佳潛在回答者集合p'.
假設(shè)張三暑假計(jì)劃去廣州旅游.他希望用社交問(wèn)答系統(tǒng)來(lái)收集一些關(guān)于廣州的信息.于是,他在微博上發(fā)布了這樣一條提問(wèn)(例1):“我打算去廣州旅游,誰(shuí)知道廣州有哪些好玩的景點(diǎn),在哪里才能夠吃到正宗的廣州美食?”
該問(wèn)題發(fā)布社交問(wèn)答系統(tǒng)之后,系統(tǒng)會(huì)執(zhí)行一系列的步驟來(lái)尋找最佳的回答者.首先,系統(tǒng)對(duì)用戶提問(wèn)進(jìn)行建模,生成問(wèn)題向量.同時(shí),系統(tǒng)對(duì)用戶的社交關(guān)系進(jìn)行建模,建立潛在回答者向量.最后,系統(tǒng)對(duì)問(wèn)題向量和潛在回答者向量進(jìn)行相似度計(jì)算,并進(jìn)一步優(yōu)化得到最佳回答者.具體流程圖如圖1所示.
圖1 社交問(wèn)答系統(tǒng)尋找回答者流程圖Fig.1Flowchart of searching respondents in social question answering system
1.2用戶提問(wèn)建模
用戶提出一個(gè)問(wèn)題后,系統(tǒng)得到這個(gè)問(wèn)題的文本,然后對(duì)該問(wèn)題進(jìn)行建模,將文本轉(zhuǎn)換成對(duì)應(yīng)的問(wèn)題向量.
定義2用戶x提出一個(gè)問(wèn)題i可以表示為一個(gè)問(wèn)題向量Qx,i,它是由若干個(gè)“關(guān)鍵詞:權(quán)重”組成的向量:Qx,i=(ti,1:fi,1,ti,2:fi,2,…,ti,k:fi,k,…,ti,n:fi,n),其中(ti,k:fi,k)是第k個(gè)關(guān)鍵詞ti,k和該關(guān)鍵詞在問(wèn)題文本中的權(quán)重fi,k.
對(duì)于中文文本,系統(tǒng)先要進(jìn)行分詞得到若干個(gè)有詞性標(biāo)注的詞,然后從中提取關(guān)鍵詞.句子中關(guān)鍵概念往往由名詞來(lái)表達(dá),因此系統(tǒng)提取名詞作為關(guān)鍵詞.
對(duì)于前面的提問(wèn),文中使用中科院ICTCLAS分詞系統(tǒng)進(jìn)行分詞,結(jié)果如下:
“我/rr打算/v去/vf廣州/ns旅游/vn,/wd誰(shuí)/ry知道/v廣州/ns有/vyou哪些/ry好玩/a的/ude1景點(diǎn)/n,/wd在/p哪里/rys才/d能夠/v吃/v到/v正宗/b的/ude1廣州/ns美食/n?/ww”,其中“n”表示普通名詞,“ns”表示地名,“vn”表示名動(dòng)詞,選取這幾種標(biāo)記的詞作為問(wèn)題向量的關(guān)鍵詞:“廣州”、“旅游”、“景點(diǎn)”、“美食”.
得到所有關(guān)鍵詞后,系統(tǒng)采用詞頻-逆向文件頻率算法(TF-IDF)計(jì)算關(guān)鍵詞權(quán)重:
其中,TFi是關(guān)鍵詞ti的詞頻,ni是關(guān)鍵詞ti在提問(wèn)中出現(xiàn)的次數(shù),是所有關(guān)鍵詞在提問(wèn)中出現(xiàn)的總次數(shù),IDFi是關(guān)鍵詞ti的概率分布交叉熵,D是系統(tǒng)中所有提問(wèn)的數(shù)量,Dw是出現(xiàn)關(guān)鍵詞ti的提問(wèn)的數(shù)量.例1中關(guān)鍵詞的權(quán)重計(jì)算結(jié)果如表1所示.
表1 例1中關(guān)鍵詞權(quán)重計(jì)算結(jié)果1)Table 1Weight calculation results of keywords in example one
因此,張三的提問(wèn)轉(zhuǎn)化為問(wèn)題向量的結(jié)果:
Q=(廣州:0.0212,旅游:0.0022,景點(diǎn):0.0015,美食:0.0053).
1.3潛在回答者的權(quán)重
用戶提問(wèn)后,社交問(wèn)答系統(tǒng)向用戶推薦既有回答問(wèn)題意愿又有回答問(wèn)題能力的回答者.從社會(huì)心理學(xué)的角度看,社會(huì)關(guān)系越好,用戶間的回答意愿越大,因此,文中用關(guān)系親密度來(lái)衡量用戶回答問(wèn)題的意愿.
常見的社交平臺(tái)上,直接的社交關(guān)系主要有“互相關(guān)注”關(guān)系和“單向關(guān)注”關(guān)系兩種,通常,“互相關(guān)注”關(guān)系的用戶間親密度更強(qiáng).文中首先將具有直接社交關(guān)系(即社交網(wǎng)絡(luò)第1層)的用戶放入潛在回答者集合,然后挖掘提問(wèn)者的間接社交關(guān)系.
考慮到社交關(guān)系的傳遞性,即“朋友的朋友可以通過(guò)互相介紹也成為朋友”,文中將第1層關(guān)系中與提問(wèn)者是“互相關(guān)注”的潛在回答者所擁有的其他直接社交關(guān)系的用戶,也放入潛在回答者集合中,他們是社交網(wǎng)絡(luò)上的第2層用戶,依此類推,直到挖掘到提問(wèn)者的第n層中的潛在回答者.
定義3第i層社交關(guān)系中的潛在回答者集合是第i層社交關(guān)系中“互相關(guān)注”關(guān)系用戶集合和“單向關(guān)注”關(guān)系用戶集合的并集,即Ri=Mi∪Oi,Mi=(mi,1,mi,2,…,mi,s),Oi=(oi,1,oi,2,…,oi,t),其中,Ri、Mi和Oi分別是第i層社交關(guān)系中的潛在回答者集合、“互相關(guān)注”關(guān)系用戶集合和“單向關(guān)注”關(guān)系用戶集合,mi,s是第i層第s個(gè)“互相關(guān)注”用戶,oi,t是第i層第t個(gè)“單向關(guān)注”用戶.
圖2中給出了用戶張三的社交關(guān)系圖.在例1中,用戶張三提出問(wèn)題后,系統(tǒng)從他的第1層社交關(guān)系開始搜索,找到是“互相關(guān)注”關(guān)系的李四和“單向關(guān)注”關(guān)系的王五、趙六作為第1層的潛在回答者,然后從第1層“互相關(guān)注”關(guān)系的李四繼續(xù)搜索,找到第2層“互相關(guān)注”的錢七,依此類推,直到第n層停止搜索.
圖2 用戶社交關(guān)系示意圖Fig.2Schematic diagram of user social relationship
不同社交關(guān)系、不同層次社交關(guān)系的潛在回答者與用戶間的親密關(guān)系是不一樣的,他們回答提問(wèn)的意愿也是不一樣的.“互相關(guān)注”關(guān)系的用戶一般比“單向關(guān)注”的用戶更愿意回答提問(wèn)者的問(wèn)題.此外,社交關(guān)系在傳遞的過(guò)程中,關(guān)系親密度通常會(huì)衰減,即第1層關(guān)系中潛在回答者的回答意愿會(huì)比其他層次的高.因此,文中對(duì)不同關(guān)系、不同層次潛在回答者的回答意愿設(shè)置權(quán)重值,作為最終決策的依據(jù)之一.
首先,不同社交關(guān)系之間的重要性是不一樣的,文中設(shè)置“互相關(guān)注”與“單向關(guān)注”的權(quán)重比為r.其次,不同層次的社交關(guān)系的重要性也是不一樣的.文中設(shè)置相鄰層次之間的權(quán)重比為c,即其中,wmi和woi分別是第i層“互相關(guān)注”和“單向關(guān)注”關(guān)系的權(quán)重系數(shù).
在第1層社交關(guān)系中,“互相關(guān)注”關(guān)系的用戶權(quán)重為wm1,則第i層社交關(guān)系中“互相關(guān)注”關(guān)系用戶的權(quán)重系數(shù)和“單向關(guān)注”關(guān)系用戶的權(quán)重系數(shù)分別為
1.4潛在回答者建模
對(duì)于社交網(wǎng)絡(luò)上的所有用戶,文中抓取他們?cè)谏缃痪W(wǎng)絡(luò)上的所有言論(包括原創(chuàng)、轉(zhuǎn)發(fā)、評(píng)論等)生成用戶的特征文檔;然后使用ICTCLAS分詞系統(tǒng)對(duì)特征文檔進(jìn)行分詞和詞性標(biāo)注,提取標(biāo)記詞匯中的名詞作為該文檔的關(guān)鍵詞,計(jì)算關(guān)鍵詞的TF-IDF作為權(quán)重,得到(關(guān)鍵詞:權(quán)重)對(duì)生成用戶向量.處理過(guò)程與創(chuàng)建問(wèn)題向量一致.
確定潛在回答者集合之后,根據(jù)問(wèn)題向量,濾掉用戶向量中無(wú)關(guān)的關(guān)鍵詞,建立一個(gè)與問(wèn)題向量維度一樣的潛在回答者向量.
定義4潛在回答者向量是若干個(gè)(關(guān)鍵詞:權(quán)重)對(duì)組成的向量:
其中,x是用戶,i是用戶x的提問(wèn),j是潛在回答者. Ax,i,j是提問(wèn)i的潛在回答者j組成的向量,(ti,k:fi,k)是提問(wèn)i中第k個(gè)關(guān)鍵詞ti,k和該關(guān)鍵詞在潛在回答者j特征文檔中的權(quán)重fj,k.
1.5潛在回答者向量?jī)?yōu)化
在社交網(wǎng)絡(luò)上,每個(gè)用戶通常擁有一系列個(gè)人信息標(biāo)簽,如居住地、愛好、工作等,這些標(biāo)簽往往是粗粒度(高層抽象化)信息.而微博的文本信息大多是細(xì)粒度(細(xì)致化)信息.研究發(fā)現(xiàn),粗粒度信息比細(xì)粒度信息更具代表性和概括性.例1中,假設(shè)張三的好友王五的愛好標(biāo)簽是“美食”.他在微博里可能會(huì)多次提到“魚香肉絲”、“水煮魚”等菜名,但沒出現(xiàn)“美食”這個(gè)關(guān)鍵詞,不過(guò)這并不代表王五不了解“美食”,反而他對(duì)“美食”相關(guān)問(wèn)題的回答更具權(quán)威性.因此,這些標(biāo)簽可以精準(zhǔn)地反映客戶的特征,對(duì)系統(tǒng)來(lái)說(shuō)是非常有用的.
系統(tǒng)只截取與用戶提問(wèn)相關(guān)的信息,如果某個(gè)標(biāo)簽與提問(wèn)關(guān)鍵詞匹配,那么這個(gè)潛在回答者了解相關(guān)問(wèn)題的可能性非常大.因此,文中根據(jù)這些標(biāo)簽對(duì)用戶向量Q進(jìn)行增強(qiáng),使其能更加具有用戶知識(shí)領(lǐng)域的特性.首先,對(duì)于已經(jīng)在用戶發(fā)表過(guò)的微博中出現(xiàn)的關(guān)鍵詞,文中使用如下公式對(duì)該標(biāo)簽/關(guān)鍵詞進(jìn)行增強(qiáng):
對(duì)于沒有出現(xiàn)在用戶微博但出現(xiàn)在用戶i的標(biāo)簽集合中的關(guān)鍵詞,文中將這些詞直接添加到向量Q中,并為其指定一個(gè)的權(quán)重值,即指定ti,k的(關(guān)鍵詞:權(quán)重)為(ti,k:2).在實(shí)際使用中,1和2的取值均為0.5,這是基于實(shí)驗(yàn)結(jié)果所取得的一個(gè)較好的經(jīng)驗(yàn)參數(shù).
例1中,假設(shè)張三的朋友李四居住在廣州,這表示李四是張三問(wèn)題的潛在回答者,因?yàn)樽≡趶V州比住在其他地方的人更有可能知道廣州的哪些景點(diǎn)值得去.因此,李四這個(gè)潛在回答者的權(quán)重應(yīng)被增強(qiáng).
1.6潛在回答者與問(wèn)題的匹配度
創(chuàng)建問(wèn)題向量Q及所有潛在回答者向量A之后,計(jì)算每個(gè)潛在回答者與該問(wèn)題的相關(guān)度,以此衡量潛在回答者提供高質(zhì)量答案的能力.文中利用兩個(gè)向量間的余弦相似度來(lái)計(jì)算相關(guān)度.問(wèn)題向量Qx,i和潛在回答者向量Ax,i,j的相似度為
其中,qx,i,t和ax,i,j,t分別是第t個(gè)關(guān)鍵詞在問(wèn)題向量和潛在回答者向量中的權(quán)重.
然后根據(jù)潛在回答者和提問(wèn)者的親密度權(quán)重對(duì)相關(guān)度進(jìn)行調(diào)整,得到最終的相關(guān)度:
其中,wi,j是對(duì)于問(wèn)題i潛在回答者j的權(quán)重.
最后,根據(jù)潛在回答者和提問(wèn)的相關(guān)度從高到低對(duì)潛在回答者進(jìn)行排序,得到最終的潛在回答者的排序結(jié)果Si,根據(jù)應(yīng)用需求從中提取前k個(gè)潛在回答者作為最佳回答者推薦給用戶.例1中,系統(tǒng)推薦的回答者大多是在社交網(wǎng)絡(luò)上討論過(guò)“旅游”、“廣州”、“美食”和“景點(diǎn)”的人,或者是住在廣州的人.
2.1問(wèn)題分類
文中對(duì)用于實(shí)驗(yàn)的問(wèn)題進(jìn)行分類,并測(cè)試系統(tǒng)對(duì)不同類型問(wèn)題的適用性.文中按照問(wèn)題的性質(zhì)進(jìn)行分類:
(1)特定領(lǐng)域?qū)I(yè)知識(shí).對(duì)特定領(lǐng)域的知識(shí)要求高,一般需要有該領(lǐng)域相關(guān)背景的人才能夠回答.如問(wèn)題“快速排序算法的復(fù)雜度是多少?”.
(2)實(shí)時(shí)性強(qiáng).用戶急切需要知道答案,等待時(shí)間不能太長(zhǎng).如問(wèn)題“上火引起的牙疼怎么快速止痛?”.
(3)主觀性強(qiáng).帶有很強(qiáng)的主觀性,不同的人可能有不同的回答.如問(wèn)題“魚香肉絲好吃嗎?”.
(4)經(jīng)驗(yàn)性強(qiáng).知識(shí)性不強(qiáng)但需要有相關(guān)的經(jīng)驗(yàn).如問(wèn)題“去廣州玩三天,怎么安排行程比較合理?”.
但把某一問(wèn)題歸到某一類是不精確的,因?yàn)橛械膯?wèn)題可能同時(shí)具備多個(gè)性質(zhì).因此,系統(tǒng)先對(duì)收集到的提問(wèn)進(jìn)行類別標(biāo)記,然后分析每個(gè)類別問(wèn)題的適用性.表2給出了幾個(gè)提問(wèn)的分類標(biāo)記.
表2 提問(wèn)分類標(biāo)記示例Table 2Question classification tag example
2.2實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)在新浪微博(weibo.com)上進(jìn)行測(cè)試.百度知道是目前國(guó)內(nèi)用戶量最多的問(wèn)答平臺(tái),文中從百度知道問(wèn)答分享平臺(tái)收集了60條提問(wèn),涵蓋4種類型的多個(gè)知識(shí)領(lǐng)域,包括已經(jīng)得到回答的和未被回答過(guò)的問(wèn)題.在這些提問(wèn)中,有78.33%的問(wèn)題已經(jīng)在微博上被提問(wèn)過(guò),即用戶以微博的形式求助好友來(lái)回答.有的問(wèn)題甚至被很多用戶以不同形式多次提問(wèn),如“佳能700D與尼康D5200哪個(gè)好?”,而21.67%的未曾在微博上被提問(wèn)過(guò)的問(wèn)題大多是特定領(lǐng)域?qū)I(yè)知識(shí)的問(wèn)題,如“快速排序法的平均時(shí)間復(fù)雜度是多少?”.
對(duì)于提問(wèn)的方式,文中采用由提問(wèn)用戶發(fā)表微博的方式進(jìn)行提問(wèn).首先,用戶在系統(tǒng)上提出問(wèn)題后,將自動(dòng)發(fā)表一條內(nèi)容為該問(wèn)題的微博,然后根據(jù)系統(tǒng)所推薦的回答者列表,采用社交網(wǎng)絡(luò)中的“@(提醒)”功能或者是“私信(站內(nèi)短消息)”功能提醒回答者回答該問(wèn)題.
實(shí)驗(yàn)統(tǒng)計(jì)問(wèn)題得到回答的概率P1和答案滿意度(即有效答案)的概率P2,用于評(píng)估文中算法的實(shí)用性.其中,
ki是為第i個(gè)問(wèn)題推薦的最佳回答者個(gè)數(shù),ci是最佳回答者中回答了提問(wèn)的個(gè)數(shù)(最佳回答者沒回答的情況包括最佳回答者拒絕回答或6h內(nèi)沒回復(fù)的提問(wèn)信息),ti是第i個(gè)問(wèn)題得到的答案?jìng)€(gè)數(shù),ui是有價(jià)值答案的個(gè)數(shù).答案是否有價(jià)值,文中請(qǐng)了解相關(guān)問(wèn)題的專家進(jìn)行評(píng)估.設(shè)置最佳回答者個(gè)數(shù)k為1、3、5,用戶社交關(guān)系搜索層數(shù)n=2,“互相關(guān)注”關(guān)系與“單向關(guān)注”關(guān)系的權(quán)重比r為2,相鄰層次之間的權(quán)重比c為2.
2.3結(jié)果分析
實(shí)驗(yàn)首先分4個(gè)步驟進(jìn)行:①在百度知道上收集相關(guān)問(wèn)題;②利用文中算法為每個(gè)問(wèn)題找到有社交關(guān)系的k個(gè)最佳回答者;③聯(lián)系最佳回答者,請(qǐng)他們來(lái)回答這些提問(wèn);④統(tǒng)計(jì)最佳回答者的反饋時(shí)間和答案質(zhì)量.最佳回答者數(shù)量k分別取1、2、3、4、5時(shí),問(wèn)題被回答的概率分別為37.5%、54.2%、59.4%、68.8%、70.4%,即問(wèn)題得到回答的概率隨著最佳回答者數(shù)量的增加而增加;當(dāng)k=5時(shí),問(wèn)題被回答的概率最高,有超過(guò)70%的咨詢都得到了答案.故在下面的實(shí)驗(yàn)中,最佳回答者個(gè)數(shù)取為5.
實(shí)驗(yàn)分兩組進(jìn)行,一組利用文中的推薦算法尋找k位最佳回答者,另一組隨機(jī)抽取提問(wèn)者的k位好友作為最佳回答者,k取不同值時(shí),問(wèn)題得到回答的概率如圖3所示.從圖中可以看出,利用文中推薦算法能夠得到更高的回答概率,而隨機(jī)抽取法的問(wèn)題被回答的概率相對(duì)較低,這是因?yàn)殡S機(jī)抽取的回答者大部分不了解提問(wèn)者的問(wèn)題,特別是涉及到專業(yè)知識(shí)的問(wèn)題;提問(wèn)沒有針對(duì)性,從而導(dǎo)致問(wèn)題的低回答概率.
圖3 采用不同方法時(shí)問(wèn)題被回答的概率對(duì)比Fig.3Comparison of answered probabilities of questions among different methods
不同類型問(wèn)題被回答的概率對(duì)比如圖4所示.從圖中可以看出,在社交問(wèn)答系統(tǒng)中不同類型的問(wèn)題得到回答的概率比較高,且大部分的回答者都是第1層社交關(guān)系的“互相關(guān)注”關(guān)系用戶.因?yàn)榈?層“互相關(guān)注”關(guān)系用戶很多是與提問(wèn)者相互認(rèn)識(shí),會(huì)比較樂意回答問(wèn)題.相對(duì)地,其他關(guān)系的用戶回答問(wèn)題的意愿低些,而且很多單向關(guān)注的人可能是名人、明星或機(jī)構(gòu),他們即使知道問(wèn)題的答案,也基本上不可能回答用戶的問(wèn)題.還有一部分是非活躍用戶,他們沒及時(shí)發(fā)現(xiàn)用戶發(fā)給他們的提問(wèn),因此也沒有在設(shè)定的時(shí)限內(nèi)回答.
圖4 不同類型問(wèn)題被回答的概率Fig.4Answered probabilities of different types of questions
圖5對(duì)比了不同問(wèn)答系統(tǒng)的答案滿意度.相對(duì)于百度知道,社交問(wèn)答系統(tǒng)具有更高的滿意度.其中,社交問(wèn)答系統(tǒng)在主觀性強(qiáng)、經(jīng)驗(yàn)性強(qiáng)的問(wèn)題上表現(xiàn)出更高的適應(yīng)性.
對(duì)于主觀性強(qiáng)的問(wèn)題,不同人看待不同回答可能有著不同的結(jié)論.因?yàn)橄鄬?duì)于陌生人,有一定社交關(guān)系的人的回答更容易讓人信服,而且社交網(wǎng)絡(luò)上互相關(guān)注的人,大多是與用戶興趣愛好相似的人,對(duì)主觀性問(wèn)題的看法也容易一致.因此,社交問(wèn)答系統(tǒng)對(duì)于這類問(wèn)題具有更高的適用性.
圖5 不同類型問(wèn)題的答案滿意度Fig.5Answer satisfaction of different types of questions
相反地,社交問(wèn)答系統(tǒng)在特定知識(shí)領(lǐng)域的問(wèn)題上效果比百度知道差.原因如下:有社交關(guān)系的人,往往是社會(huì)背景、教育程度類似的人,知識(shí)面比較相近.用戶不懂的問(wèn)題,他的社交圈朋友不了解的可能性也非常大.如主修計(jì)算機(jī)的張三讀到兩行詩(shī)很感興趣,他發(fā)表這樣一個(gè)提問(wèn):“‘人生若只如初見,何事秋風(fēng)悲畫扇?'是哪位詩(shī)人寫的?”,而他關(guān)注的人可能大都是類似行業(yè)、興趣的朋友,那么這個(gè)問(wèn)題能夠被回答的概率就比較低.而百度知道具有非常高的瀏覽量,且用戶來(lái)自不同的教育背景,能夠回答提問(wèn)的概率相對(duì)較高.
文中將回答時(shí)間分為幾種不同的類型.向最佳回答者發(fā)出提問(wèn)后,最佳回答者能夠在5 min內(nèi)回答的,標(biāo)記為“快速”;需要經(jīng)過(guò)短時(shí)間思考(30 min內(nèi))才能夠回答的,標(biāo)記為“短時(shí)間”;需要較長(zhǎng)時(shí)間思考(超過(guò)30 min)才能夠回答的,標(biāo)記為“長(zhǎng)時(shí)間”.
圖6 不同類型問(wèn)題在各時(shí)間段內(nèi)得到回答的概率Fig.6Probabilities of being answered of different types of questions in various periods
從圖6可以看出,社交問(wèn)答系統(tǒng)在回答時(shí)間上具有優(yōu)越性,大部分的提問(wèn)都能夠在較短時(shí)間內(nèi)(“快速”和“短時(shí)間”)被回答.特別是對(duì)時(shí)效性強(qiáng)、主觀性強(qiáng)的問(wèn)題,系統(tǒng)具有較好的適用性.而在百度知道上,大部分的問(wèn)題都需要等待較長(zhǎng)時(shí)間才有回復(fù).特別是隨著問(wèn)題數(shù)量的激增,有的問(wèn)題沒有人作答.文中提出的方法能很好地解決這個(gè)問(wèn)題,能夠讓用戶在較短時(shí)間內(nèi)得到滿意的答案.
針對(duì)社交網(wǎng)站與問(wèn)答咨詢系統(tǒng)的結(jié)合問(wèn)題,文中提出了一種基于用戶社交網(wǎng)絡(luò)關(guān)系的最佳問(wèn)題回答者推薦方法.通過(guò)社交問(wèn)答系統(tǒng),可以從那些與用戶有直接社交關(guān)系或有間接社交關(guān)系的人中找到一些了解與提問(wèn)相關(guān)、能夠回答用戶所提問(wèn)題的人.實(shí)驗(yàn)結(jié)果表明,這種方法能夠很好地為用戶找到有意愿回答且熟悉相關(guān)領(lǐng)域的合適回答者.
[1]AdamicLA,ZhangJ,BakshyE,et al.Ackerman knowledge sharing and yahoo answers:everyone knows somthing[C]//Proceedings of the 17th International Conference on World Wide Web.New York:ACM,2008:665-674.
[2]Guo J,Xu S,Bao S,et al.Tapping on the potential of Q&A community by recommending answer providers[C]// Proceedings of the 17th ACM Conference on Information and Knowledge Management.New York:ACM,2008:921-930.
[3]Zhou Y,Cong G,Cui B,et al.Routing questions to the right users in online communities[C]//Proceedings of the 2009 IEEE International Conference on Data Engineering.Washington D C:IEEE,2009:700-711.
[4]Zhang J,Ackerman M S,Adamic L,et al.Qume:a mechanism to support expertise finding in online help-seeking communities[C]//Proceedings of the 20th Annual ACM symposium on User Interface Software and Technology. New York:ACM,2007:111-114.
[5]LiZ,ShenH,GrantJE.Collectiveintelligence in the online social network of yahoo!answers and its implications[C]// Proceedings of the 21st ACM International Conference on Information and Knowledge Management.New York: ACM,2012:455-464.
[6]Mamykina L,Manoim B,Mittal M,et al.Design lessons from the fastest Q&A site in the west[C]//Proceedings of the SIGCHI Conference on Human Factors in Computing Systems.New York:ACM,2011:2857-2866.
[7]Li B,Jin T,Lyu M R,et al.Analyzing and predicting question quality in community question answering services[C]//Proceedings of the 21st International Conference Companion on World Wide Web.New York:ACM,2012:775-782.
[8]Horowitz D,Kamvar S D.The anatomy of a large-scale social search engine[C]//Proceedings of the 19th International Conference on World Wide Web.New York:ACM,2010:431-440.
[9]Morris M R,Teevan J,Panovich K.A comparison of information seeking using search engines and social networks[C]//Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media. Washingdon D C:AAAI,2010:23-26.
[10]White R W,Richardson M,Liu Y.Effects of community size and contact rate in synchronous social Q&A[C]// Proceedings of the SIGCHI Conference on Human Factors in Computing Systems.Vancouver:ACM,2011:2837-2846.
[11]Nardi B A,Whittaker S,Schwarz H.It's not what you know it's who you know[J].First Monday,2000,5(5):455-489.
[12]Nichols J,Kang J H.Asking questions of targeted strangers on social networks[C]//Proceedings of the ACM 2012 Conference on Computer Supported Cooperative Work.New York:ACM,2012:999-1002.
[13]Cai Y,Leung H F,Li Q,et al.Typical-based collaborative filtering recommendation[J].IEEE Transactions on Knowledge and Data Engineering,2014,26(3):766-779.
[14]Xie H R,Li Q,Cai Y.Community-aware resource profiling for personalized search in folksonomy[J].Journal of Computer Science and Technology,2012,27(3):599-610.
[15]Cai Y,Li Q.Personalized search by tag-based user profile and resource profile in collorative tagging system[C]//Proceedings of International Conference on Information and Konwledge Management.Shanghai:ACM,2010:969-978.
Question Answering System Based on Social Relationship and Recommendation of the Best Answerer
Du QingWang Qi-xuanHuang Dong-pingCai YiWang TaoMin Hua-qing
(School of Software Engineering,South China University of Technology,Guangzhou 510006,Guangdong,China)
In recent years,community question answering(CQA)system has become more and more popular. However,with the expansion of question scale,the proportion of questions that have been answered reduces gradually,and the quality of answers cannot be guaranteed.In order to increase the answering probability of the questions in questioning and answering(Q&A)system and enhance the credibility of answers,a social question answering system on the basis of social relationship similarity is proposed,and a method is presented to find suitable respondents who are willing to answer and are familiar with related fields.Moreover,a recommendation method of the best answer and the best respondents is given.Experimental results show that,on subjectivity or real-time problem sets,the proposed method helps obtain satisfactory answers faster in comparison with traditional Q&A systems.
question answering system;social relationship similarity;social networking
s:Supported by the National Natural Science Foundation of China(61300137)and the Guangdong Natural Science Foundation(S2013010013836)
TP311
10.3969/j.issn.1000-565X.2015.01.021
1000-565X(2015)01-0132-08
2014-01-06
國(guó)家自然科學(xué)基金資助項(xiàng)目(61300137);廣東省自然科學(xué)基金資助項(xiàng)目(S2013010013836);華南理工大學(xué)中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(2012ZM0077)
杜卿(1980-),女,博士,講師,主要從事人工智能、信息檢索研究.E-mail:duqing@scut.edu.cn
?通信作者:蔡毅(1980-),男,博士,副教授,主要從事數(shù)據(jù)挖掘領(lǐng)域、信息檢索研究.E-mail:ycai@scut.edu.cn