葉承斌,李宏亨
(廣西醫(yī)科大學(xué)信息與管理學(xué)院,廣西 南寧 530021)
現(xiàn)階段,所應(yīng)用的信息檢索技術(shù)使得用戶檢索質(zhì)量有所提高,但是對(duì)于用戶檢索結(jié)果的有效性以及準(zhǔn)確性卻沒(méi)有更深入的研究。因此,對(duì)于如何提高用戶檢索信息的有效性成為了亟待解決的難題之一。
為此,相關(guān)學(xué)者進(jìn)行了相關(guān)方面的研究。文獻(xiàn)[1]通過(guò)觀察用戶的網(wǎng)頁(yè)瀏覽習(xí)慣獲得用戶隱式反饋信息,根據(jù)這些信息建立用戶行為特征模型,利用向量為用戶瀏覽的每個(gè)網(wǎng)頁(yè)設(shè)置了權(quán)值,以此來(lái)推算用戶對(duì)某一類文檔的愛(ài)好程度,并對(duì)用戶行為特征模型進(jìn)行實(shí)時(shí)更新,以此來(lái)完成用戶瀏覽隱式反饋信息的檢索。但是該方法在查全率方面表現(xiàn)較差,需要進(jìn)一步深入研究。文獻(xiàn)[2]提出了一種基于分布式集群的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺(tái),通過(guò)大數(shù)據(jù)分析平臺(tái)將分布式計(jì)算機(jī)系統(tǒng)Spark與HDFS技術(shù)相結(jié)合,分布式用戶的網(wǎng)絡(luò)瀏覽數(shù)據(jù)被存儲(chǔ)到HDFS中,再利用Spark進(jìn)行數(shù)據(jù)挖掘,并結(jié)合決策樹(shù)ID3算法準(zhǔn)確計(jì)算出用戶的文檔愛(ài)好程度。但該方法對(duì)大數(shù)據(jù)的分析能力較差,對(duì)用戶的瀏覽行為管理效率較低。
為此,在LDAP的基礎(chǔ)上,提出了大數(shù)據(jù)瀏覽隱式反饋信息檢索仿真方法。為獲取到更精準(zhǔn)的用戶瀏覽行為特征信息,構(gòu)建了LDAP目錄服務(wù)架構(gòu)體系,為后續(xù)構(gòu)建用戶行為特征模型提供數(shù)據(jù)支持。用戶行為特征模型將元搜索引擎與Agent技術(shù)相結(jié)合,利用InfoAgent系統(tǒng)來(lái)實(shí)現(xiàn),最大限度地展現(xiàn)用戶需求。通過(guò)仿真結(jié)果表明,所提方法具有較高的檢索精度和查全率。
LDAP通常被用作地址簿[3]來(lái)使用,支持用戶檢索信息,其中可有單個(gè)或多個(gè)服務(wù)器,它是在TCP/IP上運(yùn)行的一種應(yīng)用層協(xié)議,主要運(yùn)行過(guò)程是一個(gè)客戶機(jī)連接一個(gè)服務(wù)器,并向服務(wù)器發(fā)送指令[4],以此構(gòu)成的客戶機(jī)/服務(wù)器模式是LDAP目錄的基礎(chǔ),服務(wù)器在接收到指令后在目錄上完成指令上的操作。當(dāng)服務(wù)器完成指令操作后,將結(jié)果或錯(cuò)誤應(yīng)答反饋給LDAP客戶機(jī),或者采用Referral重定向機(jī)制向其它LDAP服務(wù)器發(fā)送請(qǐng)求以此來(lái)完成客戶機(jī)的指令,Referral可擴(kuò)大無(wú)法完成的目錄服務(wù)至最大范圍。無(wú)論客戶機(jī)與哪一個(gè)服務(wù)器連接,接收到的內(nèi)容都是一樣的。表1為L(zhǎng)DAP最常用的Web服務(wù),將LDAP應(yīng)用到Web已有的關(guān)系數(shù)據(jù)[5]中,實(shí)現(xiàn)其功能。
表1 LDAP在Web中實(shí)現(xiàn)的功能
LDAP客戶機(jī)可由LDAP服務(wù)器管控,或者由集成了LDAP的應(yīng)用程序管理。圖1為L(zhǎng)DAP的總體框架結(jié)構(gòu),展現(xiàn)了各類設(shè)備與服務(wù)器在LDAP服務(wù)目錄中進(jìn)行訪問(wèn)存儲(chǔ)的過(guò)程。
圖1 LDAP框架
對(duì)LDAP目錄服務(wù)器中存儲(chǔ)的信息進(jìn)行訪問(wèn)可通過(guò)LDAP協(xié)議相關(guān)的服務(wù)器和設(shè)備來(lái)實(shí)現(xiàn),通過(guò)分析該框架可知,目錄的主要功能是為數(shù)據(jù)提供存儲(chǔ)的地方,擔(dān)任著數(shù)據(jù)庫(kù)的角色,并可對(duì)存儲(chǔ)在LDAP目錄服務(wù)中的數(shù)據(jù)進(jìn)行管理,它與基于XML的數(shù)據(jù)表示是非常重要的兩個(gè)組件。
通過(guò)觀察用戶瀏覽網(wǎng)頁(yè)時(shí)的瀏覽習(xí)慣來(lái)獲取用戶瀏覽興趣信息,并根據(jù)這些信息建立用戶特征行為模型。
首先,對(duì)用戶建立各自的統(tǒng)計(jì)文檔,然后依次瀏覽每個(gè)文檔,以各個(gè)瀏覽文本描述的特定詞的集合方式建立文檔的索引方式。為了表示特定詞在文檔中所占比例的大小,將用戶瀏覽文本空間內(nèi)的所有詞添加一個(gè)數(shù)值權(quán)。數(shù)值權(quán)也可看作為文檔d中的詞在文檔空間[6]內(nèi)的坐標(biāo)信息,即將用戶瀏覽的某一個(gè)文檔d看作是文檔空間中的任意一個(gè)坐標(biāo)點(diǎn),這樣就可以將d描述為從文檔空間中初始點(diǎn)到任意一點(diǎn)的向量。對(duì)描述文檔的詞添加權(quán)值是文檔表示法中的關(guān)鍵。
目前比較常用的添加權(quán)值的方法是t*A加權(quán)方案。t表示某個(gè)特定詞在Web文檔中出現(xiàn)的次數(shù),因?yàn)槊總€(gè)文檔的內(nèi)容不同,所以t的值在每個(gè)文檔中也有所不同。t的主要作用是判定該特定詞在Web文檔中的重要程度。A表示全局統(tǒng)計(jì)數(shù)據(jù),參考A的值可以判斷出特定詞在整個(gè)Web文檔中的分布規(guī)律。A設(shè)定為In(N/n),N表示W(wǎng)eb文檔集合中包含的文檔數(shù)量,n表示含有某個(gè)特定詞的文檔數(shù)量[7]。含有某個(gè)特定詞的文檔數(shù)量與A的值呈負(fù)相關(guān),即含有特定詞的文檔數(shù)量越多,A的值則越小,當(dāng)Web文檔集合中的所有文檔都包含特定詞,則A的值為0。
對(duì)于用戶瀏覽的網(wǎng)頁(yè)文檔信息,采用基于向量的方法進(jìn)行描述,文檔d的描述向量V對(duì)應(yīng)的第i個(gè)元素可利用式(1)計(jì)算
w(d,i)=t(i,d)*A(i)
(1)
式(1)中,t(i,d)表示詞頻統(tǒng)計(jì)數(shù)據(jù)結(jié)果,即詞wi在網(wǎng)頁(yè)文檔d中出現(xiàn)的次數(shù)為
A(i)=In(N/n)
(2)
在網(wǎng)絡(luò)大數(shù)據(jù)系統(tǒng)中,如果直接獲取到用戶對(duì)檢索結(jié)果的評(píng)價(jià)反饋,稱之為顯式反饋。這種反饋結(jié)果獲取途徑較為廣泛,但是這種方法使用戶無(wú)法客觀[8]的評(píng)價(jià)網(wǎng)頁(yè)瀏覽結(jié)果,很難為后續(xù)構(gòu)建用戶行為特征模型提供客觀數(shù)據(jù),降低了整個(gè)網(wǎng)絡(luò)大數(shù)據(jù)系統(tǒng)的可用性。隱式反饋則只對(duì)用戶瀏覽過(guò)的文檔作出可用性評(píng)價(jià),這種方式不會(huì)影響用戶的網(wǎng)頁(yè)瀏覽行為,只根據(jù)用戶的瀏覽行為來(lái)判斷用戶的瀏覽習(xí)慣,所以結(jié)果精準(zhǔn)度較高。
用戶的瀏覽行為[9]體現(xiàn)了對(duì)目標(biāo)文檔的感興趣程度,可采集這些信息建立用戶行為特征模型。用戶的瀏覽行為分為:審查行為:滑動(dòng)滾動(dòng)條(s)、網(wǎng)頁(yè)瀏覽時(shí)間(r);參考類型:追隨超鏈接;存留類型:存留網(wǎng)頁(yè)文檔(g)、打印網(wǎng)頁(yè)文檔(b)、添加標(biāo)簽(p)等。通過(guò)分析以上幾種用戶的瀏覽行為,即可判定出用戶對(duì)當(dāng)前頁(yè)面的感興趣程度。為了更準(zhǔn)確的區(qū)分這些瀏覽行為體現(xiàn)的用戶的感興趣程度[10],對(duì)每一種瀏覽行為v都賦予一個(gè)相應(yīng)的權(quán)值Cv,通過(guò)計(jì)算權(quán)值的大小來(lái)推斷用戶對(duì)當(dāng)前頁(yè)面的感興趣程度,計(jì)算公式如式(3)所示
(3)
2.3.1 InfoAgent特征模型整體架構(gòu)
InfoAgent是以VSN模型和用戶行為特征為依據(jù),將元搜索引擎和Agent技術(shù)相結(jié)合,共同開(kāi)發(fā)的用戶個(gè)人信息檢索系統(tǒng)。構(gòu)建用戶行為特征模型,確保該模型反映的信息最接近用戶的需求,從而提高整個(gè)特征模型提供的資料精度,加快檢索效率。具體如圖2所示。
圖2 InfoAgent整體架構(gòu)圖
InfoAgent實(shí)現(xiàn)精準(zhǔn)檢索的步驟:
1)根據(jù)用戶的瀏覽習(xí)慣創(chuàng)建用戶行為特征模型q并保存,根據(jù)用戶不同的瀏覽行為實(shí)時(shí)更新模型中的內(nèi)容。
2)將用戶行為特征模型q中所有權(quán)值不為零的特征項(xiàng)篩選出來(lái)并傳送給元搜索agent,作為檢索關(guān)鍵詞。
3)元搜索agent接收到特征項(xiàng)后,同時(shí)向其它信息搜索系統(tǒng)發(fā)出查詢請(qǐng)求,將所有符合條件的特征項(xiàng)添加到URL列表中。
4)對(duì)添加到URL列表中的所有文獻(xiàn)進(jìn)行特征項(xiàng)提取,以此構(gòu)成文獻(xiàn)的特征向量。
5)將提取出的特征向量與用戶行為特征模型q進(jìn)行模式匹配,并進(jìn)行相關(guān)度計(jì)算。
6)將特征向量與用戶行為特征模型q的相關(guān)度與規(guī)定的最小相關(guān)度Rmin進(jìn)行比較,如果相關(guān)度的值大于Rmin,則以URL為起點(diǎn),對(duì)機(jī)器人Rmin下達(dá)指令對(duì)模型進(jìn)行啟發(fā)式搜索,對(duì)所有文獻(xiàn)進(jìn)行模式匹配。
7)將搜索結(jié)果與用戶行為特征模型q最匹配的文獻(xiàn)d展現(xiàn)給用戶。
8)持續(xù)觀察用戶的瀏覽行為,并根據(jù)式(4)計(jì)算出用戶的相關(guān)反饋值
(4)
式(4)中,0≤fb(d)≤1,B={r,b,l,p,s},cb表示反饋行為的加權(quán)因子。
9)根據(jù)式(5),實(shí)時(shí)更新用戶行為特征模型。重復(fù)操作步驟2),直到用戶檢索完成為止。
wqk←wqk+β·f(d)·wik
(5)
式(5)中,f(d)表示用戶對(duì)d的反饋結(jié)果,wik表示i的第k個(gè)特征值的權(quán)值,wqk表示q中第k個(gè)特征值的權(quán)值,β為學(xué)習(xí)因子。
2.3.2 檢索參數(shù)調(diào)整
用戶行為特征模型是InfoAgent系統(tǒng)的重要組成部分,可對(duì)元搜索和機(jī)器人下達(dá)指令,并通過(guò)學(xué)習(xí)agent更新信息。q中包含了1~N個(gè)行為特征模型,每個(gè)行為特征模型都反映了一種用戶感興趣的內(nèi)容,可以表示為:Wq=(wq1,wq2,…,wqk,…,wqu),其中u表示用戶行為特征模型庫(kù)中特征項(xiàng)的個(gè)數(shù)。
InfoAgent系統(tǒng)在用戶的瀏覽頁(yè)面設(shè)置了Web瀏覽器窗口,用戶在瀏覽網(wǎng)頁(yè)時(shí)可獲得用戶的瀏覽行為信息。將這些信息提供給學(xué)習(xí)agent,學(xué)習(xí)agent,對(duì)這些信息進(jìn)行分析整理,并更新q中的內(nèi)容。隱式反饋值f(d)可以通過(guò)計(jì)算式(4)得到,q的特征項(xiàng)的權(quán)值wqk可通過(guò)式(5)進(jìn)行修改。為了將其它因素的影響降到最低,每完成一次信息反饋后,q自動(dòng)進(jìn)行歸一化處理,將所有d的特征項(xiàng)的權(quán)值小于閾值wmin的進(jìn)行歸零處理。
2.3.3 特征提取和模式匹配
在VSM模型中,d可以以向量的形式表示為
(6)
式(6)中,Z表示d中q的特征項(xiàng)出現(xiàn)的次數(shù),uk表示q的特征項(xiàng)在已經(jīng)完成檢索的d中出現(xiàn)的次數(shù)。
信息檢索系統(tǒng)通常處理的文檔為HTML文獻(xiàn),而HTML文獻(xiàn)中含有大量的標(biāo)記信息。這些標(biāo)記信息作為文獻(xiàn)的概括,可直接對(duì)標(biāo)記信息進(jìn)行特征提取,利用加權(quán)因子γc對(duì)HTML標(biāo)記信息中的q的特征項(xiàng)調(diào)整權(quán)值。
d與q的相關(guān)度計(jì)算如式(7)
(7)
2.3.4 基于強(qiáng)化學(xué)習(xí)算法的啟發(fā)式機(jī)器人智能檢索
由于機(jī)器人agent在文獻(xiàn)中的運(yùn)動(dòng)是沒(méi)有規(guī)律、沒(méi)有方向的,若用戶一直沒(méi)有檢索到滿意的文獻(xiàn),則會(huì)花費(fèi)大量的網(wǎng)絡(luò)資源來(lái)傳輸資源,降低了系統(tǒng)的有效性。因此需要對(duì)機(jī)器人agent做進(jìn)一步優(yōu)化,使檢索的目標(biāo)相關(guān)度更高。利用強(qiáng)化學(xué)習(xí)算法,對(duì)機(jī)器人agent的選擇路徑作出改進(jìn),使檢索的目標(biāo)更接近于用戶行為特征模型q。對(duì)匹配到的相關(guān)文獻(xiàn),進(jìn)行特征提取并與q進(jìn)行模式匹配,如果d相關(guān)度的值大于Rmin,將會(huì)加入推薦列表中。
為驗(yàn)證所提出的基于LDAP的大數(shù)據(jù)瀏覽隱式反饋信息檢索仿真方法是否合理,將所提方法與文獻(xiàn)[1]、文獻(xiàn)[2]方法在查全率、查準(zhǔn)率及穩(wěn)定性方面進(jìn)行仿真對(duì)比。實(shí)驗(yàn)環(huán)境為Windows10系統(tǒng),3.5GHz主頻,8GB內(nèi)存,借助ImageMatch軟件平臺(tái)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)來(lái)源于中文文本信息資料集SPAN2012,從中抽取120個(gè)檢索信息構(gòu)成候選檢索信息集。
將所提方法與文獻(xiàn)[1]、文獻(xiàn)[2]方法在查準(zhǔn)率和穩(wěn)定性方面進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果如圖3、圖4所示。
圖3 三種方法查準(zhǔn)率對(duì)比
圖4 三種方法穩(wěn)定性對(duì)比
從圖3和圖4中可以看出,由于所提方法根據(jù)用戶的瀏覽行為構(gòu)建了用戶行為特征模型,并通過(guò)計(jì)算特征項(xiàng)的權(quán)值調(diào)整了檢索參數(shù),使得在信息檢索查準(zhǔn)率和穩(wěn)定性方面均高于其它兩種方法。
還需對(duì)三種方法對(duì)文獻(xiàn)的檢索精度進(jìn)行仿真對(duì)比,建立了20個(gè)用戶行為特征模型,經(jīng)過(guò)用戶瀏覽行為的增加和時(shí)間的推移,三種方法的檢索精度如表2所示。
表2 三種方法檢索結(jié)果對(duì)比
從表中可知,在檢索初期,三種方法檢索精度相差不大,但是隨著時(shí)間的推移,用戶的瀏覽行為越來(lái)越多,用戶行為特征模型不斷被精化,檢索精度也參差不齊。由于所提方法將強(qiáng)化學(xué)習(xí)算法應(yīng)用其中,使推薦的文獻(xiàn)更接近于用戶的需求,所以在檢索精度上所提方法效果最優(yōu)。
基于LDAP的大數(shù)據(jù)瀏覽隱式反饋信息檢索仿真方法。借助LDAP的目錄服務(wù),獲取到用戶的瀏覽隱式反饋信息,通過(guò)分析用戶對(duì)某一種類型文檔的感興趣程度來(lái)構(gòu)建用戶行為特征模型,通過(guò)不同的算法使得用戶行為特征模型能夠最大限度地滿足用戶需求。通過(guò)仿真結(jié)果表明,所提方法較傳統(tǒng)方法相比有著較高的準(zhǔn)確率和檢索效率,但是對(duì)于所提方法的信息檢索的性能還需做進(jìn)一步提高,以此為研究方向?qū)⒗^續(xù)更深層次的研究。