潘夢真 湖南師范大學(xué)數(shù)計(jì)院
自屬性論被提出以后,不少的學(xué)者和研究人員都對其進(jìn)行了深入的研究和學(xué)習(xí),并提出很多優(yōu)秀的改進(jìn)意見和方案。從屬性論在信息檢索領(lǐng)域應(yīng)用的情況來看,己有不少的研究人員利用屬性論來為相似度計(jì)算以及信息檢索進(jìn)行模型的搭建。
利用文檔向量和查詢向量來對文本的核心重心進(jìn)行描述,可以得到信息之間的內(nèi)在邏輯推理關(guān)系,使用文本屬性的坐標(biāo)系來對屬性和元素之間的關(guān)系程度進(jìn)行展現(xiàn)。
通過上面的兩個(gè)重心公式可以知道,文本的向量與檢索向量只是一種的關(guān)系。在這種情況下,如果使用歐式距離計(jì)算來算出相似度的值是沒有實(shí)際的意義的。
另一方面,關(guān)于模型的不足如在文獻(xiàn)[1]中的所提出的:查詢向量用查詢線與文本重心相交點(diǎn)表示,此時(shí)信息量與原本的信息量相比有一定的損失。因此,計(jì)算相似度的關(guān)鍵點(diǎn)在于如何將文本的重心考慮進(jìn)來且不用歐式距離計(jì)算方式來找出一個(gè)更加合理的算法。
借鑒屬性坐標(biāo)學(xué)習(xí)分析法的構(gòu)建,滿意度函數(shù)可以解釋為:在一個(gè)量綱的成績單純形中,可以量測心理標(biāo)準(zhǔn)與在這個(gè)成績單中的某一個(gè)績點(diǎn)的距離。該心理標(biāo)準(zhǔn)點(diǎn)是從心理學(xué)的角度出發(fā)的,以機(jī)器學(xué)習(xí)的方式來實(shí)現(xiàn)決策者的權(quán)重平衡點(diǎn)的獲取。這個(gè)時(shí)候,對成績點(diǎn)與心理標(biāo)準(zhǔn)點(diǎn)之間的距離是通過基于坐標(biāo)的滿意度函數(shù)來計(jì)算的,已經(jīng)不屬于歐式距離的范疇。
而對于信息查詢來說,用戶每一個(gè)查詢需求對應(yīng)的是一個(gè)坐標(biāo)系中的查詢向量:。這個(gè)向量與坐標(biāo)軸所組成的投影點(diǎn)組成了一個(gè)為(n-1)維的查詢向量單純形,與此同時(shí),文本向量也可以用這種方式得到一個(gè)維文本的單純形。在構(gòu)建的屬性坐標(biāo)系中,與前文所提到的屬性坐標(biāo)學(xué)習(xí)分析法是非常相似的,本文的文本中心點(diǎn)與學(xué)習(xí)分析法的心理標(biāo)準(zhǔn)點(diǎn)是一樣的,都是對單純形的一個(gè)評(píng)價(jià)點(diǎn)。交點(diǎn)即在單純型中的待評(píng)價(jià)的交點(diǎn)。基于上述的信息,可以得出:在文本的重心點(diǎn)與匹配點(diǎn)的距離就可以使用來作為文章與檢索詞之間的相似度判斷,該函數(shù)所得到的值越大,就說明它們的相似程度就越高。
這個(gè)單純形的文本重心表示為:
將公式3和公式4結(jié)合起來,得出匹配基準(zhǔn)點(diǎn)的坐標(biāo):
相似度的公式如下:
總的來說,本文所改進(jìn)的相似度算法在文本相似度計(jì)算上表現(xiàn)較好,精確度能夠滿足需求。本文的算法適合對查詢需求明確、專業(yè)的領(lǐng)域,在這些領(lǐng)域有著良好的應(yīng)用能力,也為后來者提供了借鑒的思路。當(dāng)前對于查詢來說,只是與文本進(jìn)行了相似性的分析,還沒有涉及到對事物的本質(zhì)進(jìn)行分析研究。隨著研究的深入,這些問題會(huì)逐步得到解決,將模型應(yīng)用到發(fā)掘事物的本質(zhì)和關(guān)系推理的處理能力是未來研究的重點(diǎn)方向。
[1]Zarovy S, Costello M. Extended State Observer for Helicopter Mass and Center-of-Gravity Estimation[J]. Journal of Aircraft,2015, 52(6):1-12.
[2]You S, Lu Y, Zhang W, et al. Micro-lens array based 3-D color image encryption using the combination of gravity model and Arnold transform[J]. Optics Communications, 2015,355(2):419-426.
[3]Golpira H, Messina A R. A Center-of-Gravity-based Approach to Estimate Slow Power and Frequency Variations[J].IEEE Transactions on Power Systems, 2017, PP(99):1-1.