亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)數(shù)據(jù)庫訪問中語義指向性算法優(yōu)化

        2016-04-12 00:00:00張光勇陳志偉
        現(xiàn)代電子技術(shù) 2016年16期

        摘 要: 為解決數(shù)據(jù)庫從高維單詞空間映射至低維隱含語義空間中,無法有效實現(xiàn)數(shù)據(jù)庫訪問語義指向性分析的問題,提出基于主題模型的數(shù)據(jù)庫訪問語義指向性算法,建立PLSA主體模型并對其進(jìn)行求解,通過PLSA主題模型獲取理想的潛在語義主題,在數(shù)據(jù)庫訪問關(guān)鍵詞上分布以及文檔在潛在語義主題上的分布,將其應(yīng)用于數(shù)據(jù)庫訪問語義指向性分析中,針對數(shù)據(jù)庫表現(xiàn)出來的文本特征和結(jié)構(gòu)特征建立PLSA主題模型,通過自適應(yīng)不對稱學(xué)習(xí)算法對不同的PLSA主題模型進(jìn)行集成和優(yōu)化,以實現(xiàn)數(shù)據(jù)庫訪問語義指向性分析,使數(shù)據(jù)庫訪問結(jié)果更加準(zhǔn)確。仿真實驗結(jié)果表明所提算法具有很高的數(shù)據(jù)庫訪問效率及精度。

        關(guān)鍵詞: PLSA主題模型; 數(shù)據(jù)庫訪問; 語義指向性算法; 主題模型優(yōu)化

        中圖分類號: TN926?34; G350 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2016)16?0112?04

        Abstract: To solve the problem that the database is mapped from high?dimensional word space to low?dimensional implied semantic space, and can not effectively implement semantic directivity analysis of database access, the database access semantic directivity algorithm based on theme model is proposed, the PLSA subject model is established and is solved, by which the ideal latent semantic theme is obtained. The key distribution on the database access and document distribution on latent semantic subject are applied to the database access semantic directivity analysis to set up PLSA theme model according to the text feature and structure feature showed by database. The different theme PLSA models are integrated and optimized by adaptive asymmetry learning algorithm to realize the semantic directivity analysis for database access and make the database access results more accurate. The simulation results show that the proposed algorithm has high database access efficiency and accuracy.

        Keywords: PLSA theme model; database access; semantic directivity algorithm; theme model optimization

        0 引 言

        數(shù)據(jù)庫訪問語義指向性分析是信息推薦和數(shù)據(jù)挖掘領(lǐng)域的研究熱點[1]。在當(dāng)前數(shù)據(jù)庫訪問環(huán)境下,信息內(nèi)容具有動態(tài)交互和隨機(jī)性的特點。只有創(chuàng)新數(shù)據(jù)庫訪問語義指向性算法,才能提高內(nèi)容主題描述的準(zhǔn)確性。近年來,語義指向性算法受到相關(guān)專家學(xué)者的廣泛關(guān)注[2?4]。

        目前,數(shù)據(jù)庫訪問語義指向性算法的研究取得了一定的成果。文獻(xiàn)[5]提出一種基于MER 和文本聚類相融合的數(shù)據(jù)庫訪問語義指向性算法,在MER模型的基礎(chǔ)上,引入文本聚類分析,以實現(xiàn)數(shù)據(jù)庫訪問語義指向性分析,但該方法僅反映了主題內(nèi)容,未考慮用戶的個性化特征;文獻(xiàn)[6]提出基于語法解析和路徑分析技術(shù)的數(shù)據(jù)庫訪問語義指向性算法,首先對關(guān)鍵詞進(jìn)行解析,依據(jù)解析結(jié)果實現(xiàn)數(shù)據(jù)庫訪問頁面文檔的語義指向性分析,但該方法實現(xiàn)過程復(fù)雜,不適用于實際應(yīng)用;文獻(xiàn)[7]提出基于領(lǐng)域本體和主動學(xué)習(xí)法的數(shù)據(jù)庫訪問語義指向性算法,通過主動學(xué)習(xí)法對數(shù)據(jù)庫訪問頁面的內(nèi)容進(jìn)行學(xué)習(xí),依據(jù)學(xué)習(xí)結(jié)果建立數(shù)據(jù)庫訪問語義指向性模型,實現(xiàn)數(shù)據(jù)庫訪問語義指向性分析,該方法耗時長,效率較低;文獻(xiàn)[8]提出基于集成學(xué)習(xí)和二維關(guān)聯(lián)邊條件隨機(jī)場的數(shù)據(jù)庫訪問語義指向性算法,通過訓(xùn)練數(shù)據(jù)庫訪問頁面的特征統(tǒng)計與采集的先驗知識融合,建立數(shù)據(jù)庫訪問指向性模型,該算法需要大量資源支撐,運行成本過高;文獻(xiàn)[9]提出基于數(shù)據(jù)挖掘的數(shù)據(jù)庫訪問語義指向性算法,通過領(lǐng)域本體及數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)庫訪問頁面文本信息的語義進(jìn)行挖掘,利用聚類法實現(xiàn)數(shù)據(jù)庫訪問語義指向性的分析,但該方法未考慮數(shù)據(jù)庫訪問過程中的隨機(jī)性和動態(tài)性,誤差較大。

        1 基于主題模型的數(shù)據(jù)庫訪問語義指向性算法

        1.1 PLSA主題模型及求解過程

        數(shù)據(jù)庫訪問語義指向性即文本中句法結(jié)構(gòu)的某一成分在語義上和其他成分相匹配的概率,而這種匹配概率可通過PLSA(Probability Latent Semantic Analysis)主題模型進(jìn)行描述,利用PLSA主題模型獲取理想的潛在語義主題,在數(shù)據(jù)庫訪問關(guān)鍵詞上分布以及文檔在潛在語義主題上的分布,從而實現(xiàn)數(shù)據(jù)庫訪問語義指向性分析,使數(shù)據(jù)庫訪問結(jié)果更加準(zhǔn)確。

        1.1.1 PLSA主題模型構(gòu)建及參數(shù)調(diào)整

        在PLSA主題模型中,文本可通過共現(xiàn)矩陣[d,w]進(jìn)行描述。其中,[di,wj]用于描述文檔[di]和單詞[wj]共同出現(xiàn),即文檔標(biāo)號為[i]的文檔里面出現(xiàn)了單詞[j]。可用[ndi,wj]描述文檔[di]中單詞[wj]出現(xiàn)的頻數(shù)。以此可以描述語料庫的共現(xiàn)矩陣:行代表文檔,列代表單詞。假設(shè)隱含語義空間(即主題)用隱含變量[z=z1,z2,…,zk]進(jìn)行描述,則定義以下幾個概率:[Pdi]用于描述從文檔中選中文檔編號為[i]的文檔的概率;[Pzkdi]用于描述在給定文檔[di]的條件下,文檔屬于第[k]個主題的概率;[Pwjzk]用于描述給定第[k]個主題的概率條件下,第[j]個單詞出現(xiàn)的概率,即第[j]個單詞對第[k]個主題的指向性程度。

        通過上述定義的概率,構(gòu)建基于概率的共現(xiàn)矩陣,也就是PLSA主題模型:

        [Pdi,wj=PdiPwjdi=Pdik=1KPwjzkPzkdi] (1)

        式中:[Pdi]代表以該概率選擇一篇文檔[di];[Pzkdi]代表以該概率選擇一個主題;[Pwjzk]代表以該概率選擇一個單詞。

        通過對式(1)的分析可知,PLSA為混合模型,針對給定的數(shù)據(jù)庫訪問主題[z],單詞[w]滿足一個多項分布,而針對給定的文檔[d],主題[z]則滿足另一個多項分布,即該模型的參數(shù)為[Pwz]和[Pzd],通過極大似然準(zhǔn)則對這兩個參數(shù)進(jìn)行調(diào)整,就能使該模型數(shù)據(jù)庫訪問語義指向性分析達(dá)到最佳。

        極大似然準(zhǔn)則函數(shù)對數(shù)可描述成:

        [L=i=1Nj=1Mndi,wjlogPdi,wj =i=1NndilogPdi+j=1Mndi,wjndilogk=1KPwjzkPzkdi] (2)

        式中,[ndi]為文檔[di]中全部單詞的數(shù)量。該目標(biāo)函數(shù)也可看作是使[Pwjdi]和[ndi,wjndi]兩個分布之間的容差性達(dá)到最小,因為[ndi,wjndi]已知,所以[Pwjdi]能夠更加有效地描述共現(xiàn)矩陣的實際分布。

        1.1.2 模型的求解

        通過對PLSA主題模型進(jìn)行分析發(fā)現(xiàn):[ndi]并非模型參數(shù),因此,對式(2)進(jìn)行約簡,有:

        [L∝i=1Nj=1Mndi,wjlogk=1KPwjzkPzkdi] (3)

        通過對式(3)分析可知,僅需分析模型參數(shù)[Pwjzk]和[Pzkdi]對[L]的影響就能實現(xiàn)期望最大化算法對模型參數(shù)進(jìn)行求解。

        期望最大化算法由E步和M步實現(xiàn),其中E步主要負(fù)責(zé)對隱含變量關(guān)于觀測變量的后驗概率進(jìn)行計算;M步將隱含變量看作是觀測變量,對隱含變量進(jìn)行修正,使目標(biāo)函數(shù)達(dá)到最大。

        E步的計算公式如下:

        [Pzkdi,wj=PwjzkPzkdii=kKPwjzkPzkdi] (4)

        式中,[Pzkdi,wj]用于描述出現(xiàn)編號為[i]的文檔、編號為[j]的單詞的概率條件下,出現(xiàn)編號為[k]的主題的概率,也就是給定數(shù)據(jù)庫訪問主題[z],第[i]個文檔的編號是[j]的單詞對主題的指向性程度。

        M步的計算方法如下:

        M步需對兩個模型參數(shù)[Pwz]和[Pzd]進(jìn)行估計,公式描述如下:

        [Pwjzk=i=1Nndi,wjPzkdi,wjm=1Mn=1Nndi,wmPzkdi,wm] (5)

        式(5)主要負(fù)責(zé)單詞[w]對隱含主題[z]的語義指向性進(jìn)行計算,有:

        [Pzkdi=j=1Mndi,wjPzkdi,wjndi] (6)

        式(6)主要負(fù)責(zé)第[i]個文檔對隱含主題[k]的語義指向性進(jìn)行計算。

        通過對EM算法進(jìn)行分析可知,每次迭代首先利用E步驟求出[Pzkdi,wj]矩陣,再將新的[Pzkdi,wj]矩陣代入M步中,求出參數(shù)矩陣[Pwz]和[Pzd]。反復(fù)進(jìn)行,直至迭代次數(shù)大于設(shè)定閾值,或目標(biāo)函數(shù)達(dá)到既定閾值時,停止迭代,將迭代結(jié)果定義為PLSA主題模型的解。

        1.2 結(jié)合數(shù)據(jù)庫特征的算法實現(xiàn)過程

        數(shù)據(jù)庫特征主要包括文本特征和結(jié)構(gòu)特征。本文將建立的PLSA主題模型與數(shù)據(jù)庫表現(xiàn)出來的文本特征和結(jié)構(gòu)特征相結(jié)合,通過自適應(yīng)不對稱學(xué)習(xí)算法對不同的PLSA主題模型進(jìn)行集成和優(yōu)化,實現(xiàn)數(shù)據(jù)庫訪問語義指向性分析。

        假設(shè)數(shù)據(jù)庫訪問頁面的訓(xùn)練集為[D=d1,c1,d2,c2,…,dN,cN],用[SD=s1,s2,…,sN]描述數(shù)據(jù)庫訪問頁面的結(jié)構(gòu)特征集;用[C=C1,C2,…,CN]描述數(shù)據(jù)庫訪問頁面訓(xùn)練集的文本特征集,則基于PLSA模型的數(shù)據(jù)庫訪問語義指向性算法的實現(xiàn)過程如下:

        (1) 針對任意數(shù)據(jù)庫訪問頁面中的文檔[di]進(jìn)行結(jié)構(gòu)解析和文本信息提取,得到描述結(jié)構(gòu)信息的特征向量[sdi]與描述文本信息的特征向量[cdi];

        (2) 通過[sdi]與[cdi]分別建立PLSA主題模型,得到和結(jié)構(gòu)信息與文本信息相應(yīng)的主題分布[Pssα]、[Pssd]和[Pccβ]、[Pcβd];其中,[α],[β]用于描述主題;

        (3) 依據(jù)結(jié)構(gòu)特征與文本特征對理解數(shù)據(jù)庫訪問頁面的重要程度,獲取兩個PLSA主題模型集成和優(yōu)化的權(quán)重,通過式(4)完成PLSA主題的集成,得到新的主題分布:

        [Pzkdi=ωsiPsαφdi, φ=1,2,…,mωciPcβφ-mdi, φ=m+1,m+2,…,m+n] (7)

        式中:[ωsi,][ωci]分別用于描述結(jié)構(gòu)特征與文本特征在數(shù)據(jù)庫訪問頁面文檔[di]中的權(quán)重;[m,][n]分別用于描述和結(jié)構(gòu)特征與文本特征相應(yīng)的主題個數(shù),[φ=m+n];

        (4) 依據(jù)集成后的主題分布[Pzdi],通過式(5)、式(6)對[Psz]和[Pcz]進(jìn)行描述;

        (5) 依據(jù)描述結(jié)果,針對新數(shù)據(jù)庫訪問頁面的文檔[dnew]進(jìn)行步驟(1);

        (6) 通過對[sdnew]與[cdnew]進(jìn)行訓(xùn)練得到[Psnewz]與[Pcnewz],獲取該數(shù)據(jù)庫訪問頁面文檔[dnew]的主題分布,也就是語義指向性[Pzdnew];

        (7) 求出結(jié)構(gòu)特征關(guān)鍵詞與文本特征關(guān)鍵詞的后驗概率:

        [Psdnew=n=1NPszkPzkdnew] (8)

        [Pcdnew=n=1NPczkPzkdnew] (9)

        (8) 反復(fù)進(jìn)行上述步驟,直至迭代次數(shù)大于設(shè)定閾值,或目標(biāo)函數(shù)達(dá)到設(shè)定閾值時,停止迭代。

        最后,通過后驗概率對語義指向性[Pzdnew]進(jìn)行約束,實現(xiàn)數(shù)據(jù)庫訪問語義指向性分析。

        2 仿真實驗分析

        為了驗證本文提出的基于主題模型的數(shù)據(jù)庫訪問語義指向性算法的有效性,需要進(jìn)行相關(guān)的實驗驗證。將采集到的若干領(lǐng)域的真實數(shù)據(jù)集作為研究對象,將傳統(tǒng)LDA算法作為對比進(jìn)行分析。

        2.1 兩種算法性能分析

        在只采用結(jié)構(gòu)信息、只采用文本信息和綜合采用結(jié)構(gòu)信息及文本信息的情況下建立模型,將查全率和查準(zhǔn)率作為性能評價指標(biāo)對兩種算法的性能進(jìn)行比較分析,得到的結(jié)果分別如表1~表3所示。

        表1 只采用結(jié)構(gòu)信息情況下兩種算法性能分析 %

        表2 只采用文本信息情況下兩種算法性能分析 %

        綜合分析表1~表3可知,本文算法和LDA算法在綜合采用文本信息和結(jié)構(gòu)信息的情況下,性能均優(yōu)于只采用文本信息或只采用結(jié)構(gòu)信息的情況,但本文算法的性能增加幅度更高,且本文算法的綜合性能明顯優(yōu)于LDA算法,因為LDA算法不能充分全面地分析所有信息,容易受到數(shù)據(jù)庫訪問頁面隨機(jī)性和動態(tài)性的影響,造成語義指向性分析發(fā)生偏差,影響算法性能。

        2.2 效率分析

        為了進(jìn)一步驗證本文算法的有效性,對本文算法和LDA算法的效率進(jìn)行比較分析,結(jié)果如圖1所示。

        分析圖1可知,采用本文算法完成一次實驗的時間明顯低于LDA算法,同時本文算法的時間曲線較LDA算法更加平穩(wěn),說明本文算法不僅具有較高的效率,而且具有較高的穩(wěn)定性,進(jìn)一步驗證了本文算法的有效性。

        3 結(jié) 論

        本文提出一種基于主題模型的數(shù)據(jù)庫訪問語義指向性算法。仿真實驗結(jié)果表明,所提算法具有很高的數(shù)據(jù)庫訪問效率及精度,穩(wěn)定性好,具有較強(qiáng)的實用性。

        注:本文通訊作者為陳志偉。

        參考文獻(xiàn)

        [1] 潘現(xiàn)偉.基于內(nèi)容和語義相似性的文獻(xiàn)網(wǎng)絡(luò)構(gòu)建方法的比較與評價[D].沈陽:中國醫(yī)科大學(xué),2014.

        [2] 王云英.基于PLSA模型的Web頁面語義標(biāo)注算法研究[J].情報雜志,2013(1):141?144.

        [3] 譚論正,夏利民,黃金霞,等.基于pLSA模型的人體動作識別[J].國防科技大學(xué)學(xué)報,2013,35(5):102?108.

        [4] 康南南.基于主題模型和圖核模型的圖像分類算法的研究與應(yīng)用[D].重慶:西南大學(xué),2014.

        [5] 羅遠(yuǎn)勝.跨語言信息檢索中雙語主題模型及算法研究[D].南昌:江西財經(jīng)大學(xué),2013.

        [6] 冶忠林,賈真,楊燕,等.基于語義擴(kuò)展的句子相似度算法[J].山西大學(xué)學(xué)報(自然科學(xué)版),2015,38(3):399?405.

        [7] 張瑞杰,李弼程,魏福山.基于多尺度上下文語義信息的圖像場景分類算法[J].電子學(xué)報,2014(4):646?652.

        [8] 趙偉.基于并行計算的概率潛在語義分析算法研究[J].安徽職業(yè)技術(shù)學(xué)院學(xué)報,2014(3):1?3.

        [9] 丁宇新,燕澤權(quán),馮威,等.基于有監(jiān)督主題模型的排序?qū)W習(xí)算法[J].電子學(xué)報,2015(2):333?337.

        国内大量揄拍人妻在线视频| 国产精品亚洲三级一区二区三区| 久草青青91在线播放| 久久精品www人人爽人人| 内谢少妇xxxxx8老少交| 国产成+人+综合+亚洲专| 国产毛片三区二区一区| 久久精品免费视频亚洲| 日日碰狠狠添天天爽超碰97久久| 一本色道无码道在线观看| 国产又黄又大又粗视频| 久久亚洲精品成人综合| 国产亚洲av一线观看| 日韩熟女系列中文字幕| 欧美一区二区三区久久综| 精品乱码卡1卡2卡3免费开放| 果冻蜜桃传媒在线观看| 国产精品自拍盗摄自拍| 婷婷伊人久久大香线蕉av| 99久久国产综合精品五月天| 日本午夜国产精彩| 亚洲一区二区三区综合网| 24小时在线免费av| 欧美国产综合欧美视频| 后入内射欧美99二区视频| 亚洲蜜芽在线精品一区| 日韩不卡一区二区三区色图| 精品午夜福利在线观看| 一本一道波多野结衣av中文| 亚洲人妻无缓冲av不卡| 亚洲精品一区二区视频| 日韩精品在线一二三四区| 日韩精品久久无码中文字幕| 最近中文字幕完整版| 亚洲大尺度动作在线观看一区| 亚洲一区二区三区色偷偷| 精品无码人妻夜人多侵犯18| 夜先锋av资源网站| 在线国产视频精品视频| 一区二区三区在线乱码| 免费a级毛片无码a∨蜜芽试看|