任華新
(遼寧對(duì)外經(jīng)貿(mào)學(xué)院,遼寧 大連 116052)
隨著文本信息處理技術(shù)的發(fā)展,在計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)進(jìn)行多目標(biāo)的文本信息挖掘,提高對(duì)文本數(shù)據(jù)的檢測(cè)和識(shí)別能力.文本數(shù)據(jù)包含的數(shù)據(jù)集規(guī)模較大,語(yǔ)義特征的關(guān)聯(lián)性較高,對(duì)多目標(biāo)文本數(shù)據(jù)的挖掘難度較大,需要對(duì)多目標(biāo)文本數(shù)據(jù)進(jìn)行有效的關(guān)聯(lián)特征定位,結(jié)合語(yǔ)義關(guān)聯(lián)性檢測(cè)和數(shù)據(jù)挖掘方法,進(jìn)行多目標(biāo)文本數(shù)據(jù)的自動(dòng)挖掘和特征提取,提高多目標(biāo)文本數(shù)據(jù)的優(yōu)化挖掘和數(shù)據(jù)分析能力,研究多目標(biāo)文本數(shù)據(jù)的關(guān)聯(lián)特征定位方法,在數(shù)據(jù)挖掘和特征檢測(cè)中具有很好的應(yīng)用價(jià)值,相關(guān)的多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)定位方法研究受到人們的極大關(guān)注[1].
通過(guò)對(duì)海量多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征定位和抽取,提高多目標(biāo)文本數(shù)據(jù)的檢測(cè)和智能語(yǔ)義分析能力.傳統(tǒng)方法中,采用模糊語(yǔ)義特征提取算法進(jìn)行多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征定位,結(jié)合模糊減法聚類(lèi)的方法進(jìn)行多目標(biāo)文本數(shù)據(jù)庫(kù)的語(yǔ)義信息關(guān)聯(lián)特征定位算法,實(shí)現(xiàn)多目標(biāo)文本數(shù)據(jù)索引和關(guān)聯(lián)特征定位,提高多目標(biāo)文本數(shù)據(jù)庫(kù)的檢測(cè)性能,但上述方法進(jìn)行模糊度較大[2],計(jì)算開(kāi)銷(xiāo)較大,對(duì)此,本文提出基于RSSI改進(jìn)算法下的多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征定位方法.構(gòu)建多目標(biāo)文本數(shù)據(jù)的關(guān)聯(lián)結(jié)構(gòu)分布模型,采用模糊關(guān)聯(lián)規(guī)則匹配方法進(jìn)行多目標(biāo)文本數(shù)據(jù)的特征匹配和語(yǔ)義相關(guān)性檢測(cè),采用RSSI改進(jìn)算法進(jìn)行多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征尋優(yōu),采用相關(guān)性檢測(cè)技術(shù)進(jìn)行多目標(biāo)文本數(shù)據(jù)的集成濾波,結(jié)合模糊聚類(lèi)方法進(jìn)行多目標(biāo)文本數(shù)據(jù)特征分類(lèi)處理,根據(jù)分類(lèi)結(jié)果實(shí)現(xiàn)RSSI改進(jìn)算法下多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征定位和挖掘.最后進(jìn)行仿真實(shí)驗(yàn)分析,展示了本文方法在提高多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征定位能力方面的優(yōu)越性能.
為了實(shí)現(xiàn)多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征定位挖掘,首先采用基于語(yǔ)義本體模型和關(guān)聯(lián)特征檢測(cè)方法進(jìn)行多目標(biāo)文本數(shù)據(jù)的模糊信息調(diào)度和自適應(yīng)檢測(cè),提取多目標(biāo)文本數(shù)據(jù)的語(yǔ)義規(guī)則性特征量[3],進(jìn)行多目標(biāo)文本數(shù)據(jù)的優(yōu)化挖掘和自動(dòng)檢測(cè)設(shè)計(jì),采用指向性特征檢測(cè)方法,分析多目標(biāo)文本數(shù)據(jù)的數(shù)據(jù)結(jié)果模型,在多目標(biāo)文本數(shù)據(jù)的語(yǔ)義本體分布結(jié)構(gòu)模型中,多目標(biāo)文本數(shù)據(jù)的分布結(jié)點(diǎn)表現(xiàn)為
基于特征的分類(lèi)識(shí)別和文本的關(guān)鍵內(nèi)容檢測(cè)方法[5],采用三元組形式構(gòu)建多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)的語(yǔ)義本體模型為:
文本摘要關(guān)聯(lián)特征定位的數(shù)據(jù)結(jié)構(gòu)分布模型用一個(gè)二元組表示為:
其中:fij—多目標(biāo)文本數(shù)據(jù)詞匯i出現(xiàn)的頻率;ni—多目標(biāo)文本數(shù)據(jù)的特征檢測(cè)次數(shù).fik—多目標(biāo)文本數(shù)據(jù)中詞語(yǔ)i在文檔分布概率,對(duì)k次出現(xiàn)的文本進(jìn)行關(guān)聯(lián)規(guī)則挖掘,以N為文檔數(shù)目,得到多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征定位自適應(yīng)加權(quán)函數(shù)表達(dá)式為:
其中:coff1表示IDF1編號(hào),設(shè)定多目標(biāo)文本數(shù)據(jù)語(yǔ)義固定系數(shù);coffcosnt表示IDFconst的關(guān)聯(lián)特征分布固定系數(shù).結(jié)合多源特征分布式檢測(cè)方法,進(jìn)行多目標(biāo)文本數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘和特征定位檢測(cè)[6].
對(duì)挖掘的多目標(biāo)文本數(shù)據(jù)信息資源進(jìn)行語(yǔ)義特征空間重構(gòu),構(gòu)建多目標(biāo)文本數(shù)據(jù)的資源分布集,在模糊聚類(lèi)空間中,采用關(guān)聯(lián)特征檢測(cè)方法,構(gòu)建多目標(biāo)文本的傳輸信息流,采用線性回歸分析模型進(jìn)行多目標(biāo)文本數(shù)據(jù)的語(yǔ)義相關(guān)性檢測(cè)[7],給定多目標(biāo)文本數(shù)據(jù)定位的關(guān)聯(lián)特征分布模型,相關(guān)性稀疏分別是a1,a2,…,ak,在多目標(biāo)文本數(shù)據(jù)空間分布集中,以β為邊界條件,得到多目標(biāo)文本數(shù)據(jù)的信息資源融合模糊特征集Mβ:
在追求全局最優(yōu)解過(guò)程中,通過(guò)語(yǔ)義相關(guān)性檢測(cè)得到正常和異常子空間中多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征定位的模糊函數(shù)為:
計(jì)算多目標(biāo)文本數(shù)據(jù)的模糊關(guān)聯(lián)度特征,采用語(yǔ)義相關(guān)性檢測(cè),進(jìn)行多目標(biāo)文本數(shù)據(jù)的融合處理,采用梯度投影非負(fù)矩陣分解方法進(jìn)行定位過(guò)程中的自適應(yīng)尋優(yōu),得到優(yōu)化的模型可表達(dá)為:
在上述構(gòu)建多目標(biāo)文本數(shù)據(jù)的關(guān)聯(lián)結(jié)構(gòu)分布模型并進(jìn)行語(yǔ)義相關(guān)性檢測(cè)的基礎(chǔ)上,進(jìn)行多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征定位的優(yōu)化設(shè)計(jì),提取多目標(biāo)文本數(shù)據(jù)的語(yǔ)義模糊性定位信息,采用RSSI改進(jìn)算法進(jìn)行多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征尋優(yōu)[9],多目標(biāo)文本數(shù)據(jù)的關(guān)聯(lián)主題信息分布的有限集合為:
結(jié)合不同指標(biāo)熵的計(jì)算方法進(jìn)行差異性特征挖掘,得到多目標(biāo)文本數(shù)據(jù)定位的離散信息源分布為:
充分利用多目標(biāo)文本數(shù)據(jù)的時(shí)間和空間相關(guān)性下,多目標(biāo)文本數(shù)據(jù)信息的關(guān)聯(lián)特征匯中匯聚了大量的相關(guān)性特征量,得到相關(guān)性特征映射描述為:
設(shè)多維熵矩陣滿足β∈[0,T],表示多目標(biāo)文本數(shù)據(jù)的分布相似度信息,將關(guān)聯(lián)指標(biāo)參量加載到信息處理模塊,
利用抽象語(yǔ)義(AMR)圖來(lái)預(yù)測(cè)多目標(biāo)文本數(shù)據(jù)摘要子圖的優(yōu)先級(jí)屬性,可以表示為P(ni)={pk|prkj= 1,k= 1,2,…,m}.利用深度語(yǔ)義檢測(cè)方法,得到多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征定位的分組關(guān)系為:
采用RSSI改進(jìn)算法進(jìn)行多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征尋優(yōu),采用相關(guān)性檢測(cè)技術(shù)進(jìn)行多目標(biāo)文本數(shù)據(jù)的集成濾波得到資源信息流為:
上式中,q表示語(yǔ)義摘要分布信息流集合,nq表示無(wú)關(guān)緊要的虛詞語(yǔ)義負(fù)載,多目標(biāo)文本數(shù)據(jù)的關(guān)聯(lián)特征提取輸出:根據(jù)圖節(jié)點(diǎn)間語(yǔ)義結(jié)構(gòu)特征進(jìn)行分組樣本檢測(cè)和回歸分析,結(jié)合模糊相似度融合方法,實(shí)現(xiàn)對(duì)多目標(biāo)文本數(shù)據(jù)的關(guān)聯(lián)特征提取.
結(jié)合模糊聚類(lèi)方法進(jìn)行多目標(biāo)文本數(shù)據(jù)特征分類(lèi)處理,根據(jù)分類(lèi)結(jié)果實(shí)現(xiàn)RSSI改進(jìn)算法下多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征定位和挖掘,當(dāng)多目標(biāo)文本數(shù)據(jù)分布聚類(lèi)中心的相對(duì)語(yǔ)義摘要分布滿足||C(l) -C(l- 1)||<ξ,得到多目標(biāo)文本數(shù)據(jù)的聚類(lèi)迭代式為:
設(shè)(sk,ak)和(sl,al)為多目標(biāo)文本數(shù)據(jù)的模糊貼近度矢量,利用ILP的方法對(duì)重要語(yǔ)義節(jié)點(diǎn)進(jìn)行特征重組,提取多目標(biāo)文本數(shù)據(jù)信息的關(guān)聯(lián)規(guī)則特征量[10],采用詞性過(guò)濾的方法得到多目標(biāo)文本數(shù)據(jù)信息資源屬性分類(lèi)評(píng)估約束因子為:
對(duì)每句話解析生成相應(yīng)的樣本集,在特征分布的相空間中,得到多目標(biāo)文本數(shù)據(jù)語(yǔ)義圖模型描述為:
其中,sc(t)表示多目標(biāo)文本數(shù)據(jù)的各個(gè)AMR圖的概念根節(jié)點(diǎn),由此提取多目標(biāo)文本數(shù)據(jù)信息的關(guān)聯(lián)規(guī)則特征量,基于RSSI改進(jìn)算法,實(shí)現(xiàn)多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征定位,定位輸出保留節(jié)點(diǎn)之間對(duì)應(yīng)的邊屬性系,得到了語(yǔ)義節(jié)點(diǎn)集合.改進(jìn)算法的實(shí)現(xiàn)流程如圖2所示.
為了測(cè)試本文方法在實(shí)現(xiàn)多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征定位中的應(yīng)用性能,進(jìn)行仿真實(shí)驗(yàn),實(shí)驗(yàn)據(jù)分析軟件為Excel 2007 和SPSS19.0,對(duì)多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征采集的樣本數(shù)為2 000,訓(xùn)練樣本集為20,其它仿真參數(shù)設(shè)定為:關(guān)聯(lián)稀疏cr=2,語(yǔ)義相似度μ1=μ2=0.01,語(yǔ)義文本分布密度ρ1=ρ2=0.01,自相關(guān)特征量δ= 0.8,多目標(biāo)文本數(shù)據(jù)的初始采樣頻率f1= 2.1Hz,根據(jù)上述仿真環(huán)境和參數(shù)設(shè)定,進(jìn)行多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征采集和定位,得到原始的多目標(biāo)文本數(shù)據(jù)的采集結(jié)果如圖3所示.
以圖3的數(shù)據(jù)為研究樣本,進(jìn)行多目標(biāo)文本數(shù)據(jù)的關(guān)聯(lián)特征定位,得到定位輸出如圖4所示.
分析圖4得知,采用本文方法能有效實(shí)現(xiàn)多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征定位,特征定位的匹配能力較好,測(cè)試不同方法進(jìn)行多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征定位的精度,得到對(duì)比結(jié)果如圖5所示,仿真結(jié)果表明,本文方法進(jìn)行多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征定位精度較高,特征匹配能力較強(qiáng),提高了文本數(shù)據(jù)挖掘的準(zhǔn)確性..
對(duì)多目標(biāo)文本數(shù)據(jù)進(jìn)行有效的關(guān)聯(lián)特征定位,結(jié)合語(yǔ)義關(guān)聯(lián)性檢測(cè)和數(shù)據(jù)挖掘方法,進(jìn)行多目標(biāo)文本數(shù)據(jù)的自動(dòng)挖掘和特征提取,提高多目標(biāo)文本數(shù)據(jù)的優(yōu)化挖掘和數(shù)據(jù)分析能力,本文提出基于RSSI改進(jìn)算法下的多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征定位方法.采用RSSI改進(jìn)算法進(jìn)行多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征尋優(yōu),采用相關(guān)性檢測(cè)技術(shù)進(jìn)行多目標(biāo)文本數(shù)據(jù)的集成濾波,結(jié)合模糊聚類(lèi)方法進(jìn)行多目標(biāo)文本數(shù)據(jù)特征分類(lèi)處理,根據(jù)分類(lèi)結(jié)果實(shí)現(xiàn)RSSI改進(jìn)算法下多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征定位和挖掘.研究得知,本文方法進(jìn)行多目標(biāo)文本數(shù)據(jù)關(guān)聯(lián)特征定位的精度較高,數(shù)據(jù)挖掘性能較好,提高定位的特征匹配性.