亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        依賴模糊C均值聚類的網(wǎng)絡(luò)數(shù)據(jù)庫特定數(shù)據(jù)檢索算法

        2018-06-26 05:04:56胡六四
        關(guān)鍵詞:數(shù)據(jù)檢索檢索聚類

        胡六四

        (安徽電子信息職業(yè)技術(shù)學(xué)院 軟件學(xué)院,安徽 蚌埠 233000)

        在我國,伴隨著計(jì)算機(jī)技術(shù)和大數(shù)據(jù)的飛速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)目前已經(jīng)成為數(shù)據(jù)庫與文件管理系統(tǒng)的主要工具[1-2]。網(wǎng)絡(luò)數(shù)據(jù)庫具有面向多個(gè)客戶被同時(shí)共享訪問的特點(diǎn)[3],網(wǎng)絡(luò)數(shù)據(jù)庫擴(kuò)大的同時(shí)網(wǎng)絡(luò)數(shù)據(jù)庫的結(jié)構(gòu)拓?fù)湟舶l(fā)生了改變,在這種情況下,使用一個(gè)有效的聚類算法從網(wǎng)絡(luò)數(shù)據(jù)庫內(nèi)搜索到需要的信息成為目前急需解決的問題[4-5]。但是,網(wǎng)絡(luò)數(shù)據(jù)庫內(nèi)的數(shù)據(jù)信息搜索能夠從客戶尋求服務(wù)的操作過程開始,提高網(wǎng)絡(luò)數(shù)據(jù)庫的搜索速度是行之有效的策略[6]。

        本文使用模糊C均值聚類來對網(wǎng)絡(luò)數(shù)據(jù)庫特定數(shù)據(jù)的檢索,將網(wǎng)絡(luò)數(shù)據(jù)庫特定數(shù)據(jù)檢索問題轉(zhuǎn)化為一系列面向模糊C均值聚類問題進(jìn)行檢索,從而考查本文所提算法檢索復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)庫特定數(shù)據(jù)的能力。

        1 網(wǎng)絡(luò)數(shù)據(jù)庫特定數(shù)據(jù)檢索算法

        如圖1所示,數(shù)據(jù)與POS標(biāo)注依次出現(xiàn)于第一與第二列中,在第三列中則表明了此處數(shù)據(jù)是否和奇周邊數(shù)據(jù)存在數(shù)據(jù)關(guān)系。當(dāng)此數(shù)據(jù)與其左邊鄰近數(shù)據(jù)存在數(shù)據(jù)關(guān)系時(shí),以“LH”(代表“父節(jié)點(diǎn)位于左處”)來表示;當(dāng)此數(shù)據(jù)與其右邊數(shù)據(jù)存在關(guān)系,以“RH”表示;當(dāng)不存在上述關(guān)系時(shí),則將其表示為“O”。其中,“_”符號(hào)代表其后邊字串是當(dāng)存在數(shù)據(jù)關(guān)系時(shí)所對應(yīng)的數(shù)據(jù)關(guān)系種類。

        圖1鄰近數(shù)據(jù)關(guān)系檢索器圖2鄰近數(shù)據(jù)關(guān)系的標(biāo)注形式Ⅰ圖3鄰近數(shù)據(jù)的關(guān)系標(biāo)注形式Ⅱ

        本文從構(gòu)建樹的數(shù)據(jù)結(jié)構(gòu)層面進(jìn)行分析,先對每個(gè)數(shù)據(jù)序列是否跟其父節(jié)點(diǎn)存在相鄰關(guān)系并進(jìn)一步判斷是否為完整子樹節(jié)點(diǎn),當(dāng)滿足上述條件時(shí)則為其標(biāo)注數(shù)據(jù)關(guān)系,具體見圖2。

        通過對比圖1與圖3可知,圖3內(nèi)的標(biāo)記“O”具有明顯歧義性質(zhì)。該標(biāo)記一方面可以表示該數(shù)據(jù)和鄰近數(shù)據(jù)間無數(shù)據(jù)關(guān)系,另一方面也能夠表示該數(shù)據(jù)和鄰近數(shù)據(jù)間存在數(shù)據(jù)關(guān)系,只是在當(dāng)前條件下不能對其進(jìn)行歸約處理而只可將其通過“O”的形式進(jìn)行標(biāo)記。這是因?yàn)榇嬖跊]有找齊該數(shù)據(jù)的所有數(shù)據(jù)類型(例如,“主演”與“的”)或者是在同一方向上的連續(xù)數(shù)據(jù)關(guān)系只能被歸約為最低模型策略而受到限制(例如,“知名”這類數(shù)據(jù))。為將此類歧義充分消除,可以重新回歸至圖1的方式,對于具有數(shù)據(jù)關(guān)系的所有相鄰數(shù)據(jù)都需標(biāo)注。為構(gòu)建樹結(jié)構(gòu),需利用專門的歸約決策標(biāo)注器對規(guī)約數(shù)據(jù)進(jìn)行標(biāo)注。圖4(a)中的最后一列“r”代表此數(shù)據(jù)符合歸約條件,可以構(gòu)建相應(yīng)的模型。

        為確保能夠以最快速度對網(wǎng)絡(luò)數(shù)據(jù)庫特定數(shù)據(jù)進(jìn)行全局搜索,選擇CRF模型作為歸約決策的標(biāo)注器。但是在實(shí)際情況下,通過這一順序標(biāo)注的方式無法達(dá)到對全局進(jìn)行真正的快速搜索目標(biāo)。所以我們對數(shù)據(jù)關(guān)系以及歸約決策進(jìn)行統(tǒng)一標(biāo)記,并通過“_”符號(hào)進(jìn)行連接,圖4(b)顯示了以標(biāo)注器構(gòu)建序列的具體模型。采取這一標(biāo)注方式的另外一個(gè)原因是可以防止在歸約決策過程中對于數(shù)據(jù)關(guān)系的標(biāo)注產(chǎn)生過度依賴。

        圖4鄰近數(shù)據(jù)的關(guān)系標(biāo)注形式Ⅲ

        從另一層面考慮,采用以上標(biāo)注形式檢索“鄰近”數(shù)據(jù)的關(guān)系時(shí)更符合網(wǎng)絡(luò)數(shù)據(jù)庫特定數(shù)據(jù)的直接表達(dá)方式,同時(shí)將歸約決策進(jìn)行獨(dú)立處理后,也可以更加清晰地表達(dá)歸約約束。從圖5看出,可以利用流程圖的方式對復(fù)雜英語進(jìn)行整體檢索。

        當(dāng)把網(wǎng)絡(luò)數(shù)據(jù)庫特定數(shù)據(jù)的鄰近關(guān)系及其歸約決策標(biāo)注都輸入之后,其中一些數(shù)據(jù)被歸約成鄰近數(shù)據(jù)的孩子,而剩余數(shù)據(jù)則在完成重新組合后進(jìn)入后續(xù)檢索過程,直至剩余單一數(shù)據(jù)或至已經(jīng)沒有被標(biāo)記成可歸約類型的數(shù)據(jù)為止。

        2 實(shí)驗(yàn)結(jié)果分析

        本實(shí)驗(yàn)在英語標(biāo)準(zhǔn)庫上完成。相關(guān)英語數(shù)據(jù)從賓州樹庫的《華爾街日報(bào)》語料中選取,具體劃分標(biāo)準(zhǔn)為:以02~21節(jié)作為訓(xùn)練樣本,以22節(jié)作為開發(fā)集,并對23節(jié)進(jìn)行測試(總共包含的數(shù)據(jù)數(shù)量為53624)。通過Penn2Malt工具獲得統(tǒng)一的中心數(shù)據(jù)提取規(guī)則并得到數(shù)據(jù)關(guān)系集合,該模型中總共包括了12種不同的數(shù)據(jù)關(guān)系。對于測試集與開發(fā)集上的POS標(biāo)注則通過MXPOST分析軟件自主獲取,對于測試集進(jìn)行標(biāo)注可以實(shí)現(xiàn)高達(dá)97.41%的正確率。

        圖5檢索算法的流程示意圖

        本文實(shí)驗(yàn)將分割策略應(yīng)用到了MaltParser中,以此提高檢索速率,根據(jù)后續(xù)輸入數(shù)據(jù)的POS標(biāo)注對SVM分類器進(jìn)行分割從而使其形成許多小分類器,同時(shí)將各分類器的訓(xùn)練案例數(shù)量設(shè)定為至少1000。Yamada03對應(yīng)的特征選取窗口寬度是6,并且將該數(shù)據(jù)加入到數(shù)據(jù)關(guān)系特征集中,SVM分類器是在對左焦點(diǎn)數(shù)據(jù)進(jìn)行POS標(biāo)注的劃分之后再進(jìn)行訓(xùn)練。

        如下所示,表1與表2中分別顯示了5個(gè)基線系統(tǒng)與不同檢索模型對英語數(shù)據(jù)集進(jìn)行測試結(jié)果。其中,R代表模型中各訓(xùn)練實(shí)例對應(yīng)的數(shù)據(jù)關(guān)系標(biāo)記數(shù)量。以Viterbi算法為基礎(chǔ)的CRF序列的模型復(fù)雜度是O(R2n)?;谀P退惴ㄔ谒阉鬏斎刖W(wǎng)絡(luò)數(shù)據(jù)庫特定數(shù)據(jù)時(shí)所需的模型個(gè)數(shù)上限為n,對應(yīng)的算法復(fù)雜度是O(R2n2)。

        表1 不同模型的網(wǎng)絡(luò)數(shù)據(jù)庫特定數(shù)據(jù)檢索測試結(jié)果

        表2 各基于模型的模型英語檢索結(jié)果

        對上述各個(gè)模型進(jìn)行對比分析可知,基于模型算法與基于轉(zhuǎn)換算法具有更高的完全匹配率與數(shù)據(jù)正確率。

        檢索表2結(jié)果顯示,采用依次標(biāo)注法(LDP2)時(shí),由于無法達(dá)到最快的全局結(jié)構(gòu)檢索速率,并且檢索的精度也不高;選擇分離模型則可以根據(jù)各個(gè)模型的特征獲得良好的性能;LDPnrAll歸約可以在當(dāng)前模型中生成完整數(shù)據(jù),因此模型中將存在長度大于1的網(wǎng)絡(luò)數(shù)據(jù)庫特定數(shù)據(jù),導(dǎo)致線性模糊C均值聚類的性能受到限制;對于LDPdiv而言,其能夠有效消除標(biāo)記“O”引起的歧義,因此有助于提高檢索精度。實(shí)際上,建立在模糊C均值聚類之上的網(wǎng)絡(luò)數(shù)據(jù)庫特定數(shù)據(jù)檢索算法具有很強(qiáng)的適應(yīng)性,當(dāng)語料標(biāo)注集較大或需要高搜索效率時(shí),可利用拆分標(biāo)注與壓縮標(biāo)注集的方式來達(dá)到所需的性能;同時(shí),自然語言數(shù)據(jù)具有聚集性,檢索遇到高模型情況時(shí),序列長度將快速降低,此時(shí)如果網(wǎng)絡(luò)數(shù)據(jù)庫特定數(shù)據(jù)長度較大也依然不會(huì)占用較多的時(shí)間。

        3 結(jié)論

        本文提出了一種依賴模糊C均值聚類的網(wǎng)絡(luò)數(shù)據(jù)庫特定數(shù)據(jù)檢索算法。以網(wǎng)絡(luò)數(shù)據(jù)庫特定數(shù)據(jù)為檢索單位,自底向上構(gòu)建網(wǎng)絡(luò)數(shù)據(jù)庫特定數(shù)據(jù)的各向異性模型。實(shí)驗(yàn)結(jié)果表明:本文網(wǎng)絡(luò)數(shù)據(jù)庫特定數(shù)據(jù)檢索算法在檢索精度方面和當(dāng)前各主流算法相近,準(zhǔn)確率則介于基于圖與基于轉(zhuǎn)換算法間,同時(shí)可以達(dá)到極高的檢索速率。該算法對于網(wǎng)絡(luò)數(shù)據(jù)庫特定數(shù)據(jù)進(jìn)行搜索處理時(shí)將表現(xiàn)出極大的優(yōu)勢。

        (編輯:嚴(yán)佩峰)

        猜你喜歡
        數(shù)據(jù)檢索檢索聚類
        高速公路省級(jí)清分結(jié)算平臺(tái)高效數(shù)據(jù)檢索應(yīng)用探究
        2019年第4-6期便捷檢索目錄
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        本刊進(jìn)入的國內(nèi)外數(shù)據(jù)檢索/文獻(xiàn)服務(wù)機(jī)構(gòu)
        本刊進(jìn)入的國內(nèi)外數(shù)據(jù)檢索/文獻(xiàn)服務(wù)機(jī)構(gòu)
        專利檢索中“語義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        基于改進(jìn)的遺傳算法的模糊聚類算法
        基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
        蜜桃视频第一区免费观看| 国产精品自产拍在线18禁| 久久中文字幕久久久久91| 熟女免费观看一区二区| 国产精品乱码人妻一区二区三区| 久久中文字幕无码专区| 2021国产精品久久| 丰满少妇av一区二区三区| 8x国产精品视频| 水蜜桃亚洲一二三四在线| 在线视频中文字幕乱人伦| 亚洲国产一区中文字幕| 精品香蕉一区二区三区| 黄色视频免费在线观看| 亚洲午夜看片无码| 久久精品亚洲一区二区三区画质| 亚洲综合网站久久久| 同性男男黄g片免费网站| 日韩肥熟妇无码一区二区三区| 天堂网日韩av在线播放一区| 国产精品无码无在线观看| 色综合自拍| 国产精品污一区二区三区在线观看| 日本一区二区三区视频国产| 亚洲av无码专区在线播放中文| 久久精品伊人无码二区| av天堂中文亚洲官网| 欧美综合天天夜夜久久| 少妇高潮喷水正在播放| 蜜臀av国内精品久久久人妻| 亚洲色图三级在线观看| 精品人妻无码一区二区三区蜜桃一 | 男女做那个视频网站国产| 免费无码高潮流白浆视频| 宅男噜噜噜| 中文字幕一区二区区免| 男女18禁啪啪无遮挡激烈网站| 最近免费中文字幕| 亚洲伊人免费综合网站| 亚洲人不卡另类日韩精品| 久久夜色精品国产噜噜av|