摘 要:傳統(tǒng)的數(shù)據(jù)庫數(shù)據(jù)檢索方法索引次數(shù)較多而導(dǎo)致效率受限,為此提出基于哈希學(xué)習(xí)算法的分布式物聯(lián)網(wǎng)數(shù)據(jù)庫數(shù)據(jù)檢索方法。首先,提取分布式物聯(lián)網(wǎng)數(shù)據(jù)關(guān)鍵詞,構(gòu)造物聯(lián)網(wǎng)數(shù)據(jù)庫索引結(jié)構(gòu);隨后,過濾檢索結(jié)點,剔除數(shù)據(jù)庫中的重復(fù)數(shù)據(jù)。在此基礎(chǔ)上,建立哈希學(xué)習(xí)算法數(shù)據(jù)檢索模型,利用損失函數(shù)強化數(shù)據(jù)檢索。實驗結(jié)果表明,基于哈希學(xué)習(xí)算法的分布式物聯(lián)網(wǎng)數(shù)據(jù)庫數(shù)據(jù)檢索方法在不同檢索半徑下的索引次數(shù)均最少,檢索效果較好,具有實際的應(yīng)用價值。
關(guān)鍵詞:哈希學(xué)習(xí)算法;分布式物聯(lián)網(wǎng);數(shù)據(jù)檢索;物聯(lián)網(wǎng)數(shù)據(jù)庫;數(shù)據(jù)庫索引;損失函數(shù)
中圖分類號:TP39;TN918.4 文獻標(biāo)識碼:A 文章編號:2095-1302(2024)11-00-03
0 引 言
物聯(lián)網(wǎng)設(shè)備產(chǎn)生的數(shù)據(jù)蘊含著豐富的信息和價值,但往往分散在各個結(jié)點,具有高度的分布式特性。為了有效地管理和檢索這些數(shù)據(jù),已有學(xué)者展開了相關(guān)研究。比如:時間序列檢索方法適用于需要分析數(shù)據(jù)的時間趨勢和周期性變化的情況[1]。然而,其應(yīng)用范圍相對受限,僅限于這類特定的分析需求。位置檢索方法可通過輸入地理位置或者范圍快速地查詢到相關(guān)數(shù)據(jù)。但同樣該方法的適用范圍相對較窄,只適用于查詢特定位置或者范圍的數(shù)據(jù)[2]。哈希學(xué)習(xí)算法能夠?qū)?fù)雜的數(shù)據(jù)映射為簡潔的哈希值,并通過訓(xùn)練哈希模型來優(yōu)化數(shù)據(jù)的檢索和分類效率。因此,本文基于哈希學(xué)習(xí)算法設(shè)計一種分布式物聯(lián)網(wǎng)數(shù)據(jù)庫數(shù)據(jù)檢索方法,旨在拓寬數(shù)據(jù)檢索的適用范圍并提高檢索效率。
1 提取分布式物聯(lián)網(wǎng)數(shù)據(jù)關(guān)鍵詞
在分類過程中,可以進一步拆分文本、信息等架構(gòu),以便更精確地進行數(shù)據(jù)的分類和提取。但是通過這種方式提取出來的物聯(lián)網(wǎng)數(shù)據(jù)往往夾雜著較多的符號和詞條,無法用來當(dāng)作文本關(guān)鍵詞的代表[3]。因此,可以先通過分析關(guān)鍵詞出現(xiàn)頻率,對文本中出現(xiàn)的高頻關(guān)鍵詞進行鎖定。計算公式
如下:
(1)
式中:Tij表示被拆分文本中數(shù)據(jù)詞條i出現(xiàn)的總頻率;nij表示文本中數(shù)據(jù)詞條i在數(shù)據(jù)j中出現(xiàn)的次數(shù);nkj表示文本中數(shù)據(jù)詞條k在數(shù)據(jù)j中出現(xiàn)的次數(shù)。Tij值可以用來衡量數(shù)據(jù)詞條i的出現(xiàn)頻率,依據(jù)此值可以實現(xiàn)對物聯(lián)網(wǎng)數(shù)據(jù)中出現(xiàn)頻率最高的關(guān)鍵詞條i的提取。
2 構(gòu)造物聯(lián)網(wǎng)數(shù)據(jù)庫索引
數(shù)據(jù)庫的多維檢索流程通常需要考慮到每個維度上的值,并涉及計算多維矢量的歐氏距離,由此可以得到一個表示2個矢量之間相似度的距離值[4],表達(dá)式為:
(2)
這個距離值會被用來將N維空間映射到一維空間。為了減少訪問對象的數(shù)量,本文引入了New-NB-Tree這種新的索引結(jié)構(gòu),該結(jié)構(gòu)具有很強的過濾能力[5]。具體結(jié)構(gòu)如圖1所示。
3 過濾檢索結(jié)點
在構(gòu)造物聯(lián)網(wǎng)數(shù)據(jù)庫索引后,需要過濾檢索結(jié)點,以便后續(xù)更好地進行檢索。在進行檢索結(jié)點過濾時,需要考慮數(shù)據(jù)的時間性和空間性,可以在檢索物聯(lián)網(wǎng)數(shù)據(jù)時更準(zhǔn)確地過濾和定位相關(guān)信息。因此,本文基于二維信息熵的“編輯距離”分割方法,實現(xiàn)對多類別數(shù)據(jù)的高效識別,從而建立起“正確”和“誤譯”之間的最大判別結(jié)構(gòu)[6]。
假設(shè)ιs'描述長度為ng'的目標(biāo)結(jié)點,W's表示字符串s1和s2之間的編輯距離;T's為從s1到s2的最小運算數(shù)。在此基礎(chǔ)上,采用二維信息熵的方法對2個字符串的平均長度進行分析,具體計算公式為:
(3)
式中:dj表示誤譯語句標(biāo)簽結(jié)點。
通過式(4)區(qū)別不同類型的邊生成規(guī)則的差異性:
(4)
式中:為正則化的邊距;f'w為延伸結(jié)點G的子結(jié)點集合;gf'為每個結(jié)點中的入侵?jǐn)?shù)據(jù);mh'表示用于確定是否形成一條邊的特性記錄的一種屬性;kd'表示各邊的規(guī)則特征分布狀態(tài);gg'表示錯誤翻譯的信息記錄的子樹,即子目錄。對NB-Tree結(jié)點添加偏置角度,通過深入理解和分析結(jié)點的結(jié)構(gòu)信息,去除重復(fù)數(shù)據(jù)。
4 建立哈希學(xué)習(xí)算法數(shù)據(jù)檢索模型
在建立哈希學(xué)習(xí)算法數(shù)據(jù)檢索模型時,需要通過哈希學(xué)習(xí)把復(fù)雜數(shù)據(jù)轉(zhuǎn)化成簡單的哈希值,然后用它來搜索和分類數(shù)據(jù)[7]。本文針對上文中提取的關(guān)鍵詞,采用16、32、64、128比特的哈希編碼對高維數(shù)據(jù)進行表示?;诠W(xué)習(xí)算法構(gòu)建的索引模型流程如圖2所示。
在圖2中,將圖片A與數(shù)據(jù)B進行語義結(jié)合,并作為標(biāo)簽信息,從中提取關(guān)鍵詞后轉(zhuǎn)換為哈希代碼。通過哈希函數(shù)對這些代碼進行運算,并應(yīng)用代碼進行檢索,最后輸出量化的檢索結(jié)果。在檢索過程中,數(shù)據(jù)可用二值形式表示,通過哈希技術(shù)把二值權(quán)重量化。在哈希求解過程中,數(shù)據(jù)的精度和細(xì)節(jié)會受到影響,為避免數(shù)據(jù)損失,假設(shè)P、Q對應(yīng)的是p、q的哈希代碼,通過哈希代碼進行檢索,計算公
式為:
(5)
式中:Pi、Qi為損失數(shù)據(jù);l為距離度量;Spq為損失函數(shù);p、q為數(shù)據(jù)相似性指標(biāo);pi、qi為第i個哈希代碼;s.t.B∈{-1, 1}n×r為二進制約束,在此約束條件下會使二進制表征效率得到提升,有效提高關(guān)鍵詞檢索精準(zhǔn)度[8-10]。
5 損失函數(shù)強化數(shù)據(jù)檢索
選用加權(quán)三元組作為損失函數(shù),每個三元組由一個錨定樣本、負(fù)樣本和正樣本構(gòu)成。當(dāng)進行物聯(lián)網(wǎng)數(shù)據(jù)庫目標(biāo)數(shù)據(jù)檢索時,通常描述三元組為,如果錨定樣本與某個樣本具有相同的標(biāo)簽時,那么樣本為正樣本,否則為負(fù)樣本。語義區(qū)間內(nèi)的相似度具有明顯的排序特征,有別于僅使用{0, 1}對單個標(biāo)記相似度的刻畫。為此,使用基于權(quán)重系數(shù)的語義區(qū)間多標(biāo)簽相似性構(gòu)造方法,對不同模式的數(shù)據(jù)進行相似度的余弦長度度量,來計算各三元組中樣本之間的相似程度,并將所有三元組的相似度值進行相加處理。通過式(6)表示檢索目標(biāo)數(shù)據(jù)時的加權(quán)余弦三元組損失函數(shù):
(6)
式中:ω為類似樣本;r為錨記標(biāo)簽數(shù)量;,
其中Z為權(quán)重因素實現(xiàn)歸一化的系數(shù),一般狀態(tài)rk=0,通過式(7)可計算該系數(shù):
(7)
式中:p為歸一化概率的輸出??傊ㄟ^將加權(quán)余弦三元組作為損失函數(shù),能夠提升哈希學(xué)習(xí)算法數(shù)據(jù)檢索模型在數(shù)據(jù)庫目標(biāo)數(shù)據(jù)檢索方面的能力,進而提升數(shù)據(jù)檢索效果。
6 實 驗
為了驗證本文設(shè)計的檢索方法的有效性,將本文方法與時間序列檢索方法、位置檢索方法進行對比。
6.1 實驗準(zhǔn)備
以某分布式物聯(lián)網(wǎng)后臺數(shù)據(jù)庫作為測試對象,其中包含25 000個文本數(shù)據(jù)集,其中圖像數(shù)據(jù)集含有監(jiān)控拍攝圖像等,文本數(shù)據(jù)集含有傳感器數(shù)據(jù)、位置數(shù)據(jù)以及時間序列數(shù)據(jù)等。本文從以上數(shù)據(jù)集中分別選取3 000個圖像數(shù)據(jù)集和2 000個文本數(shù)據(jù)集作為實驗對象。本實驗采用Windows 10操作系統(tǒng)搭載2.6 GHz i7 CPU運行。源代碼為GNU Common Lisp-2.6.1。
6.2 實驗結(jié)果與分析
分別使用時間序列檢索方法、位置檢索方法,以及本文基于哈希學(xué)習(xí)算法的分布式物聯(lián)網(wǎng)數(shù)據(jù)庫數(shù)據(jù)檢索方法在不同的搜索半徑范圍內(nèi)進行實驗,并比較了3種方法的索引次數(shù),結(jié)果見表1。
通過表1可知,在所有的檢索方法中,本文方法的索引次數(shù)最少,最多索引90次就能找到需要的內(nèi)容。由此可知,使用本文檢索方法的索引效果更好。
7 結(jié) 語
為提高數(shù)據(jù)庫數(shù)據(jù)檢索的效果,本文提出基于哈希學(xué)習(xí)算法的分布式物聯(lián)網(wǎng)數(shù)據(jù)庫數(shù)據(jù)檢索方法,不僅為分布式物聯(lián)網(wǎng)數(shù)據(jù)庫的數(shù)據(jù)檢索提供了一種新的思路和方法,同時也為相關(guān)領(lǐng)域的研究和實踐提供了有益的參考。
參考文獻
[1]許自龍,方小平.基于哈希學(xué)習(xí)的艦船網(wǎng)絡(luò)數(shù)據(jù)庫目標(biāo)數(shù)據(jù)檢索方法[J].艦船科學(xué)技術(shù),2023,45(17):182-185.
[2]廖祟陽,余少鋒,嚴(yán)鑫,等.基于哈希學(xué)習(xí)算法的非結(jié)構(gòu)化數(shù)據(jù)檢索方法[J].電氣技術(shù)與經(jīng)濟,2023,12(3):95-97.
[3]張旭東,謝民,黃建平,等.基于數(shù)據(jù)挖掘的電力自動化系統(tǒng)運行數(shù)據(jù)中臺資源檢索技術(shù)研究[J].安徽師范大學(xué)學(xué)報(自然科學(xué)版),2023,46(2):119-125.
[4]李源,高建軍,王猛,等.基于SSM的智能儀器云平臺異庫數(shù)據(jù)協(xié)同檢索機制研究[J].物探化探計算技術(shù),2022,44(5):665-670.
[5]黃少琪,陸奕奕.通信網(wǎng)絡(luò)數(shù)據(jù)云存儲數(shù)據(jù)庫可驗證密文檢索研究[J].微型電腦應(yīng)用,2022,38(2):120-122.
[6]牛佳樂,張毅,鄭劍,等.基于圖數(shù)據(jù)庫的數(shù)據(jù)邏輯解析及檢索[J].電子設(shè)計工程,2022,30(2):180-183.
[7]魏秀卓,趙慧南.基于Mapreduce的多源多模態(tài)大數(shù)據(jù)檢索方法研究[J].計算機仿真,2021,38(4):422-426.
[8]費倫科,秦建陽,滕少華,等.近似最近鄰大數(shù)據(jù)檢索哈希散列方法綜述[J].廣東工業(yè)大學(xué)學(xué)報,2020,37(3):23-35.
[9]林悅.基于哈希算法的高維數(shù)據(jù)的最近鄰檢索[D].杭州:浙江大學(xué),2013.
[10]胡迪,聶飛平,李學(xué)龍.基于深度線性判別分析的哈希技術(shù)[J].中國科學(xué):信息科學(xué),2021,51(2):279-293.
作者簡介:馬秀梅(1975—),女,回族,甘肅蘭州人,講師,研究方向為中高職計算機課程教學(xué)。
收稿日期:2023-12-12 修回日期:2024-01-10