亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺談實(shí)值向量的近鄰檢索方案

        2022-07-03 06:01:08顧亞文
        中國新技術(shù)新產(chǎn)品 2022年6期
        關(guān)鍵詞:支撐點(diǎn)樹形隊(duì)列

        顧亞文

        (金肯職業(yè)技術(shù)學(xué)院人工智能與信息工程學(xué)院,江蘇 南京 211156)

        0 引言

        半導(dǎo)體與互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展使數(shù)據(jù)信息規(guī)模呈爆發(fā)性增長,并進(jìn)一步推動(dòng)了人工智能技術(shù)的進(jìn)步。如何有效地從這些飛速增長的數(shù)據(jù)中挖掘有效的信息是一個(gè)非常重要的挑戰(zhàn),而作為數(shù)據(jù)挖掘方案的前置技術(shù)——近鄰檢索問題(即如何從海量數(shù)據(jù)中找出與查詢數(shù)據(jù)最相近的一些數(shù)據(jù))一直受到學(xué)術(shù)界與工業(yè)界的關(guān)注。

        由于精確尋找最近向量的計(jì)算代價(jià)過高,因此現(xiàn)有研究聚焦于近似近鄰檢索問題,其嚴(yán)格定義如下:給定一個(gè)歐式空間E中的點(diǎn)集,包括個(gè)點(diǎn),對(duì)進(jìn)行一定的預(yù)處理,從而能夠快速返回與給定查詢點(diǎn)最接近的點(diǎn),使(,)≤(1+)(,)。其中,為與最接近的點(diǎn),、∈;為給定的距離度量函數(shù);為某個(gè)預(yù)設(shè)常量。

        在實(shí)際應(yīng)用中,通常需要找到最接近的若干個(gè)點(diǎn)(例如個(gè)),而非單個(gè)點(diǎn);即關(guān)注近似近鄰檢索問題。在超過50年的發(fā)展過程中,三類方案(樹形索引、哈希散列以及近鄰圖)被證明適合于該問題,其總體思路如圖1 所示。該文對(duì)三類方案中的主流方案進(jìn)行介紹。

        圖1 三類主流方案總體思路

        1 樹形方案

        在近鄰檢索方案中,為了保證較高的檢索效率,三類方案都需要在實(shí)際檢索前對(duì)數(shù)據(jù)集進(jìn)行較長時(shí)間的索引構(gòu)建工作;因此,描述1 個(gè)近鄰檢索方案須關(guān)注2 個(gè)問題:1) 如何構(gòu)建索引。2) 如何進(jìn)行檢索。為方便起見,該文相關(guān)字母解釋如下:為向量的維度;為待檢索向量集合;為中維點(diǎn)的個(gè)數(shù);為需要返回的結(jié)果個(gè)數(shù)。具體來說,樹形方案可按索引劃分方式進(jìn)一步劃分為以下3 種類型。

        1.1 基于平衡樹的樹形索引

        樹形方案可追溯到標(biāo)量(即=1)下的經(jīng)典數(shù)據(jù)結(jié)構(gòu)。通過二分法可以在對(duì)數(shù)復(fù)雜度上找到有序數(shù)組中的某個(gè)值,即在1 個(gè)平衡二叉樹中對(duì)數(shù)次查詢即可找到葉子節(jié)點(diǎn)。受平衡樹思想的啟發(fā),kd 樹最早為維向量構(gòu)造索引,可以將其視為平衡二叉樹的高維拓展。在構(gòu)造索引時(shí),選擇向量的某一個(gè)維度進(jìn)行劃分,然后隨著深度增加不斷變化選擇的維度,直至劃分的2 個(gè)子區(qū)域都不存在新的點(diǎn)。在檢索時(shí),先根據(jù)每個(gè)維度的切分點(diǎn)坐標(biāo)來判斷深入方向,直至找到葉節(jié)點(diǎn);再遞歸地回退,檢查現(xiàn)有找到的最近點(diǎn)與查詢節(jié)點(diǎn)為半徑所形成的超球體是否可能與父節(jié)點(diǎn)的另一子節(jié)點(diǎn)所形成的區(qū)域相交,如果相交,則移動(dòng)到對(duì)應(yīng)子區(qū)域重復(fù)執(zhí)行上述操作,否則,向父節(jié)點(diǎn)繼續(xù)回退;當(dāng)回退至根節(jié)點(diǎn)時(shí),即找到了最近鄰點(diǎn)。

        當(dāng)較低而較高時(shí),超球體相交的可能性較低;但維度上升時(shí),出現(xiàn)相交的概率快速上升,從而使kd 樹近乎于普通的線性掃描。為應(yīng)對(duì)上述問題,Arya 等人提出使用優(yōu)先檢索策略,其索引構(gòu)建過程與kd 樹相同;而在檢索時(shí),維護(hù)1 個(gè)優(yōu)先隊(duì)列,先將根節(jié)點(diǎn)放入優(yōu)先隊(duì)列,再重復(fù)以下步驟:1) 從隊(duì)列中找到高優(yōu)先級(jí)節(jié)點(diǎn)對(duì)應(yīng)的子樹,然后嘗試在該子樹中找到更好的最近子節(jié)點(diǎn),并比較每個(gè)遇到的節(jié)點(diǎn),從而盡可能更新優(yōu)先隊(duì)列。2) 當(dāng)優(yōu)先隊(duì)列為空時(shí),將找到的節(jié)點(diǎn)視為最近子節(jié)點(diǎn)。通過限制優(yōu)先隊(duì)列的長度,可在盡可能保證精度的同時(shí),避免檢索效率降至線性掃描。Silpa-Anan 等人進(jìn)一步指出優(yōu)先搜索在返回較多結(jié)果時(shí)精度會(huì)大幅降低,并指出其原因是樹中的節(jié)點(diǎn)在優(yōu)先隊(duì)列中相互關(guān)聯(lián),從而帶來誤差。為了避免該問題,他們提出利用多個(gè)搜索樹來共同查詢,每個(gè)搜索樹都為原始樹的一個(gè)隨機(jī)旋轉(zhuǎn);他們還指出主成分分析降維后的樹可有效避免在某些不重要的維度上出現(xiàn)相交的情況。

        1.2 基于聚類的樹形索引

        受聚類方案的啟發(fā),Nister 等人指出可以使用k 均值聚類并按照聚類中心對(duì)中的點(diǎn)進(jìn)行劃分;而對(duì)每個(gè)小類又可繼續(xù)進(jìn)行聚類劃分,直至每類中的點(diǎn)數(shù)量少于某個(gè)固定值。此時(shí),中的點(diǎn)根據(jù)聚類中心自然地形成1 顆樹,檢索時(shí)通過與聚類中心進(jìn)行距離度量來避免進(jìn)入無用的子樹。后續(xù)工作結(jié)合該思路與優(yōu)先隊(duì)列的思想進(jìn)一步編寫了開源庫FLANN,并成為OpenCV 中的重要組成工具。

        1.3 結(jié)合支撐點(diǎn)技術(shù)的樹形索引

        在度量空間的近鄰檢索問題中,由于缺少一般意義的坐標(biāo),因此常常使用支撐點(diǎn)技術(shù)來加快最近鄰檢索。具體來說,先選出若干個(gè)支撐點(diǎn),計(jì)算支撐點(diǎn)與中的點(diǎn)以及支撐點(diǎn)之間的距離;在檢索時(shí),通過基本的三角不等式或托勒密不等式就可以快速確定大量中的點(diǎn)不可能成為最近鄰點(diǎn),從而達(dá)到快速過濾的效果。

        Arora 等人的工作綜合使用了包括支撐點(diǎn)技術(shù)在內(nèi)的多種想法,其索引構(gòu)建過程如下:首先,將點(diǎn)投影到希爾伯特曲線上,即將高維值降至一維希爾伯特曲線值,由于希爾伯特曲線可能會(huì)破壞部分相鄰性,因此,不完全使用維空間上的希爾伯特曲線,而分別使用部分維度生成多條希爾伯特曲線,以避免出現(xiàn)過度過濾的現(xiàn)象。其次,根據(jù)希爾伯特曲線值生成B+樹的非葉節(jié)點(diǎn),使用支撐點(diǎn)技術(shù)計(jì)算節(jié)點(diǎn)與支撐點(diǎn)間的距離,并將距離值存放在生成的B+樹的葉子節(jié)點(diǎn)中。在檢索時(shí),首先通過B+樹非葉節(jié)點(diǎn)過濾,此時(shí)也已隱含利用了希爾伯特曲線投影的過濾。其次,使用支撐點(diǎn)組成的不等式進(jìn)一步過濾。最后,計(jì)算未被過濾掉的點(diǎn)的實(shí)際距離,以得到最終結(jié)果??梢钥闯?,該方案充分考慮了多種已有方案的過濾手段,在提升檢索效率的同時(shí),也導(dǎo)致了其參數(shù)設(shè)置變得復(fù)雜,且與硬件緊密相關(guān)。

        2 哈希散列

        與樹形索引不同,哈希類方案希望將中的點(diǎn)投影到鍵值對(duì)表中。其中,鍵常被稱為“桶號(hào)”,而值為在該桶中的向量ID 號(hào);在檢索時(shí),先計(jì)算檢索點(diǎn)所對(duì)應(yīng)的桶號(hào),再對(duì)該桶號(hào)對(duì)應(yīng)的所有向量的實(shí)際距離進(jìn)行度量。因此,哈希類方案一方面試圖尋找一種投影方式,使高維空間中相近的點(diǎn)投影至一維時(shí),其桶號(hào)的值相同;另一方面,還需要考慮在確定投影方式后如何提高準(zhǔn)確率。

        2.1 靜態(tài)綁定框架

        單個(gè)投影函數(shù)無法保證較高的精度,因此通常隨機(jī)生成個(gè)同分布的投影函數(shù),即在索引構(gòu)建時(shí)生成張表;在檢索時(shí),得到每張表中查詢向量對(duì)應(yīng)的桶號(hào),度量檢索向量與對(duì)應(yīng)桶中靠前的點(diǎn)的實(shí)際距離,以獲得結(jié)果。上述策略被稱為靜態(tài)綁定框架,其存在2 個(gè)明顯缺陷:1) 需要計(jì)算很多張表才能維持較好的精度,計(jì)算過于復(fù)雜。2) 如果所有桶中沒有足夠多的點(diǎn),那么就無法完成近似k 近鄰檢索,須重新生成索引表。上述問題本質(zhì)上是由索引表在構(gòu)建完成后完全固定、缺少靈活性所造成的。

        2.2 動(dòng)態(tài)綁定框架

        3 近鄰圖方案

        上述2 種方案本質(zhì)上都是通過劃分空間來避免檢索時(shí)計(jì)算無意義的距離;然而,如果將中的點(diǎn)視作一個(gè)整體,那么這些點(diǎn)會(huì)構(gòu)成一張圖。近鄰圖類方案試圖通過僅在圖上計(jì)算來找到相近的點(diǎn)。

        眾所周知,圖由若干點(diǎn)以及點(diǎn)上的邊組成。圖類方案中通常使用爬山算法來尋找近鄰點(diǎn)。具體來說,其遵循的思路是鄰居的鄰居很可能是鄰居;在檢索時(shí),從隨機(jī)點(diǎn)或某個(gè)固定點(diǎn)出發(fā),將距離較小的相鄰點(diǎn)放入一個(gè)優(yōu)先隊(duì)列中;然后不斷從優(yōu)先隊(duì)列中距離最小的點(diǎn)出發(fā),尋找新的鄰居直至收斂到個(gè)固定值。因此,檢索的時(shí)間復(fù)雜度與2 個(gè)參數(shù)有關(guān),即圖中每個(gè)點(diǎn)的平均出度、找到想要的點(diǎn)需要經(jīng)過的跳數(shù)。接下來主要介紹在圖方案中構(gòu)建索引的方法,默認(rèn)其在檢索時(shí)使用爬山算法或類似變體。現(xiàn)有的方案主要基于4 種特殊的圖,即德勞內(nèi)圖、相對(duì)近鄰圖、可通航小世界網(wǎng)絡(luò)和單調(diào)搜索網(wǎng)絡(luò)。

        3.1 德勞內(nèi)圖

        德勞內(nèi)圖指如果圖中任意3 點(diǎn)兩兩相連,則其形成的外接圓中無點(diǎn)集中的其余點(diǎn)。德勞內(nèi)圖雖適用于爬山算法,但當(dāng)維度較高時(shí),其十分接近于全連接圖,因而構(gòu)圖效率與檢索效率都較低。雖然如此,后續(xù)實(shí)用的圖結(jié)構(gòu)(例如K 近鄰圖)往往簡化自德勞內(nèi)圖。K 近鄰圖指圖中每個(gè)點(diǎn)與其最接近的個(gè)點(diǎn)相連。雖然這是一個(gè)檢索前可完成的工作,但與前方案類似,得到精確的K 近鄰圖計(jì)算代價(jià)過高。Dong 等人提出一種重要的近似K 近鄰圖生成方案。其核心思路是將自己的鄰居介紹給另一個(gè)鄰居:先隨機(jī)生成圖中的邊,然后不斷借助圖中所有點(diǎn)當(dāng)前的相鄰節(jié)點(diǎn)的相鄰節(jié)點(diǎn)信息進(jìn)行更新,以得到更準(zhǔn)確的自身相鄰節(jié)點(diǎn)。該方案在數(shù)學(xué)上論證了這樣的迭代過程在很大程度上可以保證近鄰圖的精確性,其時(shí)間復(fù)雜度一般記為()。

        3.2 可通航小世界網(wǎng)絡(luò)

        3.3 相對(duì)近鄰圖

        在相對(duì)近鄰圖中,如果2 點(diǎn)間存在邊,則當(dāng)且僅當(dāng)該邊為半徑時(shí),以兩端點(diǎn)為圓心做圓形成的交集空間內(nèi)無圖中其他點(diǎn)。相對(duì)近鄰圖的平均出度為常數(shù),且僅與數(shù)據(jù)維度有關(guān)。MALKOV 等人在可通航小世界圖的基礎(chǔ)上,進(jìn)一步結(jié)合了相對(duì)近鄰圖的思路對(duì)索引構(gòu)建的流程進(jìn)行改進(jìn),即添加新節(jié)點(diǎn)時(shí)不完全按照最近距離連接,而是加上相對(duì)近鄰圖的約束,這帶來更多高質(zhì)量的“捷徑”。

        3.4 單調(diào)搜索網(wǎng)絡(luò)

        基于圖的方案通常需要將所有節(jié)點(diǎn)讀取至內(nèi)存中,因此所占資源較高;但由于這一類方案在效率與精度上表現(xiàn)出的顯著優(yōu)勢(shì)以及半導(dǎo)體技術(shù)的飛速進(jìn)步,因此這一類方案更被工業(yè)界認(rèn)可。此外,近年來有乘積量化類方案可用于壓縮索引,以輔助快速檢索??梢詫D方案與這一類策略結(jié)合,以獲得資源與精度的權(quán)衡。最后,將三類方案的總體優(yōu)、缺點(diǎn)進(jìn)行歸納,見表1。

        表1 三類方案的總體優(yōu)劣分析

        4 結(jié)語

        該文針對(duì)近鄰檢索問題,從索引構(gòu)造方法與檢索流程上對(duì)現(xiàn)有的主流或經(jīng)典方案進(jìn)行梳理。需要注意的是,各類方案在不同的現(xiàn)實(shí)維度中存在自身的優(yōu)勢(shì),因此在實(shí)際應(yīng)用中需要根據(jù)數(shù)據(jù)的可能分布、計(jì)算機(jī)的性能等各項(xiàng)參數(shù)進(jìn)行細(xì)致地分析。近鄰檢索仍是一個(gè)不斷發(fā)展的領(lǐng)域,希望該文能夠讓讀者從宏觀角度了解索引構(gòu)造思路。

        猜你喜歡
        支撐點(diǎn)樹形隊(duì)列
        花光卉影
        花卉(2024年1期)2024-01-16 11:29:12
        問題與征解
        蘋果高光效樹形改造綜合配套技術(shù)
        河北果樹(2022年1期)2022-02-16 00:41:10
        隊(duì)列里的小秘密
        基于多隊(duì)列切換的SDN擁塞控制*
        軟件(2020年3期)2020-04-20 00:58:44
        在隊(duì)列里
        獼猴桃樹形培養(yǎng)和修剪技術(shù)
        休眠季榆葉梅自然開心樹形的整形修剪
        找準(zhǔn)科學(xué)養(yǎng)護(hù)的支撐點(diǎn)——江蘇高速公路瀝青路面養(yǎng)護(hù)策略思考
        中國公路(2017年15期)2017-10-16 01:31:53
        豐田加速駛?cè)胱詣?dòng)駕駛隊(duì)列
        欧美一区波多野结衣第一页| 亚洲av乱码一区二区三区林ゆな| 色综合久久精品亚洲国产| 少妇spa推油被扣高潮| 国内精品久久久久久久亚洲| 亚洲大胆美女人体一二三区| 久久久精品久久久久久96| 国产精品免费精品自在线观看| 国产精品第1页在线观看| 中文字幕无线精品亚洲乱码一区| av日韩高清一区二区| 久久久国产乱子伦精品作者| 中国年轻丰满女人毛茸茸| 免費一级欧美精品| 色播视频在线观看麻豆| 亚洲av无码一区二区三区天堂古代| 国产av一区二区三区日韩| 亚洲无码美韩综合| 91九色熟女潮喷露脸合集| 人妻插b视频一区二区三区| 欧美z0zo人禽交欧美人禽交| 国产主播一区二区在线观看| 亚洲精品偷拍自综合网| 亚洲精品久久| 亚洲男人天堂2017| 激情在线视频一区二区三区| 无码伊人66久久大杳蕉网站谷歌| 18禁裸男晨勃露j毛免费观看| 人妻人妻少妇在线系列| 国产人妖伦理视频在线观看| 国产精品无码一区二区三区| 最新69国产成人精品视频免费| 麻豆果冻传媒在线观看| 国产成人精品免费久久久久 | 国产高清不卡二区三区在线观看| 亚洲自偷精品视频自拍| 18无码粉嫩小泬无套在线观看| 亚洲日本VA午夜在线电影| 国产高清在线一区二区不卡| 亚洲国产成人影院在线播放| 在线精品日韩一区二区三区|