亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于GPU的干涉測量VDIF格式數(shù)據(jù)編幀方法*

2020-11-16 12:46:04陳永強焦義文劉燕都

遙測遙控 2020年5期

陳永強，馬宏，焦義文，劉燕都

（航天工程大學電子與光學工程系北京 101416）

引言

甚長基線干涉測量VLBI（Very Long Baseline Interferometry）技術利用孔徑綜合思想，將分布在各地的觀測天線等效成為一個天線，具有極高的測角精度和空間分辨率，能夠為空間目標的觀測提供高精度橫向信息。目前，我國已建成中國科學院VLBI網、國家授時中心VGOS VLBI全球觀測系統(tǒng)（VLBI Global Observation System）多站觀測系統(tǒng)，以及我國深空測控網等多個重要的VLBI觀測網絡，這些網絡將在基于VLBI的時空框架的建立和維持、地球自傳參數(shù)測量、深空導航以及大地測量等領域扮演越來越重要的角色[1-3]。完整的VLBI觀測網絡由觀測站和相關處理中心兩部分構成，VLBI數(shù)字基帶轉換器DBBC（Digital Baseband Converter）作為觀測站數(shù)據(jù)采集、記錄和傳輸?shù)暮诵脑O備，在我國深空探測及國際VLBI聯(lián)測中發(fā)揮了重要作用。

為了實現(xiàn)聯(lián)合觀測的數(shù)據(jù)交互，VLBI研究機構在21世紀初為VLBI系帶轉換器數(shù)據(jù)記錄系統(tǒng)設計了VLBI標準接口VSI（VLBI Standard Interface）規(guī)范[4]，該標準是上一代干涉測量系統(tǒng)基帶轉換器實信號數(shù)據(jù)接口和軟件控制的指定標準格式，并作為國際VLBI聯(lián)合觀測的主要數(shù)據(jù)交換格式一直沿用至今。然而，VSI規(guī)范卻未將VLBI數(shù)據(jù)傳輸格式納入考慮范圍[5]。為了解決數(shù)據(jù)傳輸問題，基于標準RTP/RTCP協(xié)議的e-VLBI標準被開發(fā)出來，即VSI-E，該標準功能全面，但由于其協(xié)議過于復雜，導致難以得到廣泛應用[6]。

近年來，隨著通信技術和網絡技術的快速發(fā)展，許多研究機構研制了新一代VLBI數(shù)據(jù)基帶轉換系統(tǒng)，由于各機構產品標準不一，導致國際VLBI聯(lián)合觀測數(shù)據(jù)交換需要進行大量的數(shù)據(jù)格式轉換。為了解決此問題，2008年，國際VLBI研討會決定開發(fā)VLBI接口規(guī)范VDIF（VLBI Data Interchange Format）[7]。與VSI-E格式相比，VDIF格式更加簡化，數(shù)據(jù)格式設計完全獨立于傳輸協(xié)議，這使得該標準適合于各種網絡傳輸協(xié)議和磁盤文件傳輸。近年來，隨著VDIF標準的不斷更新[5,8]，大量新一代基帶轉換系統(tǒng)，包括歐洲DBBC3[9]、中國CDAS3[10]、美國R2DBE[11]、日本OCTAVE[12]、俄羅斯MDBE[13]等系統(tǒng)均支持該標準，同時，我國部分院校的研究人員對VDIF格式在FPGA平臺的實現(xiàn)方式也進行了研究[14]。

我國深空測控網VLBI基帶轉換與記錄系統(tǒng)是一套基于FPGA平臺開發(fā)的VLBI數(shù)字后端DBE（Digital Backend Equipment）系統(tǒng)，該系統(tǒng)從設計之初便同時支持VSI標準規(guī)范和RDEF規(guī)范。但隨著系統(tǒng)功能的拓展，該系統(tǒng)需支持VDIF格式以應對VLBI聯(lián)合觀測需求的日益增加，而當前系統(tǒng)的體系結構給系統(tǒng)進一步升級換代帶來了較大困難。為了提高系統(tǒng)的靈活性和擴展性，同時提高系統(tǒng)的可重構性，需要對系統(tǒng)結構進行改進。

本文通過研究，利用圖形處理單元GPU（Graphic Process Unit）的高靈活性和高效并行數(shù)據(jù)處理能力[15]，設計了一種基于GPU的干涉測量VDIF格式數(shù)據(jù)編幀方法，并通過試驗驗證了方法的正確性。

1 干涉測量VDIF數(shù)據(jù)格式規(guī)范

1.1 VDIF數(shù)據(jù)格式規(guī)范簡介

VDIF數(shù)據(jù)幀（VDIF Data Frame）由數(shù)據(jù)幀頭（Data Frame Header）和數(shù)據(jù)陣列（Data Array）兩部分構成。幀頭處于數(shù)據(jù)幀的頭部，是一個帶有自我識別標識的32字節(jié)字段，內含用于標識本幀數(shù)據(jù)的附加信息。幀頭后面跟著一個或多個頻率通道采樣點組成的時間數(shù)據(jù)序列。

VDIF規(guī)范的數(shù)據(jù)排列具有很高的靈活性，一個數(shù)據(jù)幀中可攜帶多個通道的數(shù)據(jù)，也可以僅攜帶一個通道的數(shù)據(jù)。在VDIF規(guī)范中，來自同一組子帶的時間序列幀被稱作一個數(shù)據(jù)線程（Data Thread），同一個數(shù)據(jù)線程中每一個數(shù)據(jù)幀用位于幀頭內的線程序號（Thread ID）來標識。一組數(shù)據(jù)集內的數(shù)據(jù)線程被合并成單個串行的數(shù)據(jù)流（Data Stream），一個觀測掃描周期內的所有的數(shù)據(jù)線程被稱作一個數(shù)據(jù)段（Data Segment）。在VDIF規(guī)范中推薦了兩種數(shù)據(jù)流組織方式[7]：①一個數(shù)據(jù)流僅由一個數(shù)據(jù)線程組成；②一個數(shù)據(jù)流由多個單通道數(shù)據(jù)線程組成。兩種模式下數(shù)據(jù)流如圖1所示。

VDIF規(guī)范的設計同時適用于網絡傳輸和硬盤存儲。在網絡傳輸模式下，每個數(shù)據(jù)包僅包含一個VDIF數(shù)據(jù)幀作為其數(shù)據(jù)載荷，在此模式下，數(shù)據(jù)幀長一般被限制在約64字節(jié)～9000字節(jié)。而在硬盤存儲模式下，數(shù)據(jù)幀長受限于幀頭中表示幀長的數(shù)據(jù)位數(shù)，即227字節(jié)。

圖1 多通道模式和單通道模式VDIF數(shù)據(jù)流示意圖Fig.1 Schematic diagram of VDIF data flow in multi-channel mode and single-channel mode

1.2 VDIF數(shù)據(jù)幀頭

標準的VDIF數(shù)據(jù)幀頭大小為32字節(jié)，其內部結構如圖2所示[7]。

圖2 VDIF規(guī)范數(shù)據(jù)幀頭格式Fig.2 VDIF standard data frame header format

當前，VDIF規(guī)范數(shù)據(jù)幀頭格式已經更新到第四版[16]，該版是為了解決多路復用VDIF數(shù)據(jù)的有效性問題而設計。其核心功能主要解決兩個方面的問題，一是大量數(shù)據(jù)處理時丟幀的問題，二是相關處理時數(shù)據(jù)重新排列（corner-turn）的問題。此外，NICT[17]、NRAO[18]、Haystack[19]和ALMA[20]等機構均在VDIF規(guī)范的基礎上利用用戶擴展字節(jié)開發(fā)了自己的VDIF版本。

1.3 VDIF數(shù)據(jù)序列的排列

標準的VDIF數(shù)據(jù)序列的排列方式只與幀頭內的通道數(shù)和量化位數(shù)有關。數(shù)據(jù)格式必須遵守這些基本設定以便后續(xù)的數(shù)據(jù)處理設備能夠快速解析數(shù)據(jù)。根據(jù)幀頭中數(shù)據(jù)類型和通道數(shù)的定義，VDIF規(guī)范的數(shù)據(jù)排列方式可分為單通道實數(shù)，單通道復數(shù)，多通道實數(shù)，多通道復數(shù)四種模式。在VDIF規(guī)范中，復數(shù)是以實部和虛部兩部分單獨處理的，其量化與實數(shù)相同，只是數(shù)據(jù)排列時將復數(shù)的I、Q兩部分連續(xù)排列即可。

①單通道VDIF數(shù)據(jù)排列格式

在單通道實數(shù)模式下，數(shù)據(jù)量化位數(shù)1bit到32bit任選，數(shù)據(jù)排列從低位開始，最先進入的數(shù)據(jù)占據(jù)bit0，其后的數(shù)據(jù)依次占據(jù)后面的數(shù)據(jù)位，直到32bit字的剩余空間不足一個采樣點量化存儲時，從下一個32位字重新開始寫入數(shù)據(jù)，即一個數(shù)據(jù)的量化結果不跨越32位字的邊界。需要注意的是，第一個數(shù)據(jù)點的時刻必須與幀頭中標識的時間嚴格對應。以2bit量化為例，單通道模式下實數(shù)數(shù)據(jù)排列方式如圖3（a）所示。

單通道復數(shù)模式下VDIF數(shù)據(jù)排列方式與實數(shù)排列方式類似，主要區(qū)別在于復數(shù)的一個采樣點實際上由實部和虛部兩個部分構成，且兩個部分的量化位數(shù)相同。這兩個部分在量化時是作為一對數(shù)據(jù)處理而且是相鄰放置。放置時，實部位于低位，虛部位于高位。當量化位數(shù)大于16bit時，實部占據(jù)前兩個32位字，虛部占據(jù)相鄰的后兩個32位字。單通道模式下量化位數(shù)2bit的復數(shù)數(shù)據(jù)排列方式如圖3（b）所示。

②多通道VDIF數(shù)據(jù)排列格式

為了符合傳統(tǒng)VLBI應用實踐，同時簡化數(shù)據(jù)格式，VDIF規(guī)范多通道模式僅支持2的整數(shù)次冪數(shù)量的通道數(shù)和量化位數(shù)。為了定義多通道模式下數(shù)據(jù)格式，VDIF規(guī)范提出了“complete sample”的概念，complete sample表示所有通道一次采樣所得量化位數(shù)。在實數(shù)模式下，若用2n表示通道數(shù)，2k表示量化位數(shù)，則complete sample=2n×2k。多通道模式下complete sample為4bit的實數(shù)數(shù)據(jù)排列方式如圖3（c）所示。需要注意，該模式下每個數(shù)據(jù)矩陣必須包含整數(shù)個complete sample，而這一要求在通道數(shù)較多時將面臨困難。因此，多通道模式在網絡傳輸時會遇到較大的障礙，而在文件記錄和傳輸時不受影響。

在多通道復數(shù)模式下，通道數(shù)依然限制為2n，而復數(shù)的實部和虛部的量化位數(shù)均為2k，因此復數(shù)模式下，complete sample=2×2n×2k。復數(shù)數(shù)據(jù)各通道排列方式與實數(shù)相同，而實部和虛部的排列方式與單通道模式下相同，多通道模式下complete sample為8bit的復數(shù)數(shù)據(jù)排列方式如圖3（d）所示。

圖3 VDIF規(guī)范數(shù)據(jù)排列方式Fig.3 VDIF specification data arrangement

2 基于GPU的VDIF格式數(shù)據(jù)編幀方法

2.1 基于GPU的VDIF格式數(shù)據(jù)編幀流程

典型的深空測控干涉測量系統(tǒng)基帶轉換器結構如圖4所示[21]?；鶐мD換器整體由數(shù)據(jù)預處理模塊、并行信道化模塊、數(shù)據(jù)格式化模塊和IO模塊組成。模擬輸入信號經過數(shù)據(jù)預處理模塊的幅度調節(jié)和并行信道化模塊的分通道處理，最終按照要求輸出固定帶寬的多路并行子帶信號。數(shù)據(jù)格式化模塊按照接口文件的要求，將各通道信號量化編幀，輸出符合標準格式規(guī)范的數(shù)據(jù)流。數(shù)據(jù)格式化模塊是基帶轉換器和相關處理機溝通的橋梁，只有經過該模塊嚴格格式化的數(shù)據(jù)才能最終通過IO模塊送到數(shù)據(jù)處理中心進行進一步處理。

圖4 VLBI基帶轉換器工作流程Fig.4 Workflow of VLBI baseband converter

經過并行信道化模塊的處理，串行的高速數(shù)據(jù)變?yōu)椴⑿械亩嗦返退贁?shù)據(jù)，在數(shù)據(jù)速率降低的同時，數(shù)據(jù)的并行性大幅提高，各通道之間數(shù)據(jù)完全獨立，可充分利用GPU實現(xiàn)數(shù)據(jù)的并行化處理。

根據(jù)VDIF格式規(guī)范要求，多路并行的數(shù)據(jù)可選擇多通道合并量化或者單通道單獨量化，最終輸出格式化的數(shù)據(jù)。由于各路數(shù)據(jù)之間互相獨立，且同一通道內各數(shù)據(jù)之間也有獨立性，因此可利用每個GPU線程完成一個數(shù)據(jù)點的量化，最終將量化結果合并為格式化文件。計算統(tǒng)一設備架構CUDA（Compute Unified Device Architecture）是NVIDIA提出的GPU平臺并行計算模型，基于CUDA的VDIF數(shù)據(jù)編幀流程如圖5所示。

由圖5可知，該流程主要由三個模塊構成，即初始化和幀頭參數(shù)計算模塊、單通道單線程編幀模塊以及多通道單線程編幀模塊。該流程輸入數(shù)據(jù)為信道化后輸出的并行多通道數(shù)據(jù)，數(shù)據(jù)處理模塊根據(jù)量化參數(shù)生成幀頭，并按照量化模式分別對多通道數(shù)據(jù)進行量化處理。在單線程多通道模式下，系統(tǒng)僅開啟一個數(shù)據(jù)線程，所有通道的數(shù)據(jù)均按通道順序量化編幀，由于CUDA數(shù)組訪存是行優(yōu)先，為了提高訪存效率，首先對數(shù)據(jù)進行轉置，然后按行對數(shù)據(jù)進行逐點量化并組成字節(jié)和32位字。在單線程單通道模式下，系統(tǒng)按照通道數(shù)啟動多個數(shù)據(jù)線程，每個數(shù)據(jù)線程處理一路數(shù)據(jù)。而在CUDA環(huán)境中，可采用CUDA Stream異步啟動多個流并行處理每一通道數(shù)據(jù)。在一幀數(shù)據(jù)處理完后，循環(huán)更新幀號并處理下一幀數(shù)據(jù)，實際上，由于數(shù)據(jù)的并行性，此流程也可以同時實現(xiàn)多幀數(shù)據(jù)的并行量化。

圖5 基于GPU的VDIF數(shù)據(jù)編幀流程Fig.5 GPU-based VDIF data encoding process

2.2 幀頭參數(shù)計算模塊

幀頭參數(shù)計算模塊主要完成計算單元的初始化和幀頭參數(shù)的計算，而幀頭參數(shù)的計算為其核心內容。在實際處理過程中，幀頭參數(shù)的計算和更新流程如圖6所示。

在圖6中，幀頭參數(shù)計算模塊輸入參數(shù)為量化位數(shù)、帶寬、通道數(shù)、幀長、數(shù)據(jù)類型。該模塊接收到上述參數(shù)后，首先啟動時標計算，根據(jù)VDIF格式規(guī)范，首先根據(jù)當前時間計算當天的參考歷元epoch，然后根據(jù)epoch計算當前時刻的積秒。時標計算完成后，根據(jù)通道數(shù)、量化位數(shù)和數(shù)類型計算complete sample，同時根據(jù)帶寬、量化位數(shù)和數(shù)據(jù)類型計算數(shù)據(jù)速率。最后，根據(jù)數(shù)據(jù)速率和complete sample計算量化后的數(shù)據(jù)量，并根據(jù)輸入幀長參數(shù)對幀長按照8字節(jié)取整。計算完成后，該模塊進行參數(shù)合法性判定：一是1s內幀數(shù)是否為整數(shù)，二是量化后數(shù)據(jù)量是否為完成量化位數(shù)的整數(shù)倍。至此，幀頭參數(shù)的計算和校驗完成，加入線程ID、測站ID和擴展數(shù)據(jù)后即創(chuàng)建初始幀頭。

初始幀頭創(chuàng)建完成后，數(shù)據(jù)量化流程同時啟動，按照量化的數(shù)據(jù)幀信息，幀頭內時標和幀序號實時更新并循環(huán)寫入數(shù)據(jù)幀，直到量化編幀流程結束。

圖6 VDIF規(guī)范數(shù)據(jù)幀頭創(chuàng)建和更新流程Fig.6 VDIF specification data frame header creation and update

2.3 多通道單線程編幀模塊

在多通道單線程模式下，為了實現(xiàn)數(shù)據(jù)存取操作的加速，需要將原來按通道行優(yōu)先存儲的數(shù)據(jù)變?yōu)榘赐ǖ懒袃?yōu)先存儲，這樣按行高效存取時就能直接獲取一次采樣的所有通道數(shù)據(jù)，使得存取效率大大提高。

在完成了數(shù)據(jù)轉置后，并行的多路數(shù)據(jù)變?yōu)榘戳写鎯Φ亩S數(shù)據(jù)矩陣。在此二維數(shù)據(jù)的基礎上，針對性開辟二維CUDA線程塊，每個線程負責一個數(shù)據(jù)點的量化，最終將量化結果拼接成字節(jié)存儲。以2bit量化為例，線程塊的分配、數(shù)據(jù)量化流程如圖7所示。線程網格分配按照512為基數(shù)循環(huán)加載，保證處理完所有的數(shù)據(jù)點。線程網格內，線程塊分配為二維，第一維度線程數(shù)大于通道數(shù)并以32為單位增加；第二維度代表需要處理的每通道數(shù)據(jù)點，設置線程數(shù)為256，并隨著線程網格循環(huán)加載直到處理完所有數(shù)據(jù)。在量化階段，每個線程負責處理一個數(shù)據(jù)點，首先執(zhí)行位置判斷確定其所處字節(jié)位置，然后執(zhí)行量化判斷選擇量化結果，最終按順序將相鄰四個數(shù)據(jù)點合并為字節(jié)并編入幀結構。

與傳統(tǒng)基帶轉換器數(shù)據(jù)格式相比，VDIF規(guī)范多通道模式下通道數(shù)和量化位數(shù)仍然服從2的整數(shù)次冪的約束，但完成量化位數(shù)不再受32位字空間的約束，可以將符合complete sample=2×2n×2k（n=0～31,k=0～5）的所有數(shù)據(jù)經行編幀處理。從圖7可知，在多通道數(shù)據(jù)轉置完成后，量化編幀過程僅與完成量化位數(shù)有關，據(jù)此便可得到不同完成量化位數(shù)條件下的量化核函數(shù)。

2.4 多通道多線程編幀模塊

在多通道多線程模式下，并行的各通道數(shù)據(jù)由獨立的數(shù)據(jù)線程進行處理，而由于各路數(shù)據(jù)相互獨立，可采用流式異步并行架構對各路數(shù)據(jù)同時進行量化處理，數(shù)據(jù)處理流程如圖8所示。在處理過程中，并行的各路數(shù)據(jù)流被按通道號分配給不同的CUDA stream，各個stream同時拷貝數(shù)據(jù)到各自空間并執(zhí)行異步量化和編幀，待各路編幀完成后，各stream讀入下一段數(shù)據(jù)并重復上述過程。待處理完成后，符合VDIF格式規(guī)范的數(shù)據(jù)通過主機接口寫入文件或寫入網絡數(shù)據(jù)包發(fā)送給用戶。

圖8 多通道多線程編幀流程圖Fig.8 Flow chart of multi-channel and multi-threaded framing

在多通道多線程模式下，一個數(shù)據(jù)線程負責處理一個單獨的數(shù)據(jù)通道，所以其數(shù)據(jù)編幀方式更加靈活，量化位數(shù)不再受到2的整數(shù)次冪的限制，但其整體數(shù)據(jù)幀結構仍然受到以32位字為單位的制約。另外，由于各通道數(shù)據(jù)本身就是按照行優(yōu)先排列，不再需要數(shù)據(jù)轉置。

由于量化過程的相似性，多通道多線程模式下數(shù)據(jù)量化編幀核函數(shù)依然分為數(shù)據(jù)量化映射與按位編幀兩個步驟，因此可以認為單通道單線程是多通道單線程在通道數(shù)為1時的一個特例，在常用的2的整數(shù)次冪量化位數(shù)條件下，兩種模式重要核函數(shù)可復用。

3 編幀模塊的優(yōu)化

數(shù)據(jù)編幀模塊實現(xiàn)了基于GPU的并行多路數(shù)據(jù)的逐點量化和編幀。然而，在量化核函數(shù)中，采用了大量的分支判斷結構，該結構邏輯清晰，但在GPU核函數(shù)中會給執(zhí)行效率帶來不利影響。另外，上述量化編碼結構采用逐幀循環(huán)處理的方法處理數(shù)據(jù)，由于數(shù)據(jù)量大，循環(huán)結構在無法有效占用GPU資源的條件下，將會降低數(shù)處理效率。為了解決以上問題，本文設計了基于紋理查找表的編碼方法和基于流架構的多幀數(shù)據(jù)異步并行編幀方法。

3.1 基于紋理緩存查找表的數(shù)據(jù)量化方法

為了解決分支結構給量化過程帶來的效率損失，本文采用基于紋理緩存的量化查找表代替分支結構，實現(xiàn)數(shù)據(jù)量化過程。紋理緩存是GPU全局內存上一塊特殊的區(qū)域，該區(qū)域經過特別的硬件加速，能夠按照輸入索引輸出對應的列表值，適用于實現(xiàn)高效的查找表。

基于紋理緩存的量化查找表實現(xiàn)步驟如下：

①根據(jù)輸入參數(shù)計算完成量化位數(shù)（complete sample=通道數(shù)×量化位數(shù)×復數(shù)標識），其中當數(shù)據(jù)類型為復數(shù)（實數(shù)）時，復數(shù)標識為2（1）；

②根據(jù)完成量化位數(shù)分配緩存空間，并加載量化數(shù)據(jù)表；

③將量化數(shù)據(jù)表綁定紋理內存；

④在量化編幀核函數(shù)內，按照輸入數(shù)據(jù)調用紋理拾取核函數(shù)，尋址方式為鉗位尋址（CUDA Address Mode Clamp），紋理拾取濾波模式選擇取整量化（CUDA Filter Mode Point）；

⑤將量化結果按位置寫入數(shù)據(jù)幀。

3.2 基于流式架構的多幀信號異步編幀方法

在上文所述的編幀方法中，無論是多通道模式還是單通道模式，數(shù)據(jù)幀的寫入均遵循幀內數(shù)據(jù)點并行量化，每幀數(shù)據(jù)串行循環(huán)處理的思路。雖然幀內數(shù)據(jù)的并行處理有效提高了數(shù)據(jù)并行性，但數(shù)據(jù)幀的串行處理并沒有充分利用讀入數(shù)據(jù)段的并行性。根據(jù)幀頭參數(shù)設置，每一次所要處理的幀數(shù)已經確定，且各幀之間數(shù)據(jù)完全獨立。因此，可利用異步并行結構，在查找表量化環(huán)節(jié)之后，直接對量化后的數(shù)據(jù)分段異步并行編幀，這樣可以進一步提高數(shù)據(jù)的并行性。然而，并行編幀之前，需要預先計算好各個數(shù)據(jù)幀頭的參數(shù)。流式架構異步并行編幀方法流程如圖9所示。

圖9 流式架構異步并行編幀算法流程Fig.9 Algorithm flow of asynchronous and parallel framing of streaming architecture

圖9中，系統(tǒng)輸入數(shù)據(jù)為信道化后的浮點數(shù)，該浮點數(shù)經過并行量化變?yōu)闊o符號的二進制量化數(shù)據(jù)。輸出數(shù)據(jù)根據(jù)幀數(shù)N分為并行的N段，使得每段數(shù)據(jù)剛好組成一幀。啟動N個CUDA stream，并保證每一個stream負責處理一幀數(shù)據(jù)。在每一個stream內，數(shù)據(jù)根據(jù)量化位數(shù)（多通道模式下為complete sample）將相鄰點的數(shù)據(jù)寫入32位word，并組成數(shù)據(jù)幀。

4 仿真驗證與結果分析

為了驗證所提編幀方法的有效性，本文利用仿真數(shù)據(jù)對編幀過程全流程進行了正確性測試。測試過程分為幀頭測試和數(shù)據(jù)陣列測試兩個部分。測試硬件平臺為HP ZBook-15，計算用GPU為NVIDIA Quadro P2000 Mobile，計算能力6.1。軟件開發(fā)環(huán)境采用Microsoft Visual Studio Community 2015和CUDA 10.2。

4.1 VDIF格式幀頭測試

幀頭測試主要流程為，首先利用本文所提方法得到VDIF規(guī)范數(shù)據(jù)幀，然后利用測試軟件測試幀頭數(shù)據(jù)，驗證幀頭數(shù)據(jù)的正確性。測試時間為UTC時間2020年6月21日1時46分11.5630秒，帶寬2MHz。設置量化位數(shù)為1，則實際量化位數(shù)2bit。模式為單線程多通道模式，設置線程ID為0，通道數(shù)對數(shù)為1，則實際通道數(shù)為2。設置不含幀頭的8bit單位幀長為1000，則實際幀長8032字節(jié)，數(shù)據(jù)為實數(shù)。另外設置測站ID為“HR”，VDIF版本設置為0，擴展數(shù)據(jù)2設置為幀同步字“0xACABFEED”，其余擴展數(shù)據(jù)位設置為零。這里為了測試方便，暫未對數(shù)據(jù)有效性信息相關的擴展字節(jié)定義。

根據(jù)以上信息生成VDIF格式數(shù)據(jù)幀，然后利用VLBI開源數(shù)據(jù)處理軟件DiFX[22]內用于VDIF數(shù)據(jù)測試的函數(shù)printVDIFHeader測試數(shù)據(jù)幀幀頭數(shù)據(jù)，得測試結果如圖10所示。從測試結果可知，本文設計的幀頭生成結構可實現(xiàn)VDIF格式數(shù)據(jù)幀頭正確生成。

4.2 VDIF格式數(shù)據(jù)編幀結果測試

編幀結果測試主要流程為：首先，利用本文所提方法分別采用CUDA和MATLAB對輸入數(shù)據(jù)進行量化，得到VDIF規(guī)范數(shù)據(jù)幀；然后，利用MATLAB分別提取兩種方法生成的數(shù)據(jù)，并比較數(shù)據(jù)的正確性。輸入數(shù)據(jù)選用均值為0方差為1的高斯白噪聲。由此得到分別采用兩種方法量化后一幀數(shù)據(jù)逐字節(jié)比對結果如圖11所示，從圖中可知，兩種方法量化結果完全吻合，量化結果與理論值偏差優(yōu)于10-10。測試結果證明了量化方法的正確性。

圖10 VDIF規(guī)范數(shù)據(jù)幀幀頭測試結果Fig.10 VDIF standard data frame header test results

圖11 VDIF規(guī)范數(shù)據(jù)8bit量化結果對比Fig.11 Comparison of 8bit quantization results of VDIF standard data

5 結束語

本文首先分析了干涉測量數(shù)據(jù)記錄系統(tǒng)VDIF規(guī)范支持的必要性和基于GPU的編幀方法的可行性；然后分析了VDIF格式規(guī)范規(guī)定的數(shù)據(jù)編幀方法，介紹了幀頭數(shù)據(jù)的填寫規(guī)范，重點研究了不同數(shù)據(jù)類型、不同通道數(shù)和不同數(shù)據(jù)線程數(shù)條件下的數(shù)據(jù)排列方法；最后，基于GPU開發(fā)了符合VDIF規(guī)范的數(shù)據(jù)編幀方法，并介紹了幀頭計算模塊、多通道單線程編幀模塊和多通道多線程編幀模塊的實現(xiàn)方法。為了實現(xiàn)編幀過程效率的優(yōu)化，設計了基于紋理緩存查找表的數(shù)據(jù)量化方法和基于流式架構的多幀信號異步編幀方法。通過實驗驗證，證明了本文編幀方法的正確性。本文所設計的基于GPU的VDIF規(guī)范數(shù)據(jù)編幀方法將能夠有效提高我國深空測控干涉測量數(shù)據(jù)記錄系統(tǒng)的靈活性和兼容性，為該系統(tǒng)參與聯(lián)合觀測提供有效的支持。