亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向商業(yè)數(shù)據(jù)分析實驗的數(shù)據(jù)合成系統(tǒng)設(shè)計

        2025-04-20 00:00:00李洋李云矯韓赟
        無線互聯(lián)科技 2025年6期
        關(guān)鍵詞:機器學(xué)習(xí)

        摘要:實驗數(shù)據(jù)是實驗教學(xué)和科研創(chuàng)新的關(guān)鍵要素。商業(yè)數(shù)據(jù)分析領(lǐng)域的科研實驗和教學(xué)實驗長期受限于數(shù)據(jù)的隱私性和敏感性而無法獲取足量的真實數(shù)據(jù)。將機器學(xué)習(xí)技術(shù)應(yīng)用于合成實驗數(shù)據(jù),基于Python編程語言生態(tài),使用機器學(xué)習(xí)算法庫SDV,文章設(shè)計了一種為商業(yè)數(shù)據(jù)分析實驗提供合成數(shù)據(jù)的軟件系統(tǒng)SD4BA,分析真實數(shù)據(jù)樣本模式,訓(xùn)練數(shù)據(jù)生成器,產(chǎn)生任意數(shù)量的合成數(shù)據(jù)。通過對合成數(shù)據(jù)的主要特征進行評估,其與真實數(shù)據(jù)樣本具有相似模式并實現(xiàn)了數(shù)據(jù)脫敏,可為商業(yè)數(shù)據(jù)分析實驗提供較高保真度的足量數(shù)據(jù)。

        關(guān)鍵詞:商業(yè)數(shù)據(jù)分析;機器學(xué)習(xí);合成數(shù)據(jù);數(shù)據(jù)脫敏

        中圖分類號:G482 文獻(xiàn)標(biāo)志碼:A

        0 引言

        在數(shù)字經(jīng)濟時代背景下,數(shù)據(jù)是形成新質(zhì)生產(chǎn)力的優(yōu)質(zhì)生產(chǎn)要素[1]。產(chǎn)業(yè)數(shù)字化促進了企業(yè)的數(shù)字化轉(zhuǎn)型,商業(yè)數(shù)據(jù)分析(Business Analytics, BA)已成為數(shù)字化企業(yè)發(fā)展新質(zhì)生產(chǎn)力、打造核心競爭力的重要因素。BA實驗是BA人才培養(yǎng)和科學(xué)研究的重要基礎(chǔ)[2],隨著大數(shù)據(jù)和AI技術(shù)的發(fā)展,BA實驗手段和數(shù)據(jù)分析方法愈發(fā)先進,但高質(zhì)量的業(yè)務(wù)數(shù)據(jù)集仍是影響B(tài)A實驗質(zhì)量的核心要素。因此,獲取足量的高質(zhì)量業(yè)務(wù)數(shù)據(jù)集是提升BA實驗效果的關(guān)鍵因素,有利于提高實驗教學(xué)質(zhì)量,激發(fā)科研創(chuàng)新潛力。

        1 BA實驗數(shù)據(jù)獲取面臨的問題

        在BA實驗教學(xué)和科研活動過程中,實驗數(shù)據(jù)的獲取往往受限于隱私性、機密性、版權(quán)、成本、數(shù)據(jù)集規(guī)模等多方面因素的制約,面臨諸多問題。

        1.1 生成隨機數(shù)據(jù)導(dǎo)致實驗真實性不足

        為了以較低成本獲取足量實驗數(shù)據(jù),實驗人員往往使用計算機編程語言提供的隨機函數(shù)或模擬數(shù)據(jù)生成模塊(如Python語言的random庫和Faker庫等)生成隨機數(shù)據(jù)集。這樣獲取的實驗數(shù)據(jù)完整性好、成本低、數(shù)據(jù)量無限制,但與真實數(shù)據(jù)的數(shù)據(jù)特征相差較大,數(shù)據(jù)集內(nèi)部缺乏關(guān)聯(lián)性和業(yè)務(wù)事實,導(dǎo)致實驗的真實性不足,實驗效果不佳,不能為業(yè)務(wù)分析和數(shù)據(jù)挖掘類實驗提供有意義的實驗數(shù)據(jù)集。

        1.2 獲取高質(zhì)量業(yè)務(wù)數(shù)據(jù)的成本較高

        高質(zhì)量業(yè)務(wù)數(shù)據(jù)是指經(jīng)過脫敏、時效性好、足量的真實數(shù)據(jù)集[3],它比開放數(shù)據(jù)集有更好的及時性,比真實數(shù)據(jù)樣本有更大的數(shù)據(jù)量,同時還具有較低的法律風(fēng)險和較高的保真性,對于實驗教學(xué)質(zhì)量和科研探索有很大的促進作用。但高質(zhì)量業(yè)務(wù)數(shù)據(jù)由于受到稀缺性、技術(shù)成本、市場壟斷等因素影響,往往須付費才能獲取,且價格較高,這提高了學(xué)習(xí)者和研究人員開展BA實驗的門檻。

        1.3 自行獲取數(shù)據(jù)的法律風(fēng)險較高

        利用網(wǎng)絡(luò)爬蟲技術(shù)從互聯(lián)網(wǎng)自行獲取數(shù)據(jù)受到了Robots協(xié)議限制[4],隨著反爬蟲技術(shù)的不斷提高和數(shù)據(jù)版權(quán)保護的不斷加強,網(wǎng)絡(luò)爬蟲的技術(shù)門檻和法律風(fēng)險不斷提高,即便是開放數(shù)據(jù)集也在授權(quán)范圍、使用期限、應(yīng)用領(lǐng)域、具體條款等諸多方面有較大的不確定性,侵權(quán)風(fēng)險較高。利用黑客技術(shù)非法獲取數(shù)據(jù)更是違規(guī)違法行為,這使得自行獲取實驗數(shù)據(jù)存在較高的法律風(fēng)險。

        為解決上述問題,將機器學(xué)習(xí)技術(shù)應(yīng)用于合成BA實驗數(shù)據(jù)集,可以低成本地合成任意數(shù)量的高保真實驗數(shù)據(jù)集,同時還大大降低了法律風(fēng)險。

        2 實驗數(shù)據(jù)合成的原理

        數(shù)據(jù)合成是指利用計算機程序生成與真實數(shù)據(jù)樣本具有相同數(shù)據(jù)特征的虛擬數(shù)據(jù)[5-6],多用于AI大模型訓(xùn)練,應(yīng)用數(shù)據(jù)合成技術(shù)可以高效地獲取面向BA實驗的數(shù)據(jù)集。商業(yè)數(shù)據(jù)以結(jié)構(gòu)化程度較高的表格結(jié)構(gòu)數(shù)據(jù)為主,以表格結(jié)構(gòu)的少量真實業(yè)務(wù)數(shù)據(jù)為輸入樣本,分析其元數(shù)據(jù)模式,借助機器學(xué)習(xí)算法,訓(xùn)練數(shù)據(jù)合成模型,再基于該模型生成具有相似數(shù)據(jù)特征的表格結(jié)構(gòu)數(shù)據(jù)集。如圖1所示為數(shù)據(jù)合成原理,通過對輸入的真實數(shù)據(jù)樣本進行元數(shù)據(jù)分析,得到各字段類型、字段取值的基本統(tǒng)計量和各項約束條件,將其與樣本數(shù)據(jù)同時作為參數(shù)傳遞給機器學(xué)習(xí)算法,從Python語言實現(xiàn)的SDV算法庫中選擇Gaussian Copula算法、CTGAN算法[7]等,對默認(rèn)的數(shù)據(jù)合成模型進行指定次數(shù)的迭代訓(xùn)練,形成最終的數(shù)據(jù)合成器并生成指定規(guī)模的合成數(shù)據(jù)集。

        圖1中的元數(shù)據(jù)參數(shù)包括與業(yè)務(wù)邏輯相關(guān)的其他約束條件,如字段取值范圍和相互數(shù)量關(guān)系等,可將真實商業(yè)環(huán)境中提取出來的業(yè)務(wù)邏輯參數(shù)加入合成模型參與迭代訓(xùn)練。模型訓(xùn)練須要耗費大量計算資源,為提高數(shù)據(jù)合成效率,將訓(xùn)練好的數(shù)據(jù)合成器對象序列化存儲在文件中,以便反復(fù)調(diào)用直接進行數(shù)據(jù)合成。

        3 合成數(shù)據(jù)評估

        得到合成數(shù)據(jù)集后,要對其有效性和數(shù)據(jù)質(zhì)量進行評估并將評估結(jié)果可視化,以判斷合成數(shù)據(jù)集是否達(dá)到BA實驗數(shù)據(jù)集的要求。

        3.1 有效性檢驗

        有效性檢驗是對合成數(shù)據(jù)集的數(shù)據(jù)格式和有效性進行基本檢查,以確保創(chuàng)建了有效的合成數(shù)據(jù),主要包括:檢驗主鍵約束、連續(xù)值取值范圍、離散值數(shù)據(jù)類型和列名稱的Validity指標(biāo);檢驗引用完整性、基數(shù)檢驗的Structure指標(biāo)。這2項指標(biāo)值越高,合成數(shù)據(jù)的正確性和有效性越好。

        3.2 數(shù)據(jù)質(zhì)量評估

        數(shù)據(jù)質(zhì)量評估是對真實數(shù)據(jù)與合成數(shù)據(jù)之間的統(tǒng)計相似性進行計算,從而發(fā)現(xiàn)合成數(shù)據(jù)從真實數(shù)據(jù)中捕獲到并合成了哪些模式。主要包括:計算每個單列數(shù)據(jù)邊際分布的Column Shapes指標(biāo)和計算每組成對列二元分布的Column Pair Trends指標(biāo)。這2項指標(biāo)值越高,合成數(shù)據(jù)與真實數(shù)據(jù)的數(shù)據(jù)特征越相似,數(shù)據(jù)質(zhì)量越高。

        3.3 評估結(jié)果可視化

        將真實數(shù)據(jù)列與對應(yīng)的合成數(shù)據(jù)列取值的分布特征和多表關(guān)系的基數(shù)情況以圖形方式在同一坐標(biāo)系中進行對比展示,幫助實驗人員以可視化方式直觀地識別出真實數(shù)據(jù)與合成數(shù)據(jù)之間的特征差異。對于差異較大以致無法滿足實驗要求的合成數(shù)據(jù),須調(diào)整學(xué)習(xí)參數(shù)后重新訓(xùn)練數(shù)據(jù)合成器。

        4 SD4BA系統(tǒng)結(jié)構(gòu)

        基于上述實驗數(shù)據(jù)合成及質(zhì)量評估原理,使用Python編程語言設(shè)計了一種為BA實驗合成數(shù)據(jù)集的軟件系統(tǒng)SD4BA,該系統(tǒng)的結(jié)構(gòu)如圖2所示分為6層,自上而下分別為外部數(shù)據(jù)層、數(shù)據(jù)準(zhǔn)備層、模型訓(xùn)練層、數(shù)據(jù)合成層、數(shù)據(jù)評估層和數(shù)據(jù)輸出層。各層功能內(nèi)聚,層間對象和數(shù)據(jù)傳遞采用函數(shù)調(diào)用方式實現(xiàn)。

        (1)外部數(shù)據(jù)層用于獲取少量的真實數(shù)據(jù)樣本作為系統(tǒng)輸入。支持CSV、Excel和JSON格式的數(shù)據(jù)文件,還可以直接調(diào)用數(shù)據(jù)庫連接模塊通過SQL語句從關(guān)系數(shù)據(jù)庫獲取實時數(shù)據(jù)集。

        (2)數(shù)據(jù)準(zhǔn)備層將不同來源、不同格式的樣本數(shù)據(jù)集轉(zhuǎn)換為Python語言pandas庫的DataFrame對象,以便參與下一步的模型訓(xùn)練。其中數(shù)據(jù)文件讀寫模塊不僅從數(shù)據(jù)文件中讀取數(shù)據(jù)集,還負(fù)責(zé)將最終生成的合成數(shù)據(jù)集寫入指定格式的數(shù)據(jù)文件。脫敏模塊則采用最簡單的關(guān)鍵字替換法,按照替換字典實現(xiàn)數(shù)據(jù)脫敏。元數(shù)據(jù)分析實現(xiàn)了圖1中的元數(shù)據(jù)模式分析功能,以Python字典對象傳遞元數(shù)據(jù)參數(shù)。通過數(shù)據(jù)準(zhǔn)備,模型訓(xùn)練層的輸入對象將轉(zhuǎn)換為系統(tǒng)定義格式。

        (3)模型訓(xùn)練層導(dǎo)入Python語言的SDV庫,選擇機器學(xué)習(xí)算法并傳入業(yè)務(wù)約束參數(shù),完成數(shù)據(jù)合成器的初始狀態(tài)設(shè)置。指定訓(xùn)練迭代次數(shù)等參數(shù),啟動數(shù)據(jù)生成模型的訓(xùn)練過程,多輪訓(xùn)練后生成最終的數(shù)據(jù)合成器對象傳入數(shù)據(jù)合成層。

        (4)數(shù)據(jù)合成層將數(shù)據(jù)合成器序列化并存入文件,以便調(diào)入內(nèi)存重用,避免每次重復(fù)訓(xùn)練的計算開銷。向數(shù)據(jù)合成器對象傳入待合成數(shù)據(jù)量、每批次數(shù)據(jù)量等參數(shù),生成數(shù)據(jù)集并存儲在pandas.DataFrame對象中,繼而寫入文件或數(shù)據(jù)庫。

        (5)數(shù)據(jù)評估層首先按照預(yù)定義的有效性檢驗項目對數(shù)據(jù)集對象進行驗證,如果有效性指標(biāo)未達(dá)到100%則須要重新調(diào)整訓(xùn)練參數(shù),再次進行模型訓(xùn)練。之后對通過有效性檢驗的數(shù)據(jù)集對象進行質(zhì)量評估,實驗人員可通過查看生成的評估指標(biāo)了解合成數(shù)據(jù)集與真實數(shù)據(jù)樣本的相似度,指標(biāo)值大小與合成數(shù)據(jù)的質(zhì)量高低成正比??梢暬K負(fù)責(zé)以圖形方式對合成數(shù)據(jù)集字段取值的統(tǒng)計特征進行對比展示,為實驗人員了解數(shù)據(jù)特征和進行參數(shù)調(diào)整提供更加直觀的決策依據(jù)。

        (6)數(shù)據(jù)輸出層調(diào)用數(shù)據(jù)文件讀寫模塊和數(shù)據(jù)庫連接模塊,分別將通過質(zhì)量評估的合成數(shù)據(jù)集寫入指定格式的數(shù)據(jù)文件或數(shù)據(jù)庫,實現(xiàn)合成數(shù)據(jù)集對象的持久化存儲。

        5 系統(tǒng)運行與測試

        在一臺Dell Latidude 7490筆記本電腦上運行SD4BA系統(tǒng),進行功能測試和性能測試,硬件測試環(huán)境主要參數(shù)為Intel Core i7 8650U 1.9 GHz處理器,32G DDR4雙通道內(nèi)存,M.2 PCIe4.0 NVMe固態(tài)硬盤。軟件測試環(huán)境為Windows 10專業(yè)工作站版操作系統(tǒng),安裝Python 3.12解釋器環(huán)境,pandas庫版本為2.2.2,pytorch庫版本為2.2.2,SDV庫版本為1.15。選擇公開數(shù)據(jù)集E-commerce Sales and Order Details Dataset作為樣本數(shù)據(jù)集,該數(shù)據(jù)集包含12個字段和185950條記錄,其字段和數(shù)據(jù)類型如表1所示。

        分別選擇Gaussian Copula算法和CTGAN算法(10次迭代,每批次1000條數(shù)據(jù))對樣本數(shù)據(jù)集進行機器學(xué)習(xí)和模型訓(xùn)練,生成100萬條數(shù)據(jù),記錄SD4BA系統(tǒng)的模型訓(xùn)練用時、合成數(shù)據(jù)用時及各項評估指標(biāo)值如表2所示。

        從表2中各項評估指標(biāo)值可以看出,有效性檢驗類指標(biāo)值均為100%,表明合成數(shù)據(jù)集完全滿足有效性要求。質(zhì)量評估類指標(biāo)值gt;80%、綜合質(zhì)量評估值gt;85%,說明合成數(shù)據(jù)集與真實數(shù)據(jù)集在數(shù)據(jù)特征方面的相似度gt;85%,可以滿足大多數(shù)BA實驗需求。

        從表2中記錄的運行時間可以看出,在當(dāng)前測試環(huán)境下,2種算法的模型訓(xùn)練時間及合成數(shù)據(jù)時間均在可接受范圍內(nèi)。其中采用Gaussian Copula算法的效率更高,但評估指標(biāo)值低于CTGAN算法。采用CTGAN算法時,評估指標(biāo)值高于Gaussian Copula算法但耗時更長。以Sales字段為例,對真實字段與合成字段取值的分布情況進行可視化展示,如圖3—4所示,采用CTGAN算法的合成數(shù)據(jù)與真實數(shù)據(jù)的局部相似性更高。因此,當(dāng)對數(shù)據(jù)合成效率要求更高時可選擇Gaussian Copula算法,當(dāng)對合成數(shù)據(jù)的保真度要求更高時可選擇CTGAN算法。

        6 結(jié)語

        SD4BA系統(tǒng)采用開源技術(shù)棧構(gòu)建,其運行效率及合成數(shù)據(jù)集的各項質(zhì)量指標(biāo)可滿足大多數(shù)情況下的BA實驗要求,為獲取足量的高保真BA實驗數(shù)據(jù)提供了一種可選方案。如何進一步提高模型訓(xùn)練及數(shù)據(jù)合成的效率,縮短多次迭代訓(xùn)練的運行時間,是下一步要研究的問題。

        參考文獻(xiàn)

        [1]李濤,歐陽日輝.數(shù)據(jù)是形成新質(zhì)生產(chǎn)力的優(yōu)質(zhì)生產(chǎn)要素[N].光明日報,2024-04-23(11).

        [2]李洋.跨平臺模塊化商業(yè)數(shù)據(jù)分析實驗教學(xué)系統(tǒng)構(gòu)建[J].中國現(xiàn)代教育裝備,2021(21):9-11.

        [3]賈徽徽,王潮,紀(jì)祥敏.數(shù)據(jù)脫敏關(guān)鍵技術(shù)研究[J].微型電腦應(yīng)用,2024(6):164-167.

        [4]余瑋.違反robots協(xié)議之商業(yè)大數(shù)據(jù)抓取行為的類型及其法律規(guī)制[J].中國商論,2023(2):134-137.

        [5] DRECHSLER J, HAENSCH A. 30 years of synthetic data[J]. Statistical Science, 2024(2):221-242.

        [6] 楊順博,鄧勇,程龍,等.GAN合成數(shù)據(jù)技術(shù)推動隱私數(shù)據(jù)價值流通[J].人工智能,2023(6):14-23.

        [7] XU L, SKOULARIDOU M, CUESTA-INFANTE A, et al. Modeling tabular data using conditional GAN[J]. Advances in Neural Information Processing Systems, 2019(32):7303-7313.

        (編輯 沈 強編輯)

        Design of a data synthesizing system for business data analytics experiments

        LI "Yang, LI "Yunjiao, HAN "Yun

        (College of Management, Yunnan Normal University, Kunming 650032, China)

        Abstract: "Experimental data is a key element in teaching, research and scientific innovation. Research and teaching experiments in the field of business analytics have been limited by the privacy and sensitivity of data for a long time, making it difficult to obtain sufficient amounts of real data. Applying machine learning techniques to synthesize experimental data, based on the Python programming language ecosystem and using the machine learning algorithm library SDV, a system SD4BA is designed to provide synthetic data for business analytics experiments. The system analyzes real data patterns, trains data generators, and generates any number of synthetic data. By evaluating the main features of the synthetic data, it has similar patterns to the real dataset and it is desensitized. SD4BA can provide sufficient data with high fidelity for business analytics experiments.

        Key words: business data analytics; machine learning; synthetic data; data desensitization

        猜你喜歡
        機器學(xué)習(xí)
        基于詞典與機器學(xué)習(xí)的中文微博情感分析
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
        活力(2016年8期)2016-11-12 17:30:08
        基于支持向量機的金融數(shù)據(jù)分析研究
        基于Spark的大數(shù)據(jù)計算模型
        基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
        基于圖的半監(jiān)督學(xué)習(xí)方法綜述
        機器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        極限學(xué)習(xí)機在圖像分割中的應(yīng)用
        亚洲开心婷婷中文字幕| 亚洲av永久青草无码精品| 丰满人妻无奈张开双腿av| 2021国内精品久久久久精免费| 亚洲av永久综合网站美女| 亚洲女av中文字幕一区二区| 一本色道久久88加勒比—综合| 色欲av自慰一区二区三区| 亚洲国产99精品国自产拍| 国产喷白浆精品一区二区豆腐| 亚洲综合偷自成人网第页色| 亚洲av成人精品日韩在线播放| 国产精品成人99一区无码 | 亚洲AV日韩AV高潮喷潮无码| 免费人成黄页网站在线一区二区| 国产精品乱码人妻一区二区三区| 亚洲一区二区三区成人网站| 91亚洲国产三上悠亚在线播放| 人妖与人妖免费黄色片| 久久青青草原国产毛片| 亚洲精品无码av中文字幕| 久久精品国产亚洲5555| 亚洲国产高清一区av| 亚洲av无码一区二区三区鸳鸯影院| 亚洲无线码一区二区三区| 日韩成人无码一区二区三区| 久久久久久人妻一区精品| 久久精品亚洲精品国产区| 精品一区二区三区免费视频| 亚洲日韩欧美国产另类综合| 丝袜 亚洲 另类 欧美| 一本色道久久亚洲精品| 老师露出两个奶球让我吃奶头| 国产国拍亚洲精品mv在线观看| av网站影片在线观看| 精品久久久少妇一区二区| 亚洲国产成人无码av在线影院| 亚洲精品黄网在线观看| 中国黄色偷拍视频二区| 精品视频一区二区三区在线观看| 久久久久亚洲精品无码网址|