摘要:增強分析指利用人工智能和機器學習技術,對數(shù)據(jù)挖掘過程進行增強和優(yōu)化的一種方法,它可以幫助企業(yè)更好地理解和利用數(shù)據(jù),提供更準確和有用的分析結果。本文深入探討了增強分析技術在數(shù)據(jù)準備、數(shù)據(jù)分析和數(shù)據(jù)挖掘三個關鍵過程中的應用,重點介紹了輔助數(shù)據(jù)準備、自動洞察、自動可視化及自然語言生成等多種增強分析技術[1],并結合部分案例進行了闡述。通過閱讀本文,讀者可全面了解增強分析技術的核心原理和實際應用方法,為在復雜的數(shù)據(jù)環(huán)境中做出準確決策提供有力支持。
關鍵詞:增強分析;數(shù)據(jù)挖掘;人工智能;工程化應用
一、引言
在信息爆炸的當今時代,企業(yè)和組織積累了大量數(shù)據(jù),這些數(shù)據(jù)蘊含著寶貴的洞察和價值。然而,從這些海量數(shù)據(jù)中獲取有意義的信息以支持決策卻是一項復雜而艱巨的任務。隨著人工智能和機器學習技術的迅速發(fā)展,增強分析技術應運而生,并作為一種重要的方法,為數(shù)據(jù)挖掘和分析提供了新的視角和手段[2]。增強分析技術通過運用人工智能和機器學習的算法,能夠在數(shù)據(jù)挖掘過程中實現(xiàn)增強和優(yōu)化,從而更好地揭示數(shù)據(jù)背后的價值,為企業(yè)提供更準確、更有用的分析結果。
本文旨在深入研究增強分析技術[3]的工程化應用,從數(shù)據(jù)準備、數(shù)據(jù)分析到數(shù)據(jù)挖掘等關鍵過程,探討這一技術在實際應用中的潛力與優(yōu)勢。在數(shù)據(jù)挖掘領域,增強分析技術具備突出的特點,它不僅僅局限于傳統(tǒng)方法,還包括諸如輔助數(shù)據(jù)準備、自動洞察、自動可視化及自然語言生成等多種技術手段。通過對這些關鍵技術的探討分析,可以更加深刻地理解增強分析技術的核心原理,并將其應用于實際情境,從而在不斷變化的數(shù)據(jù)環(huán)境中做出更加明智的決策。
二、增強數(shù)據(jù)準備
(一)可視化數(shù)據(jù)交互
可視化交互通過將數(shù)據(jù)可視化為圖表、圖形和地圖等形式,使數(shù)據(jù)分析人員能夠更直觀、直接地與數(shù)據(jù)進行交互。通過可視化數(shù)據(jù)交互,決策者能夠直觀地與數(shù)據(jù)互動,快速了解數(shù)據(jù)的特點、分布和問題,從而在數(shù)據(jù)準備階段就能做出明智的決策。增強可視化在數(shù)據(jù)準備階段會提前考慮可視分析的意圖,即清洗與可視分析查詢相關的數(shù)據(jù)子集,在降低數(shù)據(jù)清洗代價的同時還能提高可視分析的質量[4]。可視化數(shù)據(jù)交互一般使用集成工具,利用可視化組件、即席查詢、透視分析等技術實現(xiàn)數(shù)據(jù)的聯(lián)動查詢與展現(xiàn),目前該類工具有Smartbi、Powerbi、帆軟等廠商。以下是在增強分析下的可視化數(shù)據(jù)交互涉及的一些核心技術。
通過交互式圖表和可視化元素,設計和實現(xiàn)各種交互式圖表和可視化元素,如折線圖、柱狀圖、餅圖,以及與之相關的交互式功能等。用戶可以與這些元素進行互動,以更好地理解數(shù)據(jù)。動態(tài)數(shù)據(jù)刷新,當用戶與圖表進行交互時,允許數(shù)據(jù)實時刷新以反映用戶的操作。這使用戶能夠在交互過程中觀察數(shù)據(jù)的變化和趨勢。聯(lián)動和跨圖表交互,允許用戶在不同的圖表之間建立聯(lián)動關系。當用戶在一個圖表中選擇或操作數(shù)據(jù)時,其他圖表也會相應地更新,以保持數(shù)據(jù)的一致性和關聯(lián)性。過濾和篩選,提供能夠根據(jù)用戶的需求對數(shù)據(jù)進行動態(tài)過濾和篩選的功能。用戶可以通過交互式控件選擇數(shù)據(jù)的特定子集,從而更好地關注感興趣的部分。交互式工具提示和標簽,當用戶將鼠標懸停在可視化元素上或點擊它們時,顯示相關信息的交互式工具提示和標簽,幫助用戶更詳細地了解數(shù)據(jù)。可視化導航和探索,提供交互式的導航工具,使用戶能夠在大量數(shù)據(jù)中自由瀏覽和探索,以查找特定的趨勢、模式或異常。交互式查詢和分析,允許用戶通過交互式查詢語言或界面直接在可視化中進行數(shù)據(jù)分析,從而實時提取和呈現(xiàn)感興趣的信息[5]。動態(tài)時間軸和播放功能,對于時間序列數(shù)據(jù),提供交互式的時間軸和播放功能,使用戶能夠觀察數(shù)據(jù)隨時間的變化。
這些技術有助于創(chuàng)造具有豐富交互性的數(shù)據(jù)可視化,使用戶能夠更加深入地探索數(shù)據(jù),從中獲取實時的見解,并支持更有力的決策。
(二)數(shù)據(jù)關系發(fā)現(xiàn)
數(shù)據(jù)關系發(fā)現(xiàn)涉及自動化地發(fā)現(xiàn)數(shù)據(jù)中的關聯(lián)、模式和趨勢,為用戶提供更深入的洞察和數(shù)據(jù)理解。當前,數(shù)據(jù)關系發(fā)現(xiàn)領域已經(jīng)涌現(xiàn)出多種技術和方法,其中包括:
1.關聯(lián)規(guī)則挖掘?;陬l繁項集挖掘,自動發(fā)現(xiàn)數(shù)據(jù)項之間的關聯(lián)關系,常用于市場籃子分析、推薦系統(tǒng)等場景。涉及算法有Apriori、FP-Growth等。
2.時間序列分析。利用統(tǒng)計和機器學習方法,如使用Arima、Lstm、指數(shù)平滑等算法識別時間序列數(shù)據(jù)中的趨勢、周期性和異常情況,廣泛應用于金融和氣象等領域。
3.動態(tài)網(wǎng)絡分析。將數(shù)據(jù)關系表示為動態(tài)網(wǎng)絡,運用圖論和復雜網(wǎng)絡分析方法,揭示數(shù)據(jù)實體之間的演化和關聯(lián)。例如,探索社交網(wǎng)絡中用戶關系的變化和演化,發(fā)現(xiàn)意外的社交圈層。常用到圖論算法(最短路徑、中心性分析、社區(qū)檢測等)進行分析。
4.自動數(shù)據(jù)清洗和融合。借助數(shù)據(jù)挖掘技術如填充缺失值、異常發(fā)現(xiàn)、智能融合等,自動識別和修復數(shù)據(jù)質量問題,整合來自多個源的數(shù)據(jù)。
在增強數(shù)據(jù)準備中,許多工具和產(chǎn)品致力于數(shù)據(jù)關系發(fā)現(xiàn)的自動化。如Smartbi提供豐富的數(shù)據(jù)可視化和交互功能,用戶可以通過圖表和儀表盤探索數(shù)據(jù)的關聯(lián)和模式;RapidMiner為數(shù)據(jù)分析提供全面的工作流設計和數(shù)據(jù)預處理,支持自動關聯(lián)規(guī)則挖掘等任務;圖數(shù)據(jù)庫Neo4j支持圖數(shù)據(jù)建模和查詢,適用于動態(tài)網(wǎng)絡關系的分析[6]。用于在線業(yè)務數(shù)據(jù)分析的Google Analytics,常用于揭示用戶行為和關聯(lián)。這些工具和產(chǎn)品提供了便捷的界面和功能,幫助用戶在實際應用中更好地進行數(shù)據(jù)關系發(fā)現(xiàn)。
三、強數(shù)據(jù)分析
(一)自動洞察
自動洞察通過使用方差檢驗、球形檢驗、相關性計算、決策樹、CHAID分箱、GBDT等統(tǒng)計分析與機器學習算法,自動發(fā)現(xiàn)數(shù)據(jù)中的關鍵信息并提供洞察見解。這使決策者能夠更快速地獲得有意義的指導結果,無須手動進行復雜的分析過程。通過自動洞察技術,企業(yè)可以快速獲取數(shù)據(jù)的洞察,發(fā)現(xiàn)潛在的業(yè)務機會和風險。
在實際應用中,常見的有圍繞基本事實、關鍵驅動因素、異常分析、最佳組合等方面進行數(shù)據(jù)解釋洞察。例如,金融機構可以用來解釋財務數(shù)據(jù)中的變動趨勢,幫助分析師理解各種因素如何影響財務績效;在市場營銷中,能夠揭示營銷活動和用戶行為之間的關聯(lián),指導市場團隊調整策略;人力資源管理中分析人員信息,洞察員工滿意度等。例如,在分析員工離職原因時,圍繞離職字段,分析員工的績效評估、薪資水平、加班情況、晉升機會、專業(yè)職級等因素對目標的影響,有助于理解員工流失的背后動因。
(二)自動可視化
近年來,自動可視化技術在智能圖表生成、數(shù)據(jù)維度分析及數(shù)據(jù)聚合與匯總等方面取得了顯著進展。這些技術使得用戶能夠無需煩瑣的手動設置,即可獲得適合的圖表類型,并從不同維度和匯總視角更好地理解數(shù)據(jù)。通過自動化生成圖表和圖形,將數(shù)據(jù)呈現(xiàn)為直觀的視覺形式,使非技術專業(yè)人士也能輕松理解和分析數(shù)據(jù)。
在數(shù)據(jù)準備階段的自動分析,通過數(shù)據(jù)的自動探索及可視化,展示各維度數(shù)據(jù)的分布情況、統(tǒng)計缺失、填充或類型修復建議等智能交互操作,極大地便利了分析人員快速理解現(xiàn)有數(shù)據(jù)的總和情況。
(三)自然語言查詢
自然語言查詢的本質是結合增強分析如上述自動可視化、自動洞察等底層應用能力,通過自然語言理解(NLU)技術,用戶能夠用更自然、直觀的方式提出數(shù)據(jù)分析請求,并在系統(tǒng)的自動化支持下獲取所需的洞察和結果。
案例1:一名市場分析師想了解某個產(chǎn)品在不同市場中的銷售趨勢。他使用自然語言查詢工具輸入:“分析產(chǎn)品A在各個市場中的銷售趨勢?!毕到y(tǒng)通過自然語言理解,識別出用戶的分析意圖,并自動調用自動洞察和自動可視化技術,生成相應的銷售趨勢報表和圖表。
案例2:一名經(jīng)理希望將某個部門的績效數(shù)據(jù)可視化以便更好地理解。他使用自然語言查詢工具輸入:“自動為我生成上個季度部門X的績效報表?!毕到y(tǒng)根據(jù)用戶意圖,自動觸發(fā)自動可視化技術,生成包含部門績效信息的圖表和報告。
自然語言理解這項技術在商業(yè)智能、搜索引擎、虛擬助手等領域擁有廣泛的應用前景,它的核心在于讓機器能夠理解人類日常使用的自然語言,將人類的查詢、問題或指令轉化為計算機可以理解和處理的形式,從而實現(xiàn)高效、直觀的人機交互。在實現(xiàn)自然語言查詢的過程中,涉及多個關鍵技術,其中包括實體識別、語義匹配以及關系抽取等難題。實體識別技術使機器能夠從文本中準確識別出命名實體,如人名、地名、組織等,從而幫助構建準確的查詢條件。語義匹配技術旨在確保用戶的查詢與數(shù)據(jù)庫中的內容相匹配,以實現(xiàn)精準的搜索結果。而關系抽取技術則能夠從文本中提取出實體之間的關系,為生成更準確的查詢條件提供支持。
(四)自然語言生成
早期,自然語言生成技術的局限性主要體現(xiàn)在生成的文本缺乏流暢性、邏輯性和真實性。這種情況導致生成的文本難以達到人類寫作的水平,從而限制了自然語言生成在實際應用中的范圍。然而,近年來,隨著深度學習技術的發(fā)展,尤其是Transformer架構的引入,自然語言生成取得了重大突破,目前代表性的大模型有openai的GPT系列、Facebook的Llama及清華ChatGLM等。這些大模型有著出色的應用,如使用Langchain做領域知識問答、使用ChatPDF做閱讀理解,甚至直接用ChatGPT協(xié)助寫代碼等工作。2023年的大型模型ChatGPT的發(fā)布,標志著自然語言生成領域的一個重要里程碑。ChatGPT采用了強大的預訓練技術,通過大量的文本數(shù)據(jù)進行預訓練,使得模型能夠學習到豐富的語言知識和模式。這使得生成的文本更加流暢自然,并且能夠根據(jù)上下文進行合理的邏輯推斷。此外,ChatGPT還引入了更加精細的微調過程,以進一步提升生成文本的質量。以下是LLM大模型的一些關鍵性指標:
(1)預訓練的語言模型[7]?;诖笠?guī)模語料庫的預訓練語言模型(如BERT、GPT系列)具有強大的語言理解能力。它們通過無監(jiān)督學習,學會了理解語言的結構、語法和語義,為自然語言生成奠定了基礎。
(2)特定任務微調。預訓練的語言模型需要在特定任務上進行微調,以使其適應特定領域或任務。微調階段通過在有監(jiān)督數(shù)據(jù)上進行訓練,使模型學會生成特定領域的語言表達。
四、增強數(shù)據(jù)挖掘
(一)特征工程
特征工程涉及對原始數(shù)據(jù)進行預處理和轉換,以提取出對于機器學習算法有意義的特征,從而改善模型性能和預測能力。以下是特征工程在數(shù)據(jù)挖掘中的核心內容。
1.特征選擇與提取
特征選擇指從原始特征中選擇出最具有代表性和信息量的特征,以減少維度和降低計算成本。常見的特征選擇方法包括方差閾值、互信息、卡方檢驗等。特征提取則是通過轉換技術將原始數(shù)據(jù)映射到新的特征空間,以捕捉數(shù)據(jù)的潛在結構和模式。主成分分析(PCA)、線性判別分析(LDA)等是常見的特征提取方法。
2.特征構造
特征構造指根據(jù)業(yè)務領域知識和數(shù)據(jù)分析的需求,創(chuàng)造新的特征。通過組合、衍生、聚合原始特征,可以獲得更有意義的特征。例如,從時間戳中提取小時、星期幾等時間特征,將地理坐標轉化為距離特征等。
3.缺失值處理
數(shù)據(jù)中的缺失值會對機器學習模型產(chǎn)生負面影響,因此需要進行適當處理。常見的方法包括刪除含有缺失值的樣本、填充缺失值(如均值、中位數(shù)填充),或者使用模型進行缺失值預測。
4.數(shù)據(jù)標準化和歸一化
不同特征的尺度和分布差異可能影響模型的收斂速度和性能。因此,特征工程中的數(shù)據(jù)標準化和歸一化是重要的步驟。標準化將特征轉化為均值為0,標準差為1的分布,而歸一化將特征縮放到一個特定范圍內,如[0,1]。
5.離散化
離散化是將連續(xù)特征劃分為若干個離散的區(qū)間,以減少異常值對模型的影響,同時還可以處理一些算法對連續(xù)值不敏感的情況。
6.特征交叉與多項式特征
特征交叉是將不同特征的組合作為新的特征,以捕捉它們之間的交互關系。多項式特征則是通過將原始特征進行冪次擴展,以引入更高階的關系,如二次、三次特征。
7.領域知識的運用
在特征工程中,領域知識的運用可以幫助提取有意義的特征。了解數(shù)據(jù)所代表的業(yè)務背景,可以指導特征的選擇、構造和轉換,從而更好地捕捉數(shù)據(jù)的內在規(guī)律。
特征工程的良好實踐可以顯著提升機器學習模型的性能和泛化能力。通過合理的特征選擇、構造和處理,可以使模型更好地適應數(shù)據(jù),并從中挖掘出更深層次的信息。
(二)統(tǒng)計分析
統(tǒng)計分析是數(shù)據(jù)挖掘中的重要環(huán)節(jié),它涉及對數(shù)據(jù)進行探索性分析和建模,以揭示數(shù)據(jù)的分布、關聯(lián)性和模式。以下是一些常見的統(tǒng)計分析方法和算法。
1.描述性統(tǒng)計
描述性統(tǒng)計是對數(shù)據(jù)的基本特征進行總結和描述的過程。常用的描述性統(tǒng)計包括均值、中位數(shù)、標準差、分位數(shù)、頻數(shù)分布等。例如,對于一組銷售數(shù)據(jù),可以計算平均銷售額、最大銷售額、銷售額的分布等,以了解銷售情況的基本特征。
2.相關分析
相關分析用于探究不同變量之間的關系。皮爾遜相關系數(shù)是一種常用的方法,用于度量兩個連續(xù)變量之間的線性關系。例如,在市場營銷中,可以分析廣告投入與銷售額之間的相關性,以確定廣告對銷售的影響。
3.回歸分析
回歸分析用于建立變量之間的關聯(lián)關系,特別是用于預測一個變量(因變量)如何受到其他變量(自變量)的影響。線性回歸、多項式回歸、邏輯回歸等是常見的回歸分析方法。例如,房地產(chǎn)市場可以使用回歸分析來預測房價與房屋面積、地理位置等因素的關系。
4.聚類分析
聚類分析是將數(shù)據(jù)集中的觀察值分成不同的組(簇),使得同一組內的觀察值之間更相似,而不同組之間更不相似。K均值聚類、層次聚類、DBSCAN等是常見的聚類算法。在市場分析中,可以使用聚類分析將顧客分成不同的市場細分以制定定制化的營銷策略。
5.分類分析
分類分析是將數(shù)據(jù)集中的樣本分為不同的類別或標簽的過程。決策樹、隨機森林、支持向量機(SVM)、樸素貝葉斯等是常見的分類算法。例如,在醫(yī)學診斷中,可以使用分類分析將病人的癥狀和檢測結果分為不同的疾病類別。
6.時間序列分析
時間序列分析用于處理隨時間變化的數(shù)據(jù),如股票價格、氣象數(shù)據(jù)、銷售時間序列等。移動平均法、指數(shù)平滑法、ARIMA模型等是常見的時間序列分析方法。例如,氣象學家可以使用時間序列分析來預測未來幾天的氣溫變化。增強數(shù)據(jù)挖掘往往會同時貫穿特征工程、統(tǒng)計分析兩大核心內容,通過組件化特征工程與統(tǒng)計分析等的算子,使整個數(shù)據(jù)挖掘建模過程,能以低代碼拖拽配置的方式快速完成數(shù)據(jù)的探索、分析和建模。極大提高了數(shù)據(jù)分析師的工作效率,同時降低對人員技術的要求。
(三)自動化機器學習
自動化機器學習(AutoML)旨在簡化和自動化機器學習流程,使更多人能夠有效地利用機器學習模型。它綜合了特征工程和統(tǒng)計分析的方法,以提高模型性能并降低使用門檻。在自動化機器學習中,以下是關鍵的應用和技術。
1.特征工程自動化
AutoML工具可以自動進行特征選擇、提取和構建,減少了對領域專業(yè)知識的需求。這些工具能夠識別關鍵特征,生成新的特征,以優(yōu)化模型性能。
2.統(tǒng)計分析自動化
AutoML平臺能夠自動選擇適合數(shù)據(jù)性質和任務類型的統(tǒng)計分析方法和算法。這消除了用戶深入了解不同模型的需求。
3.超參數(shù)優(yōu)化
自動化機器學習包括自動搜索最佳超參數(shù)配置,從而提高模型性能。這減少了手動調整模型參數(shù)的煩瑣工作。
4.模型選擇和集成
AutoML提供了多種模型選擇和集成策略,以確保模型性能最優(yōu)。用戶可以自動選擇和組合最佳模型,以提高預測性能。自動化機器學習的發(fā)展使更多領域的人能夠受益于機器學習技術,而無須深入研究機器學習的復雜性。這一趨勢將繼續(xù)推動機器學習的廣泛應用,并為解決各種實際問題提供更多可能性。
五、結束語
隨著數(shù)據(jù)的不斷增長和復雜性的不斷提升,增強分析技術將在未來發(fā)揮更加重要的作用。然而,盡管增強分析技術在實際應用中表現(xiàn)出巨大的潛力,但也存在一些挑戰(zhàn)和限制。例如,自然語言生成方面,如何保證生成的信息準確性和可信度仍然是一個需要解決的問題。展望未來,可以預見增強分析技術將在智能決策支持、商業(yè)智能和預測分析等領域得到廣泛應用。
作者單位:操文煜 中國電子科技集團公司第十四研究所
參考文獻
[1]增強分析是數(shù)據(jù)和分析的未來,2019-2022,www.gartner.com,Gartner報告.
[2]王光宏,蔣平.數(shù)據(jù)挖掘綜述[J].同濟大學學報(自然科學版),2004(02):246-252.
[3]程學旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術綜述[J].軟件學報,2014,25(09):1889-1908.
[4]任磊,杜一,馬帥,等.大數(shù)據(jù)可視分析綜述[J].軟件學報,2014,25(09):1909-1936.
[5]袁喆,文繼榮,魏哲巍,等.大數(shù)據(jù)實時交互式分析[J].軟件學報,2020,31(01):162-182.
[6]何凡,沈毅,葉眾.卡方自動交互檢測法及其應用[J].中華預防醫(yī)學雜志,2005(02):62-64.
[7]余同瑞,金冉,韓曉臻,等.自然語言處理預訓練模型的研究綜述[J].計算機工程與應用, 2020,56(23):12-22.
[8]馬昱欣,曹震東,陳為.可視化驅動的交互式數(shù)據(jù)挖掘方法綜述[J].計算機輔助設計與圖形學學報,2016,28(01):1-8.