數(shù)據(jù)挖掘旨在利用智能數(shù)據(jù)分析技術(shù),從海量數(shù)據(jù)中提取或挖掘潛在的知識和規(guī)律,為決策任務(wù)提供有效支撐.在大數(shù)據(jù)時代背景下,數(shù)據(jù)挖掘技術(shù)已在工業(yè)、金融、醫(yī)療、教育、交通、媒體等領(lǐng)域取得廣泛應(yīng)用.然而,大數(shù)據(jù)的復(fù)雜多樣性也為數(shù)據(jù)挖掘研究在理論、方法、應(yīng)用等多個層面提出了新的挑戰(zhàn).
為及時反映國內(nèi)同行在數(shù)據(jù)挖掘方面的研究進展,促進該領(lǐng)域的學(xué)術(shù)交流,并推動我國數(shù)據(jù)挖掘領(lǐng)域的創(chuàng)新發(fā)展,《計算機研究與發(fā)展》本次推出“數(shù)據(jù)挖掘前沿進展”專題.本專題得到了國內(nèi)同行的廣泛關(guān)注,經(jīng)公開征文共收到投稿65篇,審稿過程歷經(jīng)2個月,每篇投稿由數(shù)據(jù)挖掘及相關(guān)領(lǐng)域的2位專家進行評審,3位特約編輯參考初審意見進行復(fù)審,最終有10篇優(yōu)秀稿件入選本專題.此外,專題與第九屆中國數(shù)據(jù)挖掘會議(CCDM 2022)合作,所有專題錄用稿件在CCDM 2022會議報告交流.
首先,基于機器學(xué)習(xí)的智能數(shù)據(jù)分析技術(shù)是數(shù)據(jù)挖掘研究的基礎(chǔ),同時也是熱點.姜高霞等人的論文“面向回歸任務(wù)的數(shù)值型標簽噪聲過濾算法”證明了針對回歸任務(wù)中數(shù)值型標簽噪聲數(shù)據(jù)的泛化誤差界,由此提出一種可解釋的噪聲過濾框架,并結(jié)合相對噪聲估計方法提出一種具體的相對噪聲過濾算法RNF;在標準數(shù)據(jù)集和年齡估計數(shù)據(jù)上的實驗結(jié)果表明,RNF算法不僅能夠適應(yīng)各類噪聲數(shù)據(jù),而且能夠顯著提升模型泛化能力.梁新彥等人的論文“多粒度融合驅(qū)動的超多視圖分類方法”針對現(xiàn)有融合算子在視圖數(shù)增多時面臨的諸多挑戰(zhàn),采用由易到難建模視圖特征間關(guān)系的多粒度策略,提出了一種多粒度融合的超多視圖分類方法.劉兆清等人的論文“面向特征繼承性增減的在線分類算法”針對開放動態(tài)環(huán)境,提出了一種可處理特征繼承性增減的在線分類算法OFID,從理論上證明了OFID的損失上界,并通過大量的實驗驗證其有效性.任嘉睿等人的論文“基于元圖卷積的異質(zhì)網(wǎng)絡(luò)嵌入學(xué)習(xí)算法”通過基于元圖的異構(gòu)鄰接矩陣融合多條元路徑上的不同語義的計算,提出了一種基于元圖卷積的異質(zhì)網(wǎng)絡(luò)嵌入學(xué)習(xí)算法MGCN,能夠挖掘節(jié)點間的高階間接關(guān)系,并降低圖卷積方法的嵌入維數(shù),減少計算時間;在公開異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)集上的實驗表明,MGCN在節(jié)點分類、聚類任務(wù)上能獲得更好的性能且需更少的訓(xùn)練時間.馬昂等人的論文“基于強化學(xué)習(xí)的知識圖譜綜述”對基于強化學(xué)習(xí)的知識圖譜相關(guān)研究進行了全面綜述,介紹了基于強化學(xué)習(xí)的知識圖譜方法如何應(yīng)用于智能推薦、對話系統(tǒng)、游戲攻略、生物醫(yī)藥、金融、安全等領(lǐng)域,并對知識圖譜與強化學(xué)習(xí)相結(jié)合的未來發(fā)展方向進行了展望.
其次,研究特定類型數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)時代具有重要意義.魏秀參等人的論文“面向增量分類的多示例學(xué)習(xí)”針對多示例學(xué)習(xí)下的增量數(shù)據(jù)挖掘任務(wù),提出一種基于注意力機制和原型分類器映射的多示例增量數(shù)據(jù)挖掘方法,能夠在多示例學(xué)習(xí)下以極低的存儲代價保留模型的舊知識,有效地進行增量數(shù)據(jù)挖掘.武越等人的論文“點云配準中多維度信息融合的特征挖掘方法”針對點云配準任務(wù),提出一種新穎的基于多維度信息融合的特征挖掘網(wǎng)絡(luò),充分挖掘點云中的高維全局和低維局部信息,有效彌補了點云配準的全局特征提取階段局部特征的缺失;ModelNet40數(shù)據(jù)集上的大量實驗表明,該方法可獲得更高的精度,同時對噪聲具有較強的魯棒性.郭正山等人的論文“面向知識超圖鏈接預(yù)測的生成對抗負采樣方法”針對知識超圖鏈接預(yù)測任務(wù),提出了生成對抗負采樣方法HyperGAN,無需預(yù)訓(xùn)練,通過對抗訓(xùn)練生成高質(zhì)量負樣本以解決“零損失”問題,在性能與效率方面均優(yōu)于已有方法.范偉等人的論文“基于時空Transformer的社交網(wǎng)絡(luò)信息傳播預(yù)測”針對社交網(wǎng)絡(luò)信息傳播預(yù)測任務(wù),提出了一種基于時空Transformer的新模型STT,首先使用圖卷積網(wǎng)絡(luò)從由社交網(wǎng)絡(luò)圖和動態(tài)傳播圖組成的異構(gòu)圖中學(xué)習(xí)用戶的結(jié)構(gòu)特征,然后使用Transformer融合用戶的時序特征和結(jié)構(gòu)特征,從而進行信息傳播預(yù)測.姚麗等人的論文“基于校園上網(wǎng)行為感知的學(xué)生成績預(yù)測方法”收集構(gòu)建了一個同時包含學(xué)生校園上網(wǎng)行為和成績數(shù)據(jù)的真實數(shù)據(jù)集,并通過分析揭示了兩者之間存在一定的關(guān)聯(lián)性,由此提出一種端到端的雙層自注意力網(wǎng)絡(luò)DEAN,并通過結(jié)合多任務(wù)學(xué)習(xí)策略解決了面向不同專業(yè)的學(xué)生成績預(yù)測問題;實驗結(jié)果表明,提出方法DEAN具有更好的預(yù)測精度.
本專題主要面數(shù)據(jù)挖掘及相關(guān)領(lǐng)域的研究人員,反映了我國學(xué)者在數(shù)據(jù)挖掘等領(lǐng)域的前沿進展.在此,我們要特別感謝《計算機研究與發(fā)展》編委會對專題工作的指導(dǎo)和幫助,感謝編輯部各位老師在專題征文、論文評審與意見匯總、論文定稿、修改及出版各個階段付出的辛勤工作和汗水,感謝專題評審專家及時、耐心、細致的評審工作.此外,我們還要感謝向本專題踴躍投稿的作者對《計算機研究與發(fā)展》的信任.最后,感謝專題的讀者們,希望本專題能夠?qū)ο嚓P(guān)領(lǐng)域的研究工作有所促進.