樊文飛,王國仁,王朝坤
1(School of Informatics, University of Edinburgh, Edinburgh, EH8 9AB, UK)
2(北京航天航空大學 計算機學院,北京 100191)
3(北京理工大學 計算機學院,北京 100081)
4(清華大學 軟件學院,北京 100084)
數(shù)據(jù)管理與智能計算的深度融合已經(jīng)成為大數(shù)據(jù)時代順利前行的迫切需求.智能數(shù)據(jù)管理旨在“為數(shù)據(jù)增添智能”,是數(shù)據(jù)科學與技術的重要基石,更是大數(shù)據(jù)產(chǎn)業(yè)蓬勃發(fā)展的關鍵支撐.一方面,將新一代人工智能方法應用于先進數(shù)據(jù)管理技術,嘗試探索和突破智能數(shù)據(jù)管理與分析的理論體系、技術方法及系統(tǒng)平臺,已經(jīng)成為數(shù)據(jù)管理領域的新興研究方向;另一方面,研發(fā)面向人工智能的數(shù)據(jù)庫基礎軟件,為新一代人工智能技術的研發(fā)和廣泛應用提供海量數(shù)據(jù)的有效存儲、查詢、分析和挖掘等的系統(tǒng)支持,亦是國家科技創(chuàng)新的決定性因素.智能數(shù)據(jù)管理與分析領域日益得到學術界和工業(yè)界的普遍關注,其理論、技術和方法亟待深入地探索與思考.目前,針對智能數(shù)據(jù)管理與分析的研究仍然處于起步階段,有很多需要研究的問題.
本??_征文,共收到投稿38篇(包括第35屆中國數(shù)據(jù)庫學術會議(NDBC 2018)推薦的12篇高質量論文).其中,37篇論文通過了形式審查,內容涉及智能數(shù)據(jù)管理與分析技術和應用.特約編輯先后邀請了 70多位專家參與審稿工作,每篇投稿至少邀請2位專家進行評審.稿件經(jīng)初審、復審、NDBC 2018會議宣讀和終審4個階段,歷時5個月,最終有20篇論文入選本專刊.根據(jù)主題,這些論文可以分為4組.
《大規(guī)模RDF圖數(shù)據(jù)上高效率分布式查詢處理》提出基于MapReduce 框架的查詢處理器SDec 有效回答大規(guī)模RDF智能圖數(shù)據(jù)上的SPARQL基本圖模式查詢.
《基于規(guī)則的最短路徑查詢算法》設計了一種基于最優(yōu)子路徑的前向擴展算法,可快速求解基于規(guī)則的最短路徑查詢問題,并進一步設計了基于最短優(yōu)先策略的前向擴展算法.
《基于角色發(fā)現(xiàn)的動態(tài)信息網(wǎng)絡結構演化分析》使用角色來量化動態(tài)網(wǎng)絡的結構,并給出兩種解釋角色的方法;將動態(tài)網(wǎng)絡結構預測問題轉換為角色預測問題,提出基于潛在角色的動態(tài)網(wǎng)絡結構預測方法.
《復雜條件下的社區(qū)搜索方法》給出了條件社區(qū)搜索問題的形式化定義,使用布爾表達式表示搜索條件;進而提出解決條件社區(qū)搜索問題的通用框架及其優(yōu)化方法,將條件社區(qū)搜索分解為多個單項條件社區(qū)搜索.
《基于事件的社交網(wǎng)絡上的雙邊偏好穩(wěn)態(tài)規(guī)劃》研究了如何為社交網(wǎng)絡中的用戶規(guī)劃感興趣的事件,提出了雙邊偏好穩(wěn)態(tài)規(guī)劃算法,考慮了用戶和事件彼此間的偏好效用.
《基于時效規(guī)則的數(shù)據(jù)修復方法》針對同一實體對應的多條記錄存在時間戳缺失或不精確條件下的數(shù)據(jù)時效修復問題,給出了通用的狀態(tài)類型時效規(guī)則提取算法,以及基于時效規(guī)則的數(shù)據(jù)時效修復算法.
《劣質數(shù)據(jù)上代價敏感決策樹的建立》定義了劣質數(shù)據(jù)上代價敏感決策樹的建立問題,提出了3種融合數(shù)據(jù)清洗算法的代價敏感決策樹建立方法.
《兩兩比較模型的Why-not問題解釋及排序》從利用兩兩比較方法尋找函數(shù)依賴的算法中得到啟發(fā),將兩兩比較方法、統(tǒng)計學方法以及機器學習方法進行結合,針對Why-not問題尋找解釋并對解釋進行排序.
《差分隱私的數(shù)據(jù)流關鍵模式挖掘方法》提出了一種滿足差分隱私的數(shù)據(jù)流關鍵模式挖掘算法,既考慮了隱私和數(shù)據(jù)效用之間的權衡,又考慮了挖掘時間和維護開銷之間的權衡.
《基于網(wǎng)格耦合的數(shù)據(jù)流聚類》針對現(xiàn)有數(shù)據(jù)流聚類算法在實時處理高速、大量的數(shù)據(jù)流時聚類效率和精度不高的問題,提出了一種基于網(wǎng)格耦合和核心網(wǎng)格的數(shù)據(jù)流聚類算法.
《分布式異構數(shù)據(jù)庫數(shù)據(jù)同步工具》提出了一種基于MySQL二進制日志還原SQL的方法,設計了日志解析器和日志還原器,可針對不同事件進行日志解析,并依據(jù)相應規(guī)則還原生成可執(zhí)行的SQL語句.
《面向通用模型的高可用性步態(tài)周期分析方法》提出了一種結合波峰波谷檢測與閾值空間的高可用性步態(tài)周期分析方法,通過自動求解預估值,并構建自適應區(qū)間,根據(jù)通用步態(tài)模型對缺乏上述信息的未知步態(tài)數(shù)據(jù)進行切分與分析,能更便利準確地求解步態(tài)周期數(shù)據(jù).
《CNN多位置穿戴式傳感器人體活動識別》針對現(xiàn)有二維卷積輸入構建方法中對多位置三軸向傳感器相同軸向數(shù)據(jù)之間的空間依賴性挖掘不足的現(xiàn)象,提出了多層卷積神經(jīng)網(wǎng)絡模型并應用于基于傳感器數(shù)據(jù)的人體活動識別.
《改進的SSD航拍目標檢測方法》針對無人機場景下目標分辨率低、尺度變化大等問題,在SSD目標檢測算法的基礎上,采用表征能力更強的殘差網(wǎng)絡進行基準網(wǎng)絡替換,引入跳躍連接機制降低提取特征的冗余度,引入不同分類層的特征信息融合機制來有機結合網(wǎng)絡結構中低層視覺特征與高層語義特征.
《面向交通流量預測的多組件時空圖卷積網(wǎng)絡》提出了一種多組件時空圖卷積網(wǎng)絡,該模型結合圖卷積和標準卷積構造時空卷積塊來同時捕獲交通數(shù)據(jù)的時空特性.
《時空依賴的城市道路旅行時間預測》針對傳統(tǒng)旅行時間預測模型難以引入多源特征的問題,提出了兩階段的旅行時間預測框架,有效提取路段間上下游依賴關系,且整合了天氣日期等外部特征.
《面向高維特征和多分類的分布式梯度提升樹》證明了特征并行策略更適合高維和多分類場景,提出了一種使用特征并行的分布式梯度提升樹算法.
《因子分解機模型研究綜述》從準確性和性能兩個方面總結了因子分解機模型存在的基本問題和近年來的研究進展,綜述了適用于因子分解機模型求解的4種代表性優(yōu)化算法.
《因子分解機模型的寬度和深度擴展研究》從特征的高階交互、場交互、層次交互與傳統(tǒng)模型的集成學習,以及特征工程角度討論了 FM模型的寬度擴展,從與深度學習模型等集成的角度,詳細闡述了FM模型的深度擴展,同時概括比較了FM模型的優(yōu)化學習方法和基于不同并行與分布式計算框架的實現(xiàn).
《基于強化學習的金融交易系統(tǒng)研究與發(fā)展》以金融領域常用的強化學習模型發(fā)展為脈絡,對交易系統(tǒng)、自適應算法、交易策略等方面諸多研究成果進行了綜述.
本專刊主要面向數(shù)據(jù)庫、數(shù)據(jù)挖掘、大數(shù)據(jù)、機器學習等多領域的研究人員和工程人員,反映了我國學者在智能數(shù)據(jù)管理與技術領域最新的研究進展.感謝《軟件學報》編委會和數(shù)據(jù)庫專委會對??ぷ鞯闹笇Ш蛶椭?感謝專刊全體評審專家及時、耐心、細致的評審工作,感謝踴躍投稿的所有作者.希望本??軌驅χ悄軘?shù)據(jù)管理與分析相關領域的研究工作有所促進.