亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        支持內(nèi)容智能治理的雙結(jié)構(gòu)互聯(lián)網(wǎng)

        2019-09-28 06:01:10楊鵬李幼平
        通信學(xué)報(bào) 2019年9期
        關(guān)鍵詞:互聯(lián)網(wǎng)內(nèi)容體系結(jié)構(gòu)語義

        楊鵬,李幼平

        (1.計(jì)算機(jī)網(wǎng)絡(luò)和信息集成教育部重點(diǎn)實(shí)驗(yàn)室(東南大學(xué)),江蘇 南京 211189;2.東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇 南京 211189;3.東南大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,江蘇 南京 211189)

        1 引言

        互聯(lián)網(wǎng)是網(wǎng)絡(luò)空間的主要載體,與人們生產(chǎn)生活、社會(huì)發(fā)展、國(guó)家安全休戚相關(guān),已經(jīng)對(duì)全球政治、經(jīng)濟(jì)、文化等產(chǎn)生深遠(yuǎn)影響。但是,由于互聯(lián)網(wǎng)的開放性和便捷性,今天的互聯(lián)網(wǎng)已經(jīng)成為內(nèi)容大數(shù)據(jù)的集散地,各種海量化、碎片化的內(nèi)容不斷涌現(xiàn),日益呈現(xiàn)出異構(gòu)駁雜和混亂失序等特征。互聯(lián)網(wǎng)不是法外之地,它理應(yīng)成為人類共同的精神家園,肩負(fù)著傳播人類優(yōu)秀文化的重要使命。但是,在今天的互聯(lián)網(wǎng)中,因?yàn)閮?nèi)容不能得到有效治理而導(dǎo)致的安全問題正變得越來越突出。

        內(nèi)容治理是互聯(lián)網(wǎng)治理體系變革的核心目標(biāo)和關(guān)鍵環(huán)節(jié)。但是,由于當(dāng)前互聯(lián)網(wǎng)在體系結(jié)構(gòu)和治理機(jī)制方面存在欠缺,因而難以對(duì)不斷涌現(xiàn)的海量化、異構(gòu)化、碎片化和混亂失序的內(nèi)容大數(shù)據(jù)進(jìn)行有效治理,互聯(lián)網(wǎng)內(nèi)容亂象愈演愈烈,因此如何通過變革現(xiàn)有互聯(lián)網(wǎng)體系結(jié)構(gòu)使之支持互聯(lián)網(wǎng)內(nèi)容大數(shù)據(jù)的高效治理,已成為當(dāng)前互聯(lián)網(wǎng)體系結(jié)構(gòu)研究的燃眉之急。

        為此,本文提出了一種支持內(nèi)容智能治理的雙結(jié)構(gòu)互聯(lián)網(wǎng),它以現(xiàn)有互聯(lián)網(wǎng)體系結(jié)構(gòu)作為主結(jié)構(gòu),以基于輻射-復(fù)制范型的播存網(wǎng)絡(luò)作為次結(jié)構(gòu),在確保互聯(lián)網(wǎng)平滑演進(jìn)的基礎(chǔ)上,以較小的網(wǎng)絡(luò)體系結(jié)構(gòu)變革代價(jià),實(shí)現(xiàn)互聯(lián)網(wǎng)內(nèi)容治理能力的顯著提升。雙結(jié)構(gòu)互聯(lián)網(wǎng)遵循新型互聯(lián)網(wǎng)體系結(jié)構(gòu)3 條設(shè)計(jì)原則,從總體結(jié)構(gòu)、核心基元、治理方法學(xué)3 個(gè)方面進(jìn)行創(chuàng)新,以統(tǒng)一內(nèi)容標(biāo)簽(UCL,uniform content label)[1]內(nèi)容驅(qū)動(dòng)基元,對(duì)互聯(lián)網(wǎng)內(nèi)容進(jìn)行富語義矢量編碼,建立UCL 多標(biāo)識(shí)維度語義關(guān)聯(lián)模型,引入數(shù)據(jù)與知識(shí)聯(lián)合驅(qū)動(dòng)的安全能級(jí)模型,借助知識(shí)圖譜刻畫基于語義的內(nèi)容關(guān)聯(lián),建立內(nèi)容大數(shù)據(jù)UCL 知識(shí)空間,按照錢學(xué)森先生提出的綜合集成方法構(gòu)建內(nèi)容匯聚研討廳,實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)內(nèi)容大數(shù)據(jù)的智能治理,為消除互聯(lián)網(wǎng)內(nèi)容混亂失序頑疾提供了網(wǎng)絡(luò)體系結(jié)構(gòu)層面的創(chuàng)新解決思路。

        2 互聯(lián)網(wǎng)體系結(jié)構(gòu)面臨的內(nèi)容治理挑戰(zhàn)

        互聯(lián)網(wǎng)的設(shè)計(jì)初衷和基本運(yùn)作理念是為了支持端到端通信,因此傳統(tǒng)互聯(lián)網(wǎng)采用的是基于對(duì)流傳輸模型的TCP/IP 結(jié)構(gòu),它雖然對(duì)端到端交互型應(yīng)用存在優(yōu)勢(shì),但是現(xiàn)今互聯(lián)網(wǎng)的主流應(yīng)用范型已經(jīng)發(fā)生根本改變,從端到端通信轉(zhuǎn)變?yōu)橄蚝A坑脩籼峁┖A績(jī)?nèi)容的內(nèi)容共享服務(wù)[2]。但是,由于網(wǎng)站、論壇、微博、微信、社交網(wǎng)絡(luò)以及各種自媒體渠道的便捷暢通,互聯(lián)網(wǎng)中的各種內(nèi)容正在快速無序化增長(zhǎng),這些內(nèi)容中包含大量虛假信息、片面信息、甚至惡意謠言,造成互聯(lián)網(wǎng)內(nèi)容良莠不齊和混亂失序。網(wǎng)絡(luò)空間是億萬民眾共同的精神家園,只有網(wǎng)絡(luò)空間生態(tài)良好,才符合人民利益。因此,如何從根本上解決互聯(lián)網(wǎng)內(nèi)容治理難題,成為當(dāng)前互聯(lián)網(wǎng)體系結(jié)構(gòu)研究領(lǐng)域亟待解決的重要課題之一。概括起來,當(dāng)前互聯(lián)網(wǎng)體系結(jié)構(gòu)研究所面臨的內(nèi)容治理挑戰(zhàn)主要體現(xiàn)在內(nèi)容大數(shù)據(jù)趨勢(shì)顯著、內(nèi)容語義標(biāo)識(shí)缺乏和內(nèi)容安全態(tài)勢(shì)嚴(yán)峻3 個(gè)方面。

        首先,以富媒體化和海量化等為特征的內(nèi)容分發(fā)與共享,已經(jīng)成為互聯(lián)網(wǎng)發(fā)展的主旋律,互聯(lián)網(wǎng)中的新聞資訊、音視頻、流媒體、自媒體等內(nèi)容正呈現(xiàn)出爆炸性增長(zhǎng)趨勢(shì)。根據(jù)最新的Cisco VNI 預(yù)測(cè)報(bào)告,全球固網(wǎng)和移動(dòng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)IP 流量中90%以上的流量與內(nèi)容共享應(yīng)用有關(guān),預(yù)計(jì)2022 年這部分流量將高達(dá)4.8 ZB[3]。此外,按照互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC,Internet data center)的報(bào)告[4],預(yù)計(jì)到2020 年全球的數(shù)據(jù)總量將達(dá)到44 ZB,遠(yuǎn)遠(yuǎn)超過人類有史以來所有印刷材料的數(shù)據(jù)總量(200 PB)。在大數(shù)據(jù)和泛媒體環(huán)境下,不斷涌現(xiàn)的互聯(lián)網(wǎng)內(nèi)容大數(shù)據(jù)(content big data),由于治理機(jī)制的缺位,正表現(xiàn)出復(fù)雜異構(gòu)、良莠不齊和混亂失序等特征。作為一類以內(nèi)容為主體的特殊大數(shù)據(jù)[5],互聯(lián)網(wǎng)中內(nèi)容大數(shù)據(jù)的特征同樣可以用描述一般大數(shù)據(jù)的多個(gè)“V”來進(jìn)行刻畫,包括體量大(volume)、快速化(velocity)、類型雜(variety)、有價(jià)值(value)、待辨識(shí)(veracity)和強(qiáng)關(guān)聯(lián)(viscosity),如圖1 所示。治理互聯(lián)網(wǎng)中復(fù)雜異構(gòu)、良莠不齊和混亂失序的內(nèi)容大數(shù)據(jù),比處理特定領(lǐng)域中的一般大數(shù)據(jù)更加復(fù)雜,必須在互聯(lián)網(wǎng)體系結(jié)構(gòu)和關(guān)鍵治理機(jī)制等方面進(jìn)行創(chuàng)新。

        圖1 互聯(lián)網(wǎng)內(nèi)容大數(shù)據(jù)的多“V”特征

        其次,當(dāng)前互聯(lián)網(wǎng)體系結(jié)構(gòu)難以滿足內(nèi)容大數(shù)據(jù)的治理需求,還體現(xiàn)在缺乏“以內(nèi)容為中心”的內(nèi)容語義標(biāo)識(shí)。傳統(tǒng)互聯(lián)網(wǎng)本質(zhì)上是以地址為中心的網(wǎng)絡(luò),互聯(lián)網(wǎng)體系結(jié)構(gòu)中的面向地址特征,不但體現(xiàn)在以IP 為代表的TCP/IP 中,而且體現(xiàn)在Web中廣泛采用的統(tǒng)一資源定位符(URL,uniform resource locator)中。Web 中所有內(nèi)容均按照統(tǒng)一資源定位符URL 來進(jìn)行組織,這雖然極大推動(dòng)了互聯(lián)網(wǎng)主流應(yīng)用范型向內(nèi)容共享應(yīng)用的躍遷,但正如URL 名字“Locator”所強(qiáng)調(diào)的那樣,它只能表示內(nèi)容在Web 中的位置,無法描述內(nèi)容資源的豐富語義,因此難以支持基于語義的內(nèi)容大數(shù)據(jù)描述、關(guān)聯(lián)和管理等[6]。內(nèi)容大數(shù)據(jù)的治理需求,本質(zhì)上反映的是一種以內(nèi)容為中心(而非以地址為中心)的需求。近年來,學(xué)術(shù)界注意到網(wǎng)絡(luò)體系結(jié)構(gòu)關(guān)注重心向面向內(nèi)容的轉(zhuǎn)變,提出了以結(jié)合廣播與基于內(nèi)容的路由(CBCB,combined broadcast and content-based)、發(fā)布訂閱互聯(lián)網(wǎng)路由范型(PSIRP,publish subscribe Internet routing paradigm )、信息網(wǎng)絡(luò)(NetInf,network information)、內(nèi)容中心網(wǎng)絡(luò)(CCN,content-centric networking)和命名數(shù)據(jù)網(wǎng)絡(luò)(NDN,named data networking)[7]等為代表的信息中心網(wǎng)絡(luò)(ICN,information-centric networking)[8-9]。在這些ICN研究方案中,體現(xiàn)以內(nèi)容為中心設(shè)計(jì)理念的是各種內(nèi)容標(biāo)識(shí)[10],主要包括CBCB 所采用的基于屬性的標(biāo)識(shí)、PSIRP/NetInf 所采用的扁平化內(nèi)容標(biāo)識(shí)、CCN 和NDN 所采用的層次化內(nèi)容標(biāo)識(shí)等,但總體來講,這些內(nèi)容標(biāo)識(shí)大多沒有擺脫“重路由、輕語義”的傳統(tǒng)設(shè)計(jì)思路,無法從體系結(jié)構(gòu)層面提供對(duì)內(nèi)容豐富語義的感知能力,因此難以從根本上解決網(wǎng)絡(luò)空間中內(nèi)容混亂失序的頑疾。

        最后,互聯(lián)網(wǎng)的功用本質(zhì)上由它所承載的內(nèi)容體現(xiàn),互聯(lián)網(wǎng)的內(nèi)容安全與國(guó)家安全休戚相關(guān)。當(dāng)前,互聯(lián)網(wǎng)中不斷發(fā)生的各種網(wǎng)絡(luò)攻擊事件正在威脅社會(huì)穩(wěn)定和國(guó)家安全。由于互聯(lián)網(wǎng)體系結(jié)構(gòu)在安全方面(尤其內(nèi)容安全與可信方面)的先天缺陷,互聯(lián)網(wǎng)的安全態(tài)勢(shì)變得越來越嚴(yán)峻[11],而且互聯(lián)網(wǎng)中日益頻發(fā)的安全事件都或多或少與內(nèi)容安全有關(guān)。近年來,美國(guó)國(guó)家科學(xué)基金會(huì)(NSF,National Science Foundation)、美國(guó)國(guó)防高級(jí)研究計(jì)劃局(DARPA,Defense Advanced Research Projects Agency)、歐盟“地平線2020”計(jì)劃以及我國(guó)國(guó)家自然科學(xué)基金委員會(huì)等,都對(duì)網(wǎng)絡(luò)安全給予了重點(diǎn)資助[12]。一些重要的網(wǎng)絡(luò)安全研究方案包括美國(guó)的移動(dòng)目標(biāo)防御(MTD,moving target defense)[13]和定制可信賴空間(TTS,tailored trustworthy space)、信息工程大學(xué)鄔江興院士的擬態(tài)防御[14]、北京郵電大學(xué)方濱興院士的使命確保技術(shù)、中國(guó)科學(xué)院信息工程研究所的自重構(gòu)可信賴,以及各種事件跟蹤和輿情監(jiān)測(cè)研究等。這些研究方案或者并不針對(duì)內(nèi)容治理這一難題而提出,或者難以突破傳統(tǒng)互聯(lián)網(wǎng)體系結(jié)構(gòu)在內(nèi)容安全與可信等方面的固有局限,因此未能改變當(dāng)前互聯(lián)網(wǎng)內(nèi)容安全態(tài)勢(shì)日益嚴(yán)峻的棘手現(xiàn)狀。

        與此同時(shí),學(xué)術(shù)界對(duì)互聯(lián)網(wǎng)中內(nèi)容大數(shù)據(jù)及其影響的重視已現(xiàn)端倪。一方面,人們對(duì)Twitter、微博等社交媒體上事件(event)的關(guān)注由來已久,先后提出了Twitinfo、Twevent、MABED[15]等事件檢測(cè)方法。另一方面,近年來互聯(lián)網(wǎng)媒體領(lǐng)域正在發(fā)生深刻變革,F(xiàn)acebook 和Apple 緊跟媒體融合與轉(zhuǎn)型趨勢(shì),相繼推出了Instant Articles 和Apple News,意在改變媒體內(nèi)容的生產(chǎn)、組織和呈現(xiàn)形式;國(guó)際著名媒體紐約時(shí)報(bào)(New York Times)則創(chuàng)新性地提出了“新聞編碼(particles code)”[16],通過編碼標(biāo)識(shí)支持對(duì)新聞以時(shí)間軸和知識(shí)點(diǎn)進(jìn)行組織,從而把意義上相關(guān)的多個(gè)內(nèi)容有機(jī)關(guān)聯(lián)。此外,W3C 還研發(fā)了基于標(biāo)簽元數(shù)據(jù)的互聯(lián)網(wǎng)內(nèi)容訪問管理系統(tǒng)(PICS,platform for Internet content selection)[17]。2019 年初,美國(guó)DARPA 宣布開展KAIROS(knowledge-directed artificial intelligence reasoning over schema)研究[18],凸顯了美國(guó)對(duì)內(nèi)容大數(shù)據(jù)智能處理的高度重視。KAIROS項(xiàng)目的實(shí)現(xiàn)框架如圖2 所示,旨在通過人工智能、知識(shí)圖譜和機(jī)器學(xué)習(xí)技術(shù),在日益復(fù)雜的全球環(huán)境中更好地追蹤、分析世界各地每天產(chǎn)生的無數(shù)事件和媒體片段,自動(dòng)識(shí)別其中的關(guān)聯(lián)性或線索,理解和預(yù)測(cè)導(dǎo)致世界混亂與動(dòng)蕩的因素。

        綜上所述,以地址為中心的現(xiàn)行互聯(lián)網(wǎng)體系結(jié)構(gòu)難以滿足內(nèi)容治理需求,正在面臨內(nèi)容大數(shù)據(jù)趨勢(shì)顯著、內(nèi)容語義標(biāo)識(shí)缺乏和內(nèi)容安全態(tài)勢(shì)嚴(yán)峻等多方面挑戰(zhàn)。學(xué)術(shù)界圍繞Twitter、微博等社交媒體的分析研究,以及Facebook、Apple、紐約時(shí)報(bào)、W3C 等關(guān)于內(nèi)容組織、管理與訪問的應(yīng)用實(shí)踐,雖然并不直接針對(duì)互聯(lián)網(wǎng)內(nèi)容治理,但從側(cè)面反映出人們對(duì)互聯(lián)網(wǎng)內(nèi)容大數(shù)據(jù)的重視。DARPA 站在從混亂與動(dòng)蕩中建立秩序的角度,高調(diào)資助KAIROS項(xiàng)目研究,表明美國(guó)已經(jīng)開始直面這一問題。然而,現(xiàn)有各種解決思路(包括KAIROS)鮮有從網(wǎng)絡(luò)體系結(jié)構(gòu)的全局高度著眼,從變革傳統(tǒng)互聯(lián)網(wǎng)體系結(jié)構(gòu)的角度給出的創(chuàng)新方案。為此,本文提出一種支持內(nèi)容智能治理的雙結(jié)構(gòu)互聯(lián)網(wǎng),它能在維持互聯(lián)網(wǎng)體系結(jié)構(gòu)演進(jìn)性的基礎(chǔ)上,以較小代價(jià)換取互聯(lián)網(wǎng)內(nèi)容治理能力的顯著提升。

        圖2 DARPA 資助的KAIROS 項(xiàng)目實(shí)現(xiàn)框架

        3 新型互聯(lián)網(wǎng)體系結(jié)構(gòu)設(shè)計(jì)原則與模型

        網(wǎng)絡(luò)體系結(jié)構(gòu)(network architecture)是設(shè)計(jì)和構(gòu)造網(wǎng)絡(luò)系統(tǒng)的科學(xué),是對(duì)網(wǎng)絡(luò)系統(tǒng)的總體結(jié)構(gòu)規(guī)約。網(wǎng)絡(luò)體系結(jié)構(gòu)設(shè)計(jì)原則是指針對(duì)網(wǎng)絡(luò)系統(tǒng)設(shè)計(jì)目標(biāo)而提出的一系列具有指導(dǎo)意義的抽象設(shè)計(jì)原則。網(wǎng)絡(luò)體系結(jié)構(gòu)設(shè)計(jì)原則是計(jì)算機(jī)網(wǎng)絡(luò)研究的“第一性問題”,有何種網(wǎng)絡(luò)體系結(jié)構(gòu)設(shè)計(jì)原則,才會(huì)有與之對(duì)應(yīng)的網(wǎng)絡(luò)體系結(jié)構(gòu)。網(wǎng)絡(luò)體系結(jié)構(gòu)設(shè)計(jì)原則決定了網(wǎng)絡(luò)系統(tǒng)的全局組織、總體結(jié)構(gòu)和技術(shù)選擇標(biāo)準(zhǔn),各種具體實(shí)現(xiàn)技術(shù)都是在網(wǎng)絡(luò)體系結(jié)構(gòu)設(shè)計(jì)原則的指導(dǎo)下派生而得。針對(duì)當(dāng)前互聯(lián)網(wǎng)所面臨的內(nèi)容治理挑戰(zhàn),借鑒信息中心網(wǎng)絡(luò)“以內(nèi)容為中心”的合理研究思路,本文提出3 條新型互聯(lián)網(wǎng)體系結(jié)構(gòu)設(shè)計(jì)原則。

        1)雙驅(qū)動(dòng)二元結(jié)構(gòu)原則(P1)

        基于“邊緣論(end-to-end argument,也稱端到端原則)”構(gòu)建的互聯(lián)網(wǎng)體系結(jié)構(gòu),是一種地址驅(qū)動(dòng)的、以數(shù)據(jù)傳輸可達(dá)性為目標(biāo)的網(wǎng)絡(luò)體系結(jié)構(gòu)。面向地址的設(shè)計(jì)理念貫穿整個(gè)互聯(lián)網(wǎng)體系結(jié)構(gòu),體現(xiàn)在鏈路層地址、IP 地址、URL 地址等實(shí)現(xiàn)技術(shù)中。純地址驅(qū)動(dòng)的單一體系結(jié)構(gòu)與“以內(nèi)容為中心”主流應(yīng)用泛型的不匹配,是互聯(lián)網(wǎng)面臨諸多挑戰(zhàn)(包括內(nèi)容治理)的本質(zhì)根源。破解互聯(lián)網(wǎng)發(fā)展困局的可行出路,是設(shè)計(jì)一種適配內(nèi)容中心主流應(yīng)用泛型的內(nèi)容驅(qū)動(dòng)次結(jié)構(gòu)(secondary structure),用以輔助單一地址驅(qū)動(dòng)的現(xiàn)行互聯(lián)網(wǎng)體系結(jié)構(gòu),形成同時(shí)包含地址驅(qū)動(dòng)主結(jié)構(gòu)(primary structure)與內(nèi)容驅(qū)動(dòng)次結(jié)構(gòu)的雙驅(qū)動(dòng)二元結(jié)構(gòu)新型互聯(lián)網(wǎng),即雙結(jié)構(gòu)互聯(lián)網(wǎng)(dual-architecture Internet)。

        2)富語義內(nèi)容基元原則(P2)

        網(wǎng)絡(luò)體系結(jié)構(gòu)的基元(building-block)是最能代表網(wǎng)絡(luò)系統(tǒng)設(shè)計(jì)思想與核心理念的基礎(chǔ)性構(gòu)件,它體現(xiàn)特定網(wǎng)絡(luò)系統(tǒng)的設(shè)計(jì)特色,又作為網(wǎng)絡(luò)體系結(jié)構(gòu)的基本單元,支撐網(wǎng)絡(luò)系統(tǒng)的各種派生功能和上層應(yīng)用。IP(或IP 分組)是傳統(tǒng)互聯(lián)網(wǎng)體系結(jié)構(gòu)的地址驅(qū)動(dòng)基元,它是互聯(lián)網(wǎng)面向地址設(shè)計(jì)理念的集中體現(xiàn)。應(yīng)對(duì)傳統(tǒng)互聯(lián)網(wǎng)體系結(jié)構(gòu)缺乏內(nèi)容語義標(biāo)識(shí)的挑戰(zhàn),必須以內(nèi)容大數(shù)據(jù)的規(guī)范標(biāo)引、高效共享與依法治理為目標(biāo),引入“以內(nèi)容為中心”的新型內(nèi)容標(biāo)識(shí)作為雙結(jié)構(gòu)互聯(lián)網(wǎng)的內(nèi)容驅(qū)動(dòng)基元,確保為海量、無序的無結(jié)構(gòu)或半結(jié)構(gòu)模量化內(nèi)容大數(shù)據(jù)提供統(tǒng)一格式富語義矢量化內(nèi)容標(biāo)識(shí)。這種內(nèi)容基元既是雙結(jié)構(gòu)互聯(lián)網(wǎng)實(shí)現(xiàn)內(nèi)容智能治理的抓手,又是溝通主結(jié)構(gòu)和次結(jié)構(gòu)的橋梁。

        3)定性定量綜合集成原則(P3)

        互聯(lián)網(wǎng)海量?jī)?nèi)容大數(shù)據(jù)難以有效治理的主要原因,在于傳統(tǒng)互聯(lián)網(wǎng)信息處理領(lǐng)域一直缺乏有效的理論和方法。在系統(tǒng)工程領(lǐng)域,我國(guó)著名科學(xué)家錢學(xué)森先生提出從定性到定量的綜合集成(meta-synthesis)方法[19],利用現(xiàn)代信息理論、人工智能、知識(shí)工程等技術(shù)構(gòu)建智能化綜合集成研討廳,實(shí)現(xiàn)定性的和定量的知識(shí)綜合集成與復(fù)雜系統(tǒng)深層認(rèn)知。在大數(shù)據(jù)和泛媒體環(huán)境下,一方面各種媒體信息(包括自媒體)在快速無序化“野蠻生長(zhǎng)”,另一方面網(wǎng)絡(luò)空間中充滿大量虛假信息、片面信息,甚至惡意謠言,這大大增加了互聯(lián)網(wǎng)內(nèi)容治理的難度。因此,應(yīng)該吸納綜合集成方法在開放復(fù)雜巨系統(tǒng)理論與實(shí)踐方面的成功經(jīng)驗(yàn),采用定性定量綜合集成原則指導(dǎo)互聯(lián)網(wǎng)內(nèi)容智能治理關(guān)鍵技術(shù)。

        支持內(nèi)容大數(shù)據(jù)智能治理的雙結(jié)構(gòu)互聯(lián)網(wǎng),完全遵循上述3 條網(wǎng)絡(luò)體系結(jié)構(gòu)設(shè)計(jì)原則進(jìn)行設(shè)計(jì)。雙驅(qū)動(dòng)二元結(jié)構(gòu)原則(P1)為變革互聯(lián)網(wǎng)體系結(jié)構(gòu)提供了“設(shè)計(jì)原理(design philosophy)”創(chuàng)新,按照雙驅(qū)動(dòng)二元結(jié)構(gòu)原則設(shè)計(jì)的雙結(jié)構(gòu)互聯(lián)網(wǎng),完全摒棄“非此(互聯(lián)網(wǎng))即彼(非互聯(lián)網(wǎng))”的網(wǎng)絡(luò)體系結(jié)構(gòu)一元論思維,在不改變現(xiàn)行地址驅(qū)動(dòng)互聯(lián)網(wǎng)體系結(jié)構(gòu)的主體地位的基礎(chǔ)上,借助多種網(wǎng)絡(luò)(互聯(lián)網(wǎng)、電信網(wǎng)和廣播網(wǎng)等)優(yōu)勢(shì)互補(bǔ)的協(xié)同變革思路,采取“雙重驅(qū)動(dòng)、結(jié)構(gòu)共軛”的二元結(jié)構(gòu)創(chuàng)意建立起具有雙體系結(jié)構(gòu)的新型互聯(lián)網(wǎng)。

        在此基礎(chǔ)上,按照富語義內(nèi)容基元原則(P2)設(shè)計(jì)統(tǒng)一內(nèi)容標(biāo)簽UCL[1],充當(dāng)雙結(jié)構(gòu)互聯(lián)網(wǎng)的“以內(nèi)容為中心”新型內(nèi)容標(biāo)識(shí),為繁雜異構(gòu)內(nèi)容大數(shù)據(jù)提供格式統(tǒng)一、語義豐富的內(nèi)容驅(qū)動(dòng)基元,直接支撐并簡(jiǎn)化了復(fù)雜的互聯(lián)網(wǎng)內(nèi)容大數(shù)據(jù)治理需求。進(jìn)一步遵循定性定量綜合集成原則(P3),設(shè)計(jì)內(nèi)容大數(shù)據(jù)智能治理關(guān)鍵技術(shù)和實(shí)現(xiàn)機(jī)制,將常規(guī)技術(shù)難以解決的復(fù)雜巨系統(tǒng)問題(由無限用戶、無限內(nèi)容構(gòu)成的單一地址驅(qū)動(dòng)網(wǎng)絡(luò)中的混亂無序內(nèi)容大數(shù)據(jù)治理問題),轉(zhuǎn)換成錢學(xué)森先生的綜合集成方法可以求解的系統(tǒng)科學(xué)問題,運(yùn)用人工智能、知識(shí)圖譜、網(wǎng)絡(luò)空間安全等技術(shù),對(duì)異構(gòu)、碎片化內(nèi)容進(jìn)行UCL 自動(dòng)標(biāo)引,建立UCL 多標(biāo)識(shí)維度語義關(guān)聯(lián)模型,引入數(shù)據(jù)與知識(shí)聯(lián)合驅(qū)動(dòng)的安全能級(jí)模型,借助基于知識(shí)圖譜的內(nèi)容大數(shù)據(jù)UCL知識(shí)空間,構(gòu)建綜合集成內(nèi)容匯聚研討廳并智能治理互聯(lián)網(wǎng)內(nèi)容大數(shù)據(jù)。

        雙結(jié)構(gòu)互聯(lián)網(wǎng)的體系結(jié)構(gòu)參考模型如圖3 所示,它以地址驅(qū)動(dòng)的互聯(lián)網(wǎng)TCP/IP 結(jié)構(gòu)作為主結(jié)構(gòu),以內(nèi)容驅(qū)動(dòng)的“輻射-復(fù)制范型”播存網(wǎng)絡(luò)[20]作為次結(jié)構(gòu)。這種雙驅(qū)共軛二元體系結(jié)構(gòu)思路,顯著區(qū)別于單純的“打補(bǔ)丁”式演進(jìn)路線或“推倒重建”式重構(gòu)路線,既有利于繼續(xù)發(fā)揮互聯(lián)網(wǎng)TCP/IP主結(jié)構(gòu)在端到端通信方面的既有優(yōu)勢(shì),又能將單一的地址驅(qū)動(dòng)網(wǎng)絡(luò)迅速升級(jí)為“以內(nèi)容為中心”的復(fù)合網(wǎng)絡(luò),不但能顯著提升互聯(lián)網(wǎng)的內(nèi)容共享能力[21-22],而且在應(yīng)對(duì)互聯(lián)網(wǎng)內(nèi)容治理這一全球性難題方面有突出優(yōu)勢(shì)。

        4 雙結(jié)構(gòu)互聯(lián)網(wǎng)內(nèi)容智能治理關(guān)鍵技術(shù)

        4.1 UCL 國(guó)家標(biāo)準(zhǔn)與富語義矢量編碼

        彌合“以地址為中心”的傳統(tǒng)互聯(lián)網(wǎng)體系結(jié)構(gòu)與“以內(nèi)容為中心”的內(nèi)容大數(shù)據(jù)治理需求之間的巨大溝壑,必須對(duì)網(wǎng)絡(luò)體系結(jié)構(gòu)的基元進(jìn)行創(chuàng)新?;ヂ?lián)網(wǎng)中的內(nèi)容資源普遍采用URL 進(jìn)行組織,URL既描述內(nèi)容資源的地址,又充當(dāng)內(nèi)容資源的標(biāo)識(shí)。作為內(nèi)容標(biāo)識(shí),URL 的內(nèi)容語義描述功能非常弱,由此帶來互聯(lián)網(wǎng)內(nèi)容資源難找、難管、失序等弊端。為此,Tim Berners-Lee提出了語義網(wǎng)(semantic web)概念[23],試圖使Web 變成能夠自動(dòng)理解詞語和概念,以及它們之間邏輯關(guān)系的智能網(wǎng)絡(luò),實(shí)現(xiàn)更加人性化和主動(dòng)化的內(nèi)容服務(wù)。但是,語義網(wǎng)要求機(jī)器能夠“讀懂自然語言”,實(shí)現(xiàn)起來非常困難?;ヂ?lián)網(wǎng)中的內(nèi)容大數(shù)據(jù)來源廣泛且更新頻繁,并具有非結(jié)構(gòu)化(或半結(jié)構(gòu)化)和高度異構(gòu)等特點(diǎn),因此治理互聯(lián)網(wǎng)內(nèi)容大數(shù)據(jù)的關(guān)鍵在于網(wǎng)絡(luò)體系結(jié)構(gòu)語義基元?jiǎng)?chuàng)新。

        雙結(jié)構(gòu)互聯(lián)網(wǎng)按照富語義內(nèi)容基元原則,從全方位支持互聯(lián)網(wǎng)內(nèi)容大數(shù)據(jù)智能治理的角度,提出以統(tǒng)一內(nèi)容標(biāo)簽UCL 作為新型互聯(lián)網(wǎng)體系結(jié)構(gòu)的內(nèi)容驅(qū)動(dòng)富語義基元。UCL 本質(zhì)上是一種面向內(nèi)容的元數(shù)據(jù)(Metadata),它從互聯(lián)網(wǎng)中海量?jī)?nèi)容資源難找、難管和失序等問題的根本癥結(jié)入手,兼顧內(nèi)容的生產(chǎn)者、消費(fèi)者和管理者3 個(gè)重要角色,能夠有效彌補(bǔ)URL 的語義缺失和管理缺失,成為雙結(jié)構(gòu)互聯(lián)網(wǎng)中描述、引領(lǐng)和治理內(nèi)容大數(shù)據(jù)的基石。圖4 是按照富語義內(nèi)容基元原則(P2)進(jìn)行全新設(shè)計(jì)后的UCL,已經(jīng)發(fā)布成為中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)GB/T 35304-2017[1],從2018 年4 月起在全國(guó)正式實(shí)施。UCL 國(guó)家標(biāo)準(zhǔn)能夠有效支持內(nèi)容大數(shù)據(jù)的高效聚合與泛在分發(fā)、個(gè)性化主動(dòng)服務(wù)、語義分析與知識(shí)萃取、認(rèn)證注冊(cè)物證鏈管理、依法治理與溯源追責(zé)等,為雙結(jié)構(gòu)互聯(lián)網(wǎng)提供了標(biāo)準(zhǔn)化的富語義內(nèi)容基元支持。

        圖3 雙結(jié)構(gòu)互聯(lián)網(wǎng)體系結(jié)構(gòu)參考模型

        圖4 國(guó)家標(biāo)準(zhǔn)GB/T 35304-2017 中的UCL 格式

        互聯(lián)網(wǎng)中海量、繁雜、無序的內(nèi)容大數(shù)據(jù),本質(zhì)上是一種模量形態(tài)的數(shù)據(jù),治理互聯(lián)網(wǎng)內(nèi)容大數(shù)據(jù)的關(guān)鍵在于對(duì)模量化數(shù)據(jù)進(jìn)行矢量化。UCL 國(guó)家標(biāo)準(zhǔn)是一種單位矢量性質(zhì)的內(nèi)容元數(shù)據(jù),它可以在多個(gè)語義抽象層次上全方位描述內(nèi)容資源的豐富語義信息。UCL 中的標(biāo)題、摘要、話題、關(guān)鍵詞和實(shí)體(Entity)等內(nèi)容語義關(guān)鍵標(biāo)識(shí)域,彼此關(guān)聯(lián)又各有側(cè)重(如圖5 所示),分別表征了內(nèi)容的部分語義信息。如果把內(nèi)容全文視為語義的零階表述,摘要(即“有關(guān)內(nèi)容的內(nèi)容”)是語義的一階表述,標(biāo)題(即“摘要基礎(chǔ)上的內(nèi)容抽象”)是語義的二階表述,而話題則是語義的高階表述。UCL基于五要素(5W)方法進(jìn)行內(nèi)容實(shí)體編碼,描述何時(shí)(when)、何地(where)、何人(who)、何事(what)、何因(why)5 個(gè)方面基本要素。進(jìn)而從多個(gè)語義關(guān)鍵標(biāo)識(shí)域之間的聯(lián)系出發(fā),借助語義分析、知識(shí)庫(kù)和實(shí)體鏈接等技術(shù),建立UCL 多關(guān)鍵標(biāo)識(shí)維度間的語義關(guān)聯(lián)模型,實(shí)現(xiàn)基于UCL 國(guó)家標(biāo)準(zhǔn)的富語義矢量自動(dòng)編碼。

        圖5 UCL 多關(guān)鍵標(biāo)識(shí)維度間的語義關(guān)聯(lián)

        4.2 熱門內(nèi)容匯聚與UCL 安全能級(jí)模型

        進(jìn)行互聯(lián)網(wǎng)內(nèi)容治理的首要問題,是如何有效地獲取被治理的內(nèi)容源,因?yàn)榛ヂ?lián)網(wǎng)的內(nèi)容浩如煙海、層出不窮,無一遺漏地采集所有內(nèi)容顯然不太現(xiàn)實(shí)。所幸由復(fù)雜網(wǎng)絡(luò)的研究揭示,在今天的互聯(lián)網(wǎng)中,雖然一方面內(nèi)容發(fā)布渠道的便捷性使碎片化內(nèi)容大數(shù)據(jù)不斷涌現(xiàn),但另一方面用戶對(duì)內(nèi)容的訪問又表現(xiàn)出明顯的聚集性和無尺度(scale-free)性:全球有近20 億個(gè)網(wǎng)站[24],其中絕大多數(shù)乏人問津,只有少數(shù)熱門網(wǎng)站能吸引大多數(shù)訪客,而一些熱門內(nèi)容更是被成千上萬次頻繁地訪問。根據(jù)互聯(lián)網(wǎng)內(nèi)容訪問的無尺度與冪律特征,互聯(lián)網(wǎng)中的內(nèi)容雖然浩如煙海,但往往其中起關(guān)鍵影響的只是少數(shù)熱門內(nèi)容,因此只需在確保盡可能高的內(nèi)容覆蓋度的同時(shí),對(duì)熱門內(nèi)容進(jìn)行重點(diǎn)關(guān)注?;谶@一理論,雙結(jié)構(gòu)互聯(lián)網(wǎng)在主結(jié)構(gòu)和次結(jié)構(gòu)之間安置內(nèi)容大數(shù)據(jù)匯聚中心,它實(shí)時(shí)采集互聯(lián)網(wǎng)中的熱門內(nèi)容并進(jìn)行UCL 矢量編碼。

        按照定性定量綜合集成原則(P3),雙結(jié)構(gòu)互聯(lián)網(wǎng)對(duì)熱門內(nèi)容進(jìn)行多視角、多維度的話題匯聚和分析,運(yùn)用知識(shí)發(fā)現(xiàn)與數(shù)據(jù)聚焦搜索技術(shù),快速采集、匯聚特定話題相關(guān)的網(wǎng)站和社會(huì)媒體內(nèi)容,對(duì)海量熱門內(nèi)容按照事件進(jìn)行定性歸類和定量關(guān)聯(lián)。熱點(diǎn)事件是具有重大影響的高熱度事件[25],熱點(diǎn)事件及其關(guān)聯(lián)的評(píng)論具有很強(qiáng)的社會(huì)輿論導(dǎo)向性,需要盡早發(fā)現(xiàn)并進(jìn)行跟蹤監(jiān)測(cè)。雙結(jié)構(gòu)互聯(lián)網(wǎng)對(duì)熱點(diǎn)事件的挖掘分析流程如圖6 所示。利用“詞袋模型”中詞共現(xiàn)理論和UCL 中的內(nèi)容摘要和關(guān)鍵詞等屬性,通過大數(shù)據(jù)處理框架實(shí)現(xiàn)從定性到定量的迭代過程,通過動(dòng)態(tài)調(diào)整關(guān)聯(lián)規(guī)則挖掘算法的參數(shù),智能挖掘熱點(diǎn)事件并對(duì)關(guān)聯(lián)評(píng)論的情感導(dǎo)向[26]進(jìn)行挖掘分類。再根據(jù)聯(lián)想型認(rèn)知模式和知識(shí)圖譜相關(guān)理論,實(shí)現(xiàn)基于事件評(píng)論情感極性的熱點(diǎn)事件分類和聚類,跟蹤熱點(diǎn)事件的演化脈絡(luò)(發(fā)生、發(fā)展、高峰、回落、平息),為網(wǎng)絡(luò)輿情預(yù)警、輿情分析和應(yīng)急響應(yīng)等提供支持。

        圖6 雙結(jié)構(gòu)互聯(lián)網(wǎng)熱點(diǎn)事件挖掘分析流程

        在第3 節(jié)提出的3 條網(wǎng)絡(luò)體系結(jié)構(gòu)設(shè)計(jì)原則的指導(dǎo)下,雙結(jié)構(gòu)互聯(lián)網(wǎng)對(duì)基于UCL 的內(nèi)容治理方法以及網(wǎng)絡(luò)空間安全確保技術(shù)[11]進(jìn)行了創(chuàng)新和突破。UCL 國(guó)家標(biāo)準(zhǔn)是支持內(nèi)容大數(shù)據(jù)智能治理的利器,它采取內(nèi)容驅(qū)動(dòng)理念對(duì)雙結(jié)構(gòu)互聯(lián)網(wǎng)面向內(nèi)容的基元進(jìn)行了全新設(shè)計(jì),形成生產(chǎn)、消費(fèi)和管理三位一體的內(nèi)容大數(shù)據(jù)創(chuàng)新標(biāo)識(shí)體系。并且在UCL國(guó)家標(biāo)準(zhǔn)中,對(duì)雙結(jié)構(gòu)互聯(lián)網(wǎng)安全能級(jí)模型(SELM,security energy-level model)給予了內(nèi)嵌(built-in)支持[1]。安全能級(jí)模型將主結(jié)構(gòu)模量?jī)?nèi)容向次結(jié)構(gòu)空間的匯聚,細(xì)化為多個(gè)分離的安全能級(jí)(類似電子繞核運(yùn)動(dòng)的軌道能級(jí)),如圖7 所示。安全能級(jí)不但含有對(duì)內(nèi)容的安全等級(jí)進(jìn)行定級(jí)的概念,同時(shí)還有對(duì)內(nèi)容安全等級(jí)進(jìn)行動(dòng)態(tài)調(diào)整的“能級(jí)躍遷”概念。依據(jù)來源路徑的安全性、內(nèi)容的質(zhì)量和可信度等,設(shè)定內(nèi)容的初始安全能級(jí),然后借助知識(shí)萃取技術(shù)、深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)和UCL 知識(shí)空間等,對(duì)進(jìn)入次結(jié)構(gòu)的內(nèi)容進(jìn)行逐級(jí)趨嚴(yán)的智能化能級(jí)躍遷檢查。內(nèi)容安全能級(jí)信息記錄在UCL 代碼部分和屬性部分,再結(jié)合基于UCL 的富語義矢量編碼技術(shù)、多維度語義關(guān)聯(lián)模型與UCL 知識(shí)空間等,形成一種“以疏代控”的內(nèi)容“依法治理”體系,實(shí)現(xiàn)網(wǎng)絡(luò)空間安全從處理數(shù)據(jù)向治理內(nèi)容的躍升,形成基于安全能級(jí)模型的數(shù)據(jù)與知識(shí)聯(lián)合驅(qū)動(dòng)智能化治理體系。

        4.3 UCL 知識(shí)空間與內(nèi)容匯聚研討廳

        圖7 雙結(jié)構(gòu)互聯(lián)網(wǎng)UCL 安全能級(jí)模型

        由于互聯(lián)網(wǎng)內(nèi)容大數(shù)據(jù)具有碎片化和缺少關(guān)聯(lián)等特點(diǎn),實(shí)現(xiàn)內(nèi)容智能治理還必須將這些碎片化內(nèi)容按照語義進(jìn)行有機(jī)關(guān)聯(lián)。雙結(jié)構(gòu)互聯(lián)網(wǎng)針對(duì)此問題的解決辦法是,基于實(shí)體鏈接技術(shù)構(gòu)建UCL知識(shí)空間,如圖8 所示。構(gòu)建UCL 知識(shí)空間首先需要一個(gè)基礎(chǔ)UCL 知識(shí)空間,然后將采集到的內(nèi)容及其對(duì)應(yīng)的UCL 不斷與該知識(shí)空間進(jìn)行鏈接?;A(chǔ)UCL 知識(shí)空間有多種構(gòu)建方法,可基于維基百科(Wikipedia)、百度百科、ACE 中文語料庫(kù)和KBP 語料庫(kù)等多種語料源來進(jìn)行構(gòu)建。首先根據(jù)抽取的詞條信息,結(jié)合綜合詞頻和位置圖等實(shí)體語義權(quán)值計(jì)算方法,建立實(shí)體名稱映射詞典和關(guān)系映射詞典,得到基本知識(shí)實(shí)體的邏輯關(guān)聯(lián)知識(shí)圖譜[27]。然后對(duì)從互聯(lián)網(wǎng)采集到的每一份內(nèi)容,抽取該內(nèi)容對(duì)應(yīng)UCL 中的命名實(shí)體及其語義權(quán)重信息,并通過基于語境相似的實(shí)體消歧進(jìn)行實(shí)體鏈接[28]。最后根據(jù)對(duì)應(yīng)UCL 實(shí)體之間的關(guān)聯(lián)關(guān)系鏈接生成UCL知識(shí)空間。UCL 知識(shí)空間是互聯(lián)網(wǎng)內(nèi)容深度治理的基礎(chǔ),既可以根據(jù)一個(gè)UCL 直接獲得對(duì)應(yīng)內(nèi)容(也包括話題、事件等)的實(shí)體以及實(shí)體間的關(guān)聯(lián)鏈接關(guān)系,又可以通過基于語義關(guān)聯(lián)度排序的查詢獲得與內(nèi)容關(guān)聯(lián)的UCL 集合,還可以支持內(nèi)容的實(shí)體消歧、隱含知識(shí)萃取和UCL 能級(jí)躍遷。

        互聯(lián)網(wǎng)中各種海量化、異構(gòu)化、碎片化內(nèi)容正在快速無序增長(zhǎng),其中充滿大量虛假信息、片面信息,甚至惡意謠言,大大增加了互聯(lián)網(wǎng)內(nèi)容治理的難度。治理內(nèi)容大數(shù)據(jù)的目的是把大量有待辨識(shí)(veracity)的數(shù)據(jù),轉(zhuǎn)換成有價(jià)值的、彼此關(guān)聯(lián)的“知識(shí)”[18]。雙結(jié)構(gòu)互聯(lián)網(wǎng)遵循定性定量綜合集成原則(P3),在UCL 富語義矢量編碼技術(shù)、UCL多維度語義關(guān)聯(lián)模型、UCL 安全能級(jí)模型與UCL知識(shí)空間等的支持下,構(gòu)建互聯(lián)網(wǎng)內(nèi)容大數(shù)據(jù)匯聚研討廳(簡(jiǎn)稱內(nèi)容匯聚研討廳),如圖9 所示,通過內(nèi)容匯聚研討廳實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)內(nèi)容大數(shù)據(jù)的深度治理。內(nèi)容匯聚研討廳的工作機(jī)理介紹如下。

        圖9 基于綜合集成的內(nèi)容大數(shù)據(jù)匯聚研討廳

        1)從互聯(lián)網(wǎng)實(shí)時(shí)采集的內(nèi)容大數(shù)據(jù)在數(shù)據(jù)與知識(shí)聯(lián)合驅(qū)動(dòng)下進(jìn)行UCL 初級(jí)編碼,并攜帶安全能級(jí)信息穿越UCL 安全能級(jí)模型。新的知識(shí)同時(shí)被記錄和關(guān)聯(lián)到系統(tǒng)的知識(shí)庫(kù)中。

        2)在UCL 知識(shí)空間的支持下,進(jìn)入內(nèi)容匯聚研討廳的內(nèi)容進(jìn)一步從話題、事件線(含事件)、實(shí)體、觀點(diǎn)、知識(shí)等層面進(jìn)一步解析和關(guān)聯(lián)。

        3)碎片化內(nèi)容不斷卷積聯(lián)合過往內(nèi)容和知識(shí),逐漸形成“各態(tài)歷經(jīng)(ergodic)”的時(shí)間鏈和知識(shí)鏈,孤立內(nèi)容被自動(dòng)置于話題和事件的全貌中。

        4)研討廳展示細(xì)節(jié)、曝露聯(lián)系、呈現(xiàn)全貌、跟蹤演化,觀點(diǎn)趨同的給予歸并,觀點(diǎn)趨反的則通過存儲(chǔ)給予尊重,信息不確定性(熵)得以消除,達(dá)到去偽存真、以疏代控、由亂入治的目的。

        5 雙結(jié)構(gòu)互聯(lián)網(wǎng)內(nèi)容智能治理原型系統(tǒng)

        雙結(jié)構(gòu)互聯(lián)網(wǎng)的3 條網(wǎng)絡(luò)體系結(jié)構(gòu)設(shè)計(jì)原則均以內(nèi)容大數(shù)據(jù)智能治理作為核心目標(biāo)。雙驅(qū)動(dòng)二元結(jié)構(gòu)原則(P1)強(qiáng)調(diào)用內(nèi)容驅(qū)動(dòng)的次結(jié)構(gòu)播存網(wǎng)絡(luò)輔助和改造單一地址驅(qū)動(dòng)的互聯(lián)網(wǎng),形成兼含主、次二元結(jié)構(gòu)的雙驅(qū)共軛新型互聯(lián)網(wǎng),既維持互聯(lián)網(wǎng)主結(jié)構(gòu)的/平滑演進(jìn)路線,又為治理互聯(lián)網(wǎng)內(nèi)容大數(shù)據(jù)提供網(wǎng)絡(luò)總體結(jié)構(gòu)支持。富語義內(nèi)容基元原則(P2)直接聚焦新型互聯(lián)網(wǎng)體系結(jié)構(gòu)的基礎(chǔ)性構(gòu)件,將雙驅(qū)動(dòng)二元結(jié)構(gòu)原則(P1)貫徹至新型互聯(lián)網(wǎng)體系結(jié)構(gòu)支持內(nèi)容治理的核心基元,指導(dǎo)形成格式統(tǒng)一的富語義矢量化內(nèi)容標(biāo)簽,并制定統(tǒng)一內(nèi)容標(biāo)簽UCL 國(guó)家標(biāo)準(zhǔn)?;诳傮w結(jié)構(gòu)與核心基元的創(chuàng)新,定性定量綜合集成原則(P3)進(jìn)一步對(duì)治理內(nèi)容大數(shù)據(jù)的方法學(xué)(methodology)進(jìn)行創(chuàng)新,運(yùn)用錢學(xué)森先生的綜合集成方法的系統(tǒng)科學(xué)思維,求解異構(gòu)、碎片化、混亂無序內(nèi)容大數(shù)據(jù)的治理難題。在上述3 條網(wǎng)絡(luò)體系結(jié)構(gòu)設(shè)計(jì)原則的指導(dǎo)下,本文研發(fā)了雙結(jié)構(gòu)互聯(lián)網(wǎng)內(nèi)容智能治理原型系統(tǒng),對(duì)雙結(jié)構(gòu)互聯(lián)網(wǎng)及其內(nèi)容智能治理機(jī)制的可行性和有效性進(jìn)行驗(yàn)證,原型系統(tǒng)的實(shí)現(xiàn)框架如圖10所示。

        雙結(jié)構(gòu)互聯(lián)網(wǎng)內(nèi)容智能治理原型系統(tǒng)主要包括熱門內(nèi)容匯聚子系統(tǒng)、UCL 知識(shí)空間子系統(tǒng)和內(nèi)容匯聚研討廳子系統(tǒng)。熱門內(nèi)容匯聚子系統(tǒng)首先實(shí)時(shí)采集互聯(lián)網(wǎng)中的熱門內(nèi)容,然后利用自然語言處理技術(shù)(分詞、去停用詞、自動(dòng)摘要等)和UCL 多維語義關(guān)聯(lián)模型,生成內(nèi)容對(duì)應(yīng)的UCL富語義矢量編碼,并借助大數(shù)據(jù)處理平臺(tái)(Hadoop 和Spark)利用知識(shí)萃取技術(shù)和深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)熱門內(nèi)容聚類和熱點(diǎn)事件發(fā)掘,將這些信息與系統(tǒng)中的既有知識(shí)不斷卷積聯(lián)合,在UCL 安全能級(jí)模型與UCL 知識(shí)空間子系統(tǒng)支持下,對(duì)進(jìn)入次結(jié)構(gòu)的內(nèi)容進(jìn)行認(rèn)證注冊(cè)與智能化能級(jí)躍遷檢查。UCL 知識(shí)空間子系統(tǒng)首先利用維基百科和百度百科等構(gòu)建基礎(chǔ)UCL 知識(shí)空間,然后對(duì)熱門內(nèi)容提取UCL 命名實(shí)體,經(jīng)過實(shí)體消歧等處理后將UCL 鏈接到UCL 知識(shí)空間,實(shí)現(xiàn)內(nèi)容之間基于語義的深度關(guān)聯(lián),為UCL 安全能級(jí)躍遷與內(nèi)容匯聚研討廳子系統(tǒng)奠定實(shí)現(xiàn)基礎(chǔ)。

        圖10 雙結(jié)構(gòu)互聯(lián)網(wǎng)內(nèi)容智能治理原型實(shí)現(xiàn)框架

        通過內(nèi)容匯聚研討廳支持海量信息的匯集聚類,它并不立即為用戶提供可信答案,而是提供一種信息匯聚場(chǎng)所,經(jīng)歷長(zhǎng)時(shí)間的信息累積和開放式研討,漸次獲得大眾信服的客觀認(rèn)知。信息集成研討廳把信息按照話題進(jìn)行定性歸納,“定性”指借助專業(yè)人士的智慧,把有爭(zhēng)議話題歸納為少數(shù)幾種觀點(diǎn)(例如正、中、反等)。“定量”指計(jì)算機(jī)對(duì)同類觀點(diǎn)進(jìn)行時(shí)間與空間的定量關(guān)聯(lián)。隨著信息的匯聚累積,反映事物內(nèi)在本質(zhì)的內(nèi)容將隨時(shí)間浮現(xiàn)出來(emergence),而反映事物表層的非本質(zhì)內(nèi)容將隨時(shí)間逐步湮滅,形成一種“以疏代控、和諧民主”的互聯(lián)網(wǎng)內(nèi)容治理環(huán)境。

        內(nèi)容匯聚研討廳子系統(tǒng)集中體現(xiàn)雙結(jié)構(gòu)互聯(lián)網(wǎng)的內(nèi)容大數(shù)據(jù)智能治理效果,它遵循定性定量綜合集成原則(P3)進(jìn)行設(shè)計(jì),其目的在于提供一種以話題和事件作為線索來組織內(nèi)容大數(shù)據(jù)的匯聚場(chǎng)所(研討廳),而不是立即為用戶提供可信答案。內(nèi)容匯聚研討廳子系統(tǒng)中話題觀點(diǎn)聚類與觀點(diǎn)強(qiáng)度計(jì)算的實(shí)現(xiàn)框架如圖11 所示。用戶可以借助內(nèi)容匯聚研討廳了解各方觀點(diǎn),并通過瀏覽觀點(diǎn)語句及其來源了解每一個(gè)觀點(diǎn)類的論點(diǎn)、論據(jù)和論證過程,獲取最具有價(jià)值的支持觀點(diǎn)的材料。用戶通過以時(shí)間軸組織的內(nèi)容匯聚研討廳,可以了解觀點(diǎn)的變化過程,進(jìn)而在全面了解各方觀點(diǎn)的基礎(chǔ)上對(duì)內(nèi)容是否可信做出理性判斷。

        圖11 話題觀點(diǎn)聚類與觀點(diǎn)強(qiáng)度計(jì)算實(shí)現(xiàn)框架

        隨著內(nèi)容大數(shù)據(jù)的不斷匯聚累積,內(nèi)容匯聚研討廳中反映事物內(nèi)在本質(zhì)的內(nèi)容將隨時(shí)間浮現(xiàn)出來(emergence),而反映事物表層的非本質(zhì)內(nèi)容將隨時(shí)間逐步湮滅。借助內(nèi)容匯聚研討廳,經(jīng)過長(zhǎng)時(shí)間信息累積和開放式研討之后,漸次逼近令大眾信服的客觀認(rèn)知。內(nèi)容匯聚研討廳子系統(tǒng)通過可視化界面展示內(nèi)容出處、發(fā)布時(shí)間、熱門程度等基本屬性,并借助內(nèi)容匯聚子系統(tǒng)和UCL 知識(shí)空間子系統(tǒng)提取內(nèi)容的觀點(diǎn)和計(jì)算內(nèi)容的可信度,展示熱點(diǎn)事件的挖掘結(jié)果和演化軌跡,全景呈現(xiàn)事件的各方觀點(diǎn)及觀點(diǎn)的可信度。

        基于雙結(jié)構(gòu)互聯(lián)網(wǎng)內(nèi)容智能治理原型系統(tǒng),本文以2019 年1 月1 日—2 月13 日這段時(shí)間為例,說明原型系統(tǒng)對(duì)互聯(lián)網(wǎng)新聞的治理效果。采取去重策略后,該時(shí)間段原型系統(tǒng)自動(dòng)從國(guó)內(nèi)主要新聞門戶網(wǎng)站共采集了99 581 條新聞,原型系統(tǒng)從這些新聞中自動(dòng)提取出8 510 條事件線數(shù)和67 106 個(gè)事件。如果用戶關(guān)注其中的煙花爆竹安全燃放事件,則系統(tǒng)自動(dòng)生成如圖12 所示的事件實(shí)體關(guān)聯(lián)圖,其中位于最內(nèi)層的實(shí)心圓表示該事件線實(shí)體,其外第二層排布的實(shí)心圓表示命名實(shí)體,其外第三層排布的實(shí)心圓表示事件實(shí)體(用事件在系統(tǒng)中的存儲(chǔ)id 表示),最外層排布的實(shí)心圓表示新聞實(shí)體。并且,系統(tǒng)還能根據(jù)UCL 知識(shí)空間和內(nèi)容匯聚研討廳中實(shí)時(shí)采集的新聞,展示煙花爆竹相關(guān)命名實(shí)體關(guān)系及與煙花爆竹安全燃放事件有關(guān)的命名實(shí)體詞云,如圖13 所示。

        雙結(jié)構(gòu)互聯(lián)網(wǎng)內(nèi)容智能治理原型系統(tǒng)也能進(jìn)一步展示熱點(diǎn)事件線的發(fā)展脈絡(luò)。在上面的測(cè)試場(chǎng)景中,系統(tǒng)自動(dòng)進(jìn)行事件線提取和對(duì)應(yīng)熱度計(jì)算,并根據(jù)計(jì)算結(jié)果調(diào)用CanvasJS 插件繪制出的2019 年1 月1 日—2 月13 日最熱15 條事件線如圖14 所示。其中事件線上每一個(gè)點(diǎn)代表一個(gè)事件,該點(diǎn)的縱坐標(biāo)表示涉及該事件的新聞篇數(shù),如其中事件線5,在此期間的最熱事件共出現(xiàn)了19 篇報(bào)道,并在圖中對(duì)應(yīng)方框給出了從中隨機(jī)選取的一篇來自環(huán)球網(wǎng)的新聞?lì)}目。

        圖12 煙花爆竹安全燃放事件實(shí)體關(guān)聯(lián)圖

        圖13 煙花爆竹命名實(shí)體關(guān)系和煙花爆竹安全燃放事件詞云

        原型系統(tǒng)還提供了對(duì)單條事件線演化發(fā)展軌跡的細(xì)節(jié)展示功能,如針對(duì)圖14 中事件線5(特征詞為:爆竹/燃放煙花/禁放/區(qū)域),其演化發(fā)展軌跡細(xì)節(jié)展示如圖15 所示。需要說明的是,系統(tǒng)中的事件線、事件、話題、觀點(diǎn)等的提取及特征表示,以及它們之間的從屬關(guān)系和實(shí)體關(guān)聯(lián)等,均是由系統(tǒng)根據(jù)內(nèi)容的語義(UCL 富語義矢量編碼、UCL 多維語義關(guān)聯(lián)、UCL 安全能級(jí)模型與UCL 知識(shí)空間等)自動(dòng)處理得到,不需要人工干預(yù)。

        圖14 最熱15 條事件線(2019 年1 月1 日—2 月13 日)

        圖15 事件線5 的演化發(fā)展軌跡

        雙結(jié)構(gòu)互聯(lián)網(wǎng)內(nèi)容智能治理原型系統(tǒng)不但驗(yàn)證了主、次二元結(jié)構(gòu)共軛協(xié)同的可行性和有效性,而且依據(jù)雙驅(qū)動(dòng)二元結(jié)構(gòu)原則(P1)、富語義內(nèi)容基元原則(P2)、定性定量綜合集成原則(P3)研發(fā)的內(nèi)容匯聚子系統(tǒng)、UCL 知識(shí)空間子系統(tǒng)和內(nèi)容匯聚研討廳子系統(tǒng),在基本功能和性能方面符合設(shè)計(jì)預(yù)期。對(duì)互聯(lián)網(wǎng)中不斷涌現(xiàn)的海量化、異構(gòu)化、碎片化和混亂失序的內(nèi)容大數(shù)據(jù)進(jìn)行智能治理,是一項(xiàng)極具挑戰(zhàn)性的課題,目前原型系統(tǒng)尚在進(jìn)一步完善中。原型系統(tǒng)較好地體現(xiàn)出本文關(guān)于互聯(lián)網(wǎng)內(nèi)容治理的愿景:從總體結(jié)構(gòu)、核心基元、治理方法學(xué)3 個(gè)方面,對(duì)互聯(lián)網(wǎng)進(jìn)行網(wǎng)絡(luò)體系結(jié)構(gòu)層面的創(chuàng)新,營(yíng)造讓互聯(lián)網(wǎng)內(nèi)容大數(shù)據(jù)自動(dòng)自發(fā)地由片面到全面、由無序到有序的智能化環(huán)境,形成一種“以疏代控、和諧民主”的內(nèi)容“有序組織、依法治理”智能治理綜合體系,借助格式統(tǒng)一、語義豐富的UCL 國(guó)家標(biāo)準(zhǔn),彌平無結(jié)構(gòu)或半結(jié)構(gòu)內(nèi)容大數(shù)據(jù)處理的淺層、冗余和低效,并能通過內(nèi)容匯聚研討廳建立內(nèi)容間深層語義關(guān)聯(lián),洞悉和發(fā)掘看似無關(guān)內(nèi)容或事件碎片之間的相關(guān)性,全景展示事件的演化趨勢(shì)和話題觀點(diǎn)的客觀可信度,實(shí)現(xiàn)網(wǎng)絡(luò)空間安全從處理模量化內(nèi)容大數(shù)據(jù)向治理結(jié)構(gòu)化富語義內(nèi)容元數(shù)據(jù)的巨大躍升。

        6 結(jié)束語

        由于在網(wǎng)絡(luò)體系結(jié)構(gòu)和治理方法等方面存在欠缺,互聯(lián)網(wǎng)已經(jīng)成為海量化、異構(gòu)化、碎片化和混亂失序內(nèi)容大數(shù)據(jù)不斷涌現(xiàn)的集散地。然而,以地址為中心的現(xiàn)行互聯(lián)網(wǎng)體系結(jié)構(gòu)難以滿足內(nèi)容治理需求,正在面臨內(nèi)容大數(shù)據(jù)趨勢(shì)顯著、內(nèi)容語義標(biāo)識(shí)缺乏和內(nèi)容安全態(tài)勢(shì)嚴(yán)峻等諸方面挑戰(zhàn),如何高效治理內(nèi)容大數(shù)據(jù)已經(jīng)成為當(dāng)前互聯(lián)網(wǎng)體系結(jié)構(gòu)研究的燃眉之急。

        本文聚焦互聯(lián)網(wǎng)內(nèi)容治理這一棘手難題,深入分析互聯(lián)網(wǎng)體系結(jié)構(gòu)所面臨的挑戰(zhàn),從總體結(jié)構(gòu)、核心基元、治理方法學(xué)3 個(gè)方面入手,提出支持內(nèi)容智能治理的新型互聯(lián)網(wǎng)體系結(jié)構(gòu)的3 條設(shè)計(jì)原則,即雙驅(qū)動(dòng)二元結(jié)構(gòu)原則(P1)、富語義內(nèi)容基元原則(P2)、定性定量綜合集成原則(P3)。遵循這些設(shè)計(jì)原則,本文介紹了雙結(jié)構(gòu)互聯(lián)網(wǎng)的體系結(jié)構(gòu)核心理念和內(nèi)容智能治理實(shí)現(xiàn)機(jī)制,尤其對(duì)UCL 國(guó)家標(biāo)準(zhǔn)與富語義矢量編碼、熱門內(nèi)容匯聚與UCL 安全能級(jí)模型、UCL 知識(shí)空間與內(nèi)容匯聚研討廳等內(nèi)容智能治理關(guān)鍵技術(shù)進(jìn)行了詳細(xì)闡述。最后,通過研發(fā)雙結(jié)構(gòu)互聯(lián)網(wǎng)內(nèi)容智能治理原型系統(tǒng),對(duì)雙結(jié)構(gòu)互聯(lián)網(wǎng)及其內(nèi)容智能治理能力進(jìn)行了驗(yàn)證。雙結(jié)構(gòu)互聯(lián)網(wǎng)實(shí)現(xiàn)了網(wǎng)絡(luò)空間安全從處理數(shù)據(jù)向治理內(nèi)容的巨大躍升,為破解互聯(lián)網(wǎng)內(nèi)容大數(shù)據(jù)治理難題提供了網(wǎng)絡(luò)體系結(jié)構(gòu)層面的創(chuàng)新解決思路。

        猜你喜歡
        互聯(lián)網(wǎng)內(nèi)容體系結(jié)構(gòu)語義
        青年互聯(lián)網(wǎng)內(nèi)容創(chuàng)作者的雙重向度及實(shí)踐邏輯
        互聯(lián)網(wǎng)內(nèi)容版權(quán)保護(hù)的新難題及治理對(duì)策
        語言與語義
        基于粒計(jì)算的武器裝備體系結(jié)構(gòu)超網(wǎng)絡(luò)模型
        作戰(zhàn)體系結(jié)構(gòu)穩(wěn)定性突變分析
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        基于DODAF的裝備體系結(jié)構(gòu)設(shè)計(jì)
        基于云計(jì)算的航天器控制系統(tǒng)自組織體系結(jié)構(gòu)
        通信服務(wù)提供商不是網(wǎng)絡(luò)資本支出的唯一消費(fèi)大戶
        認(rèn)知范疇模糊與語義模糊
        国产99久久久久久免费看| 亚洲国产另类久久久精品小说| 国产视频网站一区二区三区| 久久国产精品免费久久久| 亚洲综合在线一区二区三区| 久久99精品综合国产女同| 国产在线一区二区三区四区不卡| 久久国语露脸国产精品电影| 国产精品办公室沙发| 日本中文字幕一区二区高清在线 | 米奇7777狠狠狠狠视频影院| 亚洲狠狠网站色噜噜| 国产日韩精品一区二区在线观看播放| 国产自产拍精品视频免费看| 日本中文字幕人妻精品| 日本a级黄片免费观看| 性人久久久久| 亚洲精品无码av中文字幕| 亚洲色欲久久久综合网| 加勒比一区二区三区av| 风骚人妻一区二区三区| 亚洲国产精品久久久久久无码| 人妻少妇不满足中文字幕 | 全国一区二区三区女厕偷拍| 色综合久久无码五十路人妻 | 女人被躁到高潮嗷嗷叫免费软| 亚洲精品中文字幕码专区| 亚洲图片自拍偷图区| 亚洲色欲色欲大片www无码| 久久久亚洲色| 精品人妻中文av一区二区三区| 一区二区三无码| 日韩在线精品免费观看| 中文字幕亚洲熟女av| 永久免费看啪啪网址入口| 国产成人影院一区二区| 2021久久精品国产99国产| 日日麻批视频免费播放器| 一边摸一边抽搐一进一出视频| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 无码久久精品蜜桃|