陳奎良
網(wǎng)絡(luò)出版,是指具有合法互聯(lián)網(wǎng)出版資格的出版機構(gòu),以互聯(lián)網(wǎng)為載體和流通渠道,出版并銷售數(shù)字出版物的行為。2014年1月,中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,截至2013年12月,中國網(wǎng)站數(shù)量為320萬個,按出版類網(wǎng)站占5%計算,從事網(wǎng)絡(luò)出版的網(wǎng)站就達16萬個。但這其中僅有600多家出版機構(gòu)獲得網(wǎng)絡(luò)出版資質(zhì),可以說,絕大多數(shù)網(wǎng)站在被動“非法”從事網(wǎng)絡(luò)出版服務(wù),其登載作品良莠不齊,不少非法甚至淫穢色情等不良信息充斥其中,嚴重影響了網(wǎng)民的心理健康。筆者調(diào)研發(fā)現(xiàn),大家對監(jiān)管系統(tǒng)建設(shè)的重要性都有充分認識,但實際開發(fā)還處于摸索階段,主要存在對系統(tǒng)功能設(shè)計標準不一、認識不清等問題。筆者具有多年網(wǎng)絡(luò)出版監(jiān)測系統(tǒng)設(shè)計經(jīng)驗,希望在此通過對網(wǎng)絡(luò)出版監(jiān)管平臺建設(shè)的闡述,給大家提供一點思路,以求拋磚引玉。
網(wǎng)絡(luò)出版監(jiān)管平臺的分析與設(shè)計
要建設(shè)網(wǎng)絡(luò)出版監(jiān)管平臺,必須充分研究和分析網(wǎng)絡(luò)出版監(jiān)管業(yè)務(wù)需求,結(jié)合為社會服務(wù)、為行業(yè)服務(wù)的建設(shè)目標,才能真正實現(xiàn)網(wǎng)絡(luò)出版監(jiān)管平臺建設(shè)的意義。筆者認為,網(wǎng)絡(luò)出版監(jiān)管平臺應(yīng)包括內(nèi)容監(jiān)管系統(tǒng)、輿情監(jiān)測系統(tǒng)、網(wǎng)站綜合評價系統(tǒng)和網(wǎng)站審核系統(tǒng)四部分,至少包括以下功能:
1.網(wǎng)站發(fā)現(xiàn)。網(wǎng)絡(luò)出版網(wǎng)站與監(jiān)管平臺實現(xiàn)對接有兩種途徑:一是網(wǎng)站與平臺自主對接,提供登陸賬號、密碼、網(wǎng)站規(guī)模、主辦單位等網(wǎng)站基本信息,便于平臺實現(xiàn)網(wǎng)站基本信息的著錄和管理,對網(wǎng)站違規(guī)內(nèi)容進行實時監(jiān)管;二是未對接網(wǎng)站的收集和監(jiān)管,對于未能自主對接的網(wǎng)站,平臺要通過設(shè)定搜索規(guī)則,實現(xiàn)自動收集網(wǎng)站的域名和基本情況,并納入網(wǎng)絡(luò)監(jiān)管平臺的監(jiān)管范圍,實現(xiàn)全網(wǎng)全業(yè)務(wù)監(jiān)管。
2.網(wǎng)站信息著錄。依托監(jiān)管平臺,完善對網(wǎng)絡(luò)出版網(wǎng)站基本情況的著錄和整理,建立網(wǎng)絡(luò)出版單位基本信息數(shù)據(jù)庫,便于行業(yè)主管部門摸清家底,提高公共服務(wù)能力。
3.信息采集。信息采集是指利用計算機軟件技術(shù)對網(wǎng)站的任意網(wǎng)頁進行目標分析,分析出網(wǎng)頁的各種屬性信息,并根據(jù)采集規(guī)則進行分類存儲,除采集網(wǎng)站基本情況信息外,還采集出版物的一些基本信息。
4.文本挖掘。依靠文本挖掘引擎技術(shù)實現(xiàn)對文本的深度解析,把需要的信息進行分類細化提取,實現(xiàn)文本自動歸類和自動梳理。
5.全文檢索。監(jiān)測網(wǎng)站出版物是否存在違規(guī)內(nèi)容是監(jiān)管平臺的主要功能之一,要實現(xiàn)這項功能必須進行全文檢索。一般的檢索系統(tǒng)只是基于標題或關(guān)鍵詞的檢索,而全文檢索細化了檢索的顆粒度,讓文本內(nèi)容全部參與檢索,并且能夠?qū)z索結(jié)果進行排序,極大提高了檢索精確性。
6.違規(guī)內(nèi)容鑒別。違規(guī)內(nèi)容鑒別要根據(jù)出版物的不同載體有所區(qū)別,對于文本型內(nèi)容,基于敏感關(guān)鍵詞庫,通過預(yù)定義的敏感關(guān)鍵詞或通過語義規(guī)則模型,實現(xiàn)對文本型正文的自動匹配;而對于音視頻類出版物,則自動檢索已采集的音視頻出版物,通過語音識別、鏡頭劃分、關(guān)鍵幀提取等音視頻語義分析手段,實現(xiàn)對全媒體出版物內(nèi)容違法違規(guī)情況的智能預(yù)判。
7.出版物內(nèi)容審核與處理。該功能是平臺的主要功能之一,對平臺預(yù)警出來的涉嫌違規(guī)出版物進行審讀和處理。該功能通過監(jiān)管網(wǎng)站權(quán)重、違規(guī)主題、采集時間、發(fā)布時間等指標,實現(xiàn)出版內(nèi)容違規(guī)信息的分類分級優(yōu)先審讀,導(dǎo)航區(qū)可支持監(jiān)管主題、出版物類型、出版物形態(tài)等分類方式,對預(yù)警案件審讀后在平臺中完成撰寫審讀意見報告。
8.網(wǎng)絡(luò)出版輿情分析。通過對互聯(lián)網(wǎng)海量信息自動獲取、自動聚類、主題檢測、專題聚焦,實現(xiàn)對互聯(lián)網(wǎng)信息的輿情監(jiān)測、信息監(jiān)控及專題追蹤等功能,形成監(jiān)測簡報、分析報告等結(jié)果報告,為用戶全面掌握輿情動態(tài),進而做出正確輿論引導(dǎo)提供分析依據(jù)。
9.導(dǎo)航主題分類與管理。監(jiān)管平臺導(dǎo)航主題應(yīng)實現(xiàn)多維度的管理模式,通過出版物的違規(guī)主題、出版形態(tài)、學(xué)科進行分類分級顯示,違規(guī)內(nèi)容主題可根據(jù)《出版管理條例》中的禁載規(guī)定設(shè)置監(jiān)管主題。
10.知識庫管理。知識庫管理是對監(jiān)管平臺基礎(chǔ)數(shù)據(jù)的管理,包括語料庫、語義規(guī)則庫、敏感詞庫、網(wǎng)站基本信息庫、主題數(shù)據(jù)庫、違規(guī)案件庫、輿情信息庫等。
11.取證管理。對于網(wǎng)站違規(guī)內(nèi)容等電子證據(jù)的固化和保全,在監(jiān)管平臺中也是一大亮點。通過自動化取證管理模塊,模擬進行多線程的網(wǎng)頁快照抓取,提高了進行大量網(wǎng)頁快照取證的工作效率,對不同網(wǎng)站、案件進行多級目錄存取,對頁面地址欄、首頁內(nèi)容、頁面ICP等信息進行標準化取證。
12.網(wǎng)站評價體系。基于監(jiān)管平臺的基礎(chǔ)數(shù)據(jù),以數(shù)據(jù)采掘技術(shù)和人工整理分析相結(jié)合的模式,建立一套可行可用的網(wǎng)站評價體系,評價指標包括:網(wǎng)站規(guī)模、出版物種類、出版物數(shù)量、網(wǎng)站友好性、公益型、贏利型、違規(guī)情況等。
13.查詢、統(tǒng)計分析。對網(wǎng)絡(luò)監(jiān)管平臺中的采集數(shù)據(jù)、預(yù)警數(shù)案件、網(wǎng)站信息等各類監(jiān)管數(shù)據(jù)的查詢、綜合統(tǒng)計、分析、報表功能。
14.系統(tǒng)運行管理。運行管理實現(xiàn)對系統(tǒng)業(yè)務(wù)參數(shù)和運行參數(shù)的配置和管理,分配用戶權(quán)限,監(jiān)控平臺運行網(wǎng)絡(luò)、軟硬件等運行狀態(tài),出現(xiàn)異常進行報警。
15.系統(tǒng)安全。為防止網(wǎng)絡(luò)用戶攻擊機反向定位,在網(wǎng)絡(luò)層將所有訪問互聯(lián)網(wǎng)的終端地址加以隱藏,并在應(yīng)用層設(shè)置訪問黑/白IP地址,保證系統(tǒng)的安全。
監(jiān)管平臺開發(fā)關(guān)鍵技術(shù)分析
1.海量非結(jié)構(gòu)化數(shù)據(jù)庫管理技術(shù)
傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)是針對關(guān)系型結(jié)構(gòu)化數(shù)據(jù)的管理,對于非結(jié)構(gòu)化數(shù)據(jù)沒有有效的管理方式。目前網(wǎng)絡(luò)上80%是非結(jié)構(gòu)化數(shù)據(jù),因此,網(wǎng)絡(luò)出版監(jiān)管平臺亟需研發(fā)海量非結(jié)構(gòu)化數(shù)據(jù)庫管理技術(shù),從而高效管理和利用這些數(shù)據(jù)。
2.文本挖掘技術(shù)
文本挖掘是從大量文本的集合和語料中抽取事先未知、可理解的、有潛在實用價值的模式和知識,面對海量的互聯(lián)網(wǎng)數(shù)據(jù),要求文本挖掘系統(tǒng)提供智能檢索、自動分類、自動聚類、關(guān)鍵詞自動標引、自動文摘、信息過濾、關(guān)聯(lián)規(guī)則挖掘等多種實用功能,以其為基礎(chǔ)可方便地開發(fā)應(yīng)用系統(tǒng),快速實現(xiàn)智能信息挖掘,有效地進行知識管理。
3.互聯(lián)網(wǎng)信息采集技術(shù)
互聯(lián)網(wǎng)信息采集技術(shù)是指利用計算機軟件技術(shù),針對定制的目標數(shù)據(jù)源,實時進行信息采集、抽取、挖掘、處理,將非結(jié)構(gòu)化的信息從大量的網(wǎng)頁中抽取出來保存到結(jié)構(gòu)化的數(shù)據(jù)庫中,從而為各種信息服務(wù)系統(tǒng)提供數(shù)據(jù)輸入的整個過程。
4.多媒體信息的智能識別技術(shù)
目前,多媒體信息的智能識別技術(shù)可以為圖、音、視等內(nèi)容分析提供解決方案。比如色情圖像和視頻識別中可通過對膚色檢測,對顏色、形狀、臉部等進行特征標識和特征提取,并實行多維度的索引,對圖像的內(nèi)容作出識別,達到監(jiān)測不良信息的目的。語音識別系統(tǒng)則通過連續(xù)語音識別,把語音信號轉(zhuǎn)化成計算機信號進行識別處理。我們同樣可以利用這項技術(shù)對網(wǎng)上傳輸?shù)穆曇魯?shù)據(jù)進行處理,把其中的語音信息轉(zhuǎn)化為文字信息以實行內(nèi)容安全處理。
發(fā)展應(yīng)與管理相輔相成,有效的管理是保障網(wǎng)絡(luò)出版取得健康發(fā)展的基礎(chǔ)和前提條件。而僅通過人工手段進行監(jiān)管顯然已經(jīng)滿足不了管理的要求,必須通過技術(shù)手段實現(xiàn)網(wǎng)絡(luò)出版的監(jiān)管。同時,通過立法明確負面清單,監(jiān)督限定網(wǎng)絡(luò)出版行為,做到有法可依,有規(guī)定可遵守。在網(wǎng)絡(luò)出版內(nèi)容的管理方面,筆者還建議國家放低對網(wǎng)站網(wǎng)絡(luò)出版業(yè)務(wù)資質(zhì)的準入門檻,實行寬進嚴出的原則,實現(xiàn)網(wǎng)絡(luò)化在線審核。隨著技術(shù)水平的不斷提高和智能語義分析技術(shù)的發(fā)展,加上我國政府對網(wǎng)上信息監(jiān)管的重視程度不斷加強,相信在不久的將來,網(wǎng)絡(luò)出版必將保持健康有序發(fā)展。
(作者單位系新聞出版總署信息中心)