王樞昊,甘霖,蔡超
(海峽出版發(fā)行集團有限責任公司 數(shù)字出版中心,福建 福州 350001)
隨著出版行業(yè)數(shù)字化轉型的加速發(fā)展,出版社對數(shù)字閱讀產(chǎn)品的生產(chǎn)投入逐年加大,加上移動互聯(lián)網(wǎng)技術的高速發(fā)展和智能移動終端的普及。以二維碼為入口的數(shù)字閱讀形態(tài)越發(fā)常態(tài)化,特別是近年來興起的以知識服務為理念的付費閱讀浪潮,讓出版單位更加意識到通過二維碼接入數(shù)字閱讀已被現(xiàn)代主流讀者群體所接受和認可。但是在內(nèi)容生產(chǎn)端,由于出版單位對二維碼及其關聯(lián)資源的生產(chǎn)和投放缺乏有效的技術管理,使其在數(shù)字閱讀領域的應用存在一些弊端:一是紙質(zhì)出版物在市場上長時間流通,而出版單位缺乏專業(yè)、持續(xù)的互聯(lián)網(wǎng)內(nèi)容運營,二維碼失效的問題相當普遍;二是二維碼應用過程中因網(wǎng)絡技術問題導致的內(nèi)容不安全時有發(fā)生,如域名盜用、DNS污染以及服務器攻擊等造成關聯(lián)內(nèi)容被篡改,出現(xiàn)信息偏差,誤導讀者;三是出版單位投放二維碼的行為比較隨意,通常只是解決一時之需,大量存在對已投放的二維碼管理缺失,關聯(lián)內(nèi)容資源存放過于分散,用戶掃碼行為無法跟蹤等情況。因此本文將針對出版資源管理與服務的特點,提出基于二維碼及其活碼的內(nèi)容安全分發(fā)的系統(tǒng)解決方案。
二維碼可以分為堆疊式(行排式)二維條碼和矩陣式二維條碼。堆疊式(行排式)二維條碼形態(tài)上是由多行短截的一維條碼堆疊而成;矩陣式二維條碼以矩陣的形式組成,在矩陣相應元素位置上用“點”表示二進制“1”,用“空”表示二進制“0”,“點”和“空”的排列組成代碼。[1]
圖1 常見的二維碼
二維碼中的QR碼,最早是由日本Denso公司于1994年9月研制的一種矩陣二維碼符號,它具有一維條碼所具有的識別功能以及其它二維條碼所具有的信息容量大、可靠性高、可表示漢字及圖象等各種文字信息、保密防偽性強等優(yōu)點。QR碼的“QR”是Quick Response 的縮寫。這種二維碼能夠快速讀取,與之前的條形碼相比,QR 碼能存儲更豐富的信息,包括對文字、URL 地址和其他類型的數(shù)據(jù)加密。QR碼具有很高的糾錯能力,所以QR碼圖像采集設備甚至能直接對液晶屏幕上顯示的QR圖像進行掃描、識別。[2]
QR碼呈正方形,只存在黑色和白色兩種模塊。在正方形的4個角存在3個,印有較小的類似“回”字的的圖案,分別位于左上、右上、和左下角,如圖2所示。這 3個圖像的主要功能是為了幫助解碼軟件快速的定位二維碼的圖像區(qū)域,使得圖像采集器不需要精確的對準QR碼,無論以任何角度掃描,QR碼仍可正確被讀取識別。
我們目前經(jīng)常見到的二維碼都是QR碼,因其快速響應的特征已被廣泛使用,尤其是在移動互聯(lián)網(wǎng),二維碼更加被稱之為:新時代的“流量的入口”。所以我們習慣上把QR碼直接稱為二維碼。正因為具有上述的特性,現(xiàn)在二維碼已經(jīng)被廣泛的應用于包括圖書在內(nèi)的出版物中,成為實體商品連接網(wǎng)絡空間的橋梁和入口。
圖2 QR碼的組成部分
圖3 QR碼和一維碼的比較
當前隨著互聯(lián)網(wǎng)技術的發(fā)展以及二維碼識別算法的不斷優(yōu)化,出版物附帶光盤進行數(shù)字內(nèi)容出版發(fā)行的方式已逐步被利用二維碼外鏈數(shù)字內(nèi)容進行出版的模式所替代。將二維碼印刷在書、刊、報紙等出版物上分發(fā)出去。現(xiàn)代讀者通過使用微信,QQ,支付寶等高裝機率應用(Apps)的二維碼掃描功能,可以省去在移動設備上輸入URL地址的繁瑣過程,從而降低觀看數(shù)字內(nèi)容的門檻,真正實現(xiàn)的“一鍵觀看”。但是另一方面,出版社編輯缺乏計算機專業(yè)知識和技能,將出版物配套的數(shù)字內(nèi)容資源投放到互聯(lián)網(wǎng)上,并給予讀者良好的數(shù)字閱讀體驗一直是一個難題。雖然市場上不乏有百度云、七牛云等公共云存儲運營商,提供了較為豐富的網(wǎng)絡存儲服務,但是對于一般的出版社編輯來說,仍舊存在不小的技術障礙。同時隨著數(shù)字內(nèi)容資源的不斷增加,出版單位對分散網(wǎng)絡資源的管理問題日益突出,加上出版社編輯普遍缺乏對已投放二維碼和數(shù)字資源的管理和運營意識,因此研究和架構業(yè)務針對性強的輔助服務系統(tǒng),為出版單位提供一套管理解決方案就顯得尤為迫切。
鑒于出版行業(yè)在數(shù)字內(nèi)容資源投放方面存在的上述問題,結合新聞出版廣電總局對出版業(yè)務的有關要求,我們提出了研發(fā)一套統(tǒng)一基于二維碼分發(fā)的出版資源管理與服務系統(tǒng)。該系統(tǒng)主要面向出版單位編輯人員,為他們提供便捷的數(shù)字內(nèi)容資源二維碼生成及管理解決方案。同時負責內(nèi)容審核及內(nèi)容運營的人員可及時對出現(xiàn)問題的二維碼進行處理。該系統(tǒng)按照出版業(yè)務特點解決出版物配套數(shù)字內(nèi)容資源的管理問題,簡化了編輯人員的操作復雜度,緩解了出版資源分散存儲的問題,將出版相關的圖、文、影、音、網(wǎng)絡試讀和互動數(shù)據(jù)進行了有效組織。每項資源均能獨立訪問,并生成訪問二維碼,供出版印刷使用。此外,針對傳統(tǒng)出版物用戶畫像模糊的問題,系統(tǒng)增加了掃碼統(tǒng)計和分析模塊,可以快速獲取讀者的信息,為出版單位的社群運營和內(nèi)容運營提供精準的數(shù)據(jù)支撐。
研發(fā)系統(tǒng)不僅提供出版資源存儲后生成固定二維碼的功能,還提供根據(jù)統(tǒng)一資源定位符(URL)生成“活碼”的特色功能。對于固定二維碼鏈接資源的管理,我們采用賬號實名制,做到“操作有痕,有跡可尋”,即編輯需要實名開通賬號才能使用,有助于出版單位發(fā)現(xiàn)問題內(nèi)容,查清問題根源。對于通過活碼跳轉的內(nèi)容管理,我們采用網(wǎng)頁抓取,網(wǎng)頁正文提取,關鍵詞提煉及敏感詞掃描等自然語言綜合分析方法,定時掃描“活碼”對應的內(nèi)容資源。發(fā)現(xiàn)不安全的內(nèi)容時,責任編輯或內(nèi)容管理員能夠便捷地“切斷”活碼與該內(nèi)容之間的關聯(lián),以降低影響。
系統(tǒng)數(shù)據(jù)資源整體邏輯關系與一般的書目管理系統(tǒng)類似,按照圖書分類,書目信息,章節(jié)內(nèi)容,資源信息及輔助功能進行建設,參見圖4系統(tǒng)模塊示意圖。系統(tǒng)業(yè)務數(shù)據(jù)資源與用戶組及權限關聯(lián),即相同角色之間產(chǎn)生的數(shù)據(jù)互不可見,上一級用戶對下屬用戶的數(shù)據(jù)可視。出版物分類由系統(tǒng)管理員進行操作,普通編輯沒有修改權限,編輯可以增加、刪除及修改歸屬于本人創(chuàng)建的相關內(nèi)容,包括書目信息、章節(jié)內(nèi)容、二維碼以及圖文影音等附屬數(shù)字資源。
圖4 系統(tǒng)的模塊示意圖
3.3.1 活碼原理
簡單來說,從普通二維碼到活碼,猶如就是古代刻板印刷術到活字印刷術的飛躍?;畲a是二維碼的一種高級形態(tài),通過短網(wǎng)址指向保存在云端的信息?;畲a可以看成是系統(tǒng)對原資源的一種快捷表達方式。這樣將內(nèi)容存儲在云端,可以隨時更新、可跟蹤掃描、統(tǒng)計?;畲a可以表達圖片、視頻、大量文字內(nèi)容,同時圖案簡單易掃。缺點是掃描時必須聯(lián)網(wǎng)?;畲a比普通二維碼更靈活,同一個二維碼圖案可以變更不一樣的內(nèi)容,從宣傳推廣或者記錄保存的長遠角度看,能適應及時更新的需求。[3]
3.3.2 活碼應用及構建
目前活碼的應用非常廣泛,特別是隨著網(wǎng)絡接入條件地不斷改善,隨時隨地接入網(wǎng)絡已不再困難。在出版行業(yè)中,活碼系統(tǒng)不僅適用于需要高可靠外鏈資源的情況,而且能夠彌合出版物與外鏈數(shù)字資源生產(chǎn)制作時間不同步的問題。
在研發(fā)系統(tǒng)中,活碼管理模塊與其他出版資源管理一致,配合短網(wǎng)址生成算法就可以將內(nèi)容資源生成“活碼”。
圖5 活碼生成編輯器
3.3.3 “活碼”內(nèi)容的監(jiān)控
針對“活碼”內(nèi)容關聯(lián)可變性較大的特性,結合出版業(yè)務要求,我們提出了使用網(wǎng)頁(內(nèi)容)抓取與內(nèi)容分析以及網(wǎng)頁縮略圖人工抽樣核查的方式,提升外鏈內(nèi)容的可靠性及可用性。研發(fā)系統(tǒng)的內(nèi)容分析模塊由網(wǎng)頁正文提取、關鍵字提煉和敏感詞掃描3個核心組件構成。具體如下:
1.網(wǎng)頁正文提取中間件能夠?qū)崿F(xiàn)網(wǎng)頁內(nèi)容的精確分析,自動分辨出網(wǎng)頁是屬索引頁面還是內(nèi)容頁面。對于內(nèi)容頁面,能夠高效剔除HTML標簽和導航、廣告等干擾性文字,返回實際有價值的正文內(nèi)容。
2.關鍵字提煉應用了基于語義分析統(tǒng)計模型的文章關鍵詞提取中間件,能夠在全面把握文章主題的基礎上,提取若干個代表文章語義內(nèi)容的詞匯或短語。
3.敏感詞掃描組件,可以設置一組關鍵詞,用于自動識別掃描各類敏感詞的變體,如繁體形式、中間加各類干擾噪音。[4]
基于上述組件,我們利用爬蟲技術獲取活碼關聯(lián)網(wǎng)址鏈接的全文內(nèi)容,根據(jù)獲取的內(nèi)容提煉核心詞匯,并記錄在該活碼的附屬內(nèi)容中,相當于給該活碼內(nèi)容打上了標簽。同時獲取的內(nèi)容全文會通過敏感詞掃描處理,檢視是否存在敏感詞。系統(tǒng)發(fā)現(xiàn)涉及不安全內(nèi)容時會提出預警,并將預警信息推送給具有相應權限的系統(tǒng)管理員和責任編輯,具體監(jiān)控流程如圖6所示。除上述機器篩查以外,研發(fā)系統(tǒng)還具備對活碼映射網(wǎng)址鏈接進行快照的功能,定時將活碼對應的內(nèi)容網(wǎng)頁快照保存在系統(tǒng)中,供管理人員快速檢視。該系統(tǒng)通過機器篩查和人工核查相結合的方式,大大增強了數(shù)字出版內(nèi)容的可控性,提升了數(shù)字內(nèi)容審校效率。
圖6 系統(tǒng)對活碼監(jiān)控流程
出版資源管理與服務系統(tǒng)已在多家出版單位上線運行,后續(xù)我們計劃將該系統(tǒng)與現(xiàn)行的出版審校內(nèi)部業(yè)務系統(tǒng)進行對接,進一步理順業(yè)務關系,優(yōu)化系統(tǒng)功能,將審校完成的相關資源自動推送至研發(fā)系統(tǒng),同步自動返回二維碼,以減少編輯上稿操作。通過技術改良,一方面可以減輕編輯的工作量,提升用戶操作便捷度,另一方面延伸了出版生產(chǎn)管理,出版內(nèi)容從源頭到投放全流程均納入管理,進一步提升的內(nèi)容生產(chǎn)安全。
通過對二維碼及其活碼特點的應用,結合出版單位數(shù)字內(nèi)容資源相關的業(yè)務實際需求,我們組織研發(fā)了出版資源管理與服務系統(tǒng),為出版單位二維碼和數(shù)字內(nèi)容資源投放、統(tǒng)一管理提供了技術解決方案。該系統(tǒng)建立了對失效內(nèi)容快速修復、變更的機制,加強了內(nèi)容資源投放的安全性,完善了資源訪問的統(tǒng)計與分析,這有利于出版單位建立用戶畫像,提升數(shù)字內(nèi)容運營能力。系統(tǒng)經(jīng)出版單位試用,并逐步改進,已成為促進出版單位發(fā)展新興出版業(yè)務的重要支撐。