殷建民,刀福祥,唐金寶,玉康龍
(1. 濰坊北大青鳥(niǎo)華光照排有限公司,山東 濰坊 261061;2. 云南省西雙版納報(bào)社,云南 西雙版納 666100)
1996年以來(lái),濰坊北大青鳥(niǎo)華光照排有限公司和云南省西雙版納報(bào)社在傣文信息技術(shù)領(lǐng)域開(kāi)始了長(zhǎng)達(dá)15年的密切合作,雙方聯(lián)合開(kāi)發(fā)了“西雙版納新傣文計(jì)算機(jī)組版系統(tǒng)”、“西雙版納新老傣文計(jì)算機(jī)組版系統(tǒng)”和“基于ISO10646的傣文電子出版系統(tǒng)”。目前,西雙版納報(bào)社使用傣文電子出版系統(tǒng)編排的《中國(guó)貝葉經(jīng)全集》100卷已全部出版。
但是,傣文電子出版系統(tǒng)僅僅解決了傣文書(shū)、報(bào)、刊的印刷出版問(wèn)題,并未解決傣文網(wǎng)站以及與其相關(guān)的傣文數(shù)字出版等問(wèn)題。2008年起,雙方利用中央補(bǔ)助地方文化體育與傳媒事業(yè)發(fā)展專項(xiàng)資金,開(kāi)始了西雙版納傣文新聞網(wǎng)站和數(shù)字報(bào)刊系統(tǒng)的研發(fā)工作。
西雙版納傣文新聞網(wǎng)站和數(shù)字報(bào)刊系統(tǒng)包括以下四個(gè)系統(tǒng):
(1) 西雙版納新老傣文網(wǎng)站管理系統(tǒng);
(2) 西雙版納新老傣文數(shù)字報(bào)刊系統(tǒng);
(3) 西雙版納新老傣文新聞采編系統(tǒng);
(4) 西雙版納新老傣文多媒體共享稿件平臺(tái)系統(tǒng)。
2009年11月2日,雙方成功開(kāi)通了我國(guó)第一個(gè)傣文網(wǎng)——西雙版納傣文新聞網(wǎng)站,創(chuàng)建了我國(guó)第一張傣文數(shù)字報(bào)紙,創(chuàng)建了我國(guó)第一個(gè)傣文新聞采編系統(tǒng)平臺(tái),創(chuàng)建了我國(guó)第一個(gè)傣文網(wǎng)絡(luò)視頻平臺(tái)和第一個(gè)傣文網(wǎng)絡(luò)聲頻平臺(tái)。
西雙版納傣文,也稱傣泐文,誕生于公元1277年(傣歷669年),原用于刻寫(xiě)佛經(jīng),后發(fā)展為西雙版納傣族的統(tǒng)一文字,至今已有700多年的歷史。1953年,西雙版納自治州第二屆各族各界代表會(huì)決定改革原有的老傣文。1954年,有關(guān)部門提出了西雙版納傣文改進(jìn)方案。1955年,中央人民政府批準(zhǔn)了這一方案。改進(jìn)前、后的傣文分別稱為新、老傣文。1989年,西雙版納州人代會(huì)決定恢復(fù)使用傳統(tǒng)的老傣文。
2005年,西雙版納新傣文編碼字符集方案獲得通過(guò),被收入ISO/IEC 10646: 2003的第一補(bǔ)充集(Amendment 1)[1],共收入80個(gè)字符(后補(bǔ)充為83個(gè)字符),編碼空間為U1980-19DF。
2008年,西雙版納老傣文編碼字符集方案獲得通過(guò),被收入ISO/IEC 10646: 2003的第五補(bǔ)充集(Amendment 5)[2],共收入127個(gè)字符,編碼空間為U1A20-1AAF。
新傣文的編碼字符集與顯現(xiàn)字符集是一致的,而老傣文的編碼字符集與顯現(xiàn)字符集相差較大,主要表現(xiàn)在兩個(gè)方面:
(1) 新老傣文的許多輔音字母都可以作為“韻尾”使用,但輔音字母的獨(dú)立形式與其韻尾形式在顯現(xiàn)時(shí)有著明顯的差別。新傣文中可以作為韻尾使用的輔音字母不是太多,在其編碼字符集方案中,輔音字母的獨(dú)立形式與其韻尾形式是分別編碼的。而老傣文中可以作為韻尾使用的輔音字母非常多,為節(jié)省編碼空間,輔音字母的韻尾形式?jīng)]有單獨(dú)編碼,而是引入了一個(gè)控制符號(hào)SAKOT(U1A60)。當(dāng)SAKOT之后緊跟一個(gè)輔音字母時(shí),顯現(xiàn)時(shí)需將SAKOT之后的輔音字母變?yōu)槠漤嵨残问?,并且與SAKOT之前的其他字母組合成一個(gè)整字[3]。
(2) 新老傣文中都有一些組合字,新傣文中的組合字不多,在其編碼字符集方案中,組合字單獨(dú)編碼。而老傣文中的組合字非常多,編碼方案中沒(méi)有為組合字單獨(dú)編碼,實(shí)現(xiàn)時(shí)需要采用“預(yù)組合”與“動(dòng)態(tài)組合”技術(shù)。
由于ISO/IEC 10646中僅對(duì)老傣文的名義字符進(jìn)行編碼,而沒(méi)有類似于蒙古文那樣的“編碼系統(tǒng)實(shí)現(xiàn)的用戶協(xié)議”(Users’ Convention for Encoding System Implementation),尚需研究老傣文的顯現(xiàn)字符集以及名義字符與顯現(xiàn)字符的對(duì)應(yīng)關(guān)系。
根據(jù)《中國(guó)貝葉經(jīng)全集》和其他傣文出版物的出版實(shí)踐,結(jié)合傣文網(wǎng)站與數(shù)字報(bào)刊的實(shí)際需求,我們制訂了“西雙版納老傣文顯現(xiàn)字符集草案”,并規(guī)定了編碼字符集與顯現(xiàn)字符集的對(duì)應(yīng)關(guān)系。在充分聽(tīng)取各方專家意見(jiàn)之后,我們將向國(guó)家標(biāo)準(zhǔn)化主管部門提交盡快制訂“西雙版納老傣文顯現(xiàn)字符集與控制字符使用規(guī)則”國(guó)家標(biāo)準(zhǔn)草案。
在西雙版納新老傣文編碼字符集國(guó)際標(biāo)準(zhǔn)制定之前,西雙版納報(bào)社和濰坊北大青鳥(niǎo)華光照排有限公司的語(yǔ)言文字專家與計(jì)算機(jī)專家曾于2002年一起根據(jù)傣文的聲母、韻母的音序規(guī)則制定了新老傣文的鍵盤(pán)布局,并開(kāi)發(fā)了相應(yīng)的新老傣文輸入法——納鳥(niǎo)傣文輸入法。西雙版納報(bào)社在日常的報(bào)紙排版和貝葉經(jīng)排版中一直使用該輸入法。
納鳥(niǎo)傣文輸入法是針對(duì)新聞出版單位的傣文專業(yè)錄入人員研發(fā)的,主要目標(biāo)是提供最大的輸入效率,但由于需要一定的記憶和學(xué)習(xí)時(shí)間,不易于在非專業(yè)人員中推廣應(yīng)用。目前,傣文數(shù)字化應(yīng)用技術(shù)已從專業(yè)的電子出版轉(zhuǎn)到了面向大眾的網(wǎng)站等領(lǐng)域,迫切需要一種面向非專業(yè)人員、易學(xué)易用的新老傣文輸入法。
2009年,傣文信息技術(shù)標(biāo)準(zhǔn)國(guó)家工作組制訂了基于傣文編碼字符集國(guó)際標(biāo)準(zhǔn)的西雙版納新傣文鍵盤(pán)布局國(guó)家標(biāo)準(zhǔn),該標(biāo)準(zhǔn)采用鍵盤(pán)分級(jí)的技術(shù)思路,將新傣文編碼字符集分布在1個(gè)主鍵盤(pán)和2個(gè)輔助鍵盤(pán)上。根據(jù)規(guī)則性與靈活性相結(jié)合的原則,標(biāo)準(zhǔn)只規(guī)定了鍵盤(pán)布局而沒(méi)有規(guī)定輸入法的具體實(shí)現(xiàn)。
2010年,我們?cè)谏钊肓私獯稣Z(yǔ)言學(xué)知識(shí)的基礎(chǔ)上,研究確定了基于傣文編碼字符集國(guó)際標(biāo)準(zhǔn)的西雙版納老傣文鍵盤(pán)布局。
老傣文鍵盤(pán)布局的確定原則為:
(1) 由于老傣文字符遠(yuǎn)多于通用鍵盤(pán)的鍵位,鍵盤(pán)設(shè)計(jì)采用分級(jí)的方法,用四級(jí)鍵盤(pán)分配所有西雙版納老傣文字符。
(2) 根據(jù)老傣文字母讀音,把傣文字符放在與英文字母對(duì)應(yīng)音標(biāo)讀音相似的鍵位,以減輕使用者的記憶強(qiáng)度;傣文元音字母盡量對(duì)應(yīng)英文元音字母,傣文輔音字母盡量對(duì)應(yīng)英文輔音字母。
(3) 有相同或相近英文字母讀音的元音和輔音放在對(duì)應(yīng)的鍵位,重輔音放在一級(jí)鍵盤(pán),輕輔音放在二級(jí)鍵盤(pán);短元音放在第一鍵位,長(zhǎng)元音放在第二鍵位。
(4) 輔音字母的“韻尾”形式放在第三鍵盤(pán)。
(5) 與英文讀音差異大或相似音字符較多的字母中使用頻度少的放在第四鍵盤(pán)。
在充分聽(tīng)取各方專家意見(jiàn)之后,我們將向國(guó)家標(biāo)準(zhǔn)化主管部門提交盡快制訂“西雙版納老傣文鍵盤(pán)布局”國(guó)家標(biāo)準(zhǔn)草案。
新老傣文鍵盤(pán)布局確定之后,我們開(kāi)發(fā)了對(duì)應(yīng)的新老傣文輸入法。
為方便普通傣族群眾使用,我們還研發(fā)了一種完全依據(jù)國(guó)際標(biāo)準(zhǔn)的傣文語(yǔ)音而不進(jìn)行鍵盤(pán)分級(jí)的傣音輸入法,這種輸入法無(wú)需學(xué)習(xí)、無(wú)需記憶,只要輸入傣文字母的讀音字母,就可根據(jù)軟件的提示選擇所要輸入的傣文字母。
當(dāng)前流行的操作系統(tǒng)中很少有傣文字庫(kù),也不可能要求每個(gè)用戶都在自己的電腦中安裝傣文字庫(kù)。而用戶瀏覽西雙版納傣文網(wǎng)頁(yè)時(shí),沒(méi)有對(duì)應(yīng)的字庫(kù)就無(wú)法正常顯示網(wǎng)頁(yè),因此需要研究自定義字庫(kù)顯示技術(shù),讓用戶打開(kāi)西雙版納傣文網(wǎng)頁(yè)和打開(kāi)其他網(wǎng)頁(yè)一樣,不需要安裝任何傣文軟件,就能夠正常瀏覽。
嵌入式字庫(kù)(EOT)技術(shù)允許字庫(kù)嵌入到網(wǎng)頁(yè)并可以在需要時(shí)動(dòng)態(tài)下載瀏覽。嵌入式字庫(kù)的優(yōu)勢(shì)是動(dòng)態(tài)加載,不需要安裝,客戶端可以直接打開(kāi)網(wǎng)頁(yè),保證瀏覽效果,可以復(fù)制、輸入和檢索等。研究西雙版納新老傣文嵌入式字庫(kù)技術(shù)是解決網(wǎng)站IE瀏覽、動(dòng)態(tài)下載的關(guān)鍵。
西雙版納新老傣文數(shù)字報(bào)刊系統(tǒng)集信息提取、制作、管理、發(fā)布和檢索于一體,面向數(shù)字報(bào)刊處理的全過(guò)程,為數(shù)字報(bào)刊提供一體化解決方案。
印刷版面轉(zhuǎn)換成可用于網(wǎng)上傳播的數(shù)字化信息,包括版面布局、各文章內(nèi)容、相關(guān)圖像等,通過(guò)版面略圖的熱區(qū)文字塊點(diǎn)擊,顯示出具體的數(shù)字化文章內(nèi)容。
報(bào)紙排版使用排版軟件來(lái)形成版面的文章、圖片分區(qū),最終形成PS結(jié)果供后期照排制版印刷,排版軟件只用排版軟件自定義的中間結(jié)果文件(YJ文件)來(lái)保存版面信息,其中大量的信息可以直接利用來(lái)形成網(wǎng)頁(yè)形式的數(shù)字報(bào)紙,相比用于照排制版的PS文件而言,信息量大,更加方便快捷。YJ文件轉(zhuǎn)換為數(shù)字報(bào)紙依然有很多工作要做,比如標(biāo)題和文章的對(duì)應(yīng),多個(gè)文章塊的關(guān)聯(lián)等,因此要有專門的標(biāo)引軟件實(shí)現(xiàn)對(duì)用于紙介報(bào)紙的文件的標(biāo)引、反解工作,來(lái)轉(zhuǎn)換收集成可用于網(wǎng)上發(fā)布的數(shù)字報(bào)刊的完整數(shù)據(jù),實(shí)現(xiàn)紙介版面的數(shù)字化。
利用標(biāo)引等手段對(duì)提取的XML文件中的版面信息進(jìn)行合并、歸整等操作,建立標(biāo)題、文字、圖片、表格等對(duì)應(yīng)關(guān)系,自動(dòng)提取日期、標(biāo)題、文字、作者等,自動(dòng)或手工對(duì)標(biāo)題、文字稿件、圖像稿件、表格、EPS/S2等進(jìn)行關(guān)聯(lián),設(shè)置稿件之間的順序,設(shè)置版面信息、文章信息、圖片信息、規(guī)范化文字的格式,自動(dòng)合并轉(zhuǎn)版稿件,形成完全可再利用的見(jiàn)報(bào)XML資料,可以供給后期多種系統(tǒng)的再次使用,包括電子報(bào)刊、稿酬計(jì)費(fèi)、新聞采編的見(jiàn)報(bào)稿件庫(kù)等,深度挖掘報(bào)刊稿件的再利用價(jià)值。
標(biāo)引操作的所有編輯窗口和其他控件窗口顯示和輸入都要適合所有文種的閱讀順序,這是和漢文很大的區(qū)別。由于現(xiàn)在很多使用舊編碼體制的西雙版納新老傣文輸入法,編輯控件還要能夠接受舊輸入法的輸入,然后控件內(nèi)部自動(dòng)轉(zhuǎn)換為Unicode編碼輸入到系統(tǒng)。系統(tǒng)采用OCX控件的方式解決這一問(wèn)題,控件的本質(zhì)是對(duì)象鏈接和嵌入(OLE)標(biāo)準(zhǔn),由于其充分利用了面向?qū)ο蟮膬?yōu)點(diǎn),使程序效率得到了很大的提高。系統(tǒng)把少數(shù)民族文字顯示及接受輸入的轉(zhuǎn)換工作都放在OCX中進(jìn)行,最大程度地和原有的漢文標(biāo)引軟件系統(tǒng)兼容。
西雙版納新老傣文數(shù)字報(bào)刊系統(tǒng)簡(jiǎn)化了發(fā)布工作,實(shí)現(xiàn)了“入庫(kù)即發(fā)布”的功能,真正體現(xiàn)了新聞內(nèi)容的時(shí)效性。
報(bào)紙版面經(jīng)過(guò)數(shù)字化以后,形成可以再次發(fā)布的規(guī)范化完整數(shù)據(jù),有很大的利用價(jià)值,要使用動(dòng)態(tài)模板發(fā)布技術(shù),實(shí)現(xiàn)數(shù)據(jù)的動(dòng)態(tài)轉(zhuǎn)換,發(fā)布為外部網(wǎng)站的網(wǎng)頁(yè)、內(nèi)部網(wǎng)站的評(píng)報(bào)、進(jìn)入檢索數(shù)據(jù)庫(kù)、進(jìn)入考評(píng)系統(tǒng)、進(jìn)入稿酬系統(tǒng)等,而動(dòng)態(tài)模板發(fā)布技術(shù)是實(shí)現(xiàn)寶貴的數(shù)字化版面到其他形式轉(zhuǎn)換的關(guān)鍵。因此,動(dòng)態(tài)模板發(fā)布技術(shù)要實(shí)現(xiàn)舊數(shù)據(jù)的任意組合、轉(zhuǎn)化、提取、格式整理、再次生成等。
系統(tǒng)通過(guò)把XML經(jīng)過(guò)入庫(kù)等處理,直接發(fā)布成電子報(bào)刊的形式,自動(dòng)化程度高,無(wú)須人工干預(yù)。發(fā)布管理系統(tǒng)實(shí)現(xiàn)版面文章上接下轉(zhuǎn)內(nèi)容處理,實(shí)現(xiàn)多個(gè)版面同時(shí)呈現(xiàn)的版面導(dǎo)航管理??梢杂卸喾N表現(xiàn)形式提供給用戶選擇,用戶可以通過(guò)模板等方式插入自己獨(dú)特的內(nèi)容,可以發(fā)布為HTML格式和Flash等多媒體電子雜志形式。
傳統(tǒng)的報(bào)社新聞信息主要包括文字稿件和圖片稿件,信息的采集主要依靠記者投稿及作者投稿。投稿方式以紙面投稿、電子郵件投稿相結(jié)合,現(xiàn)在有的報(bào)社也有了遠(yuǎn)程投稿系統(tǒng),可以通過(guò)Web瀏覽器界面實(shí)現(xiàn)遠(yuǎn)程投稿,這個(gè)主要是針對(duì)報(bào)社記者使用的系統(tǒng),投的稿件可以直接進(jìn)入新聞采編系統(tǒng),責(zé)任編輯直接進(jìn)行編輯。
當(dāng)前的這種信息采集投遞方式,限制了報(bào)社的信息來(lái)源,無(wú)法適合數(shù)字報(bào)業(yè)大規(guī)模信息采集、加工、出版的需求。當(dāng)前網(wǎng)絡(luò)原創(chuàng)內(nèi)容極大豐富,博客等Web2.0網(wǎng)站的興起,改變了原先的信息傳播方式,作者投稿,編輯編稿,然后出版發(fā)布的傳播模式已經(jīng)徹底改變?,F(xiàn)在經(jīng)常是作者首先將自己的稿件在網(wǎng)絡(luò)上發(fā)布出來(lái),然后傳統(tǒng)媒介才進(jìn)行采集編寫(xiě),完成紙面出版。而且許多新聞現(xiàn)場(chǎng)的當(dāng)事人和目擊者經(jīng)常在第一時(shí)間將新聞信息發(fā)布到了互聯(lián)網(wǎng)上,傳統(tǒng)的記者采訪、投稿、編輯出版的工作模式已經(jīng)無(wú)法保證新聞的時(shí)效性。
在數(shù)字報(bào)業(yè)戰(zhàn)略中,報(bào)社不能再被動(dòng)的等待新聞信息,或者主要依靠有限的記者,采編人員采集信息。報(bào)社必須根據(jù)自己的需要大規(guī)模采集網(wǎng)絡(luò)上的相關(guān)信息,進(jìn)行信息的規(guī)模加工,批量加工。引入互聯(lián)網(wǎng)新聞自動(dòng)采集系統(tǒng),可以幫助報(bào)社主動(dòng)獲取新聞信息,以便全面的收集新聞信息資源。
(1) 網(wǎng)絡(luò)信息自動(dòng)采集系統(tǒng)
采用B/S瀏覽器模式,結(jié)合當(dāng)前網(wǎng)絡(luò)先進(jìn)的搜索引擎技術(shù),以及網(wǎng)站內(nèi)容搜集技術(shù),根據(jù)預(yù)設(shè)的搜集條件,實(shí)現(xiàn)指定內(nèi)容的自動(dòng)、手動(dòng)搜集,搜集信息可以是精確搜集,也可以泛規(guī)模搜集,并將收集的信息自動(dòng)存入數(shù)據(jù)庫(kù)。
搜集的信息加工編輯功能,記者或責(zé)編等相關(guān)內(nèi)容搜集編輯人員利用系統(tǒng)提供的信息資源加工、編輯功能,對(duì)搜集的信息進(jìn)行初始分類、加工,并將這些資源轉(zhuǎn)存到報(bào)社新聞待編數(shù)據(jù)庫(kù)中,進(jìn)入新聞采編工作流程,以便完成信息深加工以及出版發(fā)行。
(2) 多媒體新聞信息多渠道投遞系統(tǒng)
包括文字稿件,圖片稿件、音頻、視頻等新聞信息的多渠道投遞子系統(tǒng),現(xiàn)在的信息發(fā)布渠道越來(lái)越多,報(bào)社必須廣開(kāi)言路,增加面向全社會(huì)的新聞信息投遞渠道,利用互聯(lián)網(wǎng)或者手機(jī)網(wǎng)、手機(jī)短信等眾多信息采集手段,實(shí)現(xiàn)多媒體新聞信息的定向、定目標(biāo)的投遞和采集。
網(wǎng)絡(luò)信息自動(dòng)搜集雖然可以擴(kuò)大信息規(guī)模,但是由于不是定制型的信息,所以需要大量的整理和初加工才能進(jìn)入報(bào)社的信息加工流程。而投遞系統(tǒng)主要是征集性的信息采集,社會(huì)根據(jù)報(bào)社發(fā)布的新聞信息需求,進(jìn)行準(zhǔn)確的內(nèi)容投遞。多媒體新聞信息多渠道投遞系統(tǒng)將解決內(nèi)容定向投遞需求。
投遞包括多種渠道,電子郵件投稿,網(wǎng)絡(luò)瀏覽器投稿,其他網(wǎng)絡(luò)化投稿,以及手機(jī)投稿等新聞信息多渠道采集功能。所有的采集到的新聞信息按照標(biāo)準(zhǔn)結(jié)構(gòu)分門別類輸入到新聞采編的待編新聞數(shù)據(jù)庫(kù)中,責(zé)任編輯等相關(guān)稿件處理人員從這個(gè)數(shù)據(jù)庫(kù)中獲取原始的原創(chuàng)內(nèi)容,通過(guò)稿件編審子系統(tǒng)納入報(bào)紙或網(wǎng)絡(luò)以及電子報(bào)等稿件處理環(huán)節(jié),進(jìn)行深入加工。
西雙版納新老傣文多媒體共享稿庫(kù)平臺(tái)系統(tǒng)基于西雙版納報(bào)社的實(shí)際業(yè)務(wù)需要,著眼于報(bào)社新老傣文數(shù)字內(nèi)容產(chǎn)業(yè)的發(fā)展趨勢(shì),同時(shí)借鑒以往其他應(yīng)用系統(tǒng)的開(kāi)發(fā)經(jīng)驗(yàn),充分利用了新平臺(tái)、新工具和新技術(shù):
(1) 采用先進(jìn)的智能客戶端模式既能滿足用戶個(gè)性化界面要求,又支持智能部署和更新。運(yùn)用WPF技術(shù)使用戶能獲得絢麗的界面體驗(yàn),界面設(shè)計(jì)與業(yè)務(wù)邏輯設(shè)計(jì)分離。
(2) 突破報(bào)社固有新聞信息類型限制,支持文字、圖像、圖表、音頻、視頻、應(yīng)用、復(fù)合等各種類型新聞信息,并且可動(dòng)態(tài)設(shè)定支持其他類型新聞信息。本項(xiàng)目全面支持Unicode,突破語(yǔ)種限制,支持西雙版納新老傣文等多語(yǔ)種混合新聞。
(3) “組新聞”的特色管理,涵蓋了專題新聞、欄目新聞、新聞關(guān)聯(lián)、背景資料等管理,支持流媒體復(fù)合新聞顯示。
(4) 非結(jié)構(gòu)化、半結(jié)構(gòu)化、結(jié)構(gòu)化的多媒體新聞信息與結(jié)構(gòu)化數(shù)據(jù)采用不同存儲(chǔ)方式,實(shí)現(xiàn)各種數(shù)據(jù)之間的關(guān)聯(lián)及一致性處理。
(5) 引入面向服務(wù)架構(gòu)模型,系統(tǒng)擴(kuò)展功能以及與其他應(yīng)用系統(tǒng)之間的交互通過(guò)標(biāo)準(zhǔn)的WebService服務(wù)進(jìn)行,支持和應(yīng)用CNML標(biāo)準(zhǔn)。
(6) 應(yīng)用場(chǎng)景和流程定制,適用于不同需要、不同規(guī)模的報(bào)社或報(bào)業(yè)集團(tuán)。
從稿件的采集,到稿件的編輯,到報(bào)紙版面的排版,報(bào)紙版面的管理,一直到報(bào)紙版面的輸出,整個(gè)過(guò)程得到統(tǒng)一集中的管理,形成了一個(gè)流暢的電子業(yè)務(wù)流水線。西雙版納新老傣文新聞采編系統(tǒng),支持《GB/T 20092 中文新聞信息置標(biāo)語(yǔ)言》[4]和《GB/T 20093 中文新聞信息分類與代碼》[5]標(biāo)準(zhǔn),使系統(tǒng)的開(kāi)放性和互操作性程度很高、兼容性更強(qiáng)。
《中文新聞信息置標(biāo)語(yǔ)言》(CNML)規(guī)定了新聞行業(yè)中文新聞信息的元數(shù)據(jù)和結(jié)構(gòu),以實(shí)現(xiàn)新聞信息的內(nèi)容描述、交換和再利用?!吨形男侣勑畔⒎诸惻c代碼》則規(guī)定了中文新聞信息分類的原則、方法、體系和類目代碼。CNML總體技術(shù)路線涵蓋了四方面內(nèi)容。第一,標(biāo)準(zhǔn)突出體現(xiàn)了CNML的兩個(gè)重要主體,一為用于交換的數(shù)據(jù),二為數(shù)據(jù)之間的語(yǔ)義關(guān)系。標(biāo)準(zhǔn)結(jié)構(gòu)上將數(shù)據(jù)對(duì)象和語(yǔ)義關(guān)系分開(kāi)表示,在數(shù)據(jù)層定義了便于進(jìn)行數(shù)據(jù)交換的數(shù)據(jù)內(nèi)容,在語(yǔ)義層對(duì)數(shù)據(jù)層所表達(dá)的信息對(duì)象進(jìn)行語(yǔ)義關(guān)系的解釋。標(biāo)準(zhǔn)本身的定義以XML Schema形式為主。同時(shí),為了充分突出標(biāo)準(zhǔn)描述信息的語(yǔ)義特征,借鑒RDF的數(shù)據(jù)建模思想,課題組提出了融合語(yǔ)義特征描述功能且基于XML Schema語(yǔ)法的CNML標(biāo)準(zhǔn)。這在國(guó)內(nèi)現(xiàn)有XML標(biāo)準(zhǔn)制定中是一個(gè)創(chuàng)新。第二,通過(guò)建模方法構(gòu)建了一個(gè)統(tǒng)一的標(biāo)準(zhǔn)概念模型,在此概念模型的基礎(chǔ)上,采用XML和RDF兩種技術(shù)方法設(shè)計(jì)兩套標(biāo)準(zhǔn)Schema,兩套Schema在設(shè)計(jì)上要充分考慮各自技術(shù)特點(diǎn),以便將來(lái)在應(yīng)用中實(shí)現(xiàn)相互之間的轉(zhuǎn)換和融合。第三,CNML中的通用新聞對(duì)象采用了一種抽象的表示形式,真正的新聞對(duì)象只在實(shí)例化時(shí)才進(jìn)行替代,以實(shí)現(xiàn)標(biāo)準(zhǔn)良好的擴(kuò)展性;第四,在標(biāo)準(zhǔn)中要充分地分析數(shù)據(jù)層和語(yǔ)義層所表達(dá)信息的結(jié)構(gòu)和內(nèi)容,將可能出現(xiàn)的稿件與稿件、內(nèi)容項(xiàng)與內(nèi)容項(xiàng)之間的邏輯關(guān)系提取出來(lái),定義出標(biāo)準(zhǔn)中可能出現(xiàn)的信息結(jié)構(gòu)和語(yǔ)義邏輯關(guān)系,以實(shí)現(xiàn)對(duì)標(biāo)準(zhǔn)的元數(shù)據(jù)和標(biāo)準(zhǔn)的邏輯語(yǔ)義關(guān)系進(jìn)行方便描述。
CNML概念模型具有如下特點(diǎn): 1)CNML概念模型和NewsML1.x概念模型對(duì)應(yīng)的現(xiàn)實(shí)對(duì)象模型是一致的,都可以方便地表達(dá)富含各種不同類型的內(nèi)容實(shí)體和內(nèi)容組合的新聞信息稿件結(jié)構(gòu);CNML概念模型繼承了NewsML概念模型中獨(dú)立于各種具體內(nèi)容表達(dá)方式的優(yōu)點(diǎn);2)CNML概念模型中取消了新聞組件這樣一個(gè)中間層次,消除了由于新聞組件引入導(dǎo)致的各種復(fù)雜嵌套的物理結(jié)構(gòu),通過(guò)引入新的關(guān)系元素來(lái)表達(dá)新聞稿件之間、新聞稿件包含的多個(gè)不同內(nèi)容實(shí)體之間的結(jié)構(gòu)和組合關(guān)系;可以在一定程度上方便對(duì)內(nèi)容項(xiàng)、稿件進(jìn)行內(nèi)容存儲(chǔ)和信息資產(chǎn)的管理;3)在CNML概念模型中,稿件和內(nèi)容項(xiàng)均作為抽象類型存在,分別只包含稿件和內(nèi)容項(xiàng)的公共特征,不同類型的稿件和內(nèi)容項(xiàng)都可以從抽象的稿件和內(nèi)容項(xiàng)類型繼承擴(kuò)展,在具備共同元數(shù)據(jù)特征和結(jié)構(gòu)特點(diǎn)之外,可以擁有自己的元數(shù)據(jù)特征和自有結(jié)構(gòu);較好地解決了共性和特性的表達(dá)矛盾。
CNML標(biāo)準(zhǔn)采用了數(shù)據(jù)建模思想和面向?qū)ο蟮脑O(shè)計(jì)方法,有效地確立了標(biāo)準(zhǔn)的基礎(chǔ)研究方法。首先,對(duì)標(biāo)準(zhǔn)中涉及到新聞對(duì)象進(jìn)行建模,然后,通過(guò)面向?qū)ο蟮脑O(shè)計(jì)方法定義標(biāo)準(zhǔn)中新聞對(duì)象的基本類和擴(kuò)展類,通過(guò)類的繼承方法逐步從基本類擴(kuò)展出新的子類。廣泛采用了抽象類實(shí)例化技術(shù),將反映具體新聞對(duì)象特征的抽象類實(shí)例化為具體的新聞數(shù)據(jù)對(duì)象,解決了共性和特性的問(wèn)題。
CNML除了可以在稿件或者內(nèi)容項(xiàng)的元數(shù)據(jù)描述部分提供對(duì)稿件中的各類主題信息的描述以外,還提供了一組可以內(nèi)嵌在稿件正文內(nèi)容中標(biāo)識(shí)主題詞的內(nèi)聯(lián)智能標(biāo)記。內(nèi)聯(lián)智能標(biāo)記規(guī)范中預(yù)定義了一個(gè)復(fù)雜類型和八個(gè)智能標(biāo)記元素。通過(guò)這組標(biāo)記可以對(duì)稿件正文中出現(xiàn)的人物、職位、機(jī)構(gòu)、事件、行業(yè)、地點(diǎn)、對(duì)象名、分類等信息進(jìn)行標(biāo)記,便于大家使用各種自然語(yǔ)言檢索或者知識(shí)管理引擎對(duì)稿件進(jìn)行主題檢索、專題制作、自動(dòng)分類、自動(dòng)聚類等智能化處理。
本項(xiàng)目已完成中國(guó)第一個(gè)傣文網(wǎng)站和網(wǎng)絡(luò)平臺(tái)的傣文數(shù)字報(bào)刊系統(tǒng),還將進(jìn)一步研發(fā)移動(dòng)平臺(tái)的傣文數(shù)字出版系統(tǒng)。
[1] Asmus Freytag. Summary of repertoire for FDAM1 and FPDAM2 of ISO/IEC 10646(ISO/IEC JTC1/SC2/
WG2 N2924R)[EB/OL]. [2005-02-08]. http://anubis.dkuug.dk/jtc1/sc2/wg2.
[2] Michael Evenson. Summary of repertoire for FDAM 5 0f ISO IEC 10646: 2003 (ISO/IEC JTC1/SC2/WG2 N3465)[EB/OL]. [2008-04-24]. http://anubis.dkuug.dk/jtc1/sc2/wg2.
[3] Michael Everson,Martin Hosken. Proposal for Encoding the Lanna Script in the BMP of the UCS(ISO/IEC JTC1/SC2/WG2 N3121R)[EB/OL]. [2006-09-09]. http://anubis.dkuug.dk/jtc1/sc2/wg2.
[4] 新華通訊社,等.GB/T 20092-2006,中文新聞信息置標(biāo)語(yǔ)言[S].北京: 中國(guó)標(biāo)準(zhǔn)出版社,2006.
[5] 新華通訊社,等.GB/T 20093-2006,中文新聞信息分類與代碼[S].北京: 中國(guó)標(biāo)準(zhǔn)出版社,2006.