■文/宋卿 戚成琳 張鵬洲
?
知識圖譜技術在新聞領域中的應用思考
■文/宋卿 戚成琳 張鵬洲
摘 要:知識圖譜描述了真實世界中存在的各種概念和實體,并通過彼此間的關聯(lián)關系組成一個語義知識網(wǎng)絡。本文首先對知識圖譜的基本概念和典型應用進行了梳理,然后闡述了知識圖譜在新聞領域中的應用背景并對當前新聞知識化需求進行了分析與研究,并針對新聞領域對知識圖譜的需求、知識圖譜在國內外新聞領域中的應用現(xiàn)狀以及知識圖譜在新聞領域中可能存在的應用場景進行了重點闡述。
關鍵詞:知識圖譜;新聞;應用
隨著互聯(lián)網(wǎng)和大數(shù)據(jù)時代的到來,各種各樣的信息呈爆炸式增長,從信息缺失到信息過剩的轉變使知識成為了一種稀缺品。面對海量的信息和數(shù)據(jù),我們的大腦不堪重負,無法對其及時處理。探索一種從信息中有效選擇出知識的方法勢在必行。知識圖譜就是一種將信息有效結構化的方法。對新聞行業(yè)來說,傳統(tǒng)的新聞內容存儲管理方式也亟須改革,新聞內容的重復生產造成了人力的浪費,新聞生產者無法提供一種新聞產品使用戶能夠輕松高效地汲取高質量的信息。知識圖譜的引入無疑為新聞領域現(xiàn)階段面臨的困境帶來了轉機。目前,知識圖譜在新聞中的應用還處于起步階段,因此,研究知識圖譜在新聞領域中的應用現(xiàn)狀,探索知識圖譜可能存在的應用場景具有重大意義。
知識圖譜最初是指科學知識圖譜,是一種顯示科學知識的發(fā)展進程與結構關系的圖像。科學知識圖譜最早用于科研中,屬于科學計量學的范疇。[1]直到2012年,谷歌在其搜索引擎中引入了“知識圖譜”技術,使得“知識圖譜”這一概念的熱度迅速上升。但谷歌知識圖譜并不同于早期的科學知識圖譜。現(xiàn)在的知識圖譜從本質上來說是一種描述知識域的語義網(wǎng)絡,結點表示實體或者概念,結點與結點之間的邊表示實體或者概念之間的關系。也可以說,知識圖譜是一種具有語義性的知識庫。知識圖譜具有一些基本功能,包括知識的組織、可視化展示和搜索。知識圖譜涉及到諸多技術,包括自然語言處理,知識抽取,知識推理和知識表示等。對于知識圖譜來說,其發(fā)展前景很大但同時又面臨著諸多難點,比如知識圖譜隨著時間推移的動態(tài)更新、多數(shù)據(jù)源的知識融合、實體之間關系的遠近程度確定等。
知識圖譜有幾個典型的應用,包括搜索查詢和自動問答等。谷歌是最早將知識圖譜引入到搜索引擎中的公司,目的是使用戶能進行更智能更快的搜索,使搜索結果從雜亂無章的網(wǎng)頁變成有結構的知識展示,并且根據(jù)科學完整的知識體系為用戶提供一些有價值的新知識。谷歌知識圖譜一發(fā)布,就引得多方效仿。百度推出了百度知心,搜狗推出了搜狗知立方。和谷歌知識圖譜一樣,用戶輸入要查詢的內容,搜索引擎會以知識卡片的方式展示搜索結果,并且在右側給出更豐富的內容推薦。百度知識圖譜可以直接給出搜索答案,可以進行場景化搜索、多維度的信息展示以及更加豐富的相關信息推薦。搜狗也在不斷創(chuàng)新,已經將知識圖譜應用到自動問答中,如搜狗語音助手就應用了搜狗知立方來進行自動問答。
互聯(lián)網(wǎng)和大數(shù)據(jù)時代,信息過量讓人的精力過度耗費卻難以獲取真正有價值的知識。而大眾傳媒中的信息再生機制使得原信息在人的加工之后又產生了新的信息,對用戶來說,這些信息使他們感到窒息,不能對這些信息及時接收和處理導致用戶無法及時準確地做出決策,可能因此產生信息焦慮等心理問題。而對新聞生產者來說,大量重復生產出來的內容在存儲管理上面臨著巨大挑戰(zhàn),新聞生產者無法對這些新聞內容進行去重化的積累,很難重復使用已經存在的內容,也無法尋找到一種契合用戶信息汲取需求的新聞產品和新聞形式。
最初新聞內容是通過編目進行存放的,檢索只能依靠目錄進行。后來從新聞文本中提取出比較切合新聞內容的詞語作為關鍵詞并利用關鍵詞來索引一篇新聞。然而,這樣的搜索依然是低效率的,也沒有在存儲上有任何改進,同時,關鍵詞并不能更好地從多角度來描述一篇新聞。隨著互聯(lián)網(wǎng)時代的到來,網(wǎng)民們養(yǎng)成了淺閱讀的習慣,使標簽得到了廣泛應用。標簽的出現(xiàn)以及對標簽維度進行擴充形成的富標簽的應用,使大量非結構化的新聞信息得到有效組織,形成了結構化的數(shù)據(jù),不僅改變了新聞的存儲管理方式,而且為新聞內容進一步進行分類和挖掘創(chuàng)造了可能。同時,用戶能輕松快速地搜索到自己感興趣的內容,也使新聞內容得以迅速傳播。但是富標簽的應用也存在著諸多不容忽視的問題,首先對標簽的濫用和誤用可能會扭曲新聞事實,其次雜亂繁多的標簽使得用戶眼花繚亂,反而又產生了新的信息壓力,最重要的是,富標簽中不同維度的標簽之間并沒有任何連接關系,無法形成一個完整客觀的知識體系,這樣便限制了對有效信息的挖掘。這個時候,知識圖譜恰逢其時地出現(xiàn),應用到新聞中,不僅克服了富標簽應用的缺點,并且還強化了在新聞中應用富標簽的優(yōu)勢。知識圖譜化不僅將海量的非結構化新聞信息轉化成結構化信息,而且使長久以來生產的新聞內容得到有效組織和積累,不僅便于內容生產者進行內容存儲管理和新知識的挖掘,而且還為用戶對信息的選擇和認知帶來了巨大的方便??梢哉f,知識圖譜應用到新聞領域里正好符合當下新聞行業(yè)所面臨的需求和挑戰(zhàn),并且會為新聞領域帶來新的機遇和革新。
3.1新聞領域中的知識圖譜
知識圖譜在新聞領域的應用,不能只依賴于知識圖譜的現(xiàn)有特性,應該加入新聞領域所需的獨有特性。首先,知識圖譜在新聞領域中應該更強調它的知識可視化展示功能。其次,根據(jù)新聞領域的實際需要,應該在現(xiàn)有知識圖譜構成元素中加入時間線的特性,并且,要想擁有更多創(chuàng)新性的應用,知識圖譜的構建不能只局限于新聞內容的圖譜化,還應當擴充進其他層面的知識。比如用戶實體、用戶和新聞內容的關系的加入可以用來進行個性化推薦等。最后,知識圖譜要想在新聞領域中有更加深入的應用必須重視它的知識推理技術。對知識圖譜進行深度知識推理,有利于新知識的發(fā)現(xiàn),為新聞生產者提供新穎的、有深度的、帶有預測性和趣味性的新聞內容,對讀者來說將獲取到更有價值的、能輔助決策的信息。這對兩者來說達到了雙贏的效果。
3.2知識圖譜化在新聞領域中的應用現(xiàn)狀
3.2.1知識圖譜化在國外新聞領域中的應用
《華盛頓郵報》的知識地圖是其在產品形式和用戶服務上進行的新探索。知識地圖不僅可以防止對信息的重復生產,實現(xiàn)重用,而且以知識地圖的方式來組織、存儲和管理知識便于用戶進行檢索和學習,節(jié)約時間成本和精力成本?!度A盛頓郵報》深諳此道,他們將知識地圖應用到網(wǎng)頁新聞中,在新聞正文中對一些知識點進行標注,點擊可在正文右側以知識卡片的形式展示相關的新聞背景或相關信息,這些補充顯示的知識主要是一些簡短的文字和圖片。這種做法既不影響原來的閱讀體驗,還能在右側及時地為讀者補充相關的新聞背景、新聞發(fā)展情況,或是一些讀者不懂的相關知識,便于讀者更準確地理解新聞內容和新聞的發(fā)展過程。而且,讀者在閱讀的過程中不必自己去發(fā)現(xiàn)知識,然后花費時間精力來搜索,這樣可以大大提高用戶體驗??梢哉f,知識地圖在新聞中的這種應用不僅創(chuàng)造了一種新的新聞形式,而且體現(xiàn)了以讀者為本的意識,為讀者提供了一種良好的服務。
《紐約時報》的新聞編碼也是一種知識圖譜化的應用?!都~約時報》實驗室發(fā)布一篇名為《新聞的未來不是文章》(The Future Of News Is Not An Article)的報道,文章指出了一種名為“Paticles”的新的新聞形式——對新聞中提取出的新聞顆粒即信息點進行編碼。這種新聞編碼可以讓新聞信息具有被搜索和被提取的能力,并且把這些顆粒嵌入一個動態(tài)內鏈框架可以使新聞的表示具有直觀性,同時把新聞報道拆分為元件,建立清晰的時間軸,可以實現(xiàn)新聞信息的及時增量積累和信息重用。事實上,對新聞編碼就是對新聞進行信息點提取然后形成一個信息網(wǎng)絡。這樣的信息網(wǎng)絡對于新聞生產者來說解放了他們的勞動力,不必再花太多時間和精力去搜集和整理信息,因為這個信息網(wǎng)絡已經自動規(guī)整好了。而對于讀者來說,經過編碼的新聞整個框架脈絡清晰,加入了時間軸及時更新的特性,使得讀者的閱讀節(jié)奏得到了契合,并且可以根據(jù)自己的興趣進行有選擇地閱讀和汲取信息,使讀者有一個更好的接收和處理信息的體驗。對新聞進行編碼還有一個很大的用處,就是可以提取信息網(wǎng)絡中的元數(shù)據(jù)信息點,對新聞敘事進行重構,對同樣的新聞內容自動生成風格迥異的文章。事實上這已經體現(xiàn)出一個趨勢,就是知識圖譜是可以作為機器寫作的底層信息支撐的。
3.2.2知識圖譜化在國內新聞領域中的應用
目前,國內的媒體機構已經開始對知識圖譜在新聞生產中的應用進行探索。新華通訊社作為國家級通訊社,在新聞生產報道方面的技術創(chuàng)新一直走在行業(yè)前列。目前,新華通訊社沒有建立真正意義上的知識圖譜,還停留在人物庫、機構庫這樣的傳統(tǒng)知識庫層面,但已經開始將百科知識和它自有的人物庫、機構庫進行合并,也算是知識圖譜在新聞領域中應用的初步嘗試。目前筆者正在參與的“業(yè)務建模與知識圖譜系統(tǒng)”項目,就是通過將新聞文本中包含的重要內容碎片化、知識化,從而達到新聞的知識化積累,為新聞知識能夠高效率的查詢和重用建立基礎。通過建立一個知識抽取模型,對新聞文本資源進行實體和關系抽取,構建出知識圖譜,將這些新聞文本資源結構化。在不耗費大量人力物力的前提下及時準確地完成知識的積累,并且不再使用網(wǎng)頁上的新聞文本作為挖掘潛在信息的來源,而是把知識圖譜作為知識源,進行進一步的知識挖掘。新華社2015年年底推出的“快筆小新機器自動寫作”未來也將基于知識圖譜進行新聞內容自動選擇和敘述決策,從而自動生成更高質量的新聞內容。
國內其他媒體也逐漸開始對知識圖譜的應用進行探索??梢?,新聞領域中知識圖譜化的應用在國內也將成為一個新的趨勢。
3.3知識圖譜在新聞領域中的應用場景思考
第3.2節(jié)中的應用實例顯示出了知識圖譜在國內外新聞領域中的應用現(xiàn)狀。事實上,對于知識圖譜在新聞領域中的各種應用場景還亟待我們進行思考和挖掘。
3.3.1新聞的可視化展示
對于知識圖譜來說,最直接和簡單的應用就是它的可視化功能了,可視化展示可以說是知識圖譜在新聞中的顯式應用。為新聞構建新聞圖譜,可以客觀完整地表現(xiàn)出一個信息體系。這個信息體系可能是新聞內容本身、該新聞的背景以及很多新聞信息點的相關信息構成的網(wǎng)絡。也可能是新聞事件在時間線上發(fā)展的縱向網(wǎng)絡。或者是某一個主題和它下屬的不同話題的網(wǎng)絡。這些新聞圖譜不僅可以將非結構化的信息結構化,而且可以實現(xiàn)積累,對用戶來說,可以更完整直觀地把握新聞的內容和動態(tài)發(fā)展。并且,利用這種可視化的展示方式,可以使用戶減少處理信息和檢索相關信息的行為,還可以利用這種可視化展示所衍生出來的導航功能使用戶選擇感興趣的內容進行閱讀,大大提高了用戶的閱讀體驗。
3.3.2新聞的延伸補充
新聞的延伸閱讀和補充其實早就存在,只是基于知識圖譜所進行的新聞延伸補充更具科學性、相關性和多樣性。在一個新聞頁面中,新聞正文中所標注出來的信息點作為知識圖譜某些局部的中心結點,而延伸閱讀的內容可以是和該中心結點關聯(lián)度極高的結點或和該中心結點有時間關聯(lián)的結點所代表的新聞,位于正文的下方。而補充則是在新聞正文的右側,以簡短的文字、圖片,甚至是視頻的知識卡片形式來對新聞的背景、一些由于篇幅原因無法在正文中寫出的相關信息、相關歷史信息或用戶不了解的知識進行補充,這樣省去了用戶自己去檢索的麻煩。同時這樣的頁面布局無須使用超鏈接跳轉離開本頁面,也不會影響正文的閱讀體驗。
3.3.3新聞個性化推薦
基于知識圖譜的淺層新聞推薦類似于新聞延伸補充內容的推薦。然而這樣對知識圖譜簡單淺顯的應用相對知識圖譜的搭建所花費的成本來說是一種浪費。在《2015中國 APP排行榜》中僅次于“騰訊新聞”和“今日頭條”的資訊新聞類客戶端“一點資訊”正是依靠基于興趣圖譜的個性化推薦服務成為一匹黑馬而躍居行業(yè)第三的?!耙稽c資訊”新聞客戶端基于興趣圖譜的個性化推薦是知識圖譜在新聞中的創(chuàng)新式應用。興趣圖譜在新聞內容圖譜化的基礎上加入了用戶層面的知識,由此也帶入了更豐富的關系類型。興趣圖譜包含用戶、用戶身份、用戶新聞興趣點等類型的結點,還包含興趣結點與興趣結點之間、用戶結點和興趣結點之間的各種關系,如用戶訂閱、搜索、收藏、評論、分享、不喜歡等,并賦予這些關系遠近強弱之分。接著,利用大數(shù)據(jù)和機器學習的算法在搭建好的興趣圖譜上進行挖掘和計算,可以做到對用戶來說最優(yōu)的個性化推薦。
3.3.4機器新聞寫作
機器新聞寫作是一場正在發(fā)生的革命,機器新聞自動寫作的實現(xiàn)將大大解放人力,使得記者將精力和時間花在更有價值和更有創(chuàng)造性的工作上。機器新聞寫作涉及自然語言生成技術,而自然語言生成所需的信息就來自于知識庫。知識圖譜是一種具有語義性的知識庫,因此知識圖譜可以應用到機器新聞寫作中,以提供自動生成自然語言所需的知識和信息。斯坦福大學的機器人學家 Ashutosh Saxena在宣布他們的 Robo Brain在線服務的時候說過:“它(Robo Brain)的目標是構建一個非常好的知識圖譜,或者知識庫,供機器人使用。”由此可知,知識圖譜在機器新聞寫作中起到了一個自然語言生成的信息支撐作用。
3.3.5預測性新聞
知識圖譜還有一個重要技術是知識推理,目前,通過采用關聯(lián)規(guī)則、謂詞邏輯和馬爾科夫邏輯網(wǎng)絡等方法和工具進行知識推理,能夠從已有知識中發(fā)現(xiàn)隱含的新知識。建立好新聞知識圖譜之后,如果能實現(xiàn)對新知識的深度發(fā)現(xiàn),不僅可以為新聞生產者提供更多獨到的角度來吸引讀者,而且可以為用戶提供更有價值的信息以輔助決策,并且,在為讀者提供具有預測性的新聞內容這一方向也可能有其施展的地方,如財經方面的一些趨勢和體育賽事結果的預測或許在未來都會通過對知識圖譜的大規(guī)模計算、推理得以實現(xiàn)。
到目前為止,知識圖譜在新聞中的應用還處于剛起步的階段。就目前的應用來看,都是基于知識圖譜可以將非結構化信息轉化成結構化信息這一根本特性。新聞的可視化展示屬于知識圖譜的顯式應用,而新聞的延伸補充、新聞個性化推薦、機器新聞寫作、新聞預測和發(fā)現(xiàn)新知識屬于知識圖譜的隱式應用。這些應用從新聞行業(yè)的角度來說,不僅實現(xiàn)了知識的增量積累和重用,而且大大解放了新聞工作者的人力,同時創(chuàng)造了多種新的新聞產品形式和新聞生產形式,對新聞行業(yè)來說是一個很大的機遇和變革。而從用戶和讀者的角度來說,他們既可以擁有更好的新聞閱讀體驗,不必花費太多時間精力去處理、篩選和檢索信息就能更好地把握新聞的內容和發(fā)展,同時還能享受知識圖譜應用所帶來的諸多服務,如新聞的個性化推薦。可以說知識圖譜在新聞中的應用為整個新聞行業(yè)和廣大用戶都帶來了極大的好處。知識圖譜雖然在新聞中的應用目前還處于探索初期,相信未來隨著技術難點的克服,還會發(fā)掘出更多更有價值的應用場景,我們拭目以待。
參考文獻
[1]陳悅,陳超美,劉則淵,胡志剛,王賢文.CiteSpace知識圖譜的方法論功能[J].科學學研究,2015(02):242-253.
[2]雷會珠,姚立會.知識地圖與科學知識圖譜辨析[J].中國科技信息,2012(10):59,68.
[3]楊思洛,韓瑞珍.國外知識圖譜的應用研究現(xiàn)狀分析[J].情報資料工作,2013(06):15-20.
[4]胡澤文,孫建軍,武夷山.國內知識圖譜應用研究綜述[J].圖書情報工作,2013(03):131-137,84.
[5]郭云峰,韓龍,皮立華,宋科.知識圖譜在大數(shù)據(jù)中的應用[J].電信技術,2015(06):25-29.
[6]曹倩,趙一鳴.知識圖譜的技術實現(xiàn)流程及相關應用[J].情報理論與實踐,2015(12):127-132.
(作者單位:中國傳媒大學)
中圖分類號:G210.7
文獻標識碼:A
基金項目:本文系為北京市科學技術委員會2016年專項項目《基于類腦知識圖譜的中文新聞自動寫作系統(tǒng)研發(fā)與示范應用》成果,課題編號: Z16110000021614 ;國家新聞出版廣電總局科研項目《廣播電視監(jiān)測監(jiān)管數(shù)據(jù)挖掘與多維度檢索研究》,項目號:2014-41。