摘 要:在智能信息系統(tǒng)整體架構(gòu)下,智能信息處理和智能信息分析的應(yīng)用前景包括智能分析、機(jī)器翻譯和自動簡報。DIKW概念鏈可以提供智能信息處理和智能信息分析的理論基礎(chǔ),自動簡報可作為智能信息處理和智能信息分析的標(biāo)志性應(yīng)用,自然語言理解是智能信息處理和智能信息分析的關(guān)鍵技術(shù)。
關(guān)鍵詞:智能信息處理;智能信息分析;自然語言理解;DIKW概念鏈
中圖分類號:TP18;G250.252 文獻(xiàn)標(biāo)識碼:A DOI:10.11968/tsyqb.1003-6938.2017116
Abstract Under the framework of intelligent information system, the prospect applications of intelligent information processing (IIP) and intelligent information analysis (IIA) include intelligent analysis, machine translation and automatic summary report. It is pointed out that DIKW chain provided a theoretical foundation of IIP and IIA, and it is proposed that automatic summary report can be significant application of IIP and IIA. Natural language understanding (NLU) as key technology is strengthened.
Key words intelligent information processing; intelligent information analysis; natural language understanding; DIKW chain
在部署智能制造等國家重點(diǎn)研發(fā)計劃和實(shí)施“互聯(lián)網(wǎng)+”行動方案基礎(chǔ)上,國務(wù)院于2017年7月發(fā)布了《新一代人工智能發(fā)展規(guī)劃》[1],把發(fā)展人工智能提升到了國策高度。這一發(fā)展規(guī)劃以“科技引領(lǐng)、系統(tǒng)布局、市場主導(dǎo)、開源開放”為基本原則,計劃分三步實(shí)現(xiàn)戰(zhàn)略目標(biāo):
第一步,到2020年人工智能總體技術(shù)和應(yīng)用與世界先進(jìn)水平同步,人工智能產(chǎn)業(yè)成為新的重要經(jīng)濟(jì)增長點(diǎn),實(shí)現(xiàn)人工智能核心產(chǎn)業(yè)規(guī)模超過1500億元,帶動相關(guān)產(chǎn)業(yè)規(guī)模超過1萬億元。
第二步,到2025年人工智能基礎(chǔ)理論實(shí)現(xiàn)重大突破,部分技術(shù)與應(yīng)用達(dá)到世界領(lǐng)先水平,實(shí)現(xiàn)人工智能核心產(chǎn)業(yè)規(guī)模超過4000億元,帶動相關(guān)產(chǎn)業(yè)規(guī)模超過5萬億元。
第三步,到2030年人工智能理論、技術(shù)與應(yīng)用總體達(dá)到世界領(lǐng)先水平,成為世界主要人工智能創(chuàng)新中心,實(shí)現(xiàn)人工智能核心產(chǎn)業(yè)規(guī)模超過1萬億元,帶動相關(guān)產(chǎn)業(yè)規(guī)模超過10萬億元。
在這一發(fā)展規(guī)劃中,與信息科技和情報學(xué)密切相關(guān)的既有大數(shù)據(jù)智能理論、類腦智能計算理論等新一代人工智能基礎(chǔ)理論,也有自然語言處理技術(shù)、跨媒體分析推理技術(shù)等新一代人工智能關(guān)鍵共性技術(shù),以及知識服務(wù)體系。本文沿襲作者對智能信息處理(Intelligent Information Processing,IIP)和智能信息分析(Intelligent Information Analysis,IIA)的前期探討[2-3],概略前瞻融入當(dāng)今人工智能的信息處理和信息分析,以期為情報界參與智能前沿領(lǐng)域和智能綜合應(yīng)用的創(chuàng)新提供微薄參考。
1 智能信息處理和智能信息分析的理論架構(gòu)
人工智能研究無疑有計算機(jī)學(xué)界一馬當(dāng)先,純粹技術(shù)不是情報學(xué)界所長,而信息處理與信息分析才體現(xiàn)情報學(xué)優(yōu)勢,因而人工智能與情報學(xué)的最佳結(jié)合非智能信息處理和智能信息分析莫屬。
智能信息處理既包括海量多媒體信息檢索與處理、大數(shù)據(jù)挖掘與集成、機(jī)器翻譯、乃至生物信息處理與量子計算等,也包括電子政務(wù)、電子商務(wù)、電子金融等領(lǐng)域中的智能化數(shù)據(jù)處理,總之以處理復(fù)雜信息和海量信息為己任。智能信息分析則以從處理過的信息中發(fā)現(xiàn)情報和知識為目標(biāo)。盡管現(xiàn)有智能信息處理迷失在大數(shù)據(jù)里或淹沒在各種算法中[4-5],新一代人工智能的曙光正讓智能信息處理和智能信息分析在理論與技術(shù)的黎明中復(fù)蘇。
一個完整的智能信息系統(tǒng)架構(gòu)是一個有機(jī)體。其中智能信息處理作為前端,智能信息分析作為后端,以智能機(jī)把兩者耦合為一體(見圖1)。
這樣,信息由智能信息系統(tǒng)前端輸入,經(jīng)智能信息處理并提交智能信息分析后,從系統(tǒng)后端輸出情報。智能信息處理多為客觀成分,適用強(qiáng)人工智能技術(shù)支撐;智能信息分析則需主觀介入,適用弱人工智能技術(shù)支持。
依照DIKW概念鏈量化模型[6],客觀數(shù)據(jù)D經(jīng)輸入傳遞系統(tǒng)成為物理信息i;物理信息i經(jīng)社會傳遞,轉(zhuǎn)化為可接收的客觀信息I;可接收的客觀信息I經(jīng)主體吸收,轉(zhuǎn)化為帶有主體價值判斷的主觀信息J即情報;情報J經(jīng)結(jié)構(gòu)化體系化而成為知識K;矩陣化個性化知識則構(gòu)成智慧W。
從客觀信息I到情報J間的轉(zhuǎn)化是一關(guān)鍵環(huán)節(jié)。根據(jù)對數(shù)透視原理[6],從客觀到主觀需經(jīng)對數(shù)轉(zhuǎn)換,同時,為描述主體價值判斷,引進(jìn)價值系數(shù)v∈[0,1](匹配Rescher模型),可得如下關(guān)系式:
J=log I v=v log I (1)
式(1)確定了信息I和情報J的關(guān)系,即情報是信息的對數(shù)與價值系數(shù)的乘積。
在情報J進(jìn)一步轉(zhuǎn)化為知識K的過程中,采用分析信息學(xué)的合理假說[7-8]:有價值的信息才會使知識增加,單位信息增量產(chǎn)生的單位知識增量應(yīng)與有價值信息量(情報量)成正比,即:
=kJ=k ln Iv (2)endprint
其中k是信息的知識轉(zhuǎn)化系數(shù)。于是,知識K是情報J對信息I的積分:
K=k∫JdI=k∫vlnIdI=kvI(lnI-1)+K0=K0+△K (3)
其中K0是積分常數(shù),代表原有的知識;而ΔK代表了新增加的知識。這正是著名的布魯克斯基本方程,該推導(dǎo)過程的優(yōu)勢是給出了機(jī)理解釋[9]。
以上內(nèi)容可作為智能信息處理和智能信息分析的理論基礎(chǔ)。
2 智能信息處理和智能信息分析的應(yīng)用
作為智能信息處理的先驅(qū),Luhn和Salton等已對智能分類、智能標(biāo)引、智能文摘等進(jìn)行過開拓性研究[10-13],智能檢索也在計算機(jī)科技的推動下走向成熟,這些領(lǐng)域的智能化技術(shù)皆漸趨完善。未來的發(fā)展預(yù)期將是智能分析、機(jī)器翻譯和自動簡報。
2.1 智能分析
智能分析面臨的很多問題需要自然語言理解支撐,尤其是中文信息的智能分析至少涉及:(1)詞切分和詞性標(biāo)注;(2)概念標(biāo)注與分析;(3)語義知識表示;(4)詞典與知識庫;(5)句法及語義分析等。因此,智能分析的前景是在自然語言理解基礎(chǔ)上,融合已有的智能分類、智能標(biāo)引等技術(shù),發(fā)展出結(jié)合算法分析與計算智能的綜合應(yīng)用。
2.2 機(jī)器翻譯
機(jī)器翻譯的基本方法可分為基于規(guī)則(Rule-based)的方法和基于語料庫(Corpus-based)的方法兩大類?;谝?guī)則的機(jī)器翻譯又可以分為基于轉(zhuǎn)換的方法(Transform-based)和基于中間語言(Interlingua-based)的方法;而基于語料庫的方法又可以分為基于統(tǒng)計(Statistic-based)和基于實(shí)例(Example-based)的方法。從實(shí)用效果看,混合(Hybrid)方法是最有前途的方法。當(dāng)前,Google翻譯器已顯現(xiàn)出強(qiáng)大的人工智能特性,尤其是能實(shí)現(xiàn)多語種之間自由組合的智能化句級翻譯和段落翻譯,為今后的多語種機(jī)器翻譯提供了現(xiàn)實(shí)前景。
2.3 自動簡報
自動簡報是自動文摘的升級,當(dāng)年由Luhn首先提出[11]、后來由Salton[12-13]等不斷推進(jìn)改良的智能摘要已趨完善,如今一般通過原文文本分析、全文-文摘轉(zhuǎn)換、重組生成文摘即可實(shí)現(xiàn)自動文摘。采用的方法既有基于符號、規(guī)則的方法,也有基于詞頻等文本表層特征的統(tǒng)計學(xué)方法。以后的自動簡報將期望對文本、多媒體信息等進(jìn)行智能化分析后提供類似摘要性質(zhì)并加以特征分析的報告,報告長短可調(diào)控,真正實(shí)現(xiàn)輸入信息后自動生成簡報輸出。
以上應(yīng)用中自動簡報可作為標(biāo)志性應(yīng)用。由于這些應(yīng)用均涉及自然語言理解,因而自然語言理解技術(shù)作為關(guān)鍵技術(shù)若有突破就能帶動智能信息處理和智能信息分析快速進(jìn)步。
3 自然語言理解是智能信息處理和智能信息分析的關(guān)鍵
要進(jìn)行完善的智能信息處理和智能信息分析,關(guān)鍵技術(shù)在于自然語言理解(Natural Language Understanding,NLU)[14]。由于人類智能在很大程度上需要通過自然語言表達(dá),因此對自然語言的理解是智能信息處理和智能信息分析的關(guān)鍵。計算機(jī)能否實(shí)現(xiàn)智能信息處理和智能信息分析,關(guān)鍵就在于能否理解自然語言。因此,《新一代人工智能發(fā)展規(guī)劃》把自然語言理解列入核心技術(shù)非常合理,自然語言理解的確是智能信息處理和智能信息分析的關(guān)鍵技術(shù)。
就目前國內(nèi)外較有代表性影響也較大的自然語言理解理論而言,有主要作用于英語理解的Chomsky轉(zhuǎn)換生成語法[15-16]、Schank概念依存理論[17-18]和主要作用于漢語理解的魯川句模理論[19-20]、黃曾陽概念層次網(wǎng)絡(luò)(Hierarchical Network of Concept: HNC)[21-22]以及具有可比性的WordNet[23]和HowNet[24]等。如今真正能用于支撐技術(shù)研發(fā)的是WordNet和HowNet。
3.1 WordNet
WordNet最初由普林斯頓大學(xué)認(rèn)知科學(xué)實(shí)驗(yàn)室的心理學(xué)教授 George A. Miller創(chuàng)建于1985年,后由Christiane Fellbaum領(lǐng)導(dǎo)建設(shè)。該項目得到美國自然科學(xué)基金等的資助,其成就讓創(chuàng)始人George A. Miller和 Christiane Fellbaum 于2006年獲得Antonio Zampolli獎。
WordNet的發(fā)展受益于語義網(wǎng)絡(luò)和概念依存思想的綜合,作為一個在線的英語詞匯數(shù)據(jù)庫(語義關(guān)系系統(tǒng)),WordNet的一個重要理論基礎(chǔ)是“可分離性假設(shè)”(Separability Hypothesis),即認(rèn)為語言的詞匯成分可以被離析出來并有專門針對性地加以研究。
在設(shè)計原理與方法上,WordNet以同義詞集合作為基本構(gòu)建單位進(jìn)行語義組織的,其基本設(shè)計原理是用“詞匯矩陣模型”,而一個詞匯矩陣從理論上可以用單詞及其同義詞集合之間的映射來表示。當(dāng)某個詞有多個同義詞時,通常同義詞集合足以滿足差異性的要求。雖然同義詞只是詞形之間的一種詞匯關(guān)系,但由于這種關(guān)系在WordNet中被賦予了中心角色,因此同義關(guān)系的詞被放在{ }中,與其他被放進(jìn)[ ]中的詞匯關(guān)系的詞區(qū)別開來。
這樣,用同義詞集Synsets(在一定語境中可以互換的同義詞的列表)來表示詞義,詞匯關(guān)系存在于詞形間,語義關(guān)系存在于詞義間。WordNet 2.0就把包括152059個詞(words)、115424同義詞集(synsets) 、203145個詞義對(word-sense pairs)等聯(lián)系成為一個包括了上下位、同義、反義、部分、整體等詞匯的語義關(guān)系網(wǎng)。至2012年11月發(fā)布WordNet3.1時,該聯(lián)機(jī)數(shù)據(jù)庫已包含155287個詞、117659個同義詞集、206941個詞義對,可壓縮成約12 MB數(shù)據(jù)集。
WordNet中只對自然語言理解分析過程中較為重要的名詞、動詞、形容詞、副詞四類詞進(jìn)行處理,尤其注重名詞和動詞。WordNet采用層次體系結(jié)構(gòu)來表示名詞,所有三種語義關(guān)系(下位義、部分義和反義)均被包含在內(nèi),結(jié)果組成一個互相連通的名詞概念網(wǎng)絡(luò)。WordNet原初目標(biāo)是要建立一個詞典瀏覽器,如今已發(fā)展成自足的詞匯數(shù)據(jù)庫和語義機(jī)讀詞典。endprint
3.2 HowNet
董振東、董強(qiáng)父子在WordNet啟發(fā)下從1988年開始建立HowNet(知網(wǎng)),這是一個結(jié)合中英文語料、以漢語和英語的詞語所代表的概念為描述對象、以揭示概念與概念之間以及概念所具有的語義關(guān)系和語義網(wǎng)絡(luò)為基本內(nèi)容的語義知識庫。
HowNet與WordNet的最重要差異在于其哲學(xué)思想,即認(rèn)為世界上一切事物(物質(zhì)的和精神的)都在特定的時間和空間內(nèi)不停地運(yùn)動和變化,一個事物可以被視為是整體,也可以被認(rèn)為是部件;每一事物都包含有多種屬性;事物之間的異同是由屬性決定的。
在設(shè)計理論與方法上,HowNet采用與WordNet類似的自上而下的建設(shè)方法。其基本設(shè)計原理是把概念與概念之間的關(guān)系以及概念的屬性與屬性之間的關(guān)系組成一個網(wǎng)狀知識系統(tǒng),采用自上而下的歸納方法,通過對全部基本義原進(jìn)行觀察分析并形成義原標(biāo)注集,然后再用更多的概念對標(biāo)注集進(jìn)行核實(shí)并據(jù)此建立完善的標(biāo)注集。因此,提取義原作為基本構(gòu)建單位進(jìn)行語義組織是HowNet的關(guān)鍵。
在語義關(guān)系的描述上,HowNet中的上下位關(guān)系由概念的主要特征體現(xiàn),也具有繼承關(guān)系,而WordNet只是詞義之間的上下位關(guān)系;HowNet對于同義的定義與WordNet相似,但WordNet的同義關(guān)系是顯性的,而HowNet的同義關(guān)系是隱性的;HowNet中的反義關(guān)系則比WordNet定義的要寬泛些。
至2007年,HowNet形成了圍繞800多個事件義原構(gòu)成的標(biāo)注集及其標(biāo)注出的事件概念為網(wǎng)絡(luò)的知識庫。而HowNet的目標(biāo)是要建立一個面向計算機(jī)的多重語義關(guān)系及知識網(wǎng)絡(luò),為建立自然語言處理系統(tǒng)提供所需知識庫。
總的來看,WordNet擁有豐富的詞語概念,由于許多國家都在WordNet基礎(chǔ)上建立了詞匯數(shù)據(jù)庫,所以WordNet已有多國語言處理的詞匯轉(zhuǎn)換接口,且一直在持續(xù)發(fā)展更新中,這是其顯著優(yōu)勢。HowNet則在語義知識構(gòu)建和推理設(shè)計方面有優(yōu)勢,只可惜2007年后似已停滯。
從智能信息處理和智能信息分析的理論需要看,自然語言理解及其技術(shù)可以提供指導(dǎo)思想和操作技術(shù),因此具有作為基礎(chǔ)理論和關(guān)鍵技術(shù)的潛質(zhì)。但僅僅依靠自然語言理解在技術(shù)上也是不夠的,智能信息處理和智能信息分析不僅需要NLU,也需要計算智能與算法技術(shù)的集成,并與語義網(wǎng)(Semantic web)、 關(guān)聯(lián)數(shù)據(jù)(Linked data)等研究[25-26]整合發(fā)展。
4 結(jié)語
展望未來,智能信息處理和智能信息分析的基礎(chǔ)理論可望形成,以自動簡報為前瞻標(biāo)志的智能信息處理和智能信息分析應(yīng)用可望實(shí)現(xiàn),而作為智能信息處理和智能信息分析關(guān)鍵技術(shù)的自然語言理解問題依舊。借力國家新一代人工智能發(fā)展規(guī)劃,自然語言理解理論與技術(shù)可能持續(xù)進(jìn)步,進(jìn)而推動智能信息處理和智能信息分析獲得突破。
參考文獻(xiàn):
[1] 國務(wù)院.國務(wù)院關(guān)于印發(fā)新一代人工智能發(fā)展規(guī)劃的通知[EB/OL].[2017-09-10].http://www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm.
[2] 葉鷹.智能信息處理的基礎(chǔ)理論探討[J].情報科學(xué),2008(9):1281-1285,1291.
[3] 葉鷹.智能信息分析的理論基礎(chǔ)與技術(shù)模型[J].情報學(xué)報,2005,24(2):233-236.
[4] 王耀南.智能信息處理技術(shù)[M].北京:高等教育出版社,2005.
[5] 鄭家恒.智能信息處理[M].北京:科學(xué)出版社,2010.
[6] 葉鷹,馬費(fèi)成.數(shù)據(jù)科學(xué)興起及其與信息科學(xué)的關(guān)聯(lián)[J].情報學(xué)報,2015,34(6):575-580.
[7] 葉鷹.信息科技基礎(chǔ)理論的分析建構(gòu)[J].情報學(xué)報,1999,18(2):160-166.
[8] 葉鷹.分析信息學(xué)的理論基礎(chǔ)[J].情報學(xué)報,2000,19(4):380-384.
[9] Ye F Y.Measuring Knowledge:A Quantitative Approach to Knowledge Theory[J].International Journal of Data Science and Analysis,2016,2(2):32-35.
[10] Luhn H P.A Statistical Approach to Mechanized Encoding and Searching of Literary Information[J].IBM Journal of Research and Development,1957,1(4):309-317.
[11] Luhn H P.The Automatic Creation of Literature Abstract[J].IBM Journal of Research and Development,1958,2(2):159-165.
[12] Salton G.Automatic Text Processing:The Transformation,Analysis,and Retrieval of Information by Computer[M].Reading,MA:Addison—Wesley,1989.
[13] Salton G,Allan J,Singhal A.Automatic Text Decomposition and Structuring[J].Information Processing & Management,1996,32(2):127-138.
[14] Allen J.Natural Language Understanding(2nd ed.)[M].Redwood City,CA:The Benjamin/Cummings Publishing Co.,1995.endprint
[15] Chomsky N.Aspects of the Theory of Syntax[M].Cambridge.MA:MIT Press,1965.
[16] Chomsky N.The Logical Structure of Linguistics Theory[M].New York:Plenum Press,1975.
[17] Schank R C,K M Colby.Computer Models of Thought and Language[M].San Francisco,CA:W.H.Freeman and company,1973.
[18] Schank R C.The Concept Analysis of Natural Language.Natural Language Processing(Edited by R.Rustin)[M].New York:Algorithm Press,1973.
[19] 魯川,緱瑞隆,董麗萍.現(xiàn)代漢語基本句模[J].世界漢語教學(xué),2000(4):11-24.
[20] 魯川.漢語語法的意合網(wǎng)絡(luò)[M].北京:商務(wù)印書館,2001.
[21] 黃曾陽.HNC理論概要[J].中文信息學(xué)報,1997,11(4):11-20.
[22] 黃曾陽.HNC(概念層次網(wǎng)絡(luò))理論:計算機(jī)理解語言研究的新思路[M].北京:清華大學(xué)出版社,1998.
[23] What is WordNet?[EB/OL].[2017-08-10].https://wordnet.princeton.edu/.
[24] HowNet Knowledge Database[EB/OL].[2017-08-11].http://www.keenage.com/.
[25] Berners-Lee T,Hendler J,Lassila,O.The Semantic Web[J].Scientific American,2001,284(5):34-43.
[26] Bizer C,Heath T,Berners-Lee T.Linked Data—The Story So Far[J].International Journal on Semantic Web and Information Systems,2009,5(3):1-22.
作者簡介:葉鷹(1962-),男,南京大學(xué)信息管理學(xué)院教授,博士生導(dǎo)師,研究方向:定量信息分析、智能信息處理。endprint