尹紅風, 戴汝為
(1.西南交通大學信息科學與技術學院,成都 610030; 2.中國科學院 自動化研究所 復雜系統(tǒng)與智能科學重點實驗室,北京 100190)
從20世紀80年代起,科學大師錢學森提出思維科學、開放復雜巨系統(tǒng)、人-機共建的智能系統(tǒng)和綜合集成的大成智慧等一系列的思想和理論,我們與他一起開展了這些研究,錢學森當時預言:這是科學的革命,必將帶來技術的革命.今天可以更清楚地認識到錢學森開創(chuàng)的思維與智慧科學革命,這是中國第一次在重大科學問題上領先突破.本世紀伊始,認識到思維與智慧科學思想和理論正是新一代語義智能搜索引擎的理論基礎,新一代搜索引擎就是智能計算機,信息技術的新發(fā)展使得今天完全可以在工程上實現(xiàn)這些理論,從而開啟新的知識技術革命.
物質的本質,宇宙的起源,生命的本質和智能的產生是人類科學所面臨的四大挑戰(zhàn).國際上對智能的研究主要是用人工智能的方法.1956年,第一次人工智能研討會在美國的達特茅斯(Dartmouth)大學舉行,J.McCarthy,H.Simon等倡議開展人類思維活動規(guī)律的研究,并給予“人工智能”的命名,標志著人工智能學科的誕生.人工智能的實現(xiàn)主要是基于邏輯符號處理,并且主要以機器模擬人的智能為主,但其方法論和目標存在著問題,為后來的研究者埋下了束縛思想的桎梏.對游戲、下棋和機器定理證明等問題容易解決,1958年H.Simon曾樂觀的預計:10年之內計算機將成為世界象棋冠軍、發(fā)現(xiàn)并證明重要數(shù)學定理、譜寫出優(yōu)秀的樂曲,到2000年,機器的智能將超過人…….但是在自然語言理解和機器翻譯研究則遇到瓶頸.80年代日本提出第五代智能計算機計劃,主要是提高邏輯運算的能力.第五代機計劃的失敗是對傳統(tǒng)的人工智能研究的另一大的沖擊.
對智能本質的研究,科學大師錢學森的思維科學開創(chuàng)了新的科學革命,錢學森在20世紀50年代就開始思考思維科學的研究,20世紀80年代,錢學森提出人的思維是有規(guī)律的,可以用科學的方法研究,思維科學是可以成立的,并撰寫了著名的《關于思維科學》一文[1],文中指出:從廣泛的意義上講,思維當然有規(guī)律,因為思維也是一種客觀現(xiàn)象,而一切客觀的東西及其運動都有自己的規(guī)律,思維當然也不例外.可以先從思維是人的中樞神經系統(tǒng),特別是大腦受外界各種刺激而引起的這一點看.外界各種刺激又是客觀世界變化和運動的產物,這些變化和運動是遵循客觀世界規(guī)律的,即自然界的和社會的規(guī)律,所以外界各種刺激也是有自己的規(guī)律,而不是無緣無故無章可循的.這樣,人的中樞神經系統(tǒng)大腦的活動也就當然要有規(guī)律,人的思維要有規(guī)律.思維科學只研究思維的規(guī)律和方法.
錢學森進一步指出“思維”可以分成抽象(邏輯)思維、形象(直感)思維和靈感(頓悟)思維3個部分.特別強調要在“形象思維”研究方面有所突破.錢學森先生還認為計算機模擬對研究人的思維有重要的啟發(fā),計算機模擬技術是研究思維的有效工具.
錢學森先生的思維科學也得到了人工智能之父、諾貝爾經濟學獎和計算機圖靈獎獲得者司馬賀(Herbet Simon)的高度關注,他寫信給錢學森,希望能和錢學森直接探討思維科學的問題,并認為可以和錢學森共同樹立一面旗幟.可惜由于各種原因,兩位東西方科學大師沒有能夠直接對話.
錢學森認為,思維科學的研究將孕育新的科學革命,另一方面,思維科學的研究又會推動智能機的發(fā)展,肯定又將是一場技術革命.
當時用思維科學的理論來分析日本的第五代計算機計劃,就認識到這是一個失敗的計劃,因為它的架構中沒有模擬形象思維的功能.
思維科學開辟了新的正確的智能研究方向,是發(fā)展智能機的理論基礎.把錢學森思維科學的思想深入發(fā)展成科學的理論和實現(xiàn),寫了《論思維與模擬智能》一文[2],建立了一個思維的結構模型,詳細描述了形象思維、邏輯思維和其對應的存儲、運算之間的關系,更進一步實現(xiàn)了形象思維的聯(lián)想記憶數(shù)學模型和人工神經元網絡的模擬[3].錢學森和我們進行深入探討并對我們的工作給出很高的期望[4].
對于思維科學的進一步探討,錢學森在1989年8月24日給的信中指出[5]:“作為物質系統(tǒng)如何形容人腦?認為應該用系統(tǒng)學的概念,人腦是由幾萬億腦細胞組成的開放復雜巨系統(tǒng)”.錢學森在20世紀90年代初進一步發(fā)展為開放復雜巨系統(tǒng)理論[6],認為開放的復雜巨系統(tǒng)的主要性質可以概括為:
a.開放性——系統(tǒng)對象及其子系統(tǒng)與環(huán)境之間有物質、能量、信息的交換;
b.復雜性——系統(tǒng)中子系統(tǒng)的種類繁多,子系統(tǒng)之間存在多種形式、多種層次的交互作用;
c.進化與涌現(xiàn)性——系統(tǒng)中子系統(tǒng)或基本單元之間的交互作用,從整體上演化、進化出一些獨特的、新的性質,如通過自組織方式形成某種模式;
d.層次性——系統(tǒng)部件與功能上具有層次關系;
e.巨量性——數(shù)目極其巨大.互聯(lián)網正是一個“開放的復雜智能巨系統(tǒng)”: a.巨量性——已經擁有數(shù)千億的網頁,數(shù)十億的網民,數(shù)億的關鍵詞概念;
b.復雜性——互聯(lián)網包括各種不同的系統(tǒng),不同的行業(yè),不同的功用;
c.開放性——用戶系統(tǒng)、網頁系統(tǒng)之間總是在互相作用,交換信息;
d.進化與涌現(xiàn)性——這些元素又互相關聯(lián),這些元素之間關系也是不斷變化的,人的參與更把這些元素組織成有意義的模式;
e.層次性——概念之間不僅相關,而且有各種層次,網頁也包含許多層次.
錢學森在1989年8月24日的信中還指出[6]:“搞模擬智能的起步該在什么地方,如何從人機結合一步一步的提高?”1991年4月18日更明確指出:“智能系統(tǒng)是非常重要的,是國家大事,關系到下一世紀我們國家的地位.如果在這個問題上有所突破,將有深遠的影響.要研究的問題不是智能機,而是人與機器相結合的智能系統(tǒng).不能把人排除在外,應是一個人-機智能系統(tǒng).”
錢學森的大成智慧思想是把人的思維、思維的成果、人的知識、經驗和智慧以及各種情報、資料、信息集成起來[7].顧名思義,稱為“大成智慧工程(Metasynthetic Engineering)”.構思是把今天世界上千百萬人的聰明才智和智慧都綜合起來.
這樣則把智能的研究的方向從人工地模擬智能的功能轉變?yōu)檠芯咳说闹悄茉?從個體轉變?yōu)樯鐣闹腔?從簡單算法到復雜巨系統(tǒng),從以機器為主到以人為主、人-機結合的的智能系統(tǒng).
計算機的發(fā)明給人類帶來了信息技術和信息革命,互聯(lián)網的發(fā)展將信息革命推向新的高潮,信息存儲、運算和通訊能力都成指數(shù)性增長,人們同時也面臨許多垃圾、有害、虛假等信息,現(xiàn)有的信息技術已使人無法有效使用已有的信息,信息技術革命已到了尾聲.
以信息檢索理論為原理的搜索引擎是目前主要的信息尋找方法,它主要是通過網絡蜘蛛盡可能搜集互聯(lián)網網頁,然后用超鏈分析等方法給出網頁排名,再用關鍵詞來索引所有的網頁,最后對用戶輸入的關鍵詞,搜索引擎從索引數(shù)據(jù)庫中找到匹配該關鍵詞的網頁提供給用戶.搜索引擎通常能夠涵蓋非常大的互聯(lián)網范圍,但是經常返回大量的低質量網頁.盡管過去幾年里在搜索引擎技術和系統(tǒng)上有許多改進,但是人們搜索網上信息時還經常有很大的挫折感,很多時候,想要的信息不能夠找到或者需要花很多時間才能找到,給出的網頁的數(shù)量通常也很大,并且只能夠給那些它包含搜索詞的網頁.另外,現(xiàn)在的搜索引擎對所有的人幾乎給出同樣的搜索結果.雖然過去十年互聯(lián)網發(fā)生巨大的變化,但搜索引擎還是和十年前幾乎相同.
近幾年,終端設備如智能手機、平板電腦和電子書等迅猛發(fā)展,特點是小屏幕、移動、聯(lián)網和個性化.通訊、計算機和媒體的結合越來越密切.
在后臺,云計算是計算平臺的革命,通過Hadoop開放平臺實現(xiàn)的Map/Reduce算法,可以用數(shù)萬臺機器來完成一項工作,幾乎有無限的計算、存儲和通訊能力.并且Amazon AWS等提供了硬件服務.可以以低價格、迅速、靈活地租用.在內容方面,用戶產生的內容急劇增加:如博客、微搏、社交網絡等.視頻、圖象等多媒體內容也越來越重要.
互聯(lián)網的用戶大規(guī)模增加,中國已有4億多互聯(lián)網用戶和將近4億移動互聯(lián)網用戶.
而這些技術浪潮還主要是硬件和環(huán)境的改變,需要通過一個新的系統(tǒng)才能把這些資源有機地整合起來,最大發(fā)揮新技術的潛力,從而轉化為新的技術革命.錢學森的思想和理論正是這場新技術革命的核心和基礎,而這些新的計算、設備、通訊、互聯(lián)網和媒體的新發(fā)展也為實現(xiàn)錢學森的大成智慧工程提供了必要的條件.
21世紀伊始,我們認識到錢學森的思維、智慧科學思想和理論正是新一代語義智能搜索引擎的理論基礎,新一代搜索引擎就是智能計算機[8].其目標是要建立類似人的世界知識庫,從而可以提供基于知識的搜索,或者說是知識引擎.只有像人一樣,理解所有的信息,將巨大的信息轉變成有用的知識,才能最好的利用信息,這將開啟從信息技術向知識技術的巨大轉變,從以數(shù)據(jù)為中心向以人為中心的轉變.就探索這些技術的實現(xiàn),克服算法和工程方面許多難題.
那么信息和知識之間的主要區(qū)別是什么呢?表1列出了信息與知識的比較.
表1 信息與知識的比較Tab.1 The comparisons of information and knowledge
人工生成的知識系統(tǒng),如維基百科、網頁目錄等等很好建立,但這些系統(tǒng)盡管參與者眾多但容納的詞條到底有限,只有區(qū)區(qū)幾百萬條.目前國際上語義搜索引擎還是處在概念化階段,其它的語義搜索引擎如 Wolfram Alpha、Hakia、Powerset、Maholo等只能在較少的領域或較小范圍內搜索.最近,Freebase和DBpedia已經把大量的網上信息結構化,從而建立關鍵詞之間的可以用語言描述的關系,我們則用算法計算出關鍵詞之間的聯(lián)系的數(shù)字強度關系,從而可以對知識庫的結果進行排序,兩者結合起來則可提供用戶搜索更精確的、更直接的答案.目前,DBpedia知識庫已經建立了關于290萬事物的4億8千萬條信息.這樣關于這些上百萬的事物的上億的詢問,就可以給出直接答案.對中文的這樣詳細描述關鍵詞之間關系的知識庫,還需要建立.
我們的目標是建立任何事物的知識庫,從而可以對大部分的搜索,都可以給出直接答案.那么,怎樣建立一個這樣的人工的開放復雜巨系統(tǒng)?需要應用錢學森的人機共建的綜合集成理論.目前,互聯(lián)網提供了實現(xiàn)大成智慧的幾乎所有必要的條件,網上有幾乎人類所有的知識、數(shù)據(jù)、資料、信息和巨大的用戶,但是都是分散的、無組織的,我們則可以把這些同各種算法、系統(tǒng)、技術和設備集成起來,運用云計算的巨大能力,構建一個海量的知識庫和智慧平臺,從而可以提供各樣的智慧服務.圖1顯示建立海量的知識庫的綜合集成方法.
圖1 建立海量世界知識庫的綜合集成方法Fig.1 Metasynthesis method for building massive world's knowlege system
4.2.1 集成信息、數(shù)據(jù)和系統(tǒng)
首先可以從大量的互聯(lián)網頁中抽取有用的、結構化的信息,對所有的網頁都可抽取重要的鏈接、關鍵詞信息,對某些特殊的領域和主要的網站,則可抽取更加精確和結構化的信息,如地址、電話、電影、圖書、生日等.這樣就可把網上的信息轉化為知識,這些知識使得智能搜索可以回答一些經過推理、綜合才能回答的問題,如一個人的年齡,某個市的主要醫(yī)生等問題.這些問題是傳統(tǒng)的搜索引擎所不能解決的.
互聯(lián)網上還有許多公司的專業(yè)知識庫和數(shù)據(jù),如天氣、股票、旅游等,我們則可把這些數(shù)據(jù)和系統(tǒng)直接集成到建立的智慧平臺里.
4.2.2 集成人的智慧
人腦也是一個復雜巨系統(tǒng),有超過100億神經細胞,云計算技術的發(fā)展可建立一個人工的這樣大規(guī)模的復雜巨系統(tǒng),如果每臺服務器可以處理100萬單元的信息,那么1萬臺務器組成的云計算則可以處理100億單元的信息,相當于人腦的運算能力,因此云計算可使有和人腦同等量級的運算能力.因此,今天能夠在技術上實現(xiàn)開放復雜巨系統(tǒng),這為進一步定量研究開放復雜巨系統(tǒng)理論提供了實驗基礎.同時通過模擬也是了解、認識復雜巨系統(tǒng)一個重要途徑.
人使用互聯(lián)網行為如搜索的詞、點擊的網頁、瀏覽的網頁等包含了大量信息,可以用算法處理和分析,從而得到集體的智慧,其結果可以用于內容、關鍵詞推薦等.對個人的行為分析、處理則可為每個用戶建立知識庫,提供個性化的服務和搜索.例如統(tǒng)計所有人搜索詞的頻率和個人搜索詞的頻率,則可用于建立高效的、個性化的輸入法.
數(shù)億用戶的直接輸入是知識庫的重要來源,象百科、復雜問題解答、博客等已經是互聯(lián)網重要內容來源,用戶的知識是用人的智能解決精確的問題和復雜問題.目前這些信息還不是結構化的信息,我們則可以設計結構化的界面,從而得到結構化的信息,則可以使用戶輸入的信息的搜索和使用的功效大大增加.
數(shù)億互聯(lián)網用戶也可以看作巨大計算和智力資源,雖然每個人運算速度不快、記憶有限,但是幾億的用戶的計算量積聚起來可以是巨量的,像圖像識別、語音識別、機器翻譯、復雜問題回答等,機器是無法和人相比的.因此,這是一個以人為主,人-機結合的系統(tǒng).
機器是要把所有人的智慧綜合集成起來、把其潛力發(fā)掘出來.
4.2.3 集成自然語言處理
機器算法可以處理上萬億條詞目,自動產生知識.到目前為止,人工生成的知識庫與機器生成知識庫之間主要的區(qū)別在于后者不如前者精確.自然語言處理最終可以用機器把大部分網頁里的文字信息轉化為知識.這還需要相當長的時間研究才能實現(xiàn),但是我們可以一步一步的來實現(xiàn)這個目標,先理解一些簡單的問題,抽取一部分知識豐富知識庫,或對一些特定的領域處理,逐步擴大到多較復雜的問題和多領域.另外通過海量知識庫提高對網頁自然語言理解的能力,從而抽取更多的知識豐富知識庫.
4.2.4 集成數(shù)據(jù)挖掘結果
互聯(lián)網上早就產生海量數(shù)據(jù),但是幾年前,分析和處理海量數(shù)據(jù)是一個巨大的工程,往往要耗費數(shù)十人,數(shù)個月甚至一、兩年時間.研究數(shù)據(jù)挖掘算法大部分時間是用在產生數(shù)據(jù)上.云計算提供了方便、快速處理海量數(shù)據(jù)的平臺.可把產生數(shù)據(jù)的時間從幾個月縮小到幾天、甚至幾個小時,這是繼個人計算機后計算平臺的一次革命.
海量數(shù)據(jù)還使得許多過去算法如機器翻譯、圖象分類、自然語言處理等都會有新的方法和結果的突破,把過去一些規(guī)則、學習和分析的方法變?yōu)楹A繕颖镜乃阉骱捅葘?
怎樣從海量數(shù)據(jù)中用數(shù)據(jù)挖掘算法產生知識、自動產生分類、聚類等結果?互聯(lián)網數(shù)據(jù)有以下特點:
特點1 數(shù)億至數(shù)萬億條以上信息,如個人行為信息、網頁信息、關鍵詞信息等.
特點2 數(shù)據(jù)特征維數(shù)可達百萬以上,如對文本,如果每個關鍵詞都可看作一個特征.數(shù)據(jù)非常稀疏.
特點3 可以來自多個數(shù)據(jù)源,如人行為數(shù)據(jù)有:搜索詞、瀏覽的網頁、看到和點擊的廣告、購買的產品等.
因為數(shù)據(jù)挖掘一般都是非常大的工程項目,并且有很重要的商業(yè)目標,涉及許多人和各種資源,即使是在工業(yè)界,成功的也是很少.數(shù)據(jù)挖掘項目的成功取決于如下重要因素:
因素1 選擇數(shù)據(jù).因為現(xiàn)代信息技術可以產生巨量的數(shù)據(jù),有不同的數(shù)據(jù)源,但是要用什么樣的數(shù)據(jù)參與挖掘?數(shù)據(jù)與目標的相關性如何?成本如何?有時數(shù)據(jù)量巨大但含的有效信息較少,有時數(shù)據(jù)極為有效但量太少.怎樣取舍?需要事先有定性的分析和判斷,這往往需要很多數(shù)據(jù)挖掘的經驗和專業(yè)知識的經驗.同時也需要先用少量數(shù)據(jù)進行分析和驗證大的設想.
因素2 探索數(shù)據(jù).當選擇好要用的數(shù)據(jù)后,還需對數(shù)據(jù)本身進行認真仔細觀察、分析、探索、統(tǒng)計結果和每一特征的分布等,研究數(shù)據(jù)的可靠性和穩(wěn)定性等,及早發(fā)現(xiàn)數(shù)據(jù)可能存在的問題.并且數(shù)據(jù)還需要進行變換以符合算法的要求.從數(shù)據(jù)中發(fā)現(xiàn)新的思想.
因素3 產生訓練樣本.需要從海量數(shù)據(jù)中選擇一定量的學習數(shù)據(jù)和評價數(shù)據(jù)的進行建模,選擇多少和選擇哪些樣本數(shù)據(jù)對模型的結果有很大影響.
因素4 運用算法.通常各種數(shù)據(jù)挖掘的算法得出的結果差別并不是特別大,對許多實際問題,結果如能滿足客戶的主要要求,我們主張盡可能用簡單的算法,如線性回歸算法(Linear Regression)或Logistic Regression,KNN,神經元網絡算法等.
因素5 熟悉運算和系統(tǒng)平臺.要了解云運算Hadoop平臺和其他的相關的系統(tǒng),才能有效地產生數(shù)據(jù),把訓練好的模型集成到實際運行的系統(tǒng)中,要考慮和實現(xiàn)運算速度、系統(tǒng)集成等要求.
因素6 了解市場需求.另外,還需了解市場的實際效果和需求,不斷改進,設計和開發(fā)新一代產品.
通過各種方法產生海量知識后,還需要對這些知識有效地管理,主要有以下幾個方面:
a.知識的更新.對從網頁中抽取的知識要跟據(jù)網頁內容變化的頻率自動下載更新.對數(shù)據(jù)挖掘算法和自然語言處理算法產生的知識要根據(jù)需要每個星期或每天運行算法.也可以設置界面讓用戶直接更新.
b.知識的排序.為了能夠對海量的知識有效地查尋,需要進行排序,對每條知識根據(jù)其來源、用戶關注度、搜索頻率以及內容的大小等打分,將來也可通過學習算法打分.根據(jù)分數(shù)可對搜索結果進行排序.
c.知識的歧義和同義.對一個名稱可能有不同的含義,如蘋果可以是公司或水果,同一人名可以是不同的人.另外,對于同一內容也可以有不同的名稱,如北大和北京大學多是指同一內容.
d.知識推理.綜合多條知識或數(shù)據(jù)根據(jù)一定的規(guī)則、科學公式或訓練的數(shù)學模型給出結果,如從生日給出年齡,數(shù)學運算.
當建立了這樣的海量知識庫和智慧平臺后,就可以用于不同的方面如圖2所示,首先可以提供快速而準確的語義智能搜索服務.并且可以自動產生數(shù)億的高質量的內容.也可以進行自動內容分析,并最終實現(xiàn)人機自然對話.
由于在云計算的平臺上實現(xiàn)優(yōu)質的服務,有足夠的存儲空間、計算能力和網路帶寬滿足系統(tǒng)的需要,因為云計算是根據(jù)實際的用量來收費,這也大大降低了費用.
圖2 海量知識庫和智慧平臺的各種應用Fig.2 Applications of massive world's knowledge and intellgence platform
可以看到,錢學森晚年的思維科學、開放復雜巨系統(tǒng)、人機共建的智能系統(tǒng)和綜和集成的大成智慧等研究對人工智能、計算機科學、信息科學等的新發(fā)展有著奠基性的指導意義,是中國第一次在重大科學問題上領先突破.目前互聯(lián)網終端和云計算技術的發(fā)展終于可以實現(xiàn)他的這些的理論和思想,建立海量的知識庫和智慧平臺.這將是一個用云計算集成幾十億終端、和幾乎所有人類信息和數(shù)據(jù)以及幾十億的網民行為和智慧的開放復雜的海量系統(tǒng),從而帶來從信息到知識的技術革命.錢學森的研究將對人類的思想、科學和技術作出偉大的貢獻.
[1] 錢學森.關于思維科學[M].上海:上海人民出版社,1986.
[2] 尹紅風,戴汝為.論思維及模擬智能[J].計算機研究與發(fā)展,1990(4):1-16.
[3] 尹紅風,戴汝為.一種聯(lián)想記憶模型及附加節(jié)點方法[J].計算機學報,1990,13(5):331-340.
[4] 錢學森.致戴汝為——1989年5月14日[M]//涂元季.錢學森書信(4).北京:國防工業(yè)出版社,2010: 484-487.
[5] 錢學森.致戴汝為——1989年8月24日[M]//涂元季.錢學森書信(5).北京:國防工業(yè)出版社,2010: 23-26.
[6] 錢學森,于景元,戴汝為.一個科學新領域——開放的復雜巨系統(tǒng)及其方法論[J].自然雜志,1990(1): 1-10.
[7] 戴汝為.錢學森論大成智慧工程[J].中國工程科學, 2001,3(2):14-20.
[8] 戴汝為,尹紅風.從思維科學到知識技術革命[N].科學時報,2009-12-29(A2).