劉瀏+王東波+黃水清
摘 要:人工智能是近年來異?;馃岬脑掝},其對(duì)世界的影響和改變已經(jīng)隨處可見,這其中機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)發(fā)揮著至關(guān)重要的作用。文章梳理了人工智能的發(fā)展脈絡(luò),闡述了機(jī)器學(xué)習(xí)在人工智能中所處的地位,對(duì)機(jī)器學(xué)習(xí)中重要和常見的模型和算法進(jìn)行了簡(jiǎn)要介紹,其中包括近年最為重要的深度學(xué)習(xí)。人工智能的熱潮對(duì)于圖書情報(bào)來說是一個(gè)極佳的發(fā)展契機(jī),文章也從多個(gè)角度分析了機(jī)器學(xué)習(xí)對(duì)圖書情報(bào)學(xué)科產(chǎn)生的影響,展望了兩者充分結(jié)合的發(fā)展前景和未來趨勢(shì),并以古文信息處理為例進(jìn)一步闡述了機(jī)器學(xué)習(xí)方法在圖書情報(bào)學(xué)研究中發(fā)揮的作用。
關(guān)鍵詞:人工智能;機(jī)器學(xué)習(xí);深度學(xué)習(xí);圖書館學(xué);情報(bào)學(xué);古文信息處理
中圖分類號(hào):TP18;G250 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.11968/tsyqb.1003-6938.2017118
Abstract Artificial Intelligence is one of the most popular topics lately and it has been changing the way of our life. Machine learning is playing the most important role in all these effects. This study introduced the development of AI along with machine learning, deep learning and most of their models and methods. It is truly a great chance for LIS to catch up with such a wave of AI. The promising future of LIS topics with machine learning methods is widely analyzed and the ancient Chinese information processing is discussed as an example at last.
Key words artificial intelligence; machine learning; deep learning; science of library; science of information; information processing of Ancient Chinese
1 引言
近年來,深度學(xué)習(xí)獲得了革命式的發(fā)展,在圖像視頻處理、語音識(shí)別、自然語言處理等領(lǐng)域的諸多研究問題中均取得了突破和成功[1]。這些發(fā)展對(duì)人類的生產(chǎn)生活產(chǎn)生了深遠(yuǎn)的影響,小到不易察覺的語音助手(如蘋果的Siri、微軟的Cortana等),大到萬眾矚目的AlphaGo,人工智能這一專業(yè)性極強(qiáng)的研究課題成為人們茶余飯后的時(shí)髦話題,整個(gè)社會(huì)都在熱切展望這次人工智能的“第三次浪潮”。以機(jī)器學(xué)習(xí)為主的人工智能的迅猛發(fā)展對(duì)圖書情報(bào)領(lǐng)域的影響也是深刻的,尤其是大數(shù)據(jù)時(shí)代下,文獻(xiàn)、信息、數(shù)據(jù)呈爆發(fā)式增長(zhǎng),這使得傳統(tǒng)的以個(gè)案、抽樣為主的研究方法越來越難于獲得可靠的結(jié)論,而機(jī)器學(xué)習(xí)方法憑借其在處理海量數(shù)據(jù)方面的先天優(yōu)勢(shì)以及不斷提高的性能和效果,可以在圖書情報(bào)學(xué)的未來發(fā)展中發(fā)揮重要作用。
2 人工智能的發(fā)展歷程
簡(jiǎn)單地說,人工智能(Artificial Intelligence,AI)的目標(biāo)就是制造出智能體(Intelligent Entities或Intelligent Agents),智能體能夠感知周圍環(huán)境,并做出能夠使其目標(biāo)的成功率最大的行動(dòng)[2]。
2.1 誕生前的發(fā)展
人類對(duì)于制造出智能機(jī)器人的想法早已有之,但人工智能作為一個(gè)正式的學(xué)科卻十分年輕,最早的相關(guān)研究始于1943年,如McCulloch和Pitts[3]對(duì)于神經(jīng)元網(wǎng)絡(luò)的邏輯計(jì)算能力的研究,被公認(rèn)為現(xiàn)代人工智能領(lǐng)域最早的經(jīng)典研究。這一時(shí)期人工智能研究的桂冠屬于阿蘭·圖靈,其發(fā)表的《計(jì)算機(jī)器與智能》[4]一文堪稱杰作,其中最著名的就是“圖靈測(cè)試”。圖靈測(cè)試為人工智能帶來的突破在于,研究者可以暫時(shí)不再深究人類的智能是什么,直接從行為主義的角度探索智能的機(jī)器,看哪些機(jī)器表現(xiàn)得像是具備智能。這在人工智能領(lǐng)域掀起一波浪潮,通過圖靈測(cè)試成為人工智能研究者的目標(biāo)。其后也有大量研究提出對(duì)其的批判或改進(jìn),其中最著名的要數(shù)塞爾的“中文屋”假設(shè)[5],但是圖靈測(cè)試的影響力至今仍未衰減。
2.2 早期發(fā)展的樂觀
一般認(rèn)為,1956年在達(dá)特茅斯學(xué)院舉辦的人工智能研討會(huì)標(biāo)志的人工智能的誕生,這是“人工智能(Artificial Intelligence)”一詞第一次在正式場(chǎng)合被使用。在該會(huì)議上Newell和Simon提出的一個(gè)推理程序——邏輯理論家(Logic Theorist,LT)得到了最多的關(guān)注,該程序已經(jīng)具備了推理能力,并在其后證明了羅素和懷特海的《數(shù)學(xué)原理》第二章中的38個(gè)定理(共52個(gè))[6-7]。達(dá)特茅斯會(huì)議的重要性在于宣告人工智能成為了獨(dú)立的學(xué)科。
人工智能前二十年的發(fā)展十分火熱,其中最為常見的就是推理問題,如Newell等在LT基礎(chǔ)上設(shè)計(jì)的通用問題解決程序[8];Gelernter設(shè)計(jì)的幾何定理證明程序[9],其他類似的還有如問題回答和計(jì)劃系統(tǒng)[10],基于分解法則的一階邏輯定理證明算法[11]等,著名的跳棋程序[12]也是在這樣的背景下提出的。達(dá)特茅斯會(huì)議的發(fā)起者M(jìn)cCarthy在這一時(shí)期對(duì)人工智能的發(fā)展做出了突出的貢獻(xiàn),首先他提出的Lisp編程語言和分時(shí)操作對(duì)計(jì)算機(jī)發(fā)展產(chǎn)生了深遠(yuǎn)的影響。此外,他還設(shè)計(jì)了一個(gè)叫意見采納者的程序[13],具備獲取知識(shí)的能力。與此同時(shí),由Minsky帶領(lǐng)的一批學(xué)者致力于研究在“微世界”中的人工智能,其中最有影響力的要數(shù)“積木世界(blocks world)”,視覺問題[14]、學(xué)習(xí)問題[15]、自然語言理解[16]等一系列與該世界相關(guān)的問題得到關(guān)注。在同一時(shí)期,Rosenblatt對(duì)感知器相關(guān)的一系列研究[17,1],也將神經(jīng)網(wǎng)絡(luò)研究推向新的高度。endprint
2.3 中期發(fā)展的徘徊
早期人工智能的大量成功嘗試給學(xué)界帶來了一股樂觀的氣氛,然而“美好”的愿景沒有如期而至。對(duì)困難的預(yù)計(jì)不足,使得人們對(duì)人工智能的發(fā)展瓶頸缺乏準(zhǔn)備,以至于在諸多等問題上遲遲難以突破,在耗盡了政府的耐心和研究資金后,人工智能于1970年代初期墮入寒冬(AI winter)之中[2]。到了1970年代后半期,人工智能專家將目光轉(zhuǎn)向了領(lǐng)域知識(shí)(domain knowledge)問題,如記憶的組織[19]、計(jì)劃的理解等[20]。這一始于化學(xué)中分子結(jié)構(gòu)判定問題[21]的研究模式,在自然語言理解上也得到了成功的應(yīng)用[22]。
在1980年代初,專家系統(tǒng)[23]在商業(yè)上的成功,使得人工智能獲得了新生。日本在同一時(shí)期建造“第五代計(jì)算機(jī)”的計(jì)劃,刺激了美英等國(guó)對(duì)人工智能新的投入,短時(shí)間內(nèi)人工智能又一次呈現(xiàn)出繁榮的景象。在神經(jīng)網(wǎng)絡(luò)方面,反向傳播算法重新得到嘗試,獲得了廣泛的關(guān)注[24],隨之興起的聯(lián)結(jié)主義(connectionist)方法開始經(jīng)典的符號(hào)主義和邏輯主義方法分庭抗禮[25]。然而,產(chǎn)業(yè)上過高的期望并沒有帶來相應(yīng)的成果,人工智能迅速又陷入低潮。
2.4 機(jī)器學(xué)習(xí)的新熱潮
到了1990年代以后,隨著計(jì)算機(jī)性能的不斷提高,人工智能又迎來了一次深刻的轉(zhuǎn)變,有數(shù)學(xué)依據(jù)的統(tǒng)計(jì)模型、大規(guī)模的訓(xùn)練語料、可重復(fù)的測(cè)試語料,這種在語音識(shí)別和機(jī)器翻譯等領(lǐng)域的頗受歡迎的研究模式,這種融合了統(tǒng)計(jì)學(xué)、數(shù)學(xué)、信息論等各種領(lǐng)域知識(shí)的機(jī)器學(xué)習(xí)方法,逐漸成為主流,這使得人工智能真正成為一門嚴(yán)謹(jǐn)?shù)?、可靠的科學(xué)[2]。隨著隱馬爾可夫模型、神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)等各種模型方法的不斷引入,機(jī)器學(xué)習(xí)方法的發(fā)展越發(fā)迅猛,尤其在模式識(shí)別、自然語言處理、數(shù)據(jù)挖掘等領(lǐng)域,更是成為中流砥柱。如今,以神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ)的深度學(xué)習(xí)方法,正在引領(lǐng)新一輪的人工智能熱潮,無數(shù)以機(jī)器學(xué)習(xí)為基礎(chǔ)的應(yīng)用和產(chǎn)品正在以顯著或悄然的方式改變著人類的生活,改變著全世界。
近年來話題度最高的人工智能應(yīng)用非AlphaGo莫屬,這個(gè)“圍棋機(jī)器人”在接連戰(zhàn)勝了李世石、柯潔等世界圍棋冠軍后,使得人工智能的話題傳遍大街小巷。實(shí)際上,AlphaGo就是一個(gè)機(jī)器學(xué)習(xí)的應(yīng)用,其采用了最新的深度學(xué)習(xí)模型,從數(shù)以萬計(jì)的圍棋訓(xùn)練數(shù)據(jù)中“學(xué)習(xí)”了如何下圍棋。類似的機(jī)器學(xué)習(xí)應(yīng)用還有很多,如蘋果、微軟、谷歌等公司開發(fā)的各類語音助手,得益于近年來興起的LSTM-RNN模型,谷歌的語音搜索、訊飛輸入法等語音輸入工具也是基于同樣的技術(shù)完成的。另一個(gè)應(yīng)用就是人臉識(shí)別技術(shù),這其中卷積神經(jīng)網(wǎng)絡(luò)模型扮演了最重要的角色,使得機(jī)器能夠?qū)W習(xí)到人臉的特征,從而對(duì)不同的人臉進(jìn)行判別。除此之外,自動(dòng)翻譯工具如谷歌翻譯等,也得益于機(jī)器學(xué)習(xí)在機(jī)器翻譯中取得的長(zhǎng)足進(jìn)展。
機(jī)器學(xué)習(xí)正在而且將持續(xù)地改變?nèi)祟悓?duì)世界的認(rèn)識(shí),對(duì)于不論什么領(lǐng)域的研究者來說,了解、理解甚至跟隨這樣的發(fā)展趨勢(shì),對(duì)于研究者的成長(zhǎng),對(duì)于學(xué)科的發(fā)展,都是有利的。圖書情報(bào)學(xué)這個(gè)與信息科學(xué)、計(jì)算機(jī)科學(xué)密切相關(guān)的學(xué)科,也理應(yīng)積極迎接這樣的發(fā)展潮流。用最新的機(jī)器學(xué)習(xí)的技術(shù)拓展自身的研究視野和研究跨度,將為學(xué)科帶來值得期待的新發(fā)展。
3 機(jī)器學(xué)習(xí)概覽
機(jī)器學(xué)習(xí)(統(tǒng)計(jì)學(xué)習(xí)、統(tǒng)計(jì)機(jī)器學(xué)習(xí))是人工智能的一個(gè)重要分支,這種方法主要是一個(gè)根據(jù)已有數(shù)據(jù)建立數(shù)學(xué)模型,并根據(jù)模型對(duì)新的數(shù)據(jù)進(jìn)行預(yù)測(cè)的過程[26]。而所謂的學(xué)習(xí),就是計(jì)算機(jī)從數(shù)據(jù)中產(chǎn)生模型的過程[27]。隨著機(jī)器學(xué)習(xí)的深入發(fā)展,訓(xùn)練集、模型和測(cè)試集三者構(gòu)成了一種較為固定的研究范式,相關(guān)研究或是構(gòu)建特征豐富的大規(guī)模訓(xùn)練集、測(cè)試集以提高已有模型效果或供以比較不同的模型,或者是調(diào)整或改進(jìn)已有模型以期在原有訓(xùn)練集和測(cè)試集上獲得更好的效果,而不同研究的效果一般通過正確率、召回率和調(diào)和平均值(F值)來比較。這種研究范式的優(yōu)勢(shì)在于,可以比較清晰直觀地比較出各種模型之間的優(yōu)劣,而這也使得研究者不斷致力于提高模型的性能,使其在特定測(cè)試集上獲得越來越好的效果。由于這種優(yōu)勢(shì),機(jī)器學(xué)習(xí)不斷保持著迅猛發(fā)展的態(tài)勢(shì),且隨著計(jì)算機(jī)性能的不斷提高,數(shù)據(jù)集不斷變大,機(jī)器學(xué)習(xí)的效果也越來越好。尤其是以神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ)的深度學(xué)習(xí),在近年來獲得了突破性的成功,使得機(jī)器學(xué)習(xí)成為人工智能中最炙手可熱的研究領(lǐng)域。
3.1 監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)
機(jī)器學(xué)習(xí)根據(jù)不同的任務(wù)需求可以大致分為兩大類:監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。(1)在監(jiān)督學(xué)習(xí)中,會(huì)先對(duì)訓(xùn)練集(輸入集)進(jìn)行一定程度的標(biāo)注得到相應(yīng)的輸出集,所謂標(biāo)注就是指人工構(gòu)建一個(gè)機(jī)器學(xué)習(xí)的“標(biāo)準(zhǔn)答案”,此時(shí)計(jì)算機(jī)從輸入集和輸出集之間的關(guān)系中學(xué)習(xí)得到相應(yīng)的模型,之后就可以根據(jù)模型來對(duì)新出現(xiàn)的類似問題進(jìn)行預(yù)測(cè)。根據(jù)輸出集中數(shù)據(jù)的離散或連續(xù)的特點(diǎn),監(jiān)督學(xué)習(xí)還可以細(xì)分為分類和回歸兩種;(2)對(duì)于無監(jiān)督學(xué)習(xí)來說,訓(xùn)練集沒有經(jīng)過任何標(biāo)注,計(jì)算機(jī)要自動(dòng)地從數(shù)據(jù)中挖掘出所需要的結(jié)果。與監(jiān)督學(xué)習(xí)中的分類相對(duì)應(yīng)的就是無監(jiān)督學(xué)習(xí)中的聚類,兩者之間的區(qū)別在于分類任務(wù)在計(jì)算機(jī)學(xué)習(xí)之前已有預(yù)先定義好的類別,而聚類任務(wù)沒有預(yù)先定義的類別,需要根據(jù)數(shù)據(jù)的特點(diǎn)自行決定類別和類別數(shù)量,并進(jìn)行相應(yīng)的分類。
3.2 樸素貝葉斯分類器
樸素貝葉斯分類器(Naive Bayes classifier)是機(jī)器學(xué)習(xí)中最經(jīng)典、最簡(jiǎn)單的統(tǒng)計(jì)分類模型[28]。該模型以貝葉斯公式為基礎(chǔ),根據(jù)某類別條件下每個(gè)特征的條件概率和每個(gè)類別的先驗(yàn)概率,來求得某些特征條件下每個(gè)類別的條件概率,條件概率最大的類別就是模型所得的類別,以此來完成分類的任務(wù)。樸素貝葉斯的“樸素”之處在于,其假定不同特征之間相互獨(dú)立,這也使得該模型特別適用于文本分類這樣的問題[29]。
3.3 決策樹
決策樹模型是一種用樹形結(jié)構(gòu)構(gòu)造的分類模型。一個(gè)決策樹由結(jié)點(diǎn)和有向邊構(gòu)成,分類時(shí)在決策樹上的每一個(gè)內(nèi)部結(jié)點(diǎn)上進(jìn)行判斷,判斷的結(jié)果得到一個(gè)子結(jié)點(diǎn),直到到達(dá)一個(gè)葉子節(jié)點(diǎn),完成分類的任務(wù)[30-31]。決策樹處理分類問題時(shí),如果預(yù)測(cè)的結(jié)果都是離散的,此時(shí)也可以稱為分類樹,而當(dāng)預(yù)測(cè)的結(jié)果是連續(xù)的,決策樹又可以化作回歸樹,而與之對(duì)應(yīng)的分類與回歸樹模型[32]是應(yīng)用最為廣泛的決策樹模型。endprint
3.4 最大熵模型
最大熵模型是自然語言處理中最常見的模型之一,常用來處理序列化標(biāo)注的問題[33]。該模型以最大熵原理為基礎(chǔ),認(rèn)為滿足一定約束條件的前提下,熵最大的模型是最好的模型。最大熵原理最早由Jaynes于1957年提出[34-35],其要求模型先滿足一定的約束條件,這些約束條件與特征密切相關(guān)。特征一般用特征函數(shù)的方式來表示,而特征函數(shù)的定義可以根據(jù)問題的需求自由地增加或者減少,這也是最大熵模型的一大優(yōu)勢(shì)。最大熵模型的學(xué)習(xí)過程,是根據(jù)訓(xùn)練語料對(duì)模型進(jìn)行極大似然估計(jì)。最常見的優(yōu)化算法有GIS算法[36]、改進(jìn)的迭代尺度法[37]和擬牛頓法中的L-BFGS方法[38]等。最大熵模型在詞性標(biāo)注[39]、命名實(shí)體識(shí)別[40]、信息抽取[41]等問題上均有著較好的表現(xiàn)。
3.5 隱馬爾可夫模型
隱馬爾可夫模型是一種最經(jīng)典的統(tǒng)計(jì)模型[42-44]。在自然語言處理中,隱馬爾可夫模型一般用于標(biāo)注問題,尤其在詞性標(biāo)注[45]、命名實(shí)體識(shí)別[46]、信息抽取[47]等問題上。隱馬爾可夫模型是一個(gè)關(guān)于“雙層的隨機(jī)過程”的模型,其中一個(gè)隨機(jī)過程無法直接觀測(cè)得到(所謂的隱藏,Hidden),只能通過另一個(gè)可觀測(cè)到的隨機(jī)過程來間接獲得。隱馬爾可夫模型有兩個(gè)重要的假設(shè)[48]:齊次馬爾可夫假設(shè)和觀測(cè)獨(dú)立性假設(shè)。隱馬爾可夫模型一般用于解決三種問題,其中解碼問題最常被用于自然語言處理中的自動(dòng)標(biāo)注,該問題一般轉(zhuǎn)化為一種求解最優(yōu)序列的問題,一般使用維特比算法[49]來求解,可以極大地提高求解的效率。
3.6 條件隨機(jī)場(chǎng)
條件隨機(jī)場(chǎng)是一種條件概率模型,根據(jù)一組輸入隨機(jī)變量對(duì)相應(yīng)的輸出隨機(jī)變量進(jìn)行預(yù)測(cè)。條件隨機(jī)場(chǎng)模型常用在序列化標(biāo)注問題中,此時(shí)一般采用線性鏈形式的條件隨機(jī)場(chǎng)[50],將輸出序列表示一個(gè)馬爾可夫隨機(jī)場(chǎng)(概率無向圖),并將問題轉(zhuǎn)換成由輸入序列預(yù)測(cè)輸出序列的問題。用線性條件隨機(jī)場(chǎng)模型來描述序列化標(biāo)注問題,與隱馬爾可夫模型存在相似之處,其不同在于,隱馬爾可夫模型中每個(gè)標(biāo)記(狀態(tài))只與其前一個(gè)標(biāo)記(狀態(tài))有關(guān),而線性鏈條件隨機(jī)場(chǎng)中每個(gè)標(biāo)記與其前后一個(gè)標(biāo)記都有關(guān),后者顯然比前者能夠表示更為豐富的關(guān)系。條件隨機(jī)場(chǎng)一般也使用維特比算法來求解。條件隨機(jī)場(chǎng)憑借其較強(qiáng)的學(xué)習(xí)能力,在詞性標(biāo)注[51]、命名實(shí)體識(shí)別[52-53]、關(guān)系識(shí)別[54]、淺層分析[55]等眾多自然語言處理問題中均表現(xiàn)出色,是一個(gè)用途廣泛且性能優(yōu)化的機(jī)器學(xué)習(xí)模型。
3.7 支持向量機(jī)
支持向量機(jī)是一種二類分類模型[56],是文本分類研究中,最常用的一種機(jī)器學(xué)習(xí)模型。其在文本向量空間中構(gòu)造一個(gè)超平面,將不同類別的文本向量分割開來,以實(shí)現(xiàn)分類的效果。對(duì)于線性可分的文本空間來說,支持向量機(jī)通過間隔最優(yōu)化的方法求解得到唯一的超平面[57];而當(dāng)線性不可分時(shí),一般有兩種策略:對(duì)于近似線性可分的文本空間,可以采用軟間隔最大化方法[58];對(duì)于線性不可分的文本空間而言,可以引入核方法[59]。支持向量機(jī)的求解可以看作一種凸二次規(guī)劃的問題,一般采用序列最小優(yōu)化這種啟發(fā)式的算法來快速求解[60]。支持向量機(jī)是一種非常有效的分類方法,由于其面對(duì)線性可分和線性不可分問題時(shí)靈活變化的能力,使得其在文本分類研究中廣受青睞[61-64],而Chang和Lin構(gòu)建的開源工具包——LIBSVM[65]更是促進(jìn)了該方法的傳播,使之成為機(jī)器學(xué)習(xí)中最常用的分類模型之一。
3.8 聚類方法
聚類是無監(jiān)督學(xué)習(xí)中最主要的一種研究方法[66-67],在機(jī)器學(xué)習(xí)中常被用在模式識(shí)別、圖像分析、信息抽取等領(lǐng)域。其思想是將數(shù)據(jù)集中有相同特征的個(gè)體聚合成類。聚類并不是一種特定的模型或算法,而是一組具有共同目標(biāo)和思路的算法的統(tǒng)稱,一般可以將聚類分為原型聚類、密度聚類和層次聚類三種[27]。常見的原型聚類方法有k均值、學(xué)習(xí)向量量化、高斯混合聚類[68];密度聚類方法有DBSCAN[69]和OPTICS[70]等;層次聚類的方法有AGNES算法和DIANA算法[71]。
4 深度學(xué)習(xí)的革新
深度學(xué)習(xí)(deep learning)是近年來最成功和最受關(guān)注的機(jī)器學(xué)習(xí)方法[1],其核心思路是使用多層的神經(jīng)網(wǎng)絡(luò)來表征數(shù)據(jù),這樣做的優(yōu)勢(shì)在于訓(xùn)練數(shù)據(jù)無需進(jìn)行人工標(biāo)注,而是直接通過表征學(xué)習(xí)的方式自動(dòng)獲取數(shù)據(jù)中的特征,因此深度學(xué)習(xí)可以靈活地用于監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)問題中[72-73]。深度學(xué)習(xí)并不是一個(gè)特定的模型或算法,而是一系列具有共同特點(diǎn)的機(jī)器學(xué)習(xí)方法的統(tǒng)稱,這種特點(diǎn)總得來說就是“深度”,這具體包括使用多層非線性處理單元表征數(shù)據(jù),進(jìn)行監(jiān)督或無監(jiān)督學(xué)習(xí),多層的表征對(duì)應(yīng)了不同的抽象層次,使用反向傳播算法進(jìn)行訓(xùn)練的優(yōu)化[74]。
深度學(xué)習(xí)的思想始終伴隨著人工智能的發(fā)展,在神經(jīng)網(wǎng)絡(luò)模型提出伊始,就已有相應(yīng)的機(jī)器學(xué)習(xí)的嘗試[75-76]。而到了20世紀(jì)80年代,當(dāng)時(shí)正值人工智能第二次興起,反向傳播算法重新發(fā)揮活力,聯(lián)結(jié)主義高歌猛進(jìn),神經(jīng)網(wǎng)絡(luò)模型又重新得到關(guān)注[77]。然而受制于當(dāng)時(shí)計(jì)算機(jī)的性能,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間過長(zhǎng),無法投入實(shí)際使用當(dāng)中[78],也并未獲得太多關(guān)注,而隨著人工智能冬天的來臨,深度學(xué)習(xí)也隨之陷入沉寂。到了20世紀(jì)90年代以后,人工智能又一次興起,神經(jīng)網(wǎng)絡(luò)模型又一次被重新審視,而在早期的嘗試中,以訓(xùn)練速度過慢為主的一系列問題仍然很難解決[79-80],雖然仍有研究者在該方法上堅(jiān)持探索[81],但與同時(shí)期的SVM、HMM等方法相比,深度學(xué)習(xí)(神經(jīng)網(wǎng)絡(luò))方法不論在速度上還是在效果上都要遜色不少。
然而隨著計(jì)算機(jī)性能不斷提高,大規(guī)模數(shù)據(jù)越來越普遍,一場(chǎng)屬于深度學(xué)習(xí)(神經(jīng)網(wǎng)絡(luò))的“文藝復(fù)興”席卷而來。所謂的“深度學(xué)習(xí)革命”,源自Hinton等人于2006年提出的深度置信網(wǎng)絡(luò)(Deep Belief Nets,DBN)的高效訓(xùn)練方法[82],該方法表明深度學(xué)習(xí)在訓(xùn)練時(shí)間效率上已經(jīng)不遜色于其他機(jī)器學(xué)習(xí)方法。隨著研究的深入,深度學(xué)習(xí)逐漸嶄露頭角,尤其是在語音識(shí)別和圖像識(shí)別領(lǐng)域,深度學(xué)習(xí)方法迅速地實(shí)現(xiàn)了追趕、反超到統(tǒng)治的過程。(1)在語音識(shí)別方面,深度神經(jīng)網(wǎng)絡(luò)在Hinton和Deng的合作下不斷取得突破[83-84],并解決了深度學(xué)習(xí)中梯度消失困難的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[85],更是刮起了一陣旋風(fēng),使得LSTM-RNN方法在語音識(shí)別中占據(jù)了統(tǒng)治地位[86-87],如蘋果的SIRI、谷歌的Now、微軟的Cortana、亞馬遜的Alexa等語音助手無一不是基于LSTM-RNN方法實(shí)現(xiàn)的[88];(2)而在圖像識(shí)別方面,則是卷積深度神經(jīng)網(wǎng)絡(luò)[89](Convolutional deep neural networks,CNNs)在大放光彩,相關(guān)方法在短時(shí)間內(nèi)(2011-2012)的數(shù)個(gè)圖像識(shí)別評(píng)測(cè)會(huì)議上拔得頭籌,并不斷獲得更好的效果[90-91],將深度學(xué)習(xí)熱潮繼續(xù)向前推進(jìn),如今在OCR、人臉識(shí)別等應(yīng)用中,CNN都是首選方法。近年家喻戶曉的AlphaGo[92],更是將人工智能和深度學(xué)習(xí)推向了一個(gè)高潮。endprint
深度學(xué)習(xí)的另一項(xiàng)研究熱點(diǎn)在自然語言處理,其中最為重要的就是詞向量[93](word embedding)概念的提出,以及word2vec對(duì)該概念的模型實(shí)現(xiàn)[94-95]。這種將文本中的詞語分布式地表示在向量空間中的方法,可以直接將表征結(jié)果作為輸入層用于RNN等深度神經(jīng)網(wǎng)絡(luò)中[96],從而避免了傳統(tǒng)方法過多地通過句法、語義等語言學(xué)知識(shí)來選擇特征的過程。目前在句法成分分析[97]、情感分析[98]、關(guān)系抽取[99]、機(jī)器翻譯[100]等領(lǐng)域,深度學(xué)習(xí)均發(fā)揮出不錯(cuò)的效果,其中著名的谷歌機(jī)器翻譯使用了LSTM網(wǎng)絡(luò)[101]。而在自然語言處理的傳統(tǒng)領(lǐng)域如詞性標(biāo)注、命名實(shí)體識(shí)別、語義角色分析等問題上,深度學(xué)習(xí)方法也有著不俗的表現(xiàn)[102]。
5 機(jī)器學(xué)習(xí)在圖書情報(bào)領(lǐng)域的應(yīng)用前景
深度學(xué)習(xí)的熱潮還在持續(xù),對(duì)于圖書情報(bào)學(xué)來說,抓住這樣的時(shí)機(jī),緊跟時(shí)代的步伐對(duì)于學(xué)科的發(fā)展將大有裨益。將傳統(tǒng)的信息服務(wù)和信息處理手段與新興的深度學(xué)習(xí)技術(shù)有效結(jié)合,將為學(xué)科帶來許多值得期待的新思路、新理念。如文本信息的自動(dòng)化、數(shù)字化服務(wù),智能的專家知識(shí)問答系統(tǒng),以文本、語音、圖像為對(duì)象的情報(bào)自動(dòng)采集和加工技術(shù),基于大數(shù)據(jù)的人工智能決策系統(tǒng),以語義內(nèi)容分析為基礎(chǔ)的科研成果評(píng)價(jià)等。深度學(xué)習(xí)正給世界帶來深刻變革,圖書情報(bào)學(xué)科有充分的理由在這場(chǎng)變革中迎來發(fā)展的機(jī)遇。以下試舉幾個(gè)實(shí)例,說明機(jī)器學(xué)習(xí)未來在圖書情報(bào)領(lǐng)域的可能應(yīng)用。
5.1 智能問答系統(tǒng)在圖書館中的應(yīng)用
在圖書館由“館藏為中心”向“讀者為中心”轉(zhuǎn)移的過程中,智能問答系統(tǒng)可以發(fā)揮更加重要和關(guān)鍵的作用。智能問答系統(tǒng)的前身是基于關(guān)鍵詞搜索的FAQ,所能回答的是簡(jiǎn)單事實(shí)型問題。人工智能時(shí)代的問答系統(tǒng)在提問形式、回答問題的深度方面有了長(zhǎng)足的進(jìn)步。隨著機(jī)器學(xué)習(xí)技術(shù)的深入應(yīng)用,智能問答系統(tǒng)在詞庫與知識(shí)更新速度、所使用的實(shí)體知識(shí)的類型等方面有了更大的提高。新的智能問答系統(tǒng)將對(duì)提高圖書館數(shù)字參考咨詢的智能化和深度語義知識(shí)化起到更加促進(jìn)的作用。首先,基于自然語言處理中的淺層句法分析和深層句法分析技術(shù),圖書館智能問答系統(tǒng)可利用序列化的深度學(xué)習(xí)模型對(duì)提問進(jìn)行精準(zhǔn)的分類和多層面的子句拆分;其次,通過充分利用深度學(xué)習(xí)模型在海量結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中自動(dòng)構(gòu)建特征并進(jìn)行知識(shí)挖掘的特征,結(jié)合圖書館的館藏和業(yè)務(wù)方面的數(shù)據(jù),在一定量的人工干預(yù)下,可以構(gòu)建深層備選答案的數(shù)據(jù)集,并對(duì)該數(shù)據(jù)集進(jìn)行相關(guān)的分類;最后,未來圖書館智能問答系統(tǒng)的突出特征是支持并行計(jì)算,尤其是調(diào)用相應(yīng)的自然語言處理模型面對(duì)海量答案的自動(dòng)匹配過程中,并行計(jì)算不僅能確保答案查詢的準(zhǔn)確性而且能確保答案查詢的全面性。深度學(xué)習(xí)技術(shù)支持下的圖書館智能問答系統(tǒng),將成為與圖書館館員一樣的“百事通”,很大程度上代替圖書館館員面向讀者開展服務(wù),且態(tài)度和藹,百問不厭。
5.2 機(jī)器學(xué)習(xí)在文本信息處理中的應(yīng)用
機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)技術(shù),應(yīng)用于各類文本的深入加工和處理,并籍此得到各個(gè)角度、多個(gè)層面的知識(shí),將成為圖書情報(bào)學(xué)未來研究的重要內(nèi)容之一。首先,基于領(lǐng)域化的文本數(shù)據(jù),構(gòu)建領(lǐng)域化的詞匯、術(shù)語和實(shí)體資源,結(jié)合隱馬爾可夫模型、最大熵模型、條件隨機(jī)場(chǎng)、支持向量機(jī)和深度學(xué)習(xí)的各種模型,實(shí)現(xiàn)對(duì)文本內(nèi)容的分詞、詞性標(biāo)記、實(shí)體識(shí)別、實(shí)體關(guān)系挖掘,進(jìn)行完成對(duì)文本知識(shí)的組織;其次,通過淺層句法關(guān)系、深層次句法關(guān)系、語義自動(dòng)分析、篇章結(jié)構(gòu)的計(jì)算,從已經(jīng)進(jìn)行了知識(shí)組織的文本中挖掘出詞匯層面、實(shí)體層面、句子層面、段落層面和篇章層面的多個(gè)層面上的知識(shí),作為構(gòu)建知識(shí)庫和知識(shí)本體的基礎(chǔ);最后,結(jié)合可視化和虛擬現(xiàn)實(shí)的技術(shù),從歷史的角度,對(duì)處理后的文本知識(shí)進(jìn)行時(shí)間序列層面上的呈現(xiàn),從情景的角度,結(jié)合相應(yīng)的地理和歷史場(chǎng)景,對(duì)文本中的相關(guān)事件進(jìn)行適度的還原,從而讓文本知識(shí)真正活起來。圖書情報(bào)機(jī)構(gòu)原本是以單冊(cè)文本作為收藏單元的,如此處理后則能以細(xì)顆粒度的方式向讀者或用戶呈現(xiàn)文本內(nèi)容,及其內(nèi)容所蘊(yùn)含的知識(shí)以及知識(shí)與知識(shí)間的關(guān)聯(lián)。同時(shí),用戶需求也可以利用上述機(jī)器學(xué)習(xí)方法采集獲取。機(jī)器學(xué)習(xí)方法將助力圖書情報(bào)機(jī)構(gòu)進(jìn)入基于文本內(nèi)容和用戶需求的自動(dòng)化知識(shí)服務(wù)時(shí)代。
5.3 機(jī)器學(xué)習(xí)在學(xué)術(shù)評(píng)價(jià)中的應(yīng)用
基于機(jī)器學(xué)習(xí)的相關(guān)技術(shù),可以改善非結(jié)構(gòu)化學(xué)術(shù)文獻(xiàn)全文數(shù)據(jù)處理技術(shù),從學(xué)術(shù)文獻(xiàn)的全文數(shù)據(jù)中挖掘出更多的特征知識(shí),并把所挖掘出來的知識(shí)融入到學(xué)術(shù)評(píng)價(jià)當(dāng)中。譬如,以前費(fèi)時(shí)費(fèi)力的引用行為分析便可通過全文挖掘方式獲得基礎(chǔ)數(shù)據(jù)。以機(jī)器學(xué)習(xí)為技術(shù)基礎(chǔ)的評(píng)價(jià)數(shù)據(jù)采集與加工方式將日益受到學(xué)術(shù)評(píng)價(jià)領(lǐng)域研究者的關(guān)注。
未來隨著大數(shù)據(jù)和機(jī)器學(xué)習(xí)方法的快速發(fā)展,充分發(fā)揮機(jī)器學(xué)習(xí)在自然語言處理、圖像自動(dòng)識(shí)別與分析以及深度語義關(guān)聯(lián)與挖掘上的強(qiáng)大功能,可實(shí)現(xiàn)對(duì)學(xué)術(shù)論文題錄和全文的內(nèi)容理解、評(píng)價(jià)分析,從而面向海量學(xué)術(shù)文獻(xiàn)模擬人類專家在理解文獻(xiàn)內(nèi)容的基礎(chǔ)上實(shí)現(xiàn)由機(jī)器充任的同行評(píng)議,擺脫目前高度依賴學(xué)術(shù)文獻(xiàn)題錄信息和引文數(shù)據(jù)的單一評(píng)價(jià)模式,達(dá)到學(xué)術(shù)論文的評(píng)價(jià)真正基于學(xué)術(shù)論文內(nèi)容進(jìn)行的目標(biāo),提升學(xué)術(shù)評(píng)價(jià)的科學(xué)性、規(guī)范性和智能性。
5.4 機(jī)器學(xué)習(xí)在信息服務(wù)方面的應(yīng)用
機(jī)器學(xué)習(xí)對(duì)于用戶的信息檢索、信息利用行為可以進(jìn)行深入的挖掘。在圖書情報(bào)機(jī)構(gòu)廣泛的讀者或用戶使用行為數(shù)據(jù)基礎(chǔ)上,機(jī)器學(xué)習(xí)大有作為。
首先,機(jī)器學(xué)習(xí)方法可以挖掘并分析用戶的信息需求,以“推”方式向用戶提供主動(dòng)的、個(gè)性化的信息服務(wù)。未來的圖書館在充分發(fā)揮機(jī)器學(xué)習(xí)功效的基礎(chǔ)上,可以成為用戶手邊的個(gè)人信息助理,隨時(shí)隨地提供精準(zhǔn)的主動(dòng)信息服務(wù)。
其次,在確保隱私的前提下,機(jī)器學(xué)習(xí)完全有能力將用戶在圖書情報(bào)機(jī)構(gòu)的信息行為與個(gè)人的日常生活行為進(jìn)行關(guān)聯(lián),并提煉、分析用戶需求,使用戶日常生活行為與圖書館的主動(dòng)信息服務(wù)融為一體,將前述個(gè)人信息助理升級(jí)為個(gè)人生活助理。如生病時(shí)推薦醫(yī)院、醫(yī)生、藥品,出行時(shí)選擇并預(yù)訂交通工具,工程項(xiàng)目開展前推薦相關(guān)資料甚至形成基礎(chǔ)性文檔,等等。endprint
5.5 機(jī)器學(xué)習(xí)對(duì)圖書情報(bào)學(xué)人才培養(yǎng)的影響
在機(jī)器學(xué)習(xí)迅猛發(fā)展的大趨勢(shì)下,一個(gè)全面、立體、貫穿智能元素的圖書情報(bào)學(xué)教育體系,應(yīng)當(dāng)將培養(yǎng)精通機(jī)器學(xué)習(xí)技術(shù)的高端圖書情報(bào)人才作為重要目標(biāo),設(shè)立與機(jī)器學(xué)習(xí)理論和技術(shù)相關(guān)的一系列課程,將此作為圖書情報(bào)學(xué)教育和人才培養(yǎng)方面一個(gè)重要的主題,同時(shí)也是圖書情報(bào)學(xué)學(xué)科建設(shè)與發(fā)展的重要保障。
隨著大數(shù)據(jù)時(shí)代的推進(jìn),圖書情報(bào)機(jī)構(gòu)面對(duì)的數(shù)據(jù)信息、數(shù)據(jù)資源將越來越復(fù)雜,其種類、層次呈多樣化和立體化,內(nèi)容愈加異構(gòu)化、非結(jié)構(gòu)化,挖掘、利用的難度將越來越大,而機(jī)器學(xué)習(xí)大有用武之地,圖書情報(bào)機(jī)構(gòu)對(duì)機(jī)器學(xué)習(xí)技術(shù)需求的程度將越來越高。掌握先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)的專業(yè)人才,將成為當(dāng)前環(huán)境下引領(lǐng)學(xué)科與行業(yè)發(fā)展的生力軍,對(duì)于機(jī)器學(xué)習(xí)人才培養(yǎng)的看法和重視程度,也將影響圖書情報(bào)學(xué)學(xué)科未來的發(fā)展方向和趨勢(shì)。
6 機(jī)器學(xué)習(xí)視角下的古文信息處理
古籍是圖書情報(bào)機(jī)構(gòu)的重要館藏資源,綜合性的大中型圖書館一般都設(shè)有古籍部,古漢語文獻(xiàn)的加工與處理是圖書情報(bào)機(jī)構(gòu)的一項(xiàng)重要工作內(nèi)容。計(jì)算機(jī)自動(dòng)化加工處理古漢語文本,即古文信息處理,是最能體現(xiàn)機(jī)器學(xué)習(xí)應(yīng)用價(jià)值的研究主題之一,也是圖書情報(bào)機(jī)構(gòu)古籍工作未來的發(fā)展方向。古文信息處理就是以古代漢語文本為對(duì)象的信息處理,是文本信息處理中的組成部分,黃水清[103]將其定義為“借助信息技術(shù)手段對(duì)古代漢語文本的音、形、義進(jìn)行處理和加工,并可在此基礎(chǔ)上實(shí)現(xiàn)對(duì)古代漢語文本的深度挖掘與知識(shí)發(fā)現(xiàn)。”在提倡弘揚(yáng)中華文化的新時(shí)代,以古漢語文本形式呈現(xiàn)的中國(guó)典籍在既有的歷史價(jià)值之上又被賦予了民族文化復(fù)興的現(xiàn)實(shí)重任,圖書情報(bào)機(jī)構(gòu)應(yīng)該在民族文化復(fù)興中承擔(dān)應(yīng)盡的義務(wù),古籍業(yè)務(wù)工作迫切需要信息處理、文本挖掘、人文計(jì)算等多種有別于傳統(tǒng)視角的新思路,而機(jī)器學(xué)習(xí)仍將在其中扮演重要的角色。
6.1 機(jī)器學(xué)習(xí)對(duì)古籍檢索智能化的影響
機(jī)器學(xué)習(xí)在處理大規(guī)模文本語料時(shí),具有速度快、精度高的先天優(yōu)勢(shì),因此該方法將為以古籍文本為對(duì)象的全文檢索、知識(shí)檢索及智能問答系統(tǒng)帶來巨大發(fā)展助力。
古籍文本檢索系統(tǒng)在檢索詞選取、詞匯標(biāo)注、同義詞控制、異文控制等方面工作量巨大。以代表了古籍文本手工檢索工具最高水準(zhǔn)的哈佛燕京學(xué)社《漢學(xué)引得叢刊》(以下簡(jiǎn)稱《引得》)為例,其64種、81冊(cè)《引得》涵蓋了由周遍型字詞引得、綜合性關(guān)鍵詞引得、書名(篇名)引得、圖譜引得、人物姓名與字號(hào)引得等多種類型引得組成的引得體系,對(duì)典籍文本進(jìn)行了全面、立體、充分地揭示。然而《引得》的編纂耗費(fèi)了巨大的人力和物力,僅僅編纂周期就跨越了近20多年的時(shí)間。而且,由于人工方法在面對(duì)大規(guī)模文本工程時(shí)極易出錯(cuò),其成果內(nèi)容中難免存在瑕疵。機(jī)器學(xué)習(xí)方法的引入可以有效地解決這種人工編纂帶來的固有困難,同時(shí)將引得形式的資源與機(jī)器學(xué)習(xí)中的全文檢索、知識(shí)挖掘、智能問答技術(shù)相結(jié)合構(gòu)造出一種高效的古籍智能檢索系統(tǒng),能夠以內(nèi)容全面、形式豐富的方式承載中華歷史文化資源。
以機(jī)器學(xué)習(xí)為技術(shù)核心的古籍智能檢索系統(tǒng),將高效、精確、智能地為專業(yè)人員及普通讀者提供差異化、個(gè)性化的檢索結(jié)果。其檢索方式也是多樣的,可以是滿足專業(yè)需求的關(guān)鍵詞檢索、實(shí)體檢索、知識(shí)檢索等,也可以是以歷史知識(shí)普及為目的智能問答系統(tǒng)、可視化檢索系統(tǒng)、VR/AR體驗(yàn)系統(tǒng)等。
6.2 機(jī)器學(xué)習(xí)應(yīng)用于典籍知識(shí)庫的構(gòu)建及推廣服務(wù)
機(jī)器學(xué)習(xí)方法可以幫助構(gòu)建超大規(guī)模、細(xì)顆粒度的典籍知識(shí)庫,推動(dòng)中華文化知識(shí)的回溯與傳承。具體地說,可以通過機(jī)器學(xué)習(xí)中的序列化標(biāo)注模型,準(zhǔn)確地從海量古代典籍中挖掘出人名、地名、時(shí)間、機(jī)構(gòu)、多義項(xiàng)詞和句子中的異文等語義知識(shí)點(diǎn),進(jìn)而構(gòu)建成為典籍知識(shí)庫。進(jìn)一步,還可以將知識(shí)庫中的資源用具體的數(shù)字和文字結(jié)合圖片、視頻、VR/AR等多維形式呈現(xiàn)給讀者,從歷史的角度闡述中華文化的“歷史淵源、發(fā)展脈絡(luò)、基本走向”。
隨著深度學(xué)習(xí)研究的推進(jìn),個(gè)性化推薦、智能語音問答、移動(dòng)端自動(dòng)推送等功能值得期待,這將使得典籍知識(shí)庫成為一個(gè)提供多維知識(shí)的智能資源庫。在機(jī)器學(xué)習(xí)的推動(dòng)下,這些豐富的、有吸引力的、智能的典籍知識(shí)庫,將幫助圖書館在民族精神、傳統(tǒng)文化的“移動(dòng)化、社交化、智能化”的網(wǎng)絡(luò)傳播、弘揚(yáng)和傳續(xù)中起到關(guān)鍵性作用。
6.3 機(jī)器學(xué)習(xí)在辨別古籍真?zhèn)蔚妊芯恐械臐摿?/p>
機(jī)器學(xué)習(xí)中的文本分類模型,非常適用于解決古籍真?zhèn)伪鎰e、寫作年代判定、文體風(fēng)格判斷等傳統(tǒng)古籍研究中經(jīng)典難題。已有多項(xiàng)研究應(yīng)用支持向量機(jī)等算法討論了紅樓夢(mèng)前80回后40回的作者問題[104],但更為經(jīng)典的歷史文獻(xiàn)真?zhèn)?、年代問題,具有更廣闊的應(yīng)用空間。如《尚書》部分章節(jié)及某些新發(fā)現(xiàn)竹簡(jiǎn)的真?zhèn)?,《左傳》成書時(shí)代,等等。機(jī)器學(xué)習(xí)在處理類似問題時(shí),較之傳統(tǒng)方法有著巨大的優(yōu)勢(shì)?;跈C(jī)器學(xué)習(xí)方法的文本分類器能夠更客觀、準(zhǔn)確地把握文本中的文體風(fēng)格特征,以此為基礎(chǔ)得出的古籍真?zhèn)?、時(shí)代等方面的推論將為歷史文獻(xiàn)的研究提供另辟蹊徑,往往會(huì)有意想不見的創(chuàng)新性結(jié)論。
7 結(jié)語
人工智能和機(jī)器學(xué)習(xí)的大發(fā)展還將持續(xù),這其中帶來的重要的技術(shù)和方法對(duì)于圖書情報(bào)學(xué)界來說是一個(gè)十分難得的機(jī)遇。兩者之間有價(jià)值的結(jié)合點(diǎn)較多,每一個(gè)結(jié)合點(diǎn)都值得研究者深入探究和挖掘,而這樣的結(jié)合對(duì)于圖書情報(bào)學(xué)來說是有利的。如果能夠充分地、有效地借鑒和利用人工智能的新思路和新方法,圖書情報(bào)學(xué)可以獲得全方位的、值得期待的新發(fā)展。而在古文信息處理方面,機(jī)器學(xué)習(xí)方法有著巨大的價(jià)值和潛力,不論是面向?qū)I(yè)領(lǐng)域的古籍檢索智能化,還是面向普及大眾的中華文化知識(shí)傳承,機(jī)器學(xué)習(xí)方法都能夠發(fā)揮重要作用。目前以深度學(xué)習(xí)為主的機(jī)器學(xué)習(xí)方法在古文信息處理中還較少見,但可以期待古文信息處理在機(jī)器學(xué)習(xí)的引領(lǐng)下,將有一個(gè)更加智能化的前景和未來。
參考文獻(xiàn):
[1] Lecun Y,Bengio Y,Hinton G.Deep learning[J].Nature,2015,521(7553):436-444.endprint
[2] Russell S J,Norvig P.Artificial Intelligence:A Modern Approach(3rd Edition)[M].New Jersey:Pearson Education,Inc.,2010.
[3] McCulloch W S,Pitts W.A logical calculus of the ideas immanent in nervous activity[J].The bulletin of mathematical biophysics,1943,5(4):115-133.
[4] Turing A M.Computing machinery and intelligence[J].Mind,1950,59(236):433-460.
[5] Searle J R.Minds,brains,and programs[J].Behavioral and brain sciences,1980,3(3):417-424.
[6] Newell A,Simon H.The logic theory machine—A complex information processing system[J].IRE Transactions on information theory,1956,2(3):61-79.
[7] Newell A,Shaw J C,Simon H A.Empirical explorations of the logic theory machine:a case study in heuristic[C].Papers presented at the February 26-28,1957,western joint computer conference:Techniques for reliability.ACM,1957:218-230.
[8] Newell A,Simon H A.GPS,a program that simulates human thought[R].RAND CORP SANTA MONICA CALIF,1961.
[9] Gelernter H.Realization of a geometry theorem proving machine[C].IFIP Congress,1959:273-281.
[10] Green C.Theorem proving by resolution as a basis for question-answering systems[J].Machine intelligence,1969(4):183-205.
[11] Robinson J A.A machine-oriented logic based on the resolution principle[J].Journal of the ACM (JACM),1965,12(1):23-41.
[12] Samuel A L.Some studies in machine learning using the game of checkers.II—recent progress[J].IBM Journal of research and development,1967,11(6):601-617.
[13] McCarthy J.Programs with common sense[M].RLE and MIT Computation Center,1960.
[14] Huffman D.Impossible objects as nonsense sentences[J].Machine intelligence,1971(6):295-324.
[15] Winston P H.Learning Structural Descriptions From Examples[M].Massachusetts Institute of Technology,1970.
[16] Winograd T.Understanding natural language[J].Cognitive psychology,1972,3(1):1-191.
[17] Rosenblatt F.The perceptron:A probabilistic model for information storage and organization in the brain[J].Psychological review,1958,65(6):386.
[18] Rosenblatt F.Principles of neurodynamics[M].Spartan Nooks,1962.
[19] Kolodner J L.Maintaining organization in a dynamic long-term memory[J].Cognitive science,1983,7(4):243-280.
[20] Wilensky R.Planning and understanding:A computational approach to human reasoning[M].Addoson-Wesloy Pub.Co,1983.
[21] Buchanan B,Sutherland G,F(xiàn)eigenbaum E A.Heuristic DENDRAL:A program for generating explanatory hypotheses in organic chemistry[M].Stanford University,1968.endprint
[22] Wilensky R.Understanding Goal-Based Stories[M].DBLP,1978.
[23] McDermott J.R1:A rule-based configurer of computer systems[J].Artificial intelligence,1982,19(1):39-88.
[24] Rumelhart D E,Hinton G E,McClelland J L.A general framework for parallel distributed processing[J].Parallel distributed processing:Explorations in the microstructure of cognition,1986(1):45-76.
[25] Smolensky P.On the proper treatment of connectionism[J].Behavioral and brain sciences,1988,11(1):1-23.
[26] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.
[27] 周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.
[28] Ng A Y,Jordan M I.On discriminative vs.generative classifiers:A comparison of logistic regression and naive bayes[C].Advances in neural information processing systems,2002:841-848.
[29] McCallum,Andrew,Kamal Nigam.A comparison of event models for naive bayes text classification[C].Proc.AAAI-98 workshop on learning for text categorization,1998:41-48.
[30] Quinlan J R.Induction of decision trees[J].Machine learning,1986,1(1):81-106.
[31] Rokach L,Maimon O.Data mining with decision trees:theory and applications[EB/OL].[2017-09-10].https://eric.univlyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_DM_with_Decision_Trees.pdf.
[32] Breiman L,F(xiàn)riedman J,Stone C J,et al.Classification and regression trees[M].CRC press,1984.
[33] Berger A L,Pietra V J D,Pietra S A D.A maximum entropy approach to natural language processing[J].Computational linguistics,1996,22(1):39-71.
[34] Jaynes E T.Information Theory and Statistical Mechanics[J].Physical Review,1957,106(4):620-630.
[35] Jaynes E T.Information theory and statistical mechanics.II[J].Physical review,1957,108(2):171.
[36] Darroch J N,Ratcliff D.Generalized iterative scaling for log-linear models[J].The annals of mathematical statistics,1972:1470-1480.
[37] Berger A.The improved iterative scaling algorithm:A gentle introduction[EB/OL].[2017-09-10].http://luthuli.cs.uiuc.edu/~daf/courses/optimization/papers/berger-iis.pdf.
[38] Chen S F,Rosenfeld R.A Gaussian prior for smoothing maximum entropy models[M].School of Computer Science,Carnegie Mellon University,1999.
[39] Ratnaparkhi A.A maximum entropy model for part-of-speech tagging[C].Proceedings of the conference on empirical methods in natural language processing,1996(1):133-142.
[40] Borthwick A,Grishman R.A maximum entropy approach to named entity recognition[D].New York University,Graduate School of Arts and Science,1999.endprint
[41] McCallum A,F(xiàn)reitag D,Pereira F C N.Maximum Entropy Markov Models for Information Extraction and Segmentation[C].Icml,2000:591-598.
[42] Baum L E,Petrie T.Statistical inference for probabilistic functions of finite state Markov chains[J].The annals of mathematical statistics,1966,37(6):1554-1563.
[43] Baum L E,Petrie T,Soules G,et al.A maximization technique occurring in the statistical analysis of probabilistic functions of Markov chains[J].The annals of mathematical statistics,1970,41(1):164-171.
[44] Baum L E.An Inequality and Associated Maximization Thechnique in Statistical Estimation for Probabilistic Functions of Markov Process[J].Inequalities,1972(3):1-8.
[45] Cutting D,Kupiec J,Pedersen J,et al.A practical part-of-speech tagger[C].Proceedings of the third conference on Applied natural language processing.Association for Computational Linguistics,1992:133-140.
[46] Zhou G D,Su J.Named entity recognition using an HMM-based chunk tagger[C].proceedings of the 40th Annual Meeting on Association for Computational Linguistics.Association for Computational Linguistics,2002:473-480.
[47] Seymore K,McCallum A,Rosenfeld R.Learning hidden Markov model structure for information extraction[C].AAAI-99 workshop on machine learning for information extraction,1999:37-42.
[48] Rabiner L,Juang B.An introduction to hidden Markov models[J].ieee assp magazine,1986,3(1):4-16.
[49] Forney G D.The viterbi algorithm[J].Proceedings of the IEEE,1973,61(3):268-278.
[50] Lafferty J,McCallum A,Pereira F C N.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[EB/OL].[2017-09-10].https://repository.upenn.edu/cgi/viewcontent.cgi?article=1162&context=cis_papers.
[51] 洪銘材,張闊,唐杰,等.基于條件隨機(jī)場(chǎng)(CRFs)的中文詞性標(biāo)注方法[J].計(jì)算機(jī)科學(xué),2006,33(10):148-151.
[52] McCallum A,Li W.Early results for named entity recognition with conditional random fields,feature induction and web-enhanced lexicons[C].Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Volume 4.Association for Computational Linguistics,2003:188-191.
[53] 周俊生,戴新宇,尹存燕,等.基于層疊條件隨機(jī)場(chǎng)模型的中文機(jī)構(gòu)名自動(dòng)識(shí)別[J].電子學(xué)報(bào),2006,34(5):804-809.
[54] Sutton C,McCallum A.An introduction to conditional random fields for relational learning[M].Introduction to statistical relational learning.MIT Press,2006.
[55] Sha F,Pereira F.Shallow parsing with conditional random fields[C].Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1.Association for Computational Linguistics,2003:134-141.endprint
[56] Cortes C,Vapnik V.Support-vector networks[J].Machine learning,1995,20(3):273-297.
[57] Smola A J,Sch?lkopf B.A tutorial on support vector regression[J].Statistics and computing,2004,14(3):199-222.
[58] Boser B E,Guyon I M,Vapnik V N.A training algorithm for optimal margin classifiers[C].Proceedings of the fifth annual workshop on Computational learning theory.ACM,1992:144-152.
[59] Sch?lkopf B,Smola A J.Learning with kernels:support vector machines,regularization,optimization,and beyond[M].MIT press,2002.
[60] Zeng Z Q,Yu H B,Xu H R,et al.Fast training Support Vector Machines using parallel sequential minimal optimization[C].Intelligent System and Knowledge Engineering,2008.ISKE 2008.3rd International Conference on.IEEE,2008:997-1001.
[61] Joachims T.Text categorization with support vector machines:Learning with many relevant features[J].Machine learning:ECML-98,1998:137-142.
[62] Joachims T.Transductive inference for text classification using support vector machines[EB/OL].[2017-09-10].http://www1.cs.columbia.edu/~dplewis/candidacy/joachims99transductive.pdf.
[63] Tong S,Koller D.Support vector machine active learning with applications to text classification[J].Journal of machine learning research,2001,2(Nov):45-66.
[64] Joachims T.Learning to classify text using support vector machines:Methods,theory and algorithms[M].Kluwer Academic Publishers,2002.
[65] Chang C C,Lin C J.LIBSVM:a library for support vector machines[J].ACM transactions on intelligent systems and technology (TIST),2011,2(3):27.
[66] Jain A K,Dubes R C.Algorithms for clustering data[M].Prentice-Hall,Inc.,1988.
[67] Jain A K,Murty M N,F(xiàn)lynn P J.Data clustering:a review[J].ACM computing surveys (CSUR),1999,31(3):264-323.
[68] Jain A K.Data clustering:50 years beyond K-means[J].Pattern recognition letters,2010,31(8):651-666.
[69] Ester M,Kriegel H P,Sander J,et al.A density-based algorithm for discovering clusters in large spatial databases with noise[C].Kdd.1996:226-231.
[70] Ankerst M,Breunig M M,Kriegel H P,et al.OPTICS:ordering points to identify the clustering structure[C].ACM Sigmod record.ACM,1999:49-60.
[71] Kaufman L,Rousseeuw P J.Finding groups in data:an introduction to cluster analysis[M].John Wiley & Sons,2009.
[72] Bengio Y,Courville A,Vincent P.Representation learning:A review and new perspectives[J].IEEE transactions on pattern analysis and machine intelligence,2013,35(8):1798-1828.endprint
[73] Schmidhuber J.Deep learning in neural networks:An overview[J].Neural networks,2015(61):85-117.
[74] Deng L,Yu D.Deep learning:methods and applications[J].Foundations and Trends? in Signal Processing,2014,7(3-4):197-387.
[75] Ivakhnenko A G,Lapa V G.Cybernetic predicting devices[R].Purdue Univ Lafayette Ind School of Electrical Engineering,1966.
[76] Ivakhnenko A G.Polynomial theory of complex systems[J].IEEE transactions on Systems,Man,and Cybernetics,1971,1(4):364-378.
[77] Fukushima K,Miyake S.Neocognitron:A self-organizing neural network model for a mechanism of visual pattern recognition[M].Competition and cooperation in neural nets.Springer,Berlin,Heidelberg,1982:267-285.
[78] LeCun Y,Boser B,Denker J S,et al.Backpropagation applied to handwritten zip code recognition[J].Neural computation,1989,1(4):541-551.
[79] Hinton G E,Dayan P,F(xiàn)rey B J,et al.The"wake-sleep" algorithm for unsupervised neural networks[J].Science,1995,268(5214):1158.
[80] Hochreiter S,Bengio Y,F(xiàn)rasconi P,et al.Gradient flow in recurrent nets:the difficulty of learning long-term dependencies[EB/OL].[2017-09-10].http://www.bioinf.jku.at/publications/older/ch7.pdf.
[81] Waibel A,Hanazawa T,Hinton G,et al.Phoneme recognition using time-delay neural networks[M].Readings in speech recognition,1990:393-404.
[82] Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets[J].Neural computation,2006,18(7):1527-1554.
[83] Hinton G,Deng L,Yu D,et al.Deep neural networks for acoustic modeling in speech recognition:The shared views of four research groups[J].IEEE Signal Processing Magazine,2012,29(6):82-97.
[84] Deng L,Hinton G,Kingsbury B.New types of deep neural network learning for speech recognition and related applications:An overview[C].Acoustics,Speech and Signal Processing (ICASSP),2013 IEEE International Conference on.IEEE,2013:8599-8603.
[85] Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural computation,1997,9(8):1735-1780.
[86] Graves A,Mohamed A,Hinton G.Speech recognition with deep recurrent neural networks[C].Acoustics,speech and signal processing (icassp),2013 ieee international conference on.IEEE,2013:6645-6649.
[87] Graves A,Jaitly N.Towards end-to-end speech recognition with recurrent neural networks[C].Proceedings of the 31st International Conference on Machine Learning (ICML-14),2014:1764-1772.
[88] Schmidhuber J.Our Impact on the World's 5 Most Valuable Public Companies (2017)[EB/OL].[2017-12-27].http://people.idsia.ch/~juergen/impact-on-most-valuable-companies.html.endprint
[89] LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[90] Ciregan D,Meier U,Schmidhuber J.Multi-column deep neural networks for image classification[C].Computer Vision and Pattern Recognition (CVPR),2012 IEEE Conference on.IEEE,2012:3642-3649.
[91] Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C].Advances in neural information processing systems,2012:1097-1105.
[92] Silver D,Huang A,Maddison C J,et al.Mastering the game of Go with deep neural networks and tree search[J].Nature,2016,529(7587):484-489.
[93] Bengio Y,Ducharme R,Vincent P,et al.A neural probabilistic language model[J].Journal of machine learning research,2003,3(Feb):1137-1155.
[94] Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].arXiv preprint arXiv,2013:1301.3781.
[95] Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositionality[C].Advances in neural information processing systems,2013:3111-3119.
[96] Goldberg Y,Levy O.word2vec Explained:deriving Mikolov et al.'s negative-sampling word-embedding method[J].arXiv preprint arXiv,2014:1402.3722.
[97] Socher R,Bauer J,Manning C D.Parsing with compositional vector grammars[C].Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers),2013:455-465.
[98] Socher R,Perelygin A,Wu J,et al.Recursive deep models for semantic compositionality over a sentiment treebank[C].Proceedings of the 2013 conference on empirical methods in natural language processing,2013:1631-1642.
[99] Zeng D,Liu K,Lai S,et al.Relation Classification via Convolutional Deep Neural Network[C].COLING,2014:2335-2344.
[100] Sutskever I,Vinyals O,Le Q V.Sequence to sequence learning with neural networks[C]Advances in neural information processing systems,2014:3104-3112.
[101] Schuster M,Johnson M,Thorat N.Zero-shot translation with Googles multilingual neural machine translation system[J].Google Research Blog,2016.
[102] Collobert R,Weston J.A unified architecture for natural language processing:Deep neural networks with multitask learning[C].Proceedings of the 25th international conference on Machine learning.ACM,2008:160-167.
[103] 黃水清,王東波.古文信息處理研究的現(xiàn)狀及趨勢(shì)[J].圖書情報(bào)工作,2017,61(12):43-49.
[104] 施建軍.基于支持向量機(jī)技術(shù)的《紅樓夢(mèng)》作者研究[J].紅樓夢(mèng)學(xué)刊,2011(5):35-52.
作者簡(jiǎn)介:劉瀏,男,南京大學(xué)信息管理學(xué)院博士生;王東波,男,南京農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院副教授,碩士生導(dǎo)師;黃水清,男,南京農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院教授,博士生導(dǎo)師。endprint