亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        計(jì)算人文視閾下的計(jì)算語(yǔ)言學(xué):現(xiàn)狀和范式

        2023-06-18 06:15:42柏曉鵬
        圖書(shū)與情報(bào) 2023年1期
        關(guān)鍵詞:數(shù)字人文自然語(yǔ)言處理語(yǔ)言學(xué)

        摘? ?要:文章討論計(jì)算人文視閾下計(jì)算語(yǔ)言學(xué)的定位問(wèn)題,主要涉及三個(gè)問(wèn)題:計(jì)算人文視閾下計(jì)算語(yǔ)言學(xué)的定位、研究范式,以及它與其他計(jì)算人文研究方向的關(guān)系?!坝?jì)算人文”這一術(shù)語(yǔ)明確了數(shù)字人文的研究以計(jì)算技術(shù)解決人文學(xué)科的研究問(wèn)題這一研究范式。我們認(rèn)為,當(dāng)前計(jì)算語(yǔ)言學(xué)的工作顯示出明顯的工程特征,將語(yǔ)言作為數(shù)據(jù)進(jìn)行處理,很少有回答語(yǔ)言學(xué)研究問(wèn)題的工作。盡管很多學(xué)者認(rèn)為計(jì)算語(yǔ)言學(xué)是語(yǔ)言學(xué)的研究方向之一,但目前并無(wú)很多利用計(jì)算技術(shù)來(lái)進(jìn)行語(yǔ)言學(xué)研究的案例。因此,以文本可讀性工作為例,提出一個(gè)利用計(jì)算技術(shù)進(jìn)行語(yǔ)言學(xué)研究的計(jì)算語(yǔ)言學(xué)研究范式。研究認(rèn)為,計(jì)算語(yǔ)言學(xué)在工作方式上與其他計(jì)算人文研究方向并無(wú)二致,應(yīng)在統(tǒng)一的研究范式下工作;作為研究工具的計(jì)算語(yǔ)言學(xué),則需要在有效性和可解釋性間獲得平衡,推動(dòng)數(shù)字人文各分支領(lǐng)域的發(fā)展,這是計(jì)算語(yǔ)言學(xué)在“以人文為核心,以計(jì)算為工具”這一研究框架中的準(zhǔn)確定位。

        關(guān)鍵詞:計(jì)算語(yǔ)言學(xué);計(jì)算人文;數(shù)字人文;語(yǔ)言學(xué);自然語(yǔ)言處理

        中圖分類號(hào):H085.2? ?文獻(xiàn)標(biāo)識(shí)碼:A? ?DOI:10.11968/tsyqb.1003-6938.2023002

        Abstract In this article, we discuss the positioning of computational linguistics in the context of computational humanities. We focus on three main issues: the position of computational linguistics in the context of computational humanities, the research paradigm, and its relationship with other research fields in computational humanities. The term "computational humanities" clarifies the research paradigm in which the study of digital humanities solves research problems in the humanities with computational technologies. We find that current work in computational linguistics shows distinctly engineering character, treating language as data, with little work answering the research questions of linguistics. Although many scholars consider computational linguistics as one of the research directions in linguistics, we do not see many cases of using computational technology for linguistic (especially for Chinese language) research at present. Therefore, this paper proposes a computational linguistics research paradigm that uses computational techniques for linguistic research, using text readability work as an example. We believe that computational linguistics is no different from other research fields in computational humanities and should work under a unified research paradigm. Computational linguistics as a research method requires a balance between validity and interpretability. This is the positioning of computational linguistics in the framework of "humanities as the core and computation as the tool".

        Key words computational linguistics; computational humanities; computational humanities; linguistics; natural language processing

        1? ?從數(shù)字人文到計(jì)算人文

        數(shù)字人文將人文研究的成果用數(shù)字化手段呈現(xiàn)出來(lái),如可視化的數(shù)據(jù)檢索在地圖上表示。隨著近年來(lái)計(jì)算技術(shù)作為研究工具應(yīng)用到學(xué)術(shù)研究的各個(gè)領(lǐng)域,人文研究也逐漸接受并嘗試使用這些工具來(lái)更新研究方法、拓展研究視野乃至提出新的研究問(wèn)題?!坝?jì)算人文”這一術(shù)語(yǔ)強(qiáng)調(diào)將計(jì)算技術(shù)運(yùn)用成研究工具,改變現(xiàn)有的研究范式。簡(jiǎn)單來(lái)說(shuō),是將基于數(shù)據(jù)(data based)和數(shù)據(jù)驅(qū)動(dòng)(data driven)這兩種方法運(yùn)用到傳統(tǒng)上依賴研究者個(gè)人經(jīng)驗(yàn)的人文研究中。

        在數(shù)字人文提出之前,較有影響力的術(shù)語(yǔ)是人文計(jì)算。人文計(jì)算源于羅伯特·布薩對(duì)于著作索引的研究[1],早期的人文計(jì)算的研究也主要圍繞著詞語(yǔ)索引的構(gòu)建,借助計(jì)算機(jī)對(duì)詞語(yǔ)進(jìn)行計(jì)量,以此完成索引資源的建構(gòu)[2]。人文學(xué)科在研究過(guò)程中引入了計(jì)算技術(shù),開(kāi)拓新的研究視角[3]。黃水清認(rèn)為,人文計(jì)算的核心框架與數(shù)字人文沒(méi)有本質(zhì)區(qū)別[4]。通過(guò)文本編碼、數(shù)據(jù)庫(kù)、計(jì)量分析等技術(shù)將人文內(nèi)容以及研究成果以數(shù)字化的形式呈現(xiàn)。數(shù)據(jù)可視化為人文研究提供了全局圖景,得以進(jìn)行“遠(yuǎn)讀”研究[5]。

        “計(jì)算人文”術(shù)語(yǔ)的提出,體現(xiàn)了計(jì)算技術(shù)作為研究方法融入人文科學(xué)的趨勢(shì),“人文”是研究問(wèn)題和研究對(duì)象,通過(guò)計(jì)算技術(shù)的方法發(fā)現(xiàn)、回應(yīng)人文學(xué)科的研究問(wèn)題。一方面,計(jì)算技術(shù)作為人文科學(xué)的研究方法,在各人文子領(lǐng)域中應(yīng)該擁有統(tǒng)一的研究范式、系統(tǒng)的研究流程。黃水清在針對(duì)人文計(jì)算的困窘以及規(guī)范化的研究中提出了問(wèn)題定義、數(shù)據(jù)集構(gòu)建、技術(shù)實(shí)現(xiàn)、問(wèn)題求解、結(jié)果評(píng)價(jià)及呈現(xiàn)的五階段范式[6];另一方面,科學(xué)研究不僅是對(duì)材料進(jìn)行計(jì)量統(tǒng)計(jì),得到統(tǒng)計(jì)數(shù)據(jù),更重要的是利用數(shù)據(jù),對(duì)其中的研究問(wèn)題進(jìn)行解釋,通過(guò)計(jì)算技術(shù)在人文學(xué)科研究中發(fā)現(xiàn)問(wèn)題,解釋問(wèn)題,甚至對(duì)已有結(jié)論進(jìn)行再論證。

        本文討論計(jì)算語(yǔ)言學(xué)與計(jì)算人文的關(guān)系。首先,介紹計(jì)算語(yǔ)言學(xué)的概況、發(fā)展歷程以及主流研究范式;其次,介紹計(jì)算語(yǔ)言學(xué)中一些典型的語(yǔ)言學(xué)問(wèn)題。目前計(jì)算語(yǔ)言學(xué)的主要研究問(wèn)題不是語(yǔ)言學(xué)研究問(wèn)題,其主流方法與計(jì)算人文提出的研究框架并不兼容;第三,展示一項(xiàng)文本可讀性的研究,提出計(jì)算人文框架下計(jì)算語(yǔ)言學(xué)的研究范式;最后,討論計(jì)算語(yǔ)言學(xué)作為計(jì)算人文的研究工具的問(wèn)題。

        2? ?計(jì)算語(yǔ)言學(xué)的發(fā)展

        2.1? ? 計(jì)算語(yǔ)言學(xué)的定義

        計(jì)算語(yǔ)言學(xué)致力于自動(dòng)化處理自然語(yǔ)言,如語(yǔ)音與文字的相互轉(zhuǎn)換、專有名詞的識(shí)別、文本分類、回答問(wèn)題、文本摘要的生成、翻譯等。其研究成果的運(yùn)用使數(shù)字人文研究的重點(diǎn)逐漸轉(zhuǎn)向了對(duì)文本知識(shí)的挖掘。如劉瀏等通過(guò)對(duì)《春秋》三傳中的女性人物知識(shí)以及諸侯國(guó)聯(lián)姻關(guān)系進(jìn)行量化分析,為《春秋》三傳中的女性人物的解讀提供了新的角度[7]。于純良等利用機(jī)器學(xué)習(xí)算法對(duì)稷下學(xué)重要文獻(xiàn)資料中的知識(shí)信息進(jìn)行自動(dòng)識(shí)別、細(xì)粒度的語(yǔ)義知識(shí)深度標(biāo)引以及知識(shí)單元提取,以支持文獻(xiàn)資源的知識(shí)挖掘[8]。

        計(jì)算語(yǔ)言學(xué)至少在語(yǔ)言學(xué)和計(jì)算機(jī)科學(xué)兩個(gè)領(lǐng)域得到系統(tǒng)性關(guān)注,與之并列,還有“自然語(yǔ)言處理”這一常見(jiàn)術(shù)語(yǔ)。關(guān)于這兩個(gè)術(shù)語(yǔ),我們列舉學(xué)界一些有代表性的說(shuō)法:

        計(jì)算語(yǔ)言學(xué)是利用電子數(shù)字計(jì)算機(jī)進(jìn)行的語(yǔ)言分析[9]。

        計(jì)算語(yǔ)言學(xué)是通過(guò)建立形式化的計(jì)算模型來(lái)分析、理解和處理語(yǔ)言的學(xué)科[9]。

        計(jì)算語(yǔ)言學(xué),也稱自然語(yǔ)言處理或自然語(yǔ)言理解,是一門(mén)以計(jì)算為手段對(duì)自然語(yǔ)言進(jìn)行研究和處理的學(xué)科[10]。

        自然語(yǔ)言處理就是利用計(jì)算機(jī)為工具對(duì)人類特有的書(shū)面形式和口頭形式的語(yǔ)言進(jìn)行各種類型處理和加工的技術(shù)[11]。

        (計(jì)算語(yǔ)言學(xué)是)語(yǔ)言學(xué)的一個(gè)分支,用計(jì)算技術(shù)和概念來(lái)闡述語(yǔ)言學(xué)和語(yǔ)音學(xué)問(wèn)題[12]。

        自然語(yǔ)言處理要研制表示語(yǔ)言能力和語(yǔ)言應(yīng)用的模型,根據(jù)這樣的語(yǔ)言模型設(shè)計(jì)各種實(shí)用系統(tǒng),并探討這些實(shí)用系統(tǒng)的評(píng)測(cè)技術(shù)[13]。

        計(jì)算語(yǔ)言學(xué)包括以語(yǔ)音為主要研究對(duì)象的語(yǔ)音學(xué)基礎(chǔ)及其語(yǔ)音處理技術(shù)研究和以詞匯、句子、話語(yǔ)或語(yǔ)篇及其詞法、句法、語(yǔ)義和語(yǔ)用等相關(guān)信息為主要研究對(duì)象的處理技術(shù)研究[14]。

        從上述定義和描述可以看出,“計(jì)算語(yǔ)言學(xué)”強(qiáng)調(diào)使用計(jì)算技術(shù)對(duì)語(yǔ)言進(jìn)行研究,“自然語(yǔ)言處理”則關(guān)注語(yǔ)言處理技術(shù),但二者的定義在很大程度上是重合的,難以做出涇渭分明的區(qū)分。目前學(xué)界對(duì)計(jì)算語(yǔ)言學(xué)的認(rèn)識(shí)是:其研究對(duì)象是人類語(yǔ)言,研究手段是計(jì)算技術(shù),研究目的是對(duì)語(yǔ)言進(jìn)行自動(dòng)化處理,其研究過(guò)程涉及對(duì)語(yǔ)言的建模和對(duì)模型的評(píng)價(jià)。

        2.2? ? 計(jì)算語(yǔ)言學(xué)方法論的變遷

        計(jì)算語(yǔ)言學(xué)研究的方法論經(jīng)歷了三個(gè)階段:基于規(guī)則的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的經(jīng)驗(yàn)主義方法和基于深度神經(jīng)網(wǎng)絡(luò)的方法。

        2.2.1? ? 基于規(guī)則的方法

        基于規(guī)則的方法是理性主義(rationalism)方法,基于喬姆斯基關(guān)于語(yǔ)言是人腦內(nèi)在功能(faculty)的假設(shè)。它主張用人工整理和定義的語(yǔ)法規(guī)則,通過(guò)推理程序,對(duì)自然語(yǔ)言進(jìn)行自動(dòng)處理。根據(jù)規(guī)則構(gòu)造出來(lái)的語(yǔ)言處理系統(tǒng)解釋力很強(qiáng),因?yàn)橐?guī)則來(lái)自于語(yǔ)言學(xué)家對(duì)語(yǔ)言的觀察和總結(jié)。然而,在多數(shù)情況下,系統(tǒng)中的規(guī)則并不能覆蓋所有語(yǔ)言現(xiàn)象。當(dāng)某條規(guī)則在計(jì)算過(guò)程中碰到例外,需要對(duì)這條規(guī)則做出修正。

        以詞性標(biāo)注(POS tagging)為例,假設(shè)一個(gè)詞性標(biāo)注系統(tǒng)由一百條語(yǔ)法規(guī)則組成,對(duì)其中任何一條規(guī)則進(jìn)行變動(dòng),都可能會(huì)帶來(lái)其他規(guī)則變化的連鎖反應(yīng)。語(yǔ)法學(xué)研究顯示,自然語(yǔ)言是復(fù)雜系統(tǒng),幾乎沒(méi)有一套規(guī)則可以涵蓋所有可能的語(yǔ)言現(xiàn)象?;谝?guī)則的方法需要不斷地對(duì)規(guī)則系統(tǒng)做出調(diào)整,隨著所要處理的語(yǔ)言現(xiàn)象增多,規(guī)則系統(tǒng)面臨崩潰。

        2.2.2? ?基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法

        基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法是經(jīng)驗(yàn)主義(empiricism)方法。它與認(rèn)知語(yǔ)言學(xué)的假設(shè)一致,認(rèn)為語(yǔ)言能力的獲取是語(yǔ)言輸入的結(jié)果。人們通過(guò)已有的語(yǔ)言數(shù)據(jù)對(duì)統(tǒng)計(jì)模型進(jìn)行訓(xùn)練(training),將語(yǔ)言現(xiàn)象在語(yǔ)料庫(kù)中的分布轉(zhuǎn)化為統(tǒng)計(jì)模型的參數(shù),然后用帶有參數(shù)的統(tǒng)計(jì)模型去處理新的語(yǔ)言現(xiàn)象。相較于基于規(guī)則的方法,該方法更加健壯(robust),具有較好的預(yù)測(cè)性。從應(yīng)用的角度說(shuō),基于統(tǒng)計(jì)的方法比基于規(guī)則的方法更加簡(jiǎn)單,適應(yīng)性更強(qiáng)?;诮y(tǒng)計(jì)的方法需要將自然語(yǔ)言轉(zhuǎn)換為恰當(dāng)?shù)谋硎荆╮epresentation),并根據(jù)具體任務(wù)抽取特征(features),所以,特征工程(feature engineering)是非常重要的工作。

        2.2.3? ?基于深度神經(jīng)網(wǎng)絡(luò)的方法

        基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法結(jié)果的好壞很大程度上取決于數(shù)據(jù)的規(guī)模和標(biāo)注質(zhì)量。語(yǔ)料庫(kù)的規(guī)模、標(biāo)注深度、標(biāo)注質(zhì)量、標(biāo)注內(nèi)容等問(wèn)題都會(huì)對(duì)機(jī)器學(xué)習(xí)模型的結(jié)果產(chǎn)生影響。進(jìn)入21世紀(jì),互聯(lián)網(wǎng)上積累了海量數(shù)據(jù),這為深度神經(jīng)網(wǎng)絡(luò)(deep neural network)算法的實(shí)現(xiàn)提供了數(shù)據(jù)基礎(chǔ)。深度神經(jīng)網(wǎng)絡(luò)的輸入端和輸出端之間有n層神經(jīng)網(wǎng)絡(luò),每層神經(jīng)網(wǎng)絡(luò)上有若干個(gè)節(jié)點(diǎn)(node,又稱為神經(jīng)元),每個(gè)節(jié)點(diǎn)是一個(gè)參數(shù),數(shù)據(jù)進(jìn)入網(wǎng)絡(luò)后經(jīng)過(guò)計(jì)算(如激活函數(shù)、求導(dǎo)等操作)進(jìn)行逐層的向前/向后傳播,最終得到輸出值,在此期間,網(wǎng)絡(luò)中的節(jié)點(diǎn)(參數(shù))不斷更新,以優(yōu)化輸出值。深度神經(jīng)網(wǎng)絡(luò)方法又稱為深度學(xué)習(xí)(deep learning)。

        深度神經(jīng)網(wǎng)絡(luò)技術(shù)在語(yǔ)言處理中代表性的算法主要有詞嵌入(Word Embedding)、長(zhǎng)短時(shí)記憶(Long-Short Term Memory)和預(yù)訓(xùn)練語(yǔ)言模型(Pre-trained Language Models)。詞嵌入是文本表示方法,與統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法常用的獨(dú)熱表示(One-hot Representation)相比,詞嵌入表示將高維空間的詞匯向量投射到低維空間,得到低維高稠密的詞匯向量。LSTM是一種循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network),RNN是一類處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),適用于語(yǔ)言,LSTM通過(guò)門(mén)結(jié)構(gòu)(Gate)的設(shè)計(jì)彌補(bǔ)了RNN無(wú)法處理長(zhǎng)距離依存信息的問(wèn)題,成為處理語(yǔ)言數(shù)據(jù)的典型算法。預(yù)訓(xùn)練模型提供“預(yù)訓(xùn)練+微調(diào)”的模式,研究者使用開(kāi)源預(yù)訓(xùn)練模型,用自己的數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)后,即可開(kāi)展研究工作。深度神經(jīng)網(wǎng)絡(luò)方法已成為計(jì)算語(yǔ)言學(xué)的主流方法,其在各項(xiàng)NLP任務(wù)上的表現(xiàn)均優(yōu)于基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法。

        2.3? ? 計(jì)算語(yǔ)言學(xué)的主流研究范式

        從20世紀(jì)40年代機(jī)器翻譯工作開(kāi)始,計(jì)算語(yǔ)言學(xué)逐漸形成了一個(gè)主流的研究范式獲取數(shù)據(jù)、訓(xùn)練模型、評(píng)測(cè)模型。這三個(gè)部分是目前進(jìn)行計(jì)算語(yǔ)言學(xué)研究工作的必要環(huán)節(jié)。

        2.3.1? ?獲取數(shù)據(jù)

        數(shù)據(jù)是用來(lái)訓(xùn)練模型的。對(duì)于不同的方法,獲取數(shù)據(jù)的方式和難度是不同的。對(duì)于基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法來(lái)說(shuō),需要從語(yǔ)料庫(kù)中獲取信息,對(duì)模型進(jìn)行訓(xùn)練。而標(biāo)注是必要的工作,如分詞、詞性標(biāo)注、句法剖析、語(yǔ)義角色標(biāo)注等。不同任務(wù)需要標(biāo)注的類型和深度是不一樣的。

        對(duì)于深度神經(jīng)網(wǎng)絡(luò)的方法,數(shù)據(jù)主要來(lái)自互聯(lián)網(wǎng)語(yǔ)料,包含了很多信息。如果使用預(yù)訓(xùn)練模型,研究者只需要準(zhǔn)備少量的、簡(jiǎn)單標(biāo)注的數(shù)據(jù)對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)即可將模型轉(zhuǎn)移(transfer)到自己的工作上。

        2.3.2? ?訓(xùn)練模型

        本質(zhì)上,模型是(一些)數(shù)學(xué)公式,訓(xùn)練模型就是利用語(yǔ)料庫(kù)將公式中的參數(shù)估計(jì)出來(lái)的過(guò)程。如最簡(jiǎn)單的一元線性回歸模型y=a+bx,訓(xùn)練模型的過(guò)程就是利用語(yǔ)料庫(kù)中(x,y)信息對(duì)參數(shù)a、b進(jìn)行估計(jì)。對(duì)于預(yù)訓(xùn)練模型來(lái)說(shuō),訓(xùn)練模型是對(duì)網(wǎng)絡(luò)上的參數(shù)進(jìn)行估計(jì)。在實(shí)際工作中,模型參數(shù)的規(guī)??赡芊浅}嫶螅?dāng)前的大語(yǔ)言模型(Large Language Models)參數(shù)規(guī)模往往超過(guò)億個(gè),如Bert、GPT-1的參數(shù)規(guī)模是1億多,GPT-2的參數(shù)規(guī)模是15億,Google的PaLm參數(shù)規(guī)模5400億,ChatGPT(GPT-3.5)參數(shù)規(guī)模1750億,而GPT-4達(dá)到百萬(wàn)億的參數(shù)規(guī)模。

        2.3.3? ?評(píng)測(cè)模型

        模型訓(xùn)練完成后需要對(duì)其表現(xiàn)進(jìn)行檢測(cè),以判斷其是否有效,稱為評(píng)測(cè)(evaluation)。一般來(lái)說(shuō),用于評(píng)測(cè)模型的數(shù)據(jù)是訓(xùn)練語(yǔ)料中的一部分,在實(shí)際工作中,研究者會(huì)按一定的比例將語(yǔ)料庫(kù)分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),也就是說(shuō),測(cè)試數(shù)據(jù)是模型在訓(xùn)練階段沒(méi)有“見(jiàn)過(guò)”的,這個(gè)比例往往是7:3或者8:2,取決于語(yǔ)料庫(kù)規(guī)模。

        用于評(píng)測(cè)模型的指標(biāo)對(duì)不同的任務(wù)是不同的。如準(zhǔn)確率(accuracy)、召回率(recall)和調(diào)和平均值(f-score)適合用于分類、序列標(biāo)注等模型的評(píng)測(cè),而B(niǎo)LEU、標(biāo)注一致性等指標(biāo)適用于機(jī)器翻譯、自動(dòng)文摘模型的評(píng)測(cè)。

        在這個(gè)研究范式中,研究目標(biāo)是最大程度優(yōu)化模型算法在語(yǔ)言處理任務(wù)中的表現(xiàn),研究問(wèn)題則是通過(guò)模型改進(jìn)、開(kāi)發(fā)新的數(shù)據(jù)集以在特定任務(wù)上達(dá)到最佳的評(píng)測(cè)結(jié)果。

        3? ?計(jì)算語(yǔ)言學(xué)與語(yǔ)言學(xué)的關(guān)系

        通過(guò)引入其他學(xué)科的研究方法,當(dāng)代語(yǔ)言學(xué)衍生出相應(yīng)的研究方向。如認(rèn)知語(yǔ)言學(xué)使用認(rèn)知科學(xué)中的“象似性”原理解釋語(yǔ)法化過(guò)程中某些語(yǔ)法現(xiàn)象的演變,心理語(yǔ)言學(xué)使用眼動(dòng)儀和行為實(shí)驗(yàn)記錄人眼對(duì)語(yǔ)言材料的“刺激-反應(yīng)”數(shù)據(jù),從而對(duì)多義詞義項(xiàng)選擇進(jìn)行解釋。同樣,學(xué)者們認(rèn)為計(jì)算語(yǔ)言學(xué)是當(dāng)代語(yǔ)言學(xué)的研究方向之一。但仔細(xì)觀察計(jì)算語(yǔ)言學(xué)的發(fā)展及其研究范式,我們并不認(rèn)為計(jì)算語(yǔ)言學(xué)與認(rèn)知語(yǔ)言學(xué)、心理語(yǔ)言學(xué)一樣,是典型的語(yǔ)言學(xué)研究方向。本節(jié)羅列一些曾在計(jì)算語(yǔ)言學(xué)中被關(guān)注的語(yǔ)言問(wèn)題,藉此來(lái)討論計(jì)算語(yǔ)言學(xué)與語(yǔ)言學(xué)的關(guān)系。

        3.1? ? 分詞(Segmentation)

        漢語(yǔ)書(shū)面語(yǔ)沒(méi)有詞邊界,相較于英語(yǔ)這類語(yǔ)言,計(jì)算機(jī)處理漢語(yǔ)首先要識(shí)別詞邊界,詞邊界隔開(kāi)的單位被稱為分詞單位。在具體研究中,分詞單位的定義往往不是語(yǔ)言學(xué)意義上的詞。如果我們要從語(yǔ)料庫(kù)中統(tǒng)計(jì)常用詞,那么分詞單位應(yīng)當(dāng)是語(yǔ)言學(xué)意義上的詞,即“獨(dú)立運(yùn)用的最小音義結(jié)合體”,所以,“中華人民共和國(guó)”就應(yīng)該被切分為三個(gè)分詞單位“中華”“人民”和“共和國(guó)”。如果要做一個(gè)搜索系統(tǒng),那么分詞單位應(yīng)當(dāng)是表達(dá)一個(gè)完整概念的單位,“中華人民共和國(guó)”就應(yīng)該被視為一個(gè)分詞單位。用于進(jìn)行分詞的方法有三種:基于詞典的規(guī)則方法、基于統(tǒng)計(jì)模型的方法和基于分類模型的方法。

        3.2? ? 詞性標(biāo)注(Part-of-speech Tagging)

        句子中的每個(gè)詞都有其語(yǔ)法類別,稱為詞性,詞性標(biāo)注就是在句子中確定每個(gè)詞詞性的任務(wù)。相較于印歐語(yǔ)系形態(tài)屈折變化豐富的語(yǔ)言,對(duì)漢語(yǔ)進(jìn)行詞性標(biāo)注存在一些困難[15]:無(wú)法從詞形推斷詞性;詞的語(yǔ)法兼類現(xiàn)象普遍;詞性標(biāo)注標(biāo)準(zhǔn)不統(tǒng)一。進(jìn)行詞性標(biāo)注的方法主要有基于統(tǒng)計(jì)的方法、基于規(guī)則的方法和統(tǒng)計(jì)與規(guī)則相結(jié)合的方法。

        3.3? ? 句法分析(Parsing)

        句子是層次性結(jié)構(gòu),所以句子中的詞不總是與相鄰的詞有直接句法關(guān)系,句法分析就是自動(dòng)識(shí)別句子中詞與詞之間的句法關(guān)系并進(jìn)一步確定句法結(jié)構(gòu)的任務(wù)。

        句法分析主要分為短語(yǔ)結(jié)構(gòu)分析(constituent parsing)和依存分析(dependency parsing)兩種路徑。前者以賓州樹(shù)庫(kù)(Penn Treebank)為代表,后者以哈工大依存樹(shù)庫(kù)(dependency treebank)為代表。這兩種路徑反映了不同的語(yǔ)法理論,對(duì)于計(jì)算語(yǔ)言學(xué)來(lái)說(shuō),這是兩種不同的句子表示方法。

        句法分析是計(jì)算語(yǔ)言學(xué)中一項(xiàng)基礎(chǔ)工作,曾被認(rèn)為是機(jī)器翻譯必經(jīng)之路。用于句法分析的訓(xùn)練語(yǔ)料庫(kù)開(kāi)發(fā)成本非常大,而且不同學(xué)者對(duì)同一個(gè)句法現(xiàn)象該如何標(biāo)注也會(huì)有爭(zhēng)議。

        3.4? ? 語(yǔ)義分析

        常見(jiàn)的語(yǔ)義分析工作有詞義消歧和語(yǔ)義角色標(biāo)注。

        3.4.1? ?詞義消歧(Word Sense Disambiguation)

        一詞多義是詞匯語(yǔ)義中最常見(jiàn)的現(xiàn)象,詞匯學(xué)往往會(huì)區(qū)別多義詞和漢語(yǔ)中的同音同形詞,但對(duì)計(jì)算機(jī)而言,這兩個(gè)現(xiàn)象是一回事,都是一個(gè)詞形對(duì)應(yīng)多個(gè)義項(xiàng)。如“吃”在“我吃餃子”和“吃俺老孫一棒”中是不同的意思,詞義消歧的目標(biāo)就是把“吃”在不同句子中的義項(xiàng)標(biāo)注出來(lái)。

        3.4.2? ?語(yǔ)義角色標(biāo)注(Semantic Role Labeling)

        語(yǔ)義角色描述了句法上所說(shuō)“論元”與謂語(yǔ)中心的語(yǔ)義關(guān)系,來(lái)源于Fillmore(1968)提出的格語(yǔ)法。如“我吃了一碗飯”,謂語(yǔ)中心是“吃”,它轄制兩個(gè)論元:“我”和“一碗飯”。論元“我”的語(yǔ)義角色是謂語(yǔ)中心的“施事(agent)”,而“一碗飯”則是謂語(yǔ)中心的“受事(patient)”。SRL就是要在“論元-謂語(yǔ)中心”的框架中將論元的語(yǔ)義角色自動(dòng)識(shí)別出來(lái)。

        3.5? ? 計(jì)算語(yǔ)言學(xué)和語(yǔ)言學(xué)的關(guān)系

        上述問(wèn)題并不能算是語(yǔ)言學(xué)的研究問(wèn)題,換言之,計(jì)算語(yǔ)言學(xué)的相關(guān)研究沒(méi)有回答相關(guān)的詞匯學(xué)、句法學(xué)和語(yǔ)義學(xué)的問(wèn)題。上述問(wèn)題只是在特定任務(wù)中計(jì)算語(yǔ)言學(xué)需要解決的障礙。如計(jì)算語(yǔ)言學(xué)需要識(shí)別漢語(yǔ)文本的詞邊界,因?yàn)榻y(tǒng)計(jì)模型需要使用詞分布的數(shù)據(jù)進(jìn)行訓(xùn)練。對(duì)于語(yǔ)言學(xué),分詞問(wèn)題的本質(zhì)是回答“漢語(yǔ)中什么是詞”的問(wèn)題,而詞性標(biāo)注的本質(zhì)則是“對(duì)于缺乏屈折形態(tài)變化的漢語(yǔ),如何對(duì)詞劃分句法類別”的問(wèn)題??梢钥吹?,計(jì)算語(yǔ)言學(xué)在分詞、詞性標(biāo)注方面的工作并沒(méi)有推動(dòng)解決相關(guān)語(yǔ)言學(xué)問(wèn)題。

        從評(píng)價(jià)的角度來(lái)看,評(píng)價(jià)一個(gè)計(jì)算語(yǔ)言學(xué)工作優(yōu)劣的標(biāo)準(zhǔn)是某個(gè)機(jī)器學(xué)習(xí)模型在標(biāo)準(zhǔn)數(shù)據(jù)集上是否能夠取得評(píng)測(cè)指標(biāo)的提升。如預(yù)訓(xùn)練語(yǔ)言模型能夠比支撐向量機(jī)模型在同一個(gè)漢語(yǔ)分詞數(shù)據(jù)集上取得更好的調(diào)和平均值,那使用預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行分詞的工作就是更好的。但是,預(yù)訓(xùn)練語(yǔ)言模型依然沒(méi)有能夠回答語(yǔ)言學(xué)問(wèn)題。

        總體而言,在目前主流計(jì)算語(yǔ)言學(xué)的研究范式中,研究目的不是對(duì)語(yǔ)言現(xiàn)象進(jìn)行研究解釋,而是解決具體的工程問(wèn)題。計(jì)算語(yǔ)言學(xué)還沒(méi)有發(fā)展出一套以解決語(yǔ)言學(xué)研究問(wèn)題為中心的研究范式。以句法為例,計(jì)算語(yǔ)言學(xué)所說(shuō)的句法研究與語(yǔ)言學(xué)所說(shuō)的句法研究不是一回事,計(jì)算語(yǔ)言學(xué)的句法研究工作是在現(xiàn)有句法分析體系(一般是短語(yǔ)結(jié)構(gòu)文法或依存句法)框架下,探討如何將線性的句子自動(dòng)解析為層次性的樹(shù)狀結(jié)構(gòu),語(yǔ)言學(xué)的句法研究工作則是構(gòu)建句法規(guī)則體系,并且用句法體系來(lái)解釋句法現(xiàn)象。現(xiàn)有的計(jì)算語(yǔ)言學(xué)研究范式與“人文為問(wèn)題,計(jì)算為方法”的框架不兼容。計(jì)算語(yǔ)言學(xué)研究應(yīng)當(dāng)有一個(gè)以“語(yǔ)言/語(yǔ)言學(xué)研究”為核心,回應(yīng)語(yǔ)言和語(yǔ)言學(xué)研究問(wèn)題的研究范式。

        4? ?計(jì)算人文視閾下計(jì)算語(yǔ)言學(xué)研究范式:以文本可讀性計(jì)算為例

        計(jì)算語(yǔ)言學(xué)應(yīng)形成一個(gè)以語(yǔ)言學(xué)問(wèn)題為中心的研究范式,在這個(gè)范式中對(duì)語(yǔ)言學(xué)問(wèn)題進(jìn)行討論。這里我們以一項(xiàng)文本可讀性計(jì)算(text readability assessment)的工作為例,來(lái)演示我們?nèi)绾瓮ㄟ^(guò)計(jì)算語(yǔ)言學(xué)中的自動(dòng)分類技術(shù),對(duì)比評(píng)價(jià)各項(xiàng)語(yǔ)言學(xué)特征對(duì)文本可讀性的影響[16],并嘗試提出一套以語(yǔ)言問(wèn)題為核心研究范式。

        4.1? ? 文本可讀性計(jì)算(Text Readability Assessment)

        文本可讀性指文本易于閱讀和理解的程度,是對(duì)文本的難易程度進(jìn)行評(píng)估的核心指標(biāo),是分級(jí)閱讀研究關(guān)心的核心問(wèn)題之一。前人研究將文本可讀性計(jì)算看作分類問(wèn)題,使用基于統(tǒng)計(jì)的自動(dòng)分類模型為研究方法。

        4.2? ? 研究問(wèn)題

        研究者在文本可讀性計(jì)算這個(gè)問(wèn)題上,主要關(guān)心兩方面的問(wèn)題:一是哪些計(jì)算模型和方法可以用來(lái)解決這個(gè)問(wèn)題;二哪些因素影響了文本的可讀性。前一個(gè)問(wèn)題是關(guān)于如何構(gòu)造文本可讀性計(jì)算系統(tǒng),以達(dá)到自動(dòng)判斷的目的。后一個(gè)問(wèn)題是文本中有哪些特征影響了可讀性,這是關(guān)于文本可讀性的理論問(wèn)題。顯然后一個(gè)問(wèn)題是語(yǔ)言學(xué)的研究問(wèn)題,在計(jì)算人文的框架中,應(yīng)以此為研究問(wèn)題。文本可以分解為若干語(yǔ)言學(xué)特征:詞匯、句法、篇章。這些特征如何影響文本的可讀性,從而可以指導(dǎo)應(yīng)用語(yǔ)言學(xué)的相關(guān)工作,如語(yǔ)言教學(xué)。所以,研究問(wèn)題具體為:詞匯、句法和篇章這三種語(yǔ)言特征對(duì)文本可讀性的影響如何。

        4.3? ? 構(gòu)建語(yǔ)料庫(kù)和獲取語(yǔ)言學(xué)特征

        語(yǔ)料庫(kù)是此項(xiàng)研究的材料,選取了“統(tǒng)編版語(yǔ)文教材語(yǔ)料庫(kù)”[17]共計(jì)31.5萬(wàn)字(不包括標(biāo)點(diǎn))。由于語(yǔ)料整體規(guī)模較小,語(yǔ)料庫(kù)以學(xué)段為分級(jí)單位,根據(jù)教育部頒布的《義務(wù)教育語(yǔ)文課程標(biāo)準(zhǔn)》(2022版)對(duì)學(xué)段的劃分將四個(gè)學(xué)段的課文對(duì)應(yīng)為四個(gè)可讀性級(jí)別,作為類別標(biāo)簽。然后,對(duì)語(yǔ)料庫(kù)標(biāo)注了三個(gè)層面的語(yǔ)言學(xué)特征:詞法(25種)、句法(6種)和篇章(44種)。

        4.4? ? 自動(dòng)分類實(shí)驗(yàn)

        工程研究不同,本文不以提高分類器的分類結(jié)果為目標(biāo),而是把分類器作為工具,用來(lái)測(cè)試文本語(yǔ)言特征對(duì)可讀性的影響。以文本在教材中所處的學(xué)段作為可讀性類別標(biāo)簽,以語(yǔ)言特征作為參數(shù),實(shí)現(xiàn)特征與類別的關(guān)聯(lián),最后利用該模型判定該文本的所屬類別。對(duì)文本可讀性級(jí)別影響較大的特征,當(dāng)它出現(xiàn)的時(shí)候,分類模型的結(jié)果必然比它不出現(xiàn)的時(shí)候更好。我們可以通過(guò)觀察某類特征是否出現(xiàn)對(duì)于分類結(jié)果的影響,來(lái)評(píng)估該特征對(duì)文本可讀性的影響。

        4.5? ? 實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)結(jié)果顯示了不同種類的語(yǔ)言特征對(duì)文本可讀性的影響(見(jiàn)表1)。使用支撐向量機(jī)分類器,我們可以對(duì)“語(yǔ)言特征對(duì)文本可讀性的影響”這一問(wèn)題進(jìn)行量化分析。在單一特征模型中,篇章特征模型的分級(jí)準(zhǔn)確率為65.21%,優(yōu)于詞匯模型和句法模型,句法特征模型的準(zhǔn)確率最差。所以,篇章特征對(duì)文本可讀性的影響最大,詞匯特征次之,句法特征最次。

        4.6? ? 計(jì)算人文視閾下計(jì)算語(yǔ)言學(xué)的研究范式

        以語(yǔ)言和語(yǔ)言學(xué)問(wèn)題為核心,計(jì)算技術(shù)為研究手段,通過(guò)上述文本可讀性的工作,可以總結(jié)出一個(gè)計(jì)算人文視閾下計(jì)算語(yǔ)言學(xué)的研究范式。它包含四個(gè)部分:提出語(yǔ)言學(xué)研究問(wèn)題;與研究問(wèn)題相關(guān)的語(yǔ)言學(xué)特征的獲??;將研究問(wèn)題轉(zhuǎn)換為計(jì)算語(yǔ)言學(xué)任務(wù),設(shè)計(jì)實(shí)驗(yàn);分析實(shí)驗(yàn)結(jié)果,回應(yīng)研究問(wèn)題。

        5? ?作為研究工具的計(jì)算語(yǔ)言學(xué)

        語(yǔ)言是人類文明的重要載體,人類文明大多以語(yǔ)言形式(語(yǔ)音和文字)保留下來(lái)。人文學(xué)科(如文學(xué)、歷史、文獻(xiàn)學(xué)等)大部分的研究對(duì)象(如檔案、文獻(xiàn)等)以文本形式呈現(xiàn),所以文本是必不可少的研究材料。在研究中,不僅要對(duì)個(gè)體材料有精深的理解和把握,也需要對(duì)大規(guī)模材料有整體上的認(rèn)識(shí),這在依賴研究者個(gè)體經(jīng)驗(yàn)的情況下是難以實(shí)現(xiàn)的。計(jì)算語(yǔ)言學(xué)的快速發(fā)展為處理大規(guī)模文本數(shù)據(jù),以及在文本中進(jìn)行知識(shí)發(fā)現(xiàn)等研究活動(dòng)提供了工具。我們認(rèn)為,計(jì)算語(yǔ)言學(xué)作為研究工具,有三方面的工作可為相關(guān)研究所用:語(yǔ)言資源建設(shè)、文本分析技術(shù)、基于深層神經(jīng)網(wǎng)絡(luò)和預(yù)訓(xùn)練模型的技術(shù)。

        5.1? ? 語(yǔ)言資源建設(shè)

        語(yǔ)言資源分為語(yǔ)料庫(kù)和語(yǔ)言知識(shí)庫(kù)。

        語(yǔ)料庫(kù)是對(duì)真實(shí)語(yǔ)言材料進(jìn)行各類標(biāo)注的結(jié)果,它為統(tǒng)計(jì)模型提供數(shù)據(jù)。語(yǔ)料庫(kù)可以做如下分類:根據(jù)語(yǔ)料庫(kù)的用途可分為通用語(yǔ)料庫(kù)(如人民日?qǐng)?bào)語(yǔ)料庫(kù)、BCC語(yǔ)料庫(kù)、臺(tái)灣中研院語(yǔ)料庫(kù))和專用語(yǔ)料庫(kù)(如口語(yǔ)語(yǔ)料庫(kù)、中介語(yǔ)語(yǔ)料庫(kù));根據(jù)所搜集語(yǔ)料的時(shí)間跨度可分為共時(shí)語(yǔ)料庫(kù)(如LIVAC語(yǔ)料庫(kù)、人民日?qǐng)?bào)語(yǔ)料庫(kù))和歷時(shí)語(yǔ)料庫(kù)(如古代漢語(yǔ)語(yǔ)料庫(kù));根據(jù)語(yǔ)料庫(kù)的加工類型和深度可分為詞法標(biāo)注語(yǔ)料庫(kù)(如人民日?qǐng)?bào)語(yǔ)料庫(kù)、國(guó)家語(yǔ)委平衡語(yǔ)料庫(kù))、句法樹(shù)庫(kù)(如賓州樹(shù)庫(kù)、清華樹(shù)庫(kù))、句法依存樹(shù)庫(kù)(如哈工大漢語(yǔ)依存樹(shù)庫(kù))、命題庫(kù)(如賓州命題樹(shù)庫(kù))、篇章樹(shù)庫(kù)(賓州篇章樹(shù)庫(kù))、抽象語(yǔ)義表示庫(kù)。語(yǔ)料規(guī)模、采集范圍、標(biāo)注規(guī)范,這些問(wèn)題決定了語(yǔ)料庫(kù)的質(zhì)量并進(jìn)一步影響后續(xù)的研究,相關(guān)研究催生了一個(gè)專門(mén)的研究方向:語(yǔ)料庫(kù)語(yǔ)言學(xué)。

        語(yǔ)言知識(shí)庫(kù)是確定的語(yǔ)言知識(shí)的集合,它往往以詞典和數(shù)據(jù)庫(kù)的形式出現(xiàn)。語(yǔ)言知識(shí)庫(kù)的建立依賴專家知識(shí),是語(yǔ)言處理系統(tǒng)的基礎(chǔ)設(shè)施。根據(jù)語(yǔ)言知識(shí)庫(kù)的基本元素,可分為概念知識(shí)庫(kù)(如WordNet、FrameNet、HowNet、同義詞詞林)、詞匯知識(shí)庫(kù)(如北大語(yǔ)法信息詞典)。

        語(yǔ)言資源相關(guān)的工作對(duì)于計(jì)算人文依然具有重大的意義和價(jià)值,一方面現(xiàn)有的語(yǔ)言資源可以直接用于計(jì)算人文的研究,另一方面其方法論可以指導(dǎo)未來(lái)語(yǔ)料庫(kù)和數(shù)據(jù)庫(kù)的開(kāi)發(fā)和建設(shè)。

        5.2? ? 文本分析技術(shù)

        計(jì)算語(yǔ)言學(xué)在文本分析方面的成果可以運(yùn)用在從詞到篇各層面的數(shù)據(jù)挖掘。文本分析產(chǎn)生的數(shù)據(jù),如詞匯、語(yǔ)法關(guān)系等,對(duì)于文學(xué)、語(yǔ)言學(xué)、歷史學(xué)等人文社會(huì)科學(xué)研究領(lǐng)域是非常有用的材料。目前研究者可以通過(guò)開(kāi)源的形式獲得大部分的文本分析工具。這里簡(jiǎn)單介紹一些可以對(duì)漢語(yǔ)文本進(jìn)行分析的開(kāi)源工具。

        5.2.1? ?詞法分析工具

        詞法分析是對(duì)文本進(jìn)行挖掘和處理的第一步,目前大多數(shù)面向現(xiàn)代漢語(yǔ)的詞法分析工具可以達(dá)到高于90%的調(diào)和平均值(f-score),即使不能直接用于研究,也可以極大地簡(jiǎn)化相應(yīng)的工作負(fù)擔(dān)。古文分詞的工具比較少見(jiàn),這主要是因?yàn)楣糯鷿h語(yǔ)的時(shí)間跨度很大,不同時(shí)代、文體、題材的文本都稱為古代漢語(yǔ)文本,其內(nèi)部的詞法分布規(guī)律非常不均衡,故打造一個(gè)通用的古文分詞工具難度很大。古漢語(yǔ)分詞與詞性標(biāo)注國(guó)際評(píng)測(cè)是專門(mén)面向該問(wèn)題的工作[18]。

        詞法分析主要包括:分詞、詞性標(biāo)注、各類命名實(shí)體識(shí)別等。命名實(shí)體識(shí)別可以看作是一類特殊的詞性標(biāo)注,目前大部分的詞法分析工具都把這三個(gè)部分集成在一起(一些開(kāi)源詞法分析工具見(jiàn)表2)。

        5.2.2? ?句法分析工具

        句法分析工具將句子中詞的關(guān)系進(jìn)行顯性標(biāo)注一般有短語(yǔ)結(jié)構(gòu)分析和依存分析兩種。短語(yǔ)結(jié)構(gòu)分析將句子表示為一個(gè)樹(shù)狀結(jié)構(gòu),依存分析將句子表示為一個(gè)有向圖的結(jié)構(gòu)。盡管這兩種分析方法基于不同的句法學(xué)理念,但是二者間在技術(shù)上是可以相互轉(zhuǎn)換的。本文僅對(duì)部分開(kāi)源句法分析工具簡(jiǎn)單列舉(見(jiàn)表3)。

        5.2.3? ?語(yǔ)義分析工具

        語(yǔ)義分析主要是對(duì)句中詞的語(yǔ)義角色關(guān)系進(jìn)行顯性標(biāo)注。語(yǔ)義分析需要在句法分析的基礎(chǔ)上進(jìn)行,非常依賴句法分析的結(jié)果。目前主要是LTP和suPar提供語(yǔ)義角色標(biāo)注和語(yǔ)義依存分析。需要指出的是,suPar是一款若干句法分析工具的集成,很難看作是原創(chuàng)性的工作。

        以上列舉的各項(xiàng)文本分析工具,大多以語(yǔ)言處理平臺(tái)的方式出現(xiàn),專門(mén)針對(duì)某一語(yǔ)言單項(xiàng)的分析工具(除了結(jié)巴分詞)不多。從效果上來(lái)看,從高到低依次排序?yàn)椋悍衷~、句法分析、語(yǔ)義分析。分詞和句法分析工具的結(jié)果基本上可以直接使用,但是需要根據(jù)具體研究做一些適應(yīng)性改造。而語(yǔ)義分析的結(jié)果較差,如suPar報(bào)告的語(yǔ)義依存分析結(jié)果的調(diào)和平均值最高為71%。

        就計(jì)算語(yǔ)言學(xué)本身而言,對(duì)文本內(nèi)容進(jìn)行挖掘是其工作流程中的中間環(huán)節(jié),如果下游的任務(wù)不再需要某種文本數(shù)據(jù),那么對(duì)這種數(shù)據(jù)的挖掘就不再重要,如上文所提及的句法分析工作。所以計(jì)算人文領(lǐng)域需要在句法語(yǔ)義等“傳統(tǒng)的”文本處理分析工具方面投入研究。

        5.3? ? 基于深層神經(jīng)網(wǎng)絡(luò)和預(yù)訓(xùn)練模型的技術(shù)

        深層神經(jīng)網(wǎng)絡(luò)和預(yù)訓(xùn)練模型技術(shù)是目前計(jì)算語(yǔ)言學(xué)的主流技術(shù),已經(jīng)應(yīng)用在各個(gè)研究方向上。深層神經(jīng)網(wǎng)絡(luò)技術(shù)又稱為端到端(end-to-end)的技術(shù),即研究者只需選擇模型、調(diào)整參數(shù)、輸入數(shù)據(jù)即可,而不再需要從頭開(kāi)發(fā)。而這種端到端的模式也使得很多任務(wù),如機(jī)器翻譯、人機(jī)對(duì)話等,不再依賴對(duì)文本的詞匯、結(jié)構(gòu)、語(yǔ)義等分析的結(jié)果,所以上面提到的各種文本分析技術(shù)不再是(計(jì)算機(jī)科學(xué)視閾下)計(jì)算語(yǔ)言學(xué)研究的重點(diǎn)①。學(xué)界和工業(yè)界相繼開(kāi)源了一批深層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)框架,如PyTorch[28]、TensorFlow[29]等,這些框架的核心是各種預(yù)訓(xùn)練模型,預(yù)訓(xùn)練模型是在深層神經(jīng)網(wǎng)絡(luò)框架中使用大規(guī)模數(shù)據(jù)訓(xùn)練得到的神經(jīng)語(yǔ)言模型,這些框架和預(yù)訓(xùn)練模型使得研究者可以訓(xùn)練自己的預(yù)訓(xùn)練模型。目前開(kāi)源的中文預(yù)訓(xùn)練模型如中文BERT[30-31]、ELECTRA(現(xiàn)代漢語(yǔ))、SiKuBert[32](古代漢語(yǔ))等,還有Hugging Face[33]這樣的模型框架。

        開(kāi)源的深層神經(jīng)網(wǎng)絡(luò)框架和預(yù)訓(xùn)練模型極大簡(jiǎn)化了研究者對(duì)深層神經(jīng)網(wǎng)絡(luò)技術(shù)的使用,研究者不必從頭去開(kāi)發(fā)極為復(fù)雜的模型,甚至不用去準(zhǔn)備大量數(shù)據(jù),而是直接調(diào)用開(kāi)源工具,結(jié)合小規(guī)模數(shù)據(jù)對(duì)預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行微調(diào)。當(dāng)然,目前開(kāi)源的預(yù)訓(xùn)練模型大多是通用性的,人文研究還需要結(jié)合具體研究,開(kāi)發(fā)特定用途的預(yù)訓(xùn)練模型,如史學(xué)模型、文學(xué)模型、文獻(xiàn)模型等。

        5.4? ? 技術(shù)的有效性和可解釋性

        相比統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型,基于深層神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練模型能夠更好地完成語(yǔ)言處理的各項(xiàng)任務(wù)。但也帶來(lái)一個(gè)問(wèn)題,預(yù)訓(xùn)練模型的解釋力不及統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型,盡管學(xué)術(shù)界提出“可解釋的深度學(xué)習(xí)”,但是預(yù)訓(xùn)練模型為何能夠取得很好的結(jié)果,哪些因素對(duì)模型產(chǎn)生了積極影響。對(duì)于人文研究來(lái)說(shuō),需要在技術(shù)的有效性和可解釋性間達(dá)到平衡,在計(jì)算機(jī)科學(xué)無(wú)法使得預(yù)訓(xùn)練模型更加“透明”的情況下,研究者可以將預(yù)訓(xùn)練模型作為在研究的中間層,而不是直接輸出最終結(jié)果,這樣可以做到一定程度的平衡。如在文本可讀性的研究中,我們使用基于預(yù)訓(xùn)練模型的句法分析器輸出了高質(zhì)量的句法分析結(jié)果,然后用統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型構(gòu)造文本可讀性分類器,以評(píng)估不同語(yǔ)言學(xué)特征對(duì)文本可讀性的影響。

        6? ?結(jié)論

        本文首先介紹了計(jì)算人文的概念,提出這一術(shù)語(yǔ)是數(shù)字人文進(jìn)一步發(fā)展、對(duì)研究方法的認(rèn)識(shí)進(jìn)一步明確的結(jié)果。隨后討論了計(jì)算語(yǔ)言學(xué)在計(jì)算人文中的定位,介紹了計(jì)算語(yǔ)言學(xué)的發(fā)展,計(jì)算語(yǔ)言學(xué)與語(yǔ)言學(xué)的關(guān)系,以及計(jì)算語(yǔ)言學(xué)作為研究工具在計(jì)算人文領(lǐng)域中的作用。認(rèn)為當(dāng)前計(jì)算語(yǔ)言學(xué)的研究范式屬于計(jì)算機(jī)科學(xué)。計(jì)算人文視閾下的計(jì)算語(yǔ)言學(xué)研究范式與計(jì)算機(jī)科學(xué)的研究范式應(yīng)有所不同。由此展示了一項(xiàng)文本可讀性計(jì)算的工作,利用自動(dòng)分類實(shí)驗(yàn)考查不同的語(yǔ)言學(xué)特征對(duì)文本可讀性的影響,借此提出了一個(gè)與計(jì)算機(jī)科學(xué)研究范式不同的、以語(yǔ)言和語(yǔ)言學(xué)研究問(wèn)題為核心的計(jì)算人文研究范式,這個(gè)范式與計(jì)算人文所提出的研究框架是契合的。

        在新一代互聯(lián)網(wǎng)技術(shù)爆發(fā)的背景下,計(jì)算語(yǔ)言學(xué)研究應(yīng)順勢(shì)而上,把握好國(guó)家建設(shè)“新文科”的機(jī)遇,在計(jì)算人文這一大的框架下,將本體研究與計(jì)算技術(shù)充分結(jié)合,開(kāi)辟出具有中國(guó)特色的學(xué)科體系、學(xué)術(shù)話語(yǔ)。在以深層神經(jīng)網(wǎng)絡(luò)為代表的新一代計(jì)算語(yǔ)言學(xué)技術(shù)蓬勃發(fā)展的今天,利用開(kāi)源框架和模型,人文研究已經(jīng)完全可以將計(jì)算技術(shù)融入自己的研究,使用基于數(shù)據(jù)和數(shù)據(jù)驅(qū)動(dòng)的方法推動(dòng)人文研究的進(jìn)一步發(fā)展。

        計(jì)算語(yǔ)言學(xué)今后的發(fā)展,一方面需要以語(yǔ)言和語(yǔ)言學(xué)研究為核心,利用計(jì)算技術(shù)推動(dòng)語(yǔ)言學(xué)研究;另一方面,應(yīng)在文本分析、預(yù)訓(xùn)練模型等方面深入研究,以人文學(xué)科的問(wèn)題為研究問(wèn)題,為計(jì)算人文領(lǐng)域其他研究方向提供研究工具。計(jì)算語(yǔ)言學(xué)應(yīng)找準(zhǔn)定位,推動(dòng)計(jì)算人文的進(jìn)一步發(fā)展,助力“新文科”發(fā)展戰(zhàn)略。

        參考文獻(xiàn):

        [1]? Busa R.The Annals of Humanities Computing:The Index Thomisticus[J].Computer and the Humanities,1980,14(2):83-90.

        [2]? 黃水清,劉瀏,王東波.計(jì)算人文的發(fā)展及展望[J].科技情報(bào)研究,2021,3(4):1-12.

        [3]? 黃水清,劉瀏,王東波.國(guó)內(nèi)外數(shù)字人文研究進(jìn)展[J].情報(bào)學(xué)進(jìn)展,2022,14(0):50-84.

        [4]? 黃水清.回歸人文:從人文計(jì)算到計(jì)算人文[N].社會(huì)科學(xué)報(bào),2021-09-09(5).

        [5]? 王軍.從人文計(jì)算到可視化——數(shù)字人文的發(fā)展脈絡(luò)梳理[J].文藝?yán)碚撆c批評(píng),2020(2):18-23.

        [6]? 黃水清.人文計(jì)算與數(shù)字人文:概念、問(wèn)題、范式及關(guān)鍵環(huán)節(jié)[J].圖書(shū)館建設(shè),2019(5):68-78.

        [7]? 劉瀏,黃水清,孟凱,等.《春秋》三傳女性人物的人文計(jì)算研究[J].圖書(shū)情報(bào)工作,2020,64(23):109-123.

        [8]? 于純良,吳一平,白如江,等.數(shù)字人文視域下稷下學(xué)語(yǔ)義計(jì)算平臺(tái)建設(shè)研究[J].圖書(shū)館建設(shè),2022(2):141-149.

        [9]? 翁富良、王野翊.計(jì)算語(yǔ)言學(xué)導(dǎo)論[M].北京:中國(guó)社會(huì)科學(xué)出版社,2015.

        [10]? 劉穎.計(jì)算語(yǔ)言學(xué)[M].北京:清華大學(xué)出版社,2014.

        [11]? 馮志偉.自然語(yǔ)言的計(jì)算機(jī)處理[M].上海:上海外語(yǔ)教育出版社,1996.

        [12]? (英)戴維·克里斯特爾.沈家煊,譯.現(xiàn)代語(yǔ)言學(xué)詞典[M].北京:商務(wù)印書(shū)館,2002.

        [13]? Manaris B.Natural Language Processing:A Human-computer Interaction Perspective[J].Advaced in Computers,1999,47:1-66.

        [14]? 宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理[M].北京:清華大學(xué)出版社,2016.

        [15]? 劉開(kāi)瑛.中文文本自動(dòng)分詞和標(biāo)注[M].北京:商務(wù)印書(shū)館,2000.

        [16]? 柏曉鵬,吉伶俐.篇章結(jié)構(gòu)特征對(duì)文本可讀性的影響[J].語(yǔ)言文字應(yīng)用,2022(3):62-72.

        [17]? 柏曉鵬,吉伶俐.部編版小學(xué)語(yǔ)文教材語(yǔ)料庫(kù)建設(shè):目的和原則[J].新疆教育學(xué)院學(xué)報(bào) ,2020,36 (1):11-17.

        [18]? Devlin J,Chang M W,Lee K,et al.Bert:Pre-training of deep bidirectional transformers for language understanding[J].arXiv preprint arXiv:1810.04805,2018.

        [19]? HanLP官網(wǎng)[EB/OL].[2023-01-14].https://www.hanlp.com/index.html.

        [20]? JUNYI S.jieba[CP/OL].[2023-01-14].https://github.com/fxsjy/jieba.

        [21]? 語(yǔ)言技術(shù)平臺(tái)(Language Technology Plantform | LTP )[EB/OL].[2023-01-14].http://ltp.ai/.

        [22]? THULAC:一個(gè)高效的中文詞法分析工具包[EB/OL].[2023-01-14].http://thulac.thunlp.org/.

        [23]? YAN J.甲言Jiayan[CP/OL].[2023-01-14].https://github.com/jiaeyan/Jiayan.

        [24]? stanfordnlp/stanza[CP].Stanford NLP,2023.

        [25]? supar·PyPI[EB/OL].[2023-01-14].https://pypi.org/project/supar/.

        [26]? DDParser[CP].Baidu,2023.

        [27]? Overview[EB/OL].[2023-01-14].https://stanfordnlp.github.io/CoreNLP/.

        [28]? PyTorch[EB/OL].[2023-01-14].https://www.pytorch.org.

        [29]? ABADI M,AGARWAL A,BARHAM P,et al.TensorFlow,Large-scale machine learning on heterogeneous systems[EB/OL].[2023-01-14].https://github.com/tensorflow/tensorflow.

        [30]? BERT[EB/OL].[2023-01-14].https://github.com/google-research/bert.

        [31]? Li B,Yuan Y,Lu J,et al.The First International Ancient Chinese Word Segmentation and POS Tagging Bakeoff:Overview of the EvaHan 2022 Evaluation Campaign[C].Proceedings of the Second Workshop on Language Technologies for Historical and Ancient Languages,2022:135-140.

        [32]? 王東波,劉暢,朱子赫,等.SikuBERT與SikuRoBERTa:面向數(shù)字人文的《四庫(kù)全書(shū)》預(yù)訓(xùn)練模型構(gòu)建及應(yīng)用研究[J].圖書(shū)館論壇,2022,42(6):31-43.

        [33]? Hugging Face-The AI community building the future[EB/OL].[2023-01-14].https://huggingface.co/.

        作者簡(jiǎn)介:柏曉鵬,華東師范大學(xué)中文系副教授,研究方向:計(jì)算語(yǔ)言學(xué)、語(yǔ)言數(shù)字資源、詞匯學(xué)、漢語(yǔ)語(yǔ)言學(xué)。

        猜你喜歡
        數(shù)字人文自然語(yǔ)言處理語(yǔ)言學(xué)
        數(shù)字學(xué)術(shù)與公眾科學(xué):數(shù)字圖書(shū)館新生態(tài)
        跨界與融合:全球視野下的數(shù)字人文
        跨界與融合:全球視野下的數(shù)字人文
        認(rèn)知語(yǔ)言學(xué)與對(duì)外漢語(yǔ)教學(xué)
        基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
        大規(guī)模古籍文本在中國(guó)史定量研究中的應(yīng)用探索
        面向機(jī)器人導(dǎo)航的漢語(yǔ)路徑自然語(yǔ)言組塊分析方法研究
        漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
        HowNet在自然語(yǔ)言處理領(lǐng)域的研究現(xiàn)狀與分析
        科技視界(2016年5期)2016-02-22 11:41:39
        語(yǔ)言學(xué)與修辭學(xué):關(guān)聯(lián)與互動(dòng)
        国产91久久精品成人看网站| 日韩免费无码一区二区三区 | 日本精品视频二区三区| 全黄性性激高免费视频| 亚洲av国产精品色午夜洪2| 国产日韩A∨无码免费播放| 九九日本黄色精品视频| av中文字幕在线直播| 亚洲国产一区二区三区在观看| 亚洲五码av在线观看| 一本大道道久久综合av| 青青青爽在线视频观看| 亚洲av一宅男色影视| 国产永久免费高清在线观看视频| 国产色婷亚洲99精品av网站| 免费亚洲老熟熟女熟女熟女| 热久久美女精品天天吊色| 亚洲av无码乱码国产精品fc2| 精品免费久久久久国产一区| 国产不卡av一区二区三区| 桃红色精品国产亚洲av| 97人人模人人爽人人少妇| а中文在线天堂| 亚洲av影片一区二区三区| 亚洲精品第四页中文字幕| 日韩av无码久久一区二区| 久久精品一区二区三区av| 国模少妇无码一区二区三区| 国模精品一区二区三区| 日日av拍夜夜添久久免费| 91精品国产高清久久久久| 亚洲熟妇av一区二区三区hd| 狠狠综合亚洲综合亚洲色| 人人爽久久涩噜噜噜av| 麻豆变态另类视频在线观看| 精品国精品自拍自在线| 东北女人一级内射黄片| 在线成人一区二区| 亚洲中文字幕无码久久2018| 亚洲成人免费久久av| 我和隔壁的少妇人妻hd|