亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于XBRL的自然語言語句的形式化標注研究

        2017-12-19 13:59:38孫凡蘇垚開
        會計之友 2017年24期

        孫凡+蘇垚開

        【摘 要】 為了提高機器對自然語言的理解能力,以語義形式化為切入點,研究了基于可擴展商業(yè)報告語言(XBRL)的自然語言語句的形式化標注問題。研究表明,自然語言句子的語義表達模式靈活多樣,其語義需要分別從詞匯意義、語法意義、其他意義等方面加以理解; XBRL的技術(shù)體系結(jié)構(gòu)具有可擴展性,通過擴充基礎(chǔ)規(guī)范,重構(gòu)分類標準,增加新元素,基于XBRL技術(shù)可對自然語言的語句進行形式化標記,進而提高機器對自然語言的理解能力。

        【關(guān)鍵詞】 自然語言語句; 形式化標注; XBRL

        【中圖分類號】 H102 【文獻標識碼】 A 【文章編號】 1004-5937(2017)24-0070-04

        當(dāng)今社會已進入大數(shù)據(jù)時代,大數(shù)據(jù)及其應(yīng)用將會引起人類社會的又一次革命[1]。大數(shù)據(jù)具有容量大(Volume)、種類多(Variety)、流動速度高(Velocity)、真?zhèn)位祀s性(Veracity)等特征,是使用常規(guī)的工具難以處理的數(shù)據(jù)集合[2]。之所以難以用常規(guī)的工具處理大數(shù)據(jù),主要是因為大數(shù)據(jù)中含有大量的非結(jié)構(gòu)化數(shù)據(jù),而非結(jié)構(gòu)化數(shù)據(jù)中相當(dāng)大的一部分是來自于社交媒體的自然語言[3]。長期以來,人們試圖讓計算機等智能設(shè)備代替人類理解并處理自然語言,但實踐證明,由于存在語言現(xiàn)象無限而可利用的計算資源有限的矛盾,自然語言是一種難以用機器理解的語言[4-5]。而語言標注是一種對語言數(shù)據(jù)進行識別、選擇和歸類的工作,既能將語言數(shù)據(jù)中隱藏的意義顯式地表現(xiàn)出來,也能按照不同的使用需求對語言數(shù)據(jù)進行標準化處理,有助于將自然語言轉(zhuǎn)換為易于機器理解的數(shù)據(jù)[6]。被譽為互聯(lián)網(wǎng)女皇的瑪麗·艾克在《2014年互聯(lián)網(wǎng)趨勢報告》中提出,從2014年開始,應(yīng)用大數(shù)據(jù)解決各類問題的趨勢將顯現(xiàn),但現(xiàn)有的通用數(shù)據(jù)中有34%的信息具備研究價值,其中只有7%的數(shù)據(jù)被做了標注,被分析過的只有1%[7]。由此可見,為了便于對大數(shù)據(jù)進行分析使用,數(shù)據(jù)標注具有重要的作用。XBRL是適用于商業(yè)報告領(lǐng)域的一種國際化的標注語言,目前已在多個國家的金融監(jiān)管、財政監(jiān)管和稅務(wù)監(jiān)管領(lǐng)域得到應(yīng)用[8]。如果能用XBRL標注自然語言,這將為提高其在機器智能領(lǐng)域中的可用性創(chuàng)造非常有利的條件。本文的貢獻在于以語義形式化為突破點,提出了改進自然語言語句可用性的方法,并用擴展的XBRL作為標記語言,將有助于推動自然語言在計算機智能領(lǐng)域中的應(yīng)用。

        一、自然語言語句的語義組成

        自然語言主要由句子構(gòu)成。語言學(xué)研究認為,語義是語言的意義內(nèi)容,它是客觀現(xiàn)實地在人的意識中的反映。鑒于自然語言語句的語序靈活,依據(jù)傳統(tǒng)的依存樹投射現(xiàn)象原理不能解決某些句式的語義理解問題[9-10],本文擬從語義分解與組合的視角出發(fā)研究自然語言語句的形式化標注問題。

        本文的研究前提是句子的基本語義可分為詞匯意義、語法意義和其他意義三大類,這三大類語義組合起來可以完整地反映句子的含義;同時總可以找到不同的標注元素組合來表示各種自然語言語句的語義,標注方式(標注元素及其組合)與語句語義可以實現(xiàn)一一對應(yīng)的關(guān)系。

        (一)詞匯意義

        詞匯是自然語言的建筑材料,由詞和熟語組成[11]。詞是音義結(jié)合的、語法上定型的、能獨立運用的最小語言單位。熟語作為常用固定組合,語音和諧,語義結(jié)合緊密,是語言中獨立運用的詞匯單位。無論是詞還是熟語,都有一定的意義,統(tǒng)稱為詞匯意義。詞匯意義是對客觀現(xiàn)實抽象、概括的反映,一個詞匯意義概括一類現(xiàn)象。

        (二)語法意義

        語法是語言的組織規(guī)律,是人類思維長期思考的結(jié)果。語法用來組織語言中的詞匯單位,是語言的“建筑法”。語法意義是指用詞造句時產(chǎn)生的詞與詞之間的關(guān)系[12],包括三種基本類型:(1)語法范疇意義,如性、數(shù)、格、時、人稱、體、態(tài)等用一定的語法形式①表達的各種語言中共有的意義;(2)語法功能意義,如主語、謂語、定語等句子成分意義;(3)句法結(jié)構(gòu)意義,如陳述句、疑問句、祈使句等句型意義以及變式句、省略句等句型轉(zhuǎn)換意義。

        (三)其他意義

        其他意義是指除了詞語意義和語法意義以外,一個語句可能具有的其他語義,包括修辭意義、語境意義等。修辭意義是指通過采用特別的語言手段而使句子所體現(xiàn)出的感情色彩、語體色彩、聯(lián)想色彩等[13];其中感情色彩反映人們對客觀現(xiàn)實的主觀評價和態(tài)度,語體色彩是指語言使用隨環(huán)境而異產(chǎn)生出的書卷語體、談話語體、藝術(shù)語體和科學(xué)語體等一系列使用語言材料的特點,聯(lián)想色彩是從詞匯意義的聯(lián)想而產(chǎn)生的預(yù)示或者氛圍的語言使用技巧。語境意義包括上下文意義和社會文化意義兩種;上下文意義是指一些語言單位在具體的言語環(huán)境下所具有的特別意義,社會文化意義則指一些語言單位的含義與社會文化背景有關(guān)。語境意義在使用語言時產(chǎn)生,附著在語言材料之上,受言語環(huán)境制約。

        二、自然語言語句的語義形式化方法

        由于自然語言語句在使用中容易產(chǎn)生歧義現(xiàn)象[14],所以要進行快速準確處理,必須首先把自然語言語句所蘊涵的語義采用形式化的方法加以描述,其次用適當(dāng)?shù)臉擞浾Z言把這種描述標記成為計算機可以識別的數(shù)據(jù),然后通過特定的程序讓計算機處理這些標記數(shù)據(jù),最終實現(xiàn)提高自然語言可用性的目標[15]。自然語言語句語義表達形式化的目標是對不同的句子語義用不同的標注元素組合描述,使標注方式(包括標注元素及其組合)與句子的具體語義一一對應(yīng)起來。

        (一)詞匯意義的形式化

        所謂詞匯意義的形式化是指用不同的標注元素組合表示不同的詞匯意義,使兩者之間具有一一對應(yīng)的關(guān)系。句子所使用的詞匯包括實詞和虛詞兩大類,實詞的意義能夠獨立表達,虛詞的意義不能獨立表達,需和實詞結(jié)合起來表達[16]。無論是由實詞還是由實詞與虛詞組合而成的詞匯,從其所代表的意義來看,可分為單義詞和多義詞兩種類型。單義詞容易滿足語義與描述方式一一對應(yīng)的原則,多義詞不符合這種原則,需要借助于多義詞在句子中所具有語法意義和修辭意義來聯(lián)合描述其語義,實現(xiàn)一一對應(yīng)的形式化要求。endprint

        (二)語法意義的形式化

        所謂語法意義的形式化是指用不同的標注元素組合表示不同的語法意義,實現(xiàn)標注方式與語法意義之間的一一對應(yīng)關(guān)系。由詞匯組成句子要遵循一定的搭配規(guī)則,這些規(guī)則體現(xiàn)為句子的語法意義。句子語法意義的表達需通過語法分析的途徑來實現(xiàn),主要的語法分析途徑包括語法范疇分析、語法功能分析以及句法結(jié)構(gòu)分析。每種途徑下有若干分析對象。如語法范疇途徑下包括性、數(shù)、格、時、人稱、體、態(tài)等多種對象;語法功能途徑下包括各種句子成分分析對象,如主語、謂語、定語等具體對象;句法結(jié)構(gòu)途徑下包括各種句型分析對象,如陳述句、疑問句、祈使句、變式句、省略句等對象。利用這些對象來描述句法意義能夠滿足形式化的要求。

        (三)其他意義的形式化

        其他意義的形式化包括句子修辭意義的形式化和語境意義的形式化等。

        修辭意義的形式化是指用不同的標注元素組合表示不同修辭意義,實現(xiàn)標注方式與修辭意義之間的一一對應(yīng)關(guān)系。修辭意義的形式化可通過對修辭手法的描述來實現(xiàn),修辭手法可分為感情色彩手法、語體色彩手法、聯(lián)想色彩手法等。

        語境意義的形式化是指用不同的標注元素組合表示不同的語境意義,使兩者之間具有一一對應(yīng)關(guān)系。語境意義的形式化可通過對語境意義的構(gòu)成要素的描述來實現(xiàn)。語境意義由社會文化意義和上下文意義構(gòu)成。社會文化意義可由時代、國別、政治、經(jīng)濟、法律、文化等子元素來表示,不同的社會文化意義通過不同的子元素組合實現(xiàn)。上下文意義可由時間、地點、相關(guān)者、動機、方式等子元素來體現(xiàn),同樣,不同的上下文意義由不同的子元素組合來實現(xiàn)。

        三、自然語言語句語義形式化的標記

        在實現(xiàn)了句子意義的形式化標注目標后,還需要用適當(dāng)?shù)臉擞浾Z言對這些描述方式進行一對一標注,便于計算機處理。XBRL是來源于XML的一種用于商業(yè)報告領(lǐng)域的標記語言,由XBRL國際組織②于2000年推出,我國標準化管理委員會于2010年將其吸納為國家標準③。相對于XML,XBRL標準增加了面向元素語義解讀的擴展鏈接庫,這為實例文檔的語義形式化提供了可能性,目前已在多個國家的金融監(jiān)管、財政監(jiān)管和稅務(wù)監(jiān)管領(lǐng)域得到應(yīng)用[17-18]。XBRL的性能是由其技術(shù)體系結(jié)構(gòu)決定的,現(xiàn)行的XBRL技術(shù)采用了“積木式”和“可插拔式”的體系結(jié)構(gòu),為未來的擴展預(yù)留了空間[19]。所謂“積木式”是指XBRL技術(shù)體系采用層疊型的結(jié)構(gòu),按照XBRL國際組織所頒發(fā)的XBRL技術(shù)規(guī)范,XBRL技術(shù)體系結(jié)構(gòu)分為三層:語法規(guī)范層、分類標準層和實例文檔層,其中每一層根據(jù)需要還可以分為若干子層,比如目前我國把分類標準層劃分為企業(yè)通用分類標準和擴展分類標準兩個層次,擴展分類標準又可分為行業(yè)擴展分類標準、監(jiān)管擴展分類標準和企業(yè)自行擴展分類標準。所謂“可插拔式”是指XBRL的語法規(guī)范和分類標準層可分別由多個相互獨立的模塊組成。這些模塊可根據(jù)需要隨時添加以適應(yīng)新的使用要求。

        (一)詞匯意義形式化的XBRL標記模式

        現(xiàn)行的XBRL技術(shù)標準是面向財務(wù)報告等結(jié)構(gòu)化數(shù)據(jù)的,為了形式化地標記自然語言,需要在現(xiàn)有的XBRL分類標準的基礎(chǔ)上,繼續(xù)增加XBRL所能標注的詞匯范圍。從財政部頒布的基于XBRL的中國企業(yè)會計準則通用分類標準以及各種擴展分類標準來看,目前XBRL所使用的詞匯基本都是行業(yè)術(shù)語,這適合于內(nèi)容相對固定的各行業(yè)的財務(wù)報告,但自然語言的范疇遠遠超過財務(wù)報告,要涉及到對其他行業(yè)以及各類社會現(xiàn)象的描述,所需要的詞匯種類和數(shù)量將會極大地增加,憑借XBRL現(xiàn)有的分類標準架構(gòu)難以組織和管理巨大的詞匯量,需要改造其結(jié)構(gòu)。從大數(shù)據(jù)管理的視角,XBRL分類標準的架構(gòu)應(yīng)該由原子單詞集合和詞組結(jié)構(gòu)兩部分構(gòu)成,原子單詞是可以使用的音義結(jié)合的最小詞匯單位,從詞匯的概括意義和結(jié)合能力來看,包括實詞和虛詞兩種類型,其中實詞可以進一步地劃分為名詞、動詞、形容詞、數(shù)詞、量詞、副詞等,虛詞可以劃分為介詞、連詞、助詞、語氣詞等。之所以設(shè)立原子單詞集合,是因為語言使用實踐證明,語言單位越小,其穩(wěn)定性越強[20]。詞組結(jié)構(gòu)是指詞組內(nèi)部的詞與詞之間形成一定的語法聯(lián)系,概括了一整類詞與詞之間的關(guān)系,通過詞組體現(xiàn)出來,包括聯(lián)合詞組、主謂詞組、動賓詞組、偏正詞組、正補詞組、同位詞組等多種形式。為了標注原子單詞及詞組結(jié)構(gòu),需在現(xiàn)有XBRL技術(shù)規(guī)范的基礎(chǔ)上增設(shè)“原子單詞”和“詞組結(jié)構(gòu)”等元素,“原子單詞”元素的數(shù)目為所需單詞的數(shù)目,通過為“原子單詞”元素指定屬性和各種類型的鏈接庫的方式界定原子單詞的含義。單詞屬性主要指單詞所屬的詞類,鏈接庫主要有定義鏈接庫、引用鏈接庫等,其中定義鏈接庫負責(zé)解釋單詞的詞義,引用鏈接庫負責(zé)解釋單詞的來源及出處。“詞組結(jié)構(gòu)”元素可下設(shè)“聯(lián)合詞組”“主謂詞組”“動賓詞組”“偏正詞組”“正補詞組”“同位詞組”等子元素來表明詞組的結(jié)構(gòu)。

        (二)語法意義形式化的XBRL標記模式

        語法意義傳遞了由詞組成句子時,詞與詞之間的分工協(xié)作關(guān)系,以及言語內(nèi)容對現(xiàn)實、對時間的關(guān)系等,是理解句子語義的一個重要方面。我國現(xiàn)行的XBRL技術(shù)標準用“基礎(chǔ)規(guī)范”“維度”“公式”“版本”四個組件規(guī)定了XBRL分類標準和實例文檔中可用的語法規(guī)則,但這些語法規(guī)則是面向結(jié)構(gòu)化的財務(wù)數(shù)據(jù),對于包含以句子為基本言語單位的自然語言,這些規(guī)則不夠用,應(yīng)該在現(xiàn)有四組件的基礎(chǔ)上,再增加表達句子語法意義的“句子與轉(zhuǎn)換生成規(guī)則”組件,該組件再下設(shè)“語法范疇”“語法功能”“句法結(jié)構(gòu)”等元素。其中“語法范疇”元素表示各種語言中共有的意義,通過性、數(shù)、格、時、人稱、體、態(tài)等語法形式來表達,為此“語法范疇”元素還應(yīng)下設(shè)“性”“數(shù)”“格”“時”“人稱”“體”“態(tài)”等子元素,用它們來表示句子所反映的客觀世界的相關(guān)現(xiàn)象和相應(yīng)規(guī)律。“語法功能”元素表示詞匯在句子中所承擔(dān)的角色,包括“主語”“謂語”“賓語”“定語”“狀語”“補語”等代表各種句子成份意義的子元素。“句法結(jié)構(gòu)”元素表示言語內(nèi)容與客觀現(xiàn)實之間的關(guān)系,下設(shè)“句類”“句型”子元素,“句類”子元素表示從語氣角度對句子的分類,進一步包括“陳述句”“疑問句”“祈使句”“感嘆句”等子元素,“句型”子元素表示從句子結(jié)構(gòu)角度對句子的分類,進一步包括“主謂句”“非主謂句”兩種表示句子結(jié)構(gòu)的子元素。endprint

        (三)其他意義形式化的XBRL標記模式

        現(xiàn)有的XBRL技術(shù)規(guī)范體系中定義了上下文元素(Context),將之作為由抽象的分類標準到具體的實例文檔的接口,并提供了期間(Period)、實體(Entity)和場景(Scenario)三個子元素,表達了編制和理解財務(wù)報告所需的三種基本語境:報告時間、報告對象、報告目的與編制方法。對于自然語言的語義解讀而言,這些上下文內(nèi)容是不夠的,需要擴充。如前所述,其他意義包括修辭意義和語境意義等,因此在現(xiàn)有的上下文元素(Context)的基礎(chǔ)上,需要增加“修辭意義”和“語境意義”等新元素。其中“修辭意義”元素下設(shè)“感情色彩”“語體色彩”“聯(lián)想色彩”等子元素,“語境意義”元素下設(shè)“社會文化意義”“上下文意義”等子元素。同時為“社會文化意義”子元素增設(shè)“時代”“國別”“政治”“經(jīng)濟”“法律”“文化”等子元素,為“上下文意義”子元素增設(shè)“時間”“地點”“相關(guān)者”“動機”“方式”等子元素。

        四、結(jié)語

        隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、無線傳感器、云計算的快速發(fā)展,全球數(shù)據(jù)量出現(xiàn)爆炸式增長,人類社會進入大數(shù)據(jù)時代。學(xué)術(shù)界和工業(yè)界都在關(guān)注著大數(shù)據(jù)的發(fā)展,探索新的大數(shù)據(jù)技術(shù)、開發(fā)新的工具和服務(wù),努力將“信息過載”轉(zhuǎn)換為“信息優(yōu)勢”,將爆炸式的數(shù)據(jù)增長轉(zhuǎn)化為爆炸式的知識增長,進而造福整個世界。

        本文的貢獻在于從語義形式化的視角出發(fā),分析了自然語言語句的語義表達機制,并從XBRL的可擴展特征出發(fā),提出了能夠形式化地標注自然語言語句語義的XBRL擴展模型,研究成果有利于中文大數(shù)據(jù)在機器智能領(lǐng)域的應(yīng)用,但研究中存在以下不足:(1)本文只對自然語言語句的語義形式化問題進行了研究,雖然句子是語義表達的基本單位,但在句子基礎(chǔ)上的段落、篇章都有特定的語義表達作用,未來須對段落、篇章的語義形式化及標記問題進行研究;(2)語言學(xué)研究表明,句子語音對語義具有解釋作用,那么句子的語音有哪些類型,對語義有怎樣的解釋作用,如何用標記等問題也值得進一步研究。

        【參考文獻】

        [1] NATURE.Big Data:Science in the petabyte era[EB/OL].http://www.nature.com/news/specials/bigdata/index.html[2008-09-03/2015-02-21].

        [2] BRYANT R E,KATZ R H,LAZOWSKA E D. Big Data computing: Creating revolutionary breakthroughs in commerce,science,and society[M/OL].http//www.cra.org,2008.

        [3] GOES P B. Big Data and is research[J].MIS Quarterly,2014,38 (3):3-8.

        [4] 俞士汶,朱學(xué)鋒,耿立波.自然語言處理技術(shù)與語言深度計算[J].中國社會科學(xué),2015(3):127-135.

        [5] 宗成慶,曹右琦,俞士汶.中文信息處理60年[J].語言文字應(yīng)用,2009,11(4):53-61.

        [6] 孫茂松.基于互聯(lián)網(wǎng)自然標注資源的自然語言處理[J].中文信息學(xué)報,2011,25(6):26-32.

        [7] KPCB. 2014年互聯(lián)網(wǎng)趨勢報告[EB/OL]. http://www.iyunying.org/ziliao/903.html [2016-03-13].

        [8] 應(yīng)唯,王丁,黃敏. XBRL財務(wù)報告分類標準的架構(gòu)模型研究[J].會計研究,2013(8):3-9.

        [9] 鄭麗娟,邵艷秋,楊爾弘.中文非投射語義依存現(xiàn)象分析研究[J].中文信息學(xué)報,2014,28(6):41-47.

        [10] 李艷嬌,楊爾弘.樹庫中的歧義組合考察[J].中文信息學(xué)報,2012,26(2):23-27.

        [11] 司聯(lián)合.論句子意義中結(jié)構(gòu)意義和詞匯意義的互動關(guān)系[J].外語與外語教學(xué),2007(12):12-14.

        [12] 賈玉祥,王浩石,昝紅英,等.漢語語義選擇限制知識的自動獲取研究[J].中文信息學(xué)報,2014,28(5):66-73.

        [13] 王德春.語言學(xué)通論(修訂本)[M].北京:北京大學(xué)出版社,2006.

        [14] 張祿彭,易綿竹,周云. 中文歧義研究25年——以《中文信息學(xué)報》論文為例[J].中文信息學(xué)報,2012,26(4):73-84.

        [15] 李穎,馮志偉.計算語言學(xué)的超學(xué)科研究[J].現(xiàn)代外語,2015,38(3):407-415.

        [16] 俞士汶,朱學(xué)鋒,劉云.面向自然語言理解的漢語虛詞研究[C].民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集,2007:270-279.

        [17] PERDANA A,ROBB A,ROHDE F. An integrative review and synthesis of XBRL research in academic journals[J]. Journal of Information Systems,2015,29(1):115-153.

        [18] 張野.可擴展商業(yè)報告語言(XBRL)在資本市場的創(chuàng)新應(yīng)用[M].北京:國家行政學(xué)院出版社,2013.

        [19] 孫凡,楊周南. XBRL 技術(shù)體系結(jié)構(gòu)的語言學(xué)分析與改進研究[J].會計研究,2013(7):13-19.

        [20] 侯敏,楊爾弘.中國語言監(jiān)測研究十年[J].語言文字應(yīng)用,2015(3):12-21.endprint

        国产亚洲精品视频在线| 五十路熟妇高熟无码视频 | 色综合久久天天综线观看 | 久久久久99精品成人片试看| 久久久久久国产福利网站| 永久免费观看的黄网站在线| 免费国产黄网站在线观看视频| 久久无码人妻精品一区二区三区| 亚洲a级片在线观看| 国产av自拍在线观看| 日本道色综合久久影院| 亚洲av无码专区在线播放中文| 亚洲av日韩aⅴ永久无码| 日韩精品免费一区二区中文字幕| 蜜桃精品人妻一区二区三区| 无码吃奶揉捏奶头高潮视频| 国产精品美女白浆喷水| 一区二区三区国产大片| 图片小说视频一区二区| 国产97在线 | 免费| 日韩精品久久久中文字幕人妻| 国产精品麻豆一区二区三区| 又大又长粗又爽又黄少妇视频| 无码一区二区波多野结衣播放搜索| 99免费视频精品| 亚洲精品98中文字幕| 久久天天躁狠狠躁夜夜2020一| 亚洲区小说区图片区| 精品一区二区亚洲一二三区| 午夜天堂一区人妻| 免费看泡妞视频app| 日韩免费高清视频网站| 国产片在线一区二区三区| 久久婷婷人人澡人人爽人人爱| 亚洲特黄视频| 亚洲处破女av一区二区| 欧洲美女黑人粗性暴交视频| 亚洲女人的天堂网av| 国产ww久久久久久久久久| 亚洲色婷婷免费视频高清在线观看| 亚洲人妻av在线播放|