亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        維吾爾語動詞體范疇的有限狀態(tài)自動機的構(gòu)建

        2012-06-29 06:15:00阿孜古麗夏力甫早克熱卡德爾吐爾根依布拉音
        中文信息學(xué)報 2012年4期
        關(guān)鍵詞:語言

        阿孜古麗·夏力甫,早克熱·卡德爾,吐爾根·依布拉音

        (1. 新疆大學(xué) 人文學(xué)院,新疆 烏魯木齊 830046; 2. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;3. 新疆大學(xué) 計算機科學(xué)與技術(shù)博士后流動站, 新疆 烏魯木齊 830046)

        引言

        維吾爾語是屬于阿爾泰語系突厥語族的黏著性語言,是一個形態(tài)變化非常豐富的語言。維吾爾語的構(gòu)詞、構(gòu)形都是通過在詞干后面綴接不同的詞綴或詞尾(構(gòu)詞附加成分稱之為詞綴,構(gòu)形附加成分稱之為詞尾)來實現(xiàn)。而且按照一定的規(guī)則不斷綴接,因此維吾爾語的形態(tài)變化非常豐富而且復(fù)雜。維吾爾語言信息處理研究的發(fā)展迫切要求我們尋找詞的構(gòu)詞、構(gòu)形規(guī)律以用于維吾爾語詞干提取,用于詞干提取中具有形態(tài)變化了的未登錄詞的發(fā)現(xiàn)。因此研究維吾爾語的形態(tài)變化規(guī)則不僅有重要的理論意義,而且對推動當(dāng)前的維吾爾語信息處理的研究與發(fā)展有重要的意義。維吾爾語中屬于不同詞類的詞有不同的形態(tài)變化,其中形態(tài)變化最豐富最復(fù)雜的是動詞。因此在維吾爾語信息處理中,研究動詞的形態(tài)分析是一個很重要的課題。基于這一問題,我們在此以研究維吾爾語動詞的體范疇為主要內(nèi)容,按照有限狀態(tài)自動機的理論和方法對維吾爾語動詞體范疇的重疊進(jìn)行論述,以便為能夠?qū)懗鲇嬎銠C程序而服務(wù)。

        1 維吾爾語體范疇的爭議

        體(aspect)是各語言的動詞中表現(xiàn)的一種特征,它一般表示動作進(jìn)行的狀況,是對動作過程或程度的一種解釋性描寫[1]。維吾爾語動詞的體范疇是維吾爾語動詞語法范疇中極為復(fù)雜的范疇之一。至今維吾爾語中對體的研究仍有很多爭議。有的語法書中沒有專門介紹體范疇,有的語法書中有體的介紹,但是觀點不同對體的分類也不同。維吾爾語中是否有體范疇這一問題,目前許多語言學(xué)家持有肯定的態(tài)度,存在的爭議只是在對體的劃分上??傮w來講,大家都公認(rèn)維吾爾語中的體是通過分析型和綜合型兩種形式構(gòu)成。吐爾迪先生指出維吾爾語中的體是表示動作行為的各種狀態(tài)的語法范疇。體按照形式和意義可分為主體和明確體等兩種[2]。主體就沒有明確表示體意義的語法手段的部分,就是說零形式的動詞,也可以是有態(tài)、時、人稱等變化的形式。明確體是通過各種語法手段表示各種明確的體意義。他還按照各種體所表達(dá)的意義的共性,把它們歸納為11種。在體的分類方面哈米提先生指出有的體意義專一,可以歸納為某個體范疇,有的體意義還在形成過程中,還無法歸納到某個體范疇[3]。該書中五個體有專門的名稱,12個體是分別解釋,沒有專門歸類。高莉琴先生把體分成綜合型體和分析型體,其中綜合型體又分為進(jìn)行體和經(jīng)歷體。分析型體可分為進(jìn)入狀態(tài)體、保持狀態(tài)體、轉(zhuǎn)變狀態(tài)體、始發(fā)體、完成體、繼續(xù)體、得到給予體和嘗試體等八種[4]。蒲泉、武致中先生把體分為完成體、持續(xù)體、嘗試體、定向體、無意體、進(jìn)入狀態(tài)體、轉(zhuǎn)變狀態(tài)體和始發(fā)體等八種[5]。程適良先生把體分為持續(xù)體、重復(fù)體、嘗試體、反身體、為他體、瞬時體、完成體和進(jìn)行體等八種[6]。劉珉先生把體分為始發(fā)體、情狀體、嘗試體、趨向體、加強體和持續(xù)體等六種[7]。對體的分類各家有各家的說法,而且在具體助動詞的歸屬上也有分歧。對嘗試體和始發(fā)體方面大家的觀點基本一致。但在其他助動詞的歸屬方面各不相同。生成語法理論把動詞的體范疇在VP里加以說明。認(rèn)為體范疇是動詞短語結(jié)構(gòu)的內(nèi)部形態(tài)標(biāo)志。由于表示體意義的語法形式的多樣性,生成語法理論用靈活的方法從維吾爾語的實際出發(fā)對體進(jìn)行描述。采用的方式: 首先把沒有任何體標(biāo)志的動詞看成一般體,但在短語結(jié)構(gòu)中把它顯示了出來。其他明確有體標(biāo)記的語法成分用以下手段體現(xiàn)出來。 (一) 把傳統(tǒng)語法中副動詞和形動詞附加成分本身體現(xiàn)的體在這些成分底下的方括號內(nèi),以大家公認(rèn)的名稱加以注明。(二) 由專門的體助動詞表達(dá)的體在AUX(auxiliary的縮寫)底下注明。并且在短語規(guī)則里增加了一個補足性規(guī)則: V→V AUX AUX→ADLZ AUX。(三) 用詞尾表達(dá)的體意義在動詞內(nèi)部增加了一個ASP(體)分叉點來表示[8]。

        2 維吾爾語體范疇的有限狀態(tài)自動機的構(gòu)造

        有限狀態(tài)自動機在構(gòu)造基于規(guī)則的語言模型上具有非常好的用途。有限狀態(tài)自動機是能夠描述詞連接層次的常用方法之一。一個有限狀態(tài)自動機是由有限狀態(tài)集合和具有一定屬性的弧組成,各狀態(tài)用有向弧線連接。每個弧線都有自己的方向和輸入符號串。這些狀態(tài)和有向弧線結(jié)合構(gòu)成一個網(wǎng)絡(luò),即有限狀態(tài)自動機。自動機的每個節(jié)點代表狀態(tài),用圓圈表示,其中有一個圓圈代表起始狀態(tài),還有一個用雙圈或單圈表示終止?fàn)顟B(tài),即狀態(tài)轉(zhuǎn)移過程的結(jié)束標(biāo)志。狀態(tài)之間用有方向的弧線表示從一個狀態(tài)向另一個狀態(tài)轉(zhuǎn)移,弧線上的標(biāo)記表示轉(zhuǎn)移的條件,也可以看作是輸入符號,即在當(dāng)前狀態(tài),如果輸入某個符號就轉(zhuǎn)移到下一個狀態(tài)。要讓計算機列出語言中的每一個詞干和詞尾,并且表示出形態(tài)順序規(guī)則,告訴我們怎樣把這些詞干和詞尾結(jié)合在一起,最常見的方法就是使用有限狀態(tài)自動機。采用該方法可以給形態(tài)順序規(guī)則建模。構(gòu)造這個自動機需要經(jīng)過以下四個步驟:

        1) 構(gòu)造從右向左的非確定自動機;

        2) 給所有體詞尾編號;

        3) 把從右向左方向的自動機轉(zhuǎn)換成從左向右的非確定自動機;

        4) 把確定自動機轉(zhuǎn)換成自動機。(NFA轉(zhuǎn)化成DFA)

        步驟一:

        圖1 維吾爾語動詞體的從右向左的非確定有限狀態(tài)自動機

        步驟二: 給詞綴編號

        在這個步驟給每一個體詞尾分配一個編號,在以后的步驟中進(jìn)行自動機方向翻轉(zhuǎn),非確定自動機轉(zhuǎn)換成確定自動機時使用這些標(biāo)號編號表示體詞尾。表1是每個狀態(tài)編號所表示的內(nèi)容。

        表1 動詞體詞尾及編號

        步驟三: 翻轉(zhuǎn)自動機

        第三步就要構(gòu)造從左向右的維吾爾語動詞體詞尾切分有限狀態(tài)自動機。構(gòu)造這種自動機時首先要構(gòu)造從右向左的非確定自動機,之后把從右向左的自動機轉(zhuǎn)換成從左向右的非確定自動機(圖2),最后把非確定自動機轉(zhuǎn)換成確定自動機。

        步驟四: NFA轉(zhuǎn)換成DFA

        為了便于計算機程序設(shè)計語言的實現(xiàn),需要把非確定自動機轉(zhuǎn)換成確定自動機,這樣可以確保每一個符號只能產(chǎn)生一個狀態(tài)轉(zhuǎn)移,并且可以消除空符號轉(zhuǎn)移。我們通過“subset construction”算法實現(xiàn)了所有經(jīng)輸入一個符號和空轉(zhuǎn)移可達(dá)到的狀態(tài)歸一個確定自動機狀態(tài)的過程。從非確定自動機選擇狀態(tài)0和通過空符號可達(dá)到的所有狀態(tài)歸于為確定自動機的起始狀態(tài)A。把輸入詞尾按從A出發(fā)可到達(dá)的目標(biāo)狀態(tài)的不同進(jìn)行組合,這些組合能產(chǎn)生的不同狀態(tài)集合歸于為新的狀態(tài)。其計算過程如表2所示。

        最后把NFA轉(zhuǎn)換成DFA,如圖3所示。

        圖2 從左向右非確定自動有限自動機

        表2 確定自動機狀態(tài)的計算過程

        圖3 轉(zhuǎn)換后的DFA有向圖

        3 結(jié)束語

        由于維吾爾語是黏著型語言,其有豐富的形態(tài)變化。因而維吾爾語的信息處理先從對語言的形態(tài)分析開始。維吾爾語動詞的體范疇是維吾爾語動詞語法范疇中極為復(fù)雜的范疇之一。維吾爾語的詞尾連接層是由詞干+態(tài)+體+否定+時態(tài)(時+人稱)構(gòu)成。因此計算機對維吾爾語動詞體范疇的處理是在對人稱、時、否定等語法范疇處理之后才進(jìn)行處理,但是體范疇的重疊較為復(fù)雜,因此需要單獨研究。有限狀態(tài)自動機在描述體范疇的重疊形式上有一定的說服力而且有一定的效率??梢?,有限狀態(tài)自動機是描述語言層次關(guān)系的有力工具。本文按照有限狀態(tài)自動機的理論和方法對維吾爾語動詞體范疇的重疊形式進(jìn)行描述,論述了維吾爾語體范疇的重疊的有限狀態(tài)自動機的構(gòu)造步驟。

        [1] 力提甫·托乎提.從短語結(jié)構(gòu)到最簡方案—阿爾泰語言的句法結(jié)構(gòu) [M]. 北京: 中央民族大學(xué)出版社,2004,79.

        [2] 吐爾迪·艾合買提. 維吾爾語[M]. 新疆: 人民出版社,1981,716.

        [3] 哈米提·鐵木爾. 現(xiàn)代維吾爾語語法[M]. 北京: 民族出版社,1987,390-421.

        [4] 高莉琴. 維吾爾語語法結(jié)構(gòu)分析[M]. 新疆: 民族出版社,1987,127-155.

        [5] 蒲泉,武致中. 實用維吾爾語語法[M]. 新疆: 人民出版社,1994,155.

        [6] 程適良. 現(xiàn)代維吾爾語語法[M]. 新疆: 人民出版社,1996,444-470.

        [7] 劉珉. 漢維共時語法[M]. 新疆: 人民出版社,1991,143-155.

        [8] 力提甫·托乎提.從短語結(jié)構(gòu)到最簡方案—阿爾泰語言的句法結(jié)構(gòu)[M]. 北京: 中央民族大學(xué)出版社,2004,80-85.

        [9] 木哈白提· 哈斯木,哈力克·尼亞孜.現(xiàn)代維吾爾語動詞體語綴的重疊與分布[J]. 民族語文,1996,(1):57-60.

        [10] 木哈白提·哈斯木,哈力克·尼亞孜.現(xiàn)代維吾爾語動詞體語綴wet,wal,wer,ala,wat探析[J]. 語言與翻譯,1996,(2):12-15.

        [11] L.S.Larkey, L.Ballesteros, M.E.Connell. Improving Stemming for Arabic Information Retrieval: Light Stemming and Co-occurrence Analysis[C]//Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Tampere, Finland, Aug. 2002: 275-282.

        [12] Greengrass M., Robertson A. M., Robyn S., et al. Processing morphological variants in searches of Latin text[J]. Information Research News, 1996, 6(4): 2-5.

        [13] Berlian V., Vega S. N., Bressan S. Indexing the Indonesian web: Language identification and miscellaneous issues[C]//Proceedings of 10th International World Wide Web Conference, Hong Kong, 2001.

        [15] M.F. Porter. An algorithm for suffix stripping[J]. Program,1980, 14(3): 130-137.

        [16] Massimo,M., Nicola,O. A Novel Method for Stemmer Generation Based on Hidden Markov Models. Conference on Information and Knowledge Management archive[C]//Proceedings of the 12th International Conference on Information and Knowledge Management, 2003: 131-134.

        [17] 早克熱·卡德爾,艾山·吾買爾,吐爾根·依布拉音,艾斯卡爾·艾木都拉. 維吾爾語名詞構(gòu)形詞綴有限狀態(tài)自動機的構(gòu)造[J].中文信息學(xué)報,2009,23(6):116-121.

        [18] 早克熱·卡德爾, 吐爾根·依布拉音. 維吾爾語形容詞構(gòu)形詞綴有限狀態(tài)自動機的構(gòu)造[J]. 電腦知識與技術(shù),2009,(4):939-941.

        猜你喜歡
        語言
        詩之新,以語言創(chuàng)造為基
        中華詩詞(2023年8期)2023-02-06 08:51:28
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        讓語言描寫搖曳多姿
        多向度交往對語言磨蝕的補正之道
        累積動態(tài)分析下的同聲傳譯語言壓縮
        日常語言與播音語言
        新聞傳播(2016年10期)2016-09-26 12:15:04
        語言技能退化與語言瀕危
        我有我語言
        論語言的“得體”
        語文知識(2014年10期)2014-02-28 22:00:56
        Only Words慎用你的語言
        免费人成黄页网站在线观看国内| 色吊丝中文字幕| 国产成人综合色在线观看网站| 初高中生精品福利视频| 国产激情一区二区三区在线蜜臀| 少妇被粗大的猛进69视频| 成人国成人国产suv| 亚洲精品网站在线观看你懂的| 日韩AV无码一区二区三不卡| 日本视频一区二区三区三州| 精品人妻av一区二区三区| 奇米影视777撸吧| 国产97色在线 | 免| 午夜亚洲精品一区二区| 国产人妻鲁鲁一区二区| 精品国模一区二区三区| 综合91在线精品| av男人天堂网在线观看| 午夜精品久久久久久久99老熟妇| 色视频www在线播放国产人成| 免费国产黄片视频在线观看| av资源在线免费观看| 亚洲精品国精品久久99热| 亚洲熟伦熟女新五十路熟妇| 最新亚洲无码网站| 青青久在线视频免费视频| 三级全黄的视频在线观看 | 欧美黄色免费看| 亚洲处破女av一区二区| 插插射啊爱视频日a级| 国产在线视频一区二区三区| 天堂在线观看av一区二区三区| 日本频道一区二区三区| 国产精品99无码一区二区| 亚洲国产成人精品无码区在线观看| 久久亚洲一级av一片| 亚洲麻豆视频免费观看| 少妇被猛男粗大的猛进出| 国产精品福利片免费看| 男女啪啪在线视频网站| 久久久久av无码免费网|