亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        半監(jiān)督算法在自然語言處理中的應(yīng)用研究

        2019-06-11 03:10:51黃春
        關(guān)鍵詞:應(yīng)用

        黃春

        摘 ? 要:隨著科學(xué)技術(shù)的發(fā)展進(jìn)步,機(jī)器學(xué)習(xí)方法在自然語言處理領(lǐng)域已經(jīng)得到了廣泛的普及與應(yīng)用。半監(jiān)督算法作為其中一項(xiàng)重要方法,具有更一般的假設(shè),方法更加直觀,解釋性好,因此在自然語言處理中有著廣泛的應(yīng)用。本文以半監(jiān)督算法在自然語言處理中的應(yīng)用為研究對象,首先分析了半監(jiān)督算法在自然語言處理中應(yīng)用必要性,隨后探討分析了半監(jiān)督算法的一些具體應(yīng)用方式。

        關(guān)鍵詞:半監(jiān)督算法 ?自然語言處理 ?應(yīng)用

        中圖分類號:TP391 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A ? ? ? ? ? ? ? ? ? ? ? ?文章編號:1674-098X(2019)02(c)-0131-02

        通過總結(jié)半監(jiān)督算法在自然語言處理中的應(yīng)用,對于促進(jìn)半監(jiān)督算法推廣應(yīng)用普及具有重要的意義。

        1 ?必要性分析

        有監(jiān)督學(xué)習(xí)算法是當(dāng)下自然語言處理中應(yīng)用的一種主流算法,該方法在句法分析、詞性標(biāo)注等方面均有著良好的應(yīng)用效果,在機(jī)器翻譯、情感分析等領(lǐng)域葉達(dá)到了非常高的水準(zhǔn)。此外,有監(jiān)督學(xué)習(xí)算法在其他領(lǐng)域中也有著非常重要的應(yīng)用,有效推動了諸如圖像處理識別、垃圾郵件識別等領(lǐng)域的發(fā)展。但該方法在實(shí)際應(yīng)用時(shí)也有著一定的局限性,例如需要依賴大量的標(biāo)注數(shù)據(jù),而這些數(shù)據(jù)標(biāo)注工作通常需要相關(guān)人員采取人工方式進(jìn)行,因此工作量較大,耗費(fèi)時(shí)間人力成本較高。當(dāng)遇到標(biāo)注語料缺乏問題,將會嚴(yán)重限制該方法應(yīng)用效果。另一方面,在我國自然語言組成中,有很多少數(shù)民族語言,例如壯語、蒙語、藏語等,這些語言應(yīng)用相對較為“小眾”,語料資源比較匱乏,因此嚴(yán)重限制了有監(jiān)督學(xué)習(xí)算法在這些語言中的應(yīng)用。此外,即使針對一些應(yīng)用比較廣的語言,例如漢語、英語等,在某些實(shí)際應(yīng)用中也會出現(xiàn)標(biāo)語語料獲取難度大等問題,同樣嚴(yán)重應(yīng)用效果。以構(gòu)建統(tǒng)計(jì)句法分析應(yīng)用樹庫為例,該任務(wù)由于難度較大,當(dāng)前只有漢語與英語有專門的大規(guī)模標(biāo)注樹庫(賓州樹庫),而阿拉伯語與俄語雖然實(shí)際應(yīng)用范圍也比較廣,但由于標(biāo)注樹庫規(guī)模較小,有監(jiān)督學(xué)習(xí)算法對于這些語言句法分析依然難以得到有效應(yīng)用?;诖?,為使得語料匱乏的自然語言處理任務(wù)問題得到妥善解決,有必要對半監(jiān)督算法進(jìn)行研究分析。半監(jiān)督算法作為當(dāng)下機(jī)器學(xué)習(xí)語言的重要方法,主要研究如何同時(shí)利用標(biāo)記數(shù)據(jù)與無標(biāo)記數(shù)據(jù)獲得更好的語言學(xué)習(xí)性能,達(dá)到滿意的應(yīng)用效果。

        2 ?半監(jiān)督算法在自然語言處理中的應(yīng)用

        2.1 應(yīng)用于無向圖建立

        半監(jiān)督算法在實(shí)際的語言處理過程中,無法直接訓(xùn)練出固定的模型。原因在于面對大量任務(wù)同時(shí)存在的情況,該算法需要對文檔中詞匯的特征進(jìn)行逐一提取,難度較大。為避免出現(xiàn)數(shù)據(jù)稀疏問題,在應(yīng)用該算法進(jìn)行知識檢索過程時(shí),需要圍繞全部數(shù)據(jù),建立一個(gè)無向圖。具體而言,每一個(gè)數(shù)據(jù)點(diǎn)都各自由一個(gè)點(diǎn)來代表,若兩點(diǎn)之間具有一定相似性,則利用連接線來具體體現(xiàn)。然后通過設(shè)置X,用于表示無向圖中連接線的權(quán)值矩陣,其中針對數(shù)據(jù)點(diǎn)j與數(shù)據(jù)點(diǎn)k之間連接線權(quán)值,用xjk表示。若上述兩點(diǎn)之間不存在連接線,那么xjk=0。我們可以假設(shè)鄰近數(shù)據(jù)點(diǎn)為L,數(shù)據(jù)點(diǎn)k在數(shù)據(jù)點(diǎn)j的鄰近區(qū)域中,那么可得xjk=1。我們通過利用高斯核的方式對上述關(guān)系進(jìn)行核對并描述,可得出如下結(jié)論:

        在上述分析的基礎(chǔ)之上,在流形條件下,引入半督學(xué)習(xí)算法。流形條件具體是指:當(dāng)數(shù)據(jù)樣本的數(shù)據(jù)復(fù)雜度較高時(shí),將這些復(fù)雜的數(shù)據(jù)在數(shù)據(jù)復(fù)雜度較低樣本中來進(jìn)行存儲的一種條件。基于此,若該條件假設(shè)成立,那么在實(shí)際進(jìn)行自然語言處理時(shí),即使面對數(shù)據(jù)復(fù)雜度相對較低的空間,也能夠?qū)崿F(xiàn)知識的有效檢索。總的來說,通過應(yīng)用半監(jiān)督學(xué)習(xí)算法,可以有效降低自然語言處理各種局限性的影響,尤其是針對數(shù)據(jù)復(fù)雜度過高的局限性,可有效改善這一局限性問題,彰顯了半監(jiān)督算法的應(yīng)用優(yōu)勢。

        2.2 應(yīng)用標(biāo)記傳播法降低自然語言處理知識檢索的難度

        標(biāo)記傳播算法是一種比較典型的半監(jiān)督學(xué)習(xí)算法,該算法對流形假設(shè)進(jìn)行了充分的利用。主要是在所有樣本的基礎(chǔ)之上,通過構(gòu)建K近鄰圖或完全圖,對于圖中標(biāo)注樣本標(biāo)簽而言,可以使其在未標(biāo)注樣本之上進(jìn)行傳遞。如果兩個(gè)樣本點(diǎn)之間有著較高的相似度,則說明越容易傳播。在上述過程中,有標(biāo)注數(shù)據(jù)標(biāo)簽會保持不變,而未標(biāo)注數(shù)據(jù)標(biāo)簽則會不間斷地進(jìn)行更新。借助該方法,可以有效簡化無向圖,降低在自然語言處理過程中知識檢索的復(fù)雜度與難度,提高處理效果。

        基于上述的分析可知,通過應(yīng)用流形假設(shè),在實(shí)際進(jìn)行數(shù)據(jù)處理分析的過程中,能夠有效獲取與數(shù)據(jù)樣本相關(guān)的鄰近區(qū)域的圖譜。并且針對獲取的無向圖來說,也有著非常高的完整性,更有利于處理效果提升。與此同時(shí),在圖中,我們還可以做出如下假設(shè),在所有數(shù)據(jù)樣本中,存在一部無數(shù)標(biāo)注數(shù)據(jù)樣本,這些樣本標(biāo)簽可以傳遞到其余數(shù)據(jù)樣本中。如果數(shù)據(jù)樣本有著非常高的相似度,那么在實(shí)際進(jìn)行樣本傳遞時(shí),難度將會大大降低,并且在傳遞過程中,樣本的標(biāo)簽也不會發(fā)生變化。但對于無標(biāo)注數(shù)據(jù)樣本而言,自身標(biāo)簽會完成數(shù)據(jù)更新。在實(shí)際進(jìn)行無向圖建立過程中,針對兩個(gè)數(shù)據(jù)點(diǎn)而言,他們的相似度可以進(jìn)行自定義設(shè)置,針對數(shù)據(jù)樣本之間的標(biāo)簽傳遞,也可以進(jìn)行標(biāo)簽傳遞概率矩陣的構(gòu)建,設(shè)置矩陣大小可用如下公式表示:,結(jié)果可得:

        我們可以通過利用上述方法,來完成無向圖的構(gòu)建,具體步驟如下。

        (1)進(jìn)行數(shù)據(jù)輸入:假設(shè)全部數(shù)據(jù)樣本構(gòu)成了一個(gè)集合,用E表示,在該集合中,包含三個(gè)子集合,一是由標(biāo)記數(shù)據(jù)構(gòu)成的集合,用M表示,二是由為標(biāo)記的數(shù)據(jù)組成的集合,用V表示,三是由不同數(shù)據(jù)類別屬性構(gòu)成的集合,我們用D表示。

        (2)以自定義的數(shù)據(jù)樣本之間的相似度計(jì)算方式為依據(jù),完成數(shù)據(jù)樣本的無向圖,的構(gòu)建,具體可表示為,從中可以獲得對應(yīng)相似度矩陣,具體可用X表示。

        (3)立足于數(shù)據(jù)樣本標(biāo)簽傳遞過程進(jìn)行計(jì)算,可以獲得傳遞概率矩陣,具體用U表示。

        (4)以數(shù)據(jù)樣本標(biāo)簽傳遞概率為依據(jù),來對標(biāo)簽數(shù)據(jù)之和加以計(jì)算,并更新對應(yīng)的數(shù)據(jù)概率分布,具體應(yīng)用公式如下:

        (5)圍繞已經(jīng)明確有標(biāo)注的數(shù)據(jù)樣本,需要對該數(shù)據(jù)點(diǎn)概率值進(jìn)行初始化設(shè)置,然后不斷重復(fù)(3),直至該公式滿足收斂條件。

        在上述應(yīng)用半監(jiān)督算法進(jìn)行基于自然語言處理的數(shù)據(jù)知識檢索過程中,我們可以作出如下假設(shè):首先是時(shí)間復(fù)雜性取值大于了,同時(shí)對于標(biāo)記傳播方法而言,在具體進(jìn)行自然語言知識檢索過程中,采用的是直推方式,在每次進(jìn)行知識檢索,需要重新對算法進(jìn)行相應(yīng)的測試,因此在實(shí)際應(yīng)用過程中,需要在較短時(shí)間內(nèi)將樣本中主題詞完成提取,使得自然語言處理計(jì)算的復(fù)雜性得到有效降低。

        3 ?結(jié)語

        綜上所述,半監(jiān)督算法作為機(jī)器學(xué)習(xí)算法的重要組成部分,在自然語言基礎(chǔ)性問題處理上發(fā)揮著重要的作用。在原本使用的監(jiān)督算法中,由于其實(shí)際應(yīng)用有著諸多局限性,比如對于標(biāo)注資料依賴性較高,需要耗費(fèi)大量的人力物力資源等,整體應(yīng)用成本比較高昂,并且對于標(biāo)注資源需求數(shù)量較高,并不適合一些“小眾”語言學(xué)習(xí)應(yīng)用,同時(shí)在標(biāo)注語料擴(kuò)展方面難度也比較大。而半監(jiān)督算法出現(xiàn),則有效彌補(bǔ)了上述缺陷,已經(jīng)成為機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)主流發(fā)展方向之一,通過對標(biāo)記數(shù)據(jù)與無標(biāo)記數(shù)據(jù)進(jìn)行綜合利用,從而有效提升整體數(shù)據(jù)的有效利用性。

        參考文獻(xiàn)

        [1] 朱曉光.基于半監(jiān)督學(xué)習(xí)的微博情感分析方法研究[D].山東財(cái)經(jīng)大學(xué),2014.

        [2] 周鑫.半監(jiān)督算法在自然語言處理中應(yīng)用的研究[D].哈爾濱工業(yè)大學(xué),2014.

        [3] 柏藝珊,黃展原.自然語言處理中半監(jiān)督算法的應(yīng)用[J].電子技術(shù)與軟件工程,2017(2):156.

        猜你喜歡
        應(yīng)用
        配網(wǎng)自動化技術(shù)的應(yīng)用探討
        科技視界(2016年21期)2016-10-17 19:54:47
        帶壓堵漏技術(shù)在檢修中的應(yīng)用
        科技視界(2016年21期)2016-10-17 19:54:05
        行列式的性質(zhì)及若干應(yīng)用
        科技視界(2016年21期)2016-10-17 18:46:46
        癌癥擴(kuò)散和治療研究中的微分方程模型
        科技視界(2016年21期)2016-10-17 18:37:58
        紅外線測溫儀在汽車診斷中的應(yīng)用
        科技視界(2016年21期)2016-10-17 18:28:05
        多媒體技術(shù)在小學(xué)語文教學(xué)中的應(yīng)用研究
        考試周刊(2016年76期)2016-10-09 08:45:44
        微課的翻轉(zhuǎn)課堂在英語教學(xué)中的應(yīng)用研究
        分析膜技術(shù)及其在電廠水處理中的應(yīng)用
        科技視界(2016年20期)2016-09-29 14:22:00
        GM(1,1)白化微分優(yōu)化方程預(yù)測模型建模過程應(yīng)用分析
        科技視界(2016年20期)2016-09-29 12:03:12
        煤礦井下坑道鉆機(jī)人機(jī)工程學(xué)應(yīng)用分析
        科技視界(2016年20期)2016-09-29 11:47:01
        亚洲一区二区三区乱码在线中国| 国产麻豆一精品一AV一免费软件| 亚洲无码vr| 精品亚洲在线一区二区| 99久久精品免费看国产一区二区三区| 中文无码一区二区不卡αv| 国产精品偷伦免费观看的| 自拍偷拍另类三级三色四色| 亚洲精品中文字幕一区二区| 国产裸体xxxx视频在线播放 | 亚洲av一二三四区四色婷婷| 中文字幕精品久久久久人妻红杏1| 亚洲第一区无码专区| 熟女一区二区国产精品| 久久天天躁夜夜躁狠狠 | 美女高潮黄又色高清视频免费| 宝贝把腿张开我要添你下边动态图 | 日本丰满老妇bbw| 中文字幕亚洲情99在线| 欧美日韩性高爱潮视频| 性感的小蜜桃在线观看| 精品综合久久久久久888蜜芽| 又黄又爽又色的视频| 无码中文字幕久久久久久| 区一区二区三区四视频在线观看| 宅男666在线永久免费观看| 国产女人成人精品视频| 大量老肥熟女老女人自拍| 精品亚洲一区二区区别在线观看| 成人综合婷婷国产精品久久蜜臀| 人妻丰满熟妇AV无码片| 亚洲中文字幕综合网站| 亚洲精品~无码抽插| 国产国拍亚洲精品mv在线观看 | 久久精品国产亚洲AⅤ无码| 国产av精品久久一区二区| 内射中出日韩无国产剧情| 国产嫖妓一区二区三区无码| 一区二区三区国产97| 久久久中文字幕日韩精品| 国产伦久视频免费观看视频|