亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于智能優(yōu)化算法的自然語(yǔ)言語(yǔ)義相關(guān)度計(jì)算模型

        2023-09-20 02:19:56行久紅
        信息記錄材料 2023年8期
        關(guān)鍵詞:語(yǔ)義文本智能

        行久紅

        (鄭州科技學(xué)院大數(shù)據(jù)與人工智能學(xué)院 河南 鄭州 450064)

        0 引言

        語(yǔ)義相關(guān)度在廣義角度上分析,指的是兩個(gè)詞語(yǔ)之間的相關(guān)程度,能夠從某種程度上反映詞語(yǔ)之間的關(guān)聯(lián)性[1]。通俗來(lái)說(shuō),即能夠通過(guò)一個(gè)詞語(yǔ),聯(lián)想到另外一個(gè)意思相近的詞語(yǔ)[2]。傳統(tǒng)的語(yǔ)義相關(guān)度多數(shù)采用布設(shè)語(yǔ)境的方式完成,在該語(yǔ)境下,計(jì)算并分析兩個(gè)詞語(yǔ)同時(shí)出現(xiàn)的可能性,進(jìn)而根據(jù)計(jì)算分析結(jié)果衡量詞語(yǔ)語(yǔ)義相關(guān)度[3]。此種計(jì)算衡量方式具有一定的弊端,容易將語(yǔ)義相關(guān)度與語(yǔ)義相似度混淆[4]。經(jīng)過(guò)眾多學(xué)者研究發(fā)現(xiàn),語(yǔ)義相似度指的是兩個(gè)不同詞語(yǔ)之間存在的相似性,而語(yǔ)義相關(guān)度指的是兩個(gè)不同詞語(yǔ)之間的關(guān)聯(lián),具有顯著差異[5]。根據(jù)以往學(xué)者的研究結(jié)論可以得知,若兩個(gè)不同的詞語(yǔ)語(yǔ)義相似,它們之間的語(yǔ)義也一定相關(guān),反之,若詞語(yǔ)語(yǔ)義相關(guān),但是其語(yǔ)義不一定相似。通過(guò)該結(jié)論可以得出:語(yǔ)言語(yǔ)義相似度屬于語(yǔ)義相關(guān)度計(jì)算的重要組成部分??茖W(xué)合理的語(yǔ)義相關(guān)度計(jì)算方法至關(guān)重要,能夠?yàn)楝F(xiàn)代化信息檢索、海量文本分析、自然語(yǔ)言處理研究、自然語(yǔ)言機(jī)器翻譯等領(lǐng)域提供有力的數(shù)據(jù)支持,屬于一項(xiàng)基礎(chǔ)性的研究工作。智能優(yōu)化算法能夠?yàn)檎Z(yǔ)義相關(guān)度計(jì)算提供一定的幫助,通過(guò)簡(jiǎn)單信息處理單元的交互作用,求解分布式問(wèn)題,收斂速度較快,在多設(shè)計(jì)變量方面應(yīng)用優(yōu)勢(shì)顯著。

        基于此,為了提高自然語(yǔ)言語(yǔ)義相關(guān)度計(jì)算方法的可行性,優(yōu)化相關(guān)度計(jì)算結(jié)果,本文引入智能優(yōu)化算法,設(shè)計(jì)了一種全新的自然語(yǔ)言語(yǔ)義相關(guān)度計(jì)算模型。

        1 自然語(yǔ)言語(yǔ)義相關(guān)度計(jì)算模型設(shè)計(jì)

        1.1 選取自然語(yǔ)言文本編碼器

        本文設(shè)計(jì)的基于智能優(yōu)化算法的自然語(yǔ)言語(yǔ)義相關(guān)度計(jì)算模型中,首先,需要根據(jù)自然語(yǔ)言文本的具體情況與特征,選取與之適配度較高的編碼器,通過(guò)文本編碼器,解決后續(xù)語(yǔ)義相關(guān)度計(jì)算模型訓(xùn)練收斂問(wèn)題,激勵(lì)模型的運(yùn)行。綜合考慮后,本文選取卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)文本編碼器,包含了卷積計(jì)算的前饋神經(jīng)網(wǎng)絡(luò),具有良好的性能優(yōu)勢(shì)。首先利用自然語(yǔ)言文本編碼器,選擇并創(chuàng)建一個(gè)完整的局部計(jì)算塊,將其遍歷在整個(gè)相關(guān)度計(jì)算網(wǎng)絡(luò)中。其次將計(jì)算塊包含的所有節(jié)點(diǎn),添加到網(wǎng)絡(luò)下層結(jié)點(diǎn)中,使用過(guò)濾器,掃描其他位置的輸出節(jié)點(diǎn),使各個(gè)節(jié)點(diǎn)的權(quán)重與偏移量共用。利用CNN編碼器,構(gòu)建自然語(yǔ)言文本矩陣,輸入相應(yīng)的數(shù)據(jù)信息,并陳列數(shù)據(jù)信息。在此基礎(chǔ)上,使用一個(gè)8×8的卷積核,對(duì)文本圖像進(jìn)行卷積計(jì)算,獲取其卷積特征,通過(guò)不同的通道(channels),匹配圖像RGB顏色模型。抓取圖像中的細(xì)小零件,組裝成完整的圖片信息。對(duì)自然語(yǔ)言文本進(jìn)行向量化操作,提取語(yǔ)言文本中的重要語(yǔ)義信息。由于多數(shù)自然語(yǔ)言的文本長(zhǎng)度為固定值,在語(yǔ)義信息提取時(shí),可以對(duì)卷積核的寬度進(jìn)行設(shè)定。施加不同權(quán)重的卷積核,在自然語(yǔ)言文本中滑動(dòng),盡量全面提取自然語(yǔ)言文本中的重要語(yǔ)義信息。最后添加maxpooling操作,減少CNN自然語(yǔ)言文本編碼器的擬合,提高自然語(yǔ)言文本中語(yǔ)義信息提取的精度。

        1.2 自然語(yǔ)言文本數(shù)據(jù)集處理與融合

        完成自然語(yǔ)言文本編碼器選取后,實(shí)現(xiàn)了自然語(yǔ)言文本中重要語(yǔ)義信息提取的目標(biāo)。接下來(lái),對(duì)等待計(jì)算語(yǔ)義相關(guān)度的自然語(yǔ)言文本數(shù)據(jù)集進(jìn)行處理與融合,為后續(xù)語(yǔ)義相關(guān)度計(jì)算模型構(gòu)建提供基礎(chǔ)保障。

        對(duì)自然語(yǔ)言文本數(shù)據(jù)集進(jìn)行全方位的識(shí)別與分析,找出語(yǔ)義相關(guān)度計(jì)算模型可能無(wú)法識(shí)別的文字化信息。自然語(yǔ)言文本數(shù)據(jù)集處理主要包括三個(gè)部分,分別為自然語(yǔ)言文本停用詞去除處理、自然語(yǔ)言文本歸一化處理、自然語(yǔ)言文本向量化處理,需要特別注意,以上處理方式僅針對(duì)中文自然語(yǔ)言文本數(shù)據(jù)集,而英文自然語(yǔ)言文本數(shù)據(jù)集處理中,需要采用Jieba工具包,進(jìn)行文本分詞操作。

        (1)自然語(yǔ)言文本數(shù)據(jù)集停用詞去除處理。停用詞主要包括文本數(shù)據(jù)集中的部分功能詞,例如介詞、連詞等無(wú)任何實(shí)際意義的詞語(yǔ),還有詞匯詞,即使用極其廣泛,但可有可無(wú)的詞語(yǔ)。采用MATLAB軟件,生成有針對(duì)性的停用詞表,以智能化與自動(dòng)化的過(guò)濾方式,過(guò)濾刪除以上兩類(lèi)停用詞,節(jié)省存儲(chǔ)空間,提高自然語(yǔ)言文本數(shù)據(jù)集詞語(yǔ)的搜索效率。

        (2)自然語(yǔ)言文本數(shù)據(jù)集歸一化處理。將數(shù)據(jù)集中存儲(chǔ)格式不同的各個(gè)文本進(jìn)行歸一化處理,使文本長(zhǎng)度保持一致,達(dá)到自然語(yǔ)言文本規(guī)定的長(zhǎng)度。

        (3)自然語(yǔ)言文本數(shù)據(jù)集向量化處理。將自然語(yǔ)言文本中的文字,經(jīng)過(guò)詞嵌入表的轉(zhuǎn)換作用,轉(zhuǎn)換為高維稠密向量,并將其作為輸入層,輸入到后續(xù)構(gòu)建的語(yǔ)義相關(guān)度計(jì)算模型中。設(shè)定自然語(yǔ)言文本數(shù)據(jù)集向量為固定長(zhǎng)度,該長(zhǎng)度需要囊括大部分自然語(yǔ)言文本的長(zhǎng)度,在此基礎(chǔ)上,對(duì)各個(gè)文本的長(zhǎng)度進(jìn)行補(bǔ)充,初步向量化文本的內(nèi)容,獲得文本一維向量,生成自然語(yǔ)言文本詞向量庫(kù)。

        完成自然語(yǔ)言文本數(shù)據(jù)集處理后,接下來(lái),對(duì)文本數(shù)據(jù)集進(jìn)行融合。將多個(gè)數(shù)據(jù)集進(jìn)行一致化處理,統(tǒng)一其內(nèi)容與特征,轉(zhuǎn)換器處理格式,將數(shù)據(jù)集中海量不同類(lèi)型的數(shù)據(jù)進(jìn)行融合,進(jìn)而擴(kuò)大數(shù)據(jù)集。除了能夠融合數(shù)據(jù)類(lèi)型以外,還能夠融合數(shù)據(jù)功能,逐步擴(kuò)充完善自然語(yǔ)言文本數(shù)據(jù)集,提高數(shù)據(jù)集的泛化能力。設(shè)定自然語(yǔ)言文本數(shù)據(jù)集融合采用的編程語(yǔ)言為python,采用的工具包為pandas。將用戶(hù)輸入的自然語(yǔ)言文本數(shù)據(jù)集作為孿生網(wǎng)絡(luò)模型的輸入層,通過(guò)孿生網(wǎng)絡(luò)模型,比對(duì)融合后的數(shù)據(jù)集文本特征,使自然語(yǔ)言文本數(shù)據(jù)集處理與融合的結(jié)果達(dá)到最優(yōu)化目的。

        1.3 基于智能優(yōu)化算法構(gòu)建自然語(yǔ)言語(yǔ)義相關(guān)度計(jì)算模型

        基于上述自然語(yǔ)言文本數(shù)據(jù)集處理與融合完成后,實(shí)現(xiàn)了文本數(shù)據(jù)格式一致化的目標(biāo),為相關(guān)度計(jì)算模型構(gòu)建提供了基礎(chǔ)保障。在此基礎(chǔ)上,利用智能優(yōu)化算法,計(jì)算自然語(yǔ)言語(yǔ)義相關(guān)度,構(gòu)建語(yǔ)義相關(guān)度計(jì)算模型。設(shè)計(jì)智能優(yōu)化算法的運(yùn)行流程,如圖1所示。

        圖1 智能優(yōu)化算法運(yùn)行流程

        如圖1所示,首先基于群體智能優(yōu)化算法,設(shè)置并初始化自然語(yǔ)言文本種群。其次根據(jù)文本種群初始化結(jié)果,計(jì)算種群的適應(yīng)度函數(shù)。設(shè)定智能優(yōu)化算法的終止條件,將種群的適應(yīng)度函數(shù)計(jì)算結(jié)果與設(shè)定的終止條件進(jìn)行對(duì)比。若符合智能優(yōu)化算法的終止條件,則輸出智能優(yōu)化算法的全局最優(yōu)解;若不符合智能優(yōu)化算法的終止條件,則更新種群,并刪除原始解決方案,尋找另一個(gè)全新的解決方案,再次計(jì)算種群適應(yīng)度,直至滿足算法終止條件為止。通過(guò)智能優(yōu)化算法的不斷迭代,獲取最終滿意度良好的最優(yōu)解,完成智能優(yōu)化算法的整體流程。在此基礎(chǔ)上,利用智能優(yōu)化算法,尋找自然語(yǔ)言文本的義原最優(yōu)解,根據(jù)文本義原的上下位關(guān)系,構(gòu)建自然語(yǔ)言義原層次結(jié)構(gòu)體系,利用語(yǔ)義相關(guān)度S表示。設(shè)定自然語(yǔ)言文本中2個(gè)義原在層次結(jié)構(gòu)體系中的路徑距離為d,其語(yǔ)義相關(guān)度計(jì)算表達(dá)式為:

        S(p1,p2)=δ/(d+δ)

        (1)

        其中,p1、p2分別表示自然語(yǔ)言文本中的兩個(gè)義原;δ表示語(yǔ)義相關(guān)度計(jì)算中的一個(gè)可調(diào)節(jié)參數(shù)。通過(guò)計(jì)算,得出文本語(yǔ)義相似度。根據(jù)語(yǔ)義相關(guān)度,將自然語(yǔ)言文本中義原的重要性進(jìn)行分類(lèi),分類(lèi)結(jié)果如表1所示。

        表1 自然語(yǔ)言義原分類(lèi)

        由表1可知,本文設(shè)計(jì)的自然語(yǔ)言義原分類(lèi)結(jié)果,將分類(lèi)結(jié)果的4個(gè)義原值進(jìn)行線性疊加,得出2個(gè)自然語(yǔ)言詞語(yǔ)M1、M2的整體相關(guān)度,計(jì)算表達(dá)式為:

        (2)

        其中,β表示相關(guān)度計(jì)算模型的可調(diào)節(jié)參數(shù)。通過(guò)計(jì)算表達(dá)式,得出自然文本義原的綜合相關(guān)度結(jié)果,使其文本相關(guān)度依次遞減,全面提高自然語(yǔ)言語(yǔ)義相關(guān)度計(jì)算結(jié)果的精度,完成相關(guān)度計(jì)算模型設(shè)計(jì)的目的。

        2 實(shí)驗(yàn)分析

        2.1 實(shí)驗(yàn)準(zhǔn)備

        上述內(nèi)容,便是本文利用智能優(yōu)化算法,設(shè)計(jì)的自然語(yǔ)言語(yǔ)義相關(guān)度計(jì)算模型的全部流程。在此基礎(chǔ)上,進(jìn)行了如下文所示的實(shí)驗(yàn)分析,檢驗(yàn)提出計(jì)算模型的可行性與應(yīng)用效果,避免直接投入使用后存在異常,降低相關(guān)度計(jì)算結(jié)果的精確度。此次實(shí)驗(yàn)以自然語(yǔ)言領(lǐng)域本體作為實(shí)驗(yàn)數(shù)據(jù),該領(lǐng)域本體是結(jié)合自然語(yǔ)言研究指南對(duì)語(yǔ)言的權(quán)威說(shuō)明,通過(guò)protege生成的。在實(shí)驗(yàn)開(kāi)始前,選取實(shí)驗(yàn)所需的工具,搭建實(shí)驗(yàn)測(cè)試環(huán)境。本次實(shí)驗(yàn)所需的工具及說(shuō)明,如表2所示。

        表2 實(shí)驗(yàn)工具及說(shuō)明

        使用ThinkServer rd430服務(wù)器,搭建此次實(shí)驗(yàn)測(cè)試的OpenStack環(huán)境。設(shè)置服務(wù)器的內(nèi)存為64 G DDR3;硬盤(pán)為2.8 T RAIDO;系統(tǒng)為Ubuntu 16.04LTS;網(wǎng)卡為1個(gè)萬(wàn)兆網(wǎng)卡,3個(gè)千兆網(wǎng)卡;開(kāi)發(fā)平臺(tái)為T(mén)ensorflow框架;開(kāi)發(fā)語(yǔ)言為Python3.6;字向量訓(xùn)練工具為Word2vec。對(duì)自然語(yǔ)言本體概念數(shù)據(jù)集進(jìn)行全方位的存儲(chǔ)管理,通過(guò)Jena接口的解析功能,解析自然語(yǔ)言本體數(shù)據(jù)。利用自然語(yǔ)言信息內(nèi)容、語(yǔ)言屬性與語(yǔ)義距離等因素,分別計(jì)算自然語(yǔ)言領(lǐng)域中概念對(duì)之間的語(yǔ)義相關(guān)度。由于自然語(yǔ)言網(wǎng)頁(yè)文本較長(zhǎng),數(shù)量較多,為了避免影響實(shí)驗(yàn)結(jié)果的準(zhǔn)確性,本文將所有語(yǔ)言詞語(yǔ)對(duì)劃分為了10組,避免實(shí)驗(yàn)結(jié)果存在偶然性。

        2.2 結(jié)果分析

        為了提高實(shí)驗(yàn)結(jié)果的說(shuō)服性,在實(shí)驗(yàn)中,引入對(duì)比分析的方法原理,將上述本文提出的基于智能優(yōu)化算法的自然語(yǔ)言語(yǔ)義相關(guān)度計(jì)算模型設(shè)置為實(shí)驗(yàn)組,將黃承寧等[2]1152提出的基于深度學(xué)習(xí)表示的相關(guān)度計(jì)算方法、薛毅等[3]112-113提出的基于卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)度計(jì)算方法分別設(shè)置為對(duì)照組1與對(duì)照組2,分別對(duì)3種方法的應(yīng)用效果作出檢驗(yàn)。選取斯皮爾曼相關(guān)系數(shù)作為此次實(shí)驗(yàn)的評(píng)價(jià)指標(biāo),在廣義角度上指的是語(yǔ)言語(yǔ)義相關(guān)度等級(jí)變量之間的皮爾遜相關(guān)系數(shù),其數(shù)值越大,表示語(yǔ)言語(yǔ)義相關(guān)度計(jì)算結(jié)果精度越高,方法的有效性越高。評(píng)價(jià)指標(biāo)計(jì)算表達(dá)式為:

        (3)

        圖2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)對(duì)比示意圖

        圖2中,01表示rooster-voyage自然語(yǔ)言詞語(yǔ)對(duì);02表示noon-string自然語(yǔ)言詞語(yǔ)對(duì);03表示glass-magician自然語(yǔ)言詞語(yǔ)對(duì);04表示forest-graveyard自然語(yǔ)言詞語(yǔ)對(duì);05表示asylum-madhouse自然語(yǔ)言詞語(yǔ)對(duì);06表示furnace -stove自然語(yǔ)言詞語(yǔ)對(duì);07表示magician-wizard自然語(yǔ)言詞語(yǔ)對(duì);08表示journey-voyage自然語(yǔ)言詞語(yǔ)對(duì);09表示cemetery-woodland自然語(yǔ)言詞語(yǔ)對(duì);10表示shore woodland自然語(yǔ)言詞語(yǔ)對(duì)。通過(guò)圖1的評(píng)價(jià)指標(biāo)對(duì)比結(jié)果可以看出,本文提出的基于智能優(yōu)化算法的自然語(yǔ)言語(yǔ)義相關(guān)度計(jì)算模型應(yīng)用后,較另外兩種方法相比,各組自然語(yǔ)言詞語(yǔ)對(duì)的斯皮爾曼相關(guān)系數(shù)值均較高,表明其語(yǔ)義相關(guān)度計(jì)算結(jié)果更加精確,提出計(jì)算模型的有效性與可行性均較高,可以投入大規(guī)模使用。

        3 結(jié)語(yǔ)

        綜上所述,為了改善傳統(tǒng)自然語(yǔ)言語(yǔ)義相關(guān)度計(jì)算模型在實(shí)際應(yīng)用過(guò)程中,計(jì)算結(jié)果精度較低、計(jì)算流程復(fù)雜的問(wèn)題。本文在傳統(tǒng)相關(guān)度計(jì)算模型的基礎(chǔ)上,引入智能優(yōu)化算法,作出了改進(jìn)設(shè)計(jì)。通過(guò)研究,充分地利用了網(wǎng)絡(luò)資源,提高了語(yǔ)言語(yǔ)義相關(guān)度計(jì)算結(jié)果的精度,在自然語(yǔ)言文本聚類(lèi)、分類(lèi)方面優(yōu)勢(shì)顯著。提出計(jì)算模型的實(shí)用性較強(qiáng),能夠應(yīng)用于自然語(yǔ)言釋義識(shí)別任務(wù)中,結(jié)合義項(xiàng)向量使用,提取更深層次的語(yǔ)義特征,進(jìn)而形成完整的文本語(yǔ)義特征向量,性能表現(xiàn)良好,計(jì)算精度與效率較高,具有良好的應(yīng)用前景。

        猜你喜歡
        語(yǔ)義文本智能
        語(yǔ)言與語(yǔ)義
        在808DA上文本顯示的改善
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語(yǔ)義模糊
        国产熟女内射oooo| 极品熟妇大蝴蝶20p| 亚洲国产美女在线观看| 国产不卡在线免费视频| 婷婷色在线视频中文字幕| 日韩精品高清不卡一区二区三区| 亚洲一区第二区三区四区| 国产老熟女网站| 精精国产xxxx视频在线播放 | 911香蕉视频| AV熟妇导航网| 黑丝国产精品一区二区| 狼狼色丁香久久女婷婷综合| 国产桃色一区二区三区| 亚洲成在人线av品善网好看| 99re6热在线精品视频播放6| 蜜桃一区二区免费视频观看 | 性色av手机在线观看| 日本人妻免费一区二区三区| 香港三级精品三级在线专区| 亚洲国产欧美日韩一区二区| 国产女同一区二区在线| 中文字幕有码在线亚洲| 精品乱码一区内射人妻无码| 国产日韩欧美亚洲精品中字| 亚洲精品中文字幕乱码二区| 激情五月我也去也色婷婷| 中文字幕乱偷无码av先锋蜜桃 | 日本女优激情四射中文字幕 | 亚洲AV无码一区二区三区日日强| 最近亚洲精品中文字幕| 在线观看 国产一区二区三区 | 韩国19禁主播深夜福利视频| 色综合久久加勒比高清88| 成人午夜视频在线观看高清| 亚洲熟女熟妇另类中文| 国产三级精品三级| 欧妇女乱妇女乱视频| 成人在线免费视频亚洲| 天堂久久一区二区三区| 日韩精品成人无码专区免费|