亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)TF-IDF算法在電商仿真實(shí)訓(xùn)平臺中的應(yīng)用

        2023-09-04 14:51:44劉國柱張津烽王華東
        計(jì)算機(jī)仿真 2023年7期
        關(guān)鍵詞:文本

        劉國柱,張津烽,王華東

        (青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院,山東 青島 266061)

        1 引言

        從20世紀(jì)九十年代開始,中國電子商務(wù)飛速發(fā)展,已成為全球電子商務(wù)領(lǐng)先者。電商仿真實(shí)訓(xùn)平臺的建設(shè)是企業(yè)需求人才培養(yǎng)目標(biāo)導(dǎo)向的重要實(shí)踐,也是目前中國高校電商專業(yè)教學(xué)改革的重要內(nèi)容,在提高教學(xué)可實(shí)踐性、前沿性,突破傳統(tǒng)教學(xué)模式瓶頸,加強(qiáng)教學(xué)創(chuàng)新力度方面有重要的意義。仿真平臺將模擬現(xiàn)實(shí)行業(yè)平臺的運(yùn)營思想應(yīng)用于實(shí)踐教學(xué)中來,為電商相關(guān)專業(yè)教學(xué)提供了真實(shí)互動的教學(xué)與實(shí)踐環(huán)境,讓學(xué)生在實(shí)踐中提高崗位能力。在電商仿真實(shí)訓(xùn)平臺中,學(xué)生可扮演六大角色:廠家、商場、外貿(mào)公司、銀行、物流以及消費(fèi)者,角色之間進(jìn)行自主商務(wù)交互,展現(xiàn)電子商務(wù)交易,從原材料采購開始,制成中間產(chǎn)品及最終產(chǎn)品,最后通過網(wǎng)絡(luò)服務(wù)平臺將產(chǎn)品送到消費(fèi)者手中。同時,電商仿真實(shí)訓(xùn)平臺也是一個學(xué)生能力評測的教學(xué)應(yīng)用平臺,不僅能讓學(xué)生在平臺項(xiàng)目中進(jìn)行實(shí)操,獲得職業(yè)技能,而且可以將學(xué)生專業(yè)能力與就業(yè)崗位進(jìn)行對應(yīng),實(shí)現(xiàn)對學(xué)生崗位能力的智能評分和評價。其中,商品詳情是評測學(xué)生專業(yè)能力的重要內(nèi)容,用戶的購買意愿是通過描述來深入了解商品的,在很大程度上決定著商品的銷售量,影響店鋪的利潤率。

        商品編寫能力的智能評測功能需要通過自然語言處理中的主題詞提取技術(shù)實(shí)現(xiàn)。自然語言處理研究內(nèi)容可細(xì)分到語法與句法分析、語義理解、語言認(rèn)知、語言表示和知識圖譜等基礎(chǔ)研究,其應(yīng)用領(lǐng)域有:文本的分類與聚類分析、信息抽取等[1]。國內(nèi)許多學(xué)者致力于中文自然語言處理的研究,早期的如董振東先生的知網(wǎng),哈爾濱工業(yè)大學(xué)信息管理實(shí)驗(yàn)室的同義詞詞林,黃曾陽先生的HNC理論等,都在各自的研究方向上對自然語言處理的發(fā)展做出了不同程度的貢獻(xiàn),極大地推動了國內(nèi)自然語言處理的發(fā)展。日常所能獲取到的信息中約有百分之八十是依賴自然語言商品詳情的文本形式存在的,如何快速獲取文章的主要內(nèi)容取決于是否能夠快速定位文章主題以及能否準(zhǔn)確地獲取文章的關(guān)鍵詞[1]。從近年來主題詞提取的研究進(jìn)展來看,雖然針對短文本的主題詞提取發(fā)展快速,但不足的是短文本應(yīng)用方向的不同導(dǎo)致其文本格式差距較大,算法針對性強(qiáng),適用范圍也就大大降低。因此,短文本主題詞提取這一領(lǐng)域,仍有很大的發(fā)展空間。本文在TF-IDF算法基礎(chǔ)上,綜合詞語位置、詞性、頻率等特征并創(chuàng)新性提出數(shù)據(jù)字典這一特征強(qiáng)化方式對詞語權(quán)值進(jìn)行重定義,該方法提升了短文本提取主題詞的正確率,并用于評測電商實(shí)訓(xùn)平臺中學(xué)生撰寫的商品描述。

        2 問題描述

        商品詳情是內(nèi)容包含商品的重要信息,是顧客近一步獲取商品信息的方式。仿真實(shí)訓(xùn)平臺通過商品詳情與商品標(biāo)題的契合度為依據(jù)評測判斷學(xué)生編寫的商品詳情是否符合崗位能力要求,但商品詳情一般文字相對較多,教師人工評測需要花費(fèi)大量的時間,工作效率比較低,且不利于平臺數(shù)字化過程評測的整體應(yīng)用。因此,平臺需要實(shí)現(xiàn)對學(xué)生編寫的商品詳情進(jìn)行智能化評測,即通過提取商品詳情中的主題詞來檢驗(yàn)描述是否緊扣主題,是否和商品標(biāo)題相對應(yīng)等。

        目前,暫無適用于此類短文本主題詞提取的算法。主流如LDA[2]、LSI,TextRank[3-5]、TF-IDF[6,7]等算法在長文本的主題詞提取中應(yīng)用較多,但在短文本主題詞提取中效果不理想。綜合考慮上述幾種算法的特點(diǎn),TF-IDF算法實(shí)現(xiàn)原理簡單,操作復(fù)雜度更低,運(yùn)行效率更高,本文在現(xiàn)有的TF-IDF算法基礎(chǔ)上,保留算法簡便、容易實(shí)現(xiàn)等優(yōu)點(diǎn),針對提取特征單一的缺點(diǎn)進(jìn)行改進(jìn)。改進(jìn)后的TF-IDF算法將在商品詳情類短文本主題詞提取中更具優(yōu)勢,提升主題詞提取的正確率,實(shí)現(xiàn)商品詳情與商品標(biāo)題契合度的更準(zhǔn)確評測。

        3 TF-IDF算法介紹

        3.1 TF-IDF算法

        TF-IDF算法主要評估字詞對于一個文件集或一個語料庫中其中一份文件的重要程度。字詞對于一個文本的重要性會隨著它在此文中的出現(xiàn)頻率TF的增加而增加,也會隨著它在文檔集合的其他文檔中的出現(xiàn)頻率IDF的增加而減少[7]。TF-IDF算法基本思想是找到現(xiàn)文中出現(xiàn)頻率較高但在其它文檔中出現(xiàn)頻率低的詞語并以它去代表這篇文章。

        3.2 TF的介紹

        TF表示商品詳情文本中一個詞的出現(xiàn)頻率。作為衡量一個詞的重要程度的權(quán)值,TF的取值極大程度上決定了一個詞被選取為主題詞的概率[8]。TF的計(jì)算公式如下所示

        IDF為逆向文本頻率,可以由商品詳情總條數(shù)的數(shù)目除以包含該詞語的商品詳情的數(shù)目,再將得到的商取對數(shù)得到。包含詞條t的文檔越少, IDF越大,則說明詞條具有很好的類別區(qū)分能力[9]。其計(jì)算公式如下

        其中,D為商品詳情總數(shù); |{j:ti∈dj}|為包含詞語ti的商品詳情數(shù)目,即ni,j≠ 0 的文件數(shù)目。如果該詞語不在D中,就會導(dǎo)致被除數(shù)為 0,因此一般情況下使用|{j:ti∈dj}|+1,即公式改為

        TF-IDF的公式為

        TF-IDF=TFij×IDFi

        由于不同商品的描述不同,即文本的長短不一。需要對公式進(jìn)行歸一化處理,處理后的公式為

        式中:N為商品詳情Di中特征詞的個數(shù);|{j:ti∈dj}|+1為包含詞語ti的商品詳情數(shù)目。

        3.4 傳統(tǒng)TF-IDF的優(yōu)劣分析

        傳統(tǒng)的TF-IDF算法在長文本、多文檔的情況下具有較好的提取效果。在足夠長的文檔中,各詞語出現(xiàn)的頻率更高,便于TF的計(jì)算。多文檔的情況下,傳統(tǒng)算法獲得的IDF值更具區(qū)分性。其劣勢在于傳統(tǒng)TF-IDF提取特征單一,在短文本中計(jì)算的TF值與IDF值不具備區(qū)分性。此外,IDF是一種試圖去除噪聲的加權(quán),詞語出現(xiàn)的文檔數(shù)越多,其代表一篇文章的能力越弱,由此降低詞語的權(quán)值[9]。但對于商品詳情這一特定形式的文檔來說,同一件商品的信息,如:材質(zhì)、名稱、用途等描述性詞語的重復(fù)度就會隨著商品重復(fù)次數(shù)的增高而增高。假定商品詳情總數(shù)為N,若物品i的數(shù)量為m,則商品i的名稱就有可能出現(xiàn)m次,這樣的詞語恰恰是商品信息提取的關(guān)鍵詞,而如商品的推薦性詞語將會因店主的不同宣傳有了更大的差異性,從而獲得更大的IDF值,若使用傳統(tǒng)的TF-IDF來提取,將會錯漏重要的信息詞。商品詳情格式簡單,通常以較短的文本對商品進(jìn)行描述,詞語的重合度較低。對于依靠詞頻來抽取關(guān)鍵詞的TF-的IDF算法來說,無法通過頻率這一單一特征有效辨別詞語的重要程度。本文將在傳統(tǒng)TF-IDF算法的基礎(chǔ)上對IDF值的影響進(jìn)行弱化,著重加強(qiáng)TF值及位置、詞性等特征的影響。

        4 算法的改進(jìn)

        4.1 根據(jù)詞性設(shè)置權(quán)值

        商品詳情是對商品的描述介紹,篇幅較短,描述主要圍繞商品和商品的各種屬性展開,如:材質(zhì)、顏色、成分等屬性名稱。此類詞語為系統(tǒng)的主要提取對象,暫稱為一類提取對象。通過分詞結(jié)果來看,一類詞中名詞的占比近百分之百。其次是產(chǎn)品的屬性值,如:顏色、材料等等,此類詞語暫稱為二類詞,二類詞中多為名詞與形容詞。第三種是表達(dá)產(chǎn)品用途和使用方法的詞語,暫稱為三類詞,三類詞中含有名詞與動詞,可以同詞性詞語在分詞結(jié)果中做占比重對這三種詞性的詞語設(shè)置詞性權(quán)重,對測試的一萬條樣本進(jìn)行分詞后的結(jié)果可得:在過濾掉停用詞后,名詞在剩余總詞數(shù)中的占比達(dá)到近百分之八十,為體現(xiàn)這三類詞的優(yōu)先級并防止詞性影響大于詞頻影響,可將三類詞的詞性權(quán)重設(shè)為0.8、0.5、0.3,權(quán)值影響因子的數(shù)學(xué)表達(dá)式式為

        4.2 根據(jù)詞語位置設(shè)定位置影響因子

        商品詳情的行文脈絡(luò)基本為總分結(jié)構(gòu),即文段開頭即會出現(xiàn)商品名稱等關(guān)鍵信息。從采集的實(shí)際電商平臺數(shù)據(jù)中隨機(jī)抽取一千條進(jìn)行觀察,其中高達(dá)百分之九十七的商品詳情格式為兩部分:首先,總體介紹商品或者商品制造商;其次,分句對商品的各個屬性進(jìn)行介紹。針對商品詳情文本的規(guī)律,可以提取文本詞語的位置特征并融入權(quán)值的計(jì)算中,參考文獻(xiàn)其位置因素的計(jì)算公式如下,其中Posi為詞語在句中的位置,Address_leni為詞語所在句子的長度,Weight_posi為詞語i的位置權(quán)重

        4.3 設(shè)置分詞字典

        傳統(tǒng)TF-IDF不善于短文本的主題詞提取,其主要是因?yàn)門F-IDF算法所能提取到的頻率特征單一,而短文本中詞語重復(fù)度低、詞量少,僅僅靠頻率這一單一特征難以發(fā)揮作用。商品詳情重點(diǎn)是對商品的介紹,商品的種類很多,但相同類別的商品其屬性名(如:材質(zhì)、用料等等)一定相同,同類商品的描述越多,分詞過后其屬性值出現(xiàn)的概率越高?;谝陨戏治?可以用足夠多的樣本建立數(shù)據(jù)字典,計(jì)算各個分詞的出現(xiàn)頻率,以此強(qiáng)化文本特征的提取,以Num_Wi表示W(wǎng)ordi出現(xiàn)的總次數(shù),Num_Di表示W(wǎng)ordi出現(xiàn)的總文檔數(shù),則每個詞語出現(xiàn)的頻率計(jì)算公式如下

        在短文本中使用分詞字典,可以有效解決TF-IDF因詞量少、詞頻差距小而無法有效抓取文本特征的弊端。

        4.4 改進(jìn)分詞結(jié)果

        調(diào)用Jieba對文本進(jìn)行分詞后,文本將被分割為單字、二字或者多字的詞語集合,一些動詞-名詞、名詞-名詞、形容詞-名詞的短語組合將被拆分。期望的算法提取對象是商品的名稱以及商品的各種屬性及屬性值,如果同一修飾性的詞語出現(xiàn)的頻率過高,將會在一定程度上影響對期望對象的提取,間接的影響提取效果。所以,在前述主題詞提取的結(jié)果中,找出與提取結(jié)果位置相近的動詞、名詞、形容詞等修飾性詞語,將修飾性詞語與分詞結(jié)果拼接,重新構(gòu)成短語。

        4.5 改進(jìn)后的權(quán)值的計(jì)算公式

        算法改進(jìn)的目的在于提取盡可能多的文本特征,提升主題詞的提取效率與準(zhǔn)確率,使得原算法不局限于單一的頻率特征。要實(shí)現(xiàn)的功能是通過主題詞的提取來查驗(yàn)文本描述是否脫離了商品的實(shí)際范圍,描述是否與當(dāng)前的商品相對應(yīng)。所以,在計(jì)算詞語權(quán)重時,改進(jìn)后的算法會基于詞語的頻率-逆文本頻率進(jìn)行多特征融合,使得主題詞的抽取更加準(zhǔn)確、完整[10-15]。權(quán)值的計(jì)算公式如下(除以3做歸一化處理,防止數(shù)值過大)

        其中:為詞語i新權(quán)值,Ti=TF-IDFi,Pi=Weight_posi,Wi=Weight(Wordi),Fi=Freq(Wordi)

        5 實(shí)現(xiàn)過程

        5.1 實(shí)驗(yàn)過程

        改進(jìn)后的TF-IDF主題詞提取流程如圖1所示。

        圖1 算法運(yùn)行流程圖

        其步驟可總結(jié)如下:

        1)采集實(shí)驗(yàn)數(shù)據(jù),對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)清洗、格式符號的清除、分詞、詞性標(biāo)注、停用詞過濾;

        2)建立數(shù)據(jù)字典,計(jì)算各個詞語出現(xiàn)的文本數(shù)n及各個詞語在此次建立數(shù)據(jù)字典所用的文本中出現(xiàn)的總次數(shù)N,以N/n作為各個詞語在數(shù)據(jù)字典中的頻率值,將所得數(shù)據(jù)依次存入Excel中;

        3)搜集詞語在文中的具體位置信息,通過jieba分詞獲取詞語的詞性,獲取詞語的頻率-逆文本頻率值,導(dǎo)入數(shù)據(jù)字典Excel,獲得詞語在數(shù)據(jù)字典中的值;

        4)結(jié)合所獲得的特征信息帶入權(quán)值計(jì)算公式,計(jì)算詞語權(quán)值,并以權(quán)值降序排列;

        5)對標(biāo)題進(jìn)行分詞處理,過濾停用詞,將處理后的剩余詞語個數(shù)作為要提取的主題詞個數(shù),提取主題詞。

        5.2 評價標(biāo)準(zhǔn)

        本次實(shí)驗(yàn)所用亞馬遜平臺數(shù)據(jù)本身并無標(biāo)注,但從商品詳情類文本的特性而言,其商品名稱及標(biāo)題可看作其主題詞的集合??梢跃蜆?biāo)題分詞結(jié)果進(jìn)行過濾,過濾后的詞語集合作為參照集。實(shí)驗(yàn)選用準(zhǔn)確率 P、召回率 R、F1-Measure(F1值)作為評價指標(biāo);準(zhǔn)確率 P 是標(biāo)題分詞處理后的詞語集合與計(jì)算機(jī)提取關(guān)鍵詞的交集和計(jì)算機(jī)提取關(guān)鍵詞的比率,是用于評價查找準(zhǔn)確程度的指標(biāo);召回率是用設(shè)定的關(guān)鍵詞與算法提取的關(guān)鍵詞的比率,是用于評價查找完全程度的指標(biāo);F1 因子是兩者的綜合指標(biāo),F1值越高,表示算法越有效。

        6 實(shí)驗(yàn)驗(yàn)證

        6.1 實(shí)驗(yàn)結(jié)果

        不同數(shù)據(jù)量下改進(jìn)前后的TF-IDF提取結(jié)果如表1、表2所示,同數(shù)據(jù)量(2000)下各算法的提取結(jié)果如表3、表4所示,各項(xiàng)數(shù)據(jù)準(zhǔn)確率P、召回率R、F1值的對比結(jié)果如圖2所示。P、R、F1對比散點(diǎn)圖如圖3所示:

        表1 改進(jìn)的TF-IDF算法在不同數(shù)據(jù)量下的實(shí)驗(yàn)結(jié)果對比

        表2 改進(jìn)的TF-IDF算法在不同數(shù)據(jù)量下的提取效果對比

        表3 各算法同數(shù)據(jù)量下的提取效果對比

        表4 各算法同數(shù)據(jù)量下的實(shí)驗(yàn)結(jié)果對比

        圖2 各算法的準(zhǔn)確率、召回率、F1值柱形圖對比

        圖3 改進(jìn)TF-IDF在不同數(shù)據(jù)量下的實(shí)驗(yàn)結(jié)果散點(diǎn)圖

        6.2 結(jié)果分析

        1)不同數(shù)據(jù)量下改進(jìn)后的TF-IDF提取效果

        數(shù)據(jù)量的大小不會對改進(jìn)后的TF-IDF算法準(zhǔn)確率與健壯性造成直接影響。改進(jìn)后的TF-IDF算法融合位置、詞頻、詞性等多方面的特征結(jié)合數(shù)據(jù)字典重新設(shè)立權(quán)值,詞語的權(quán)值僅僅受到其自身特征影響,并不會因?yàn)閿?shù)據(jù)量的上升而產(chǎn)生明顯變化。但對標(biāo)題進(jìn)行分詞后無法將噪聲完全剔除,商品標(biāo)題的描述方式不同會造成標(biāo)題內(nèi)贅詞數(shù)量的變化,從而導(dǎo)致準(zhǔn)確率、召回率的輕微浮動。因此,數(shù)據(jù)量的變化所造成結(jié)果的輕微浮動屬于正?,F(xiàn)象。

        2)相同數(shù)據(jù)量下不同算法提取結(jié)果對比

        通過實(shí)驗(yàn)結(jié)果可以得出結(jié)論:改進(jìn)后的TF-IDF算法在正確率及召回率等方面已有明顯提升。針對商品詳情類文本的主題詞提取,改進(jìn)后的TF-IDF算法在準(zhǔn)確率、召回率、F1值方面相較于原算法均有提升,原因?yàn)?改進(jìn)后的算法針對此類短文本進(jìn)行多方面的特征提取,彌補(bǔ)了原算法及其它三類算法在此類短文本中的缺陷,如LDA主題模型本質(zhì)為詞袋模型,不考慮文內(nèi)詞語的相對順序。但改進(jìn)后的TF-IDF算法結(jié)合了詞語位置這一特征,可補(bǔ)足LDA在詞語順序這一方面的不足。所以,改進(jìn)后的TF-IDF算法能更充分的提取文本詞語在文中的特征。此外,由本文首次提出的數(shù)據(jù)字典這一特征強(qiáng)化方式可有效強(qiáng)化詞語特征,提升詞語的提取準(zhǔn)確率。

        3)算法尚存的不足

        本算法提升了實(shí)驗(yàn)效果,也暴露出一些問題,如:改進(jìn)后的位置影響因素同時作用在句子兩端的名詞,會同時提取商品的屬性名及屬性值,雖然它們同屬商品主題詞,但標(biāo)題分詞中不含商品屬性名,降低了召回率。另外,算法無法識別如漁具、魚竿、釣竿、釣具等同義詞,影響了提取結(jié)果比對,降低了提取的準(zhǔn)確率。

        7 總結(jié)

        改進(jìn)后的TF-IDF算法經(jīng)過實(shí)驗(yàn)驗(yàn)證取得了顯著的效果,在電商仿真實(shí)訓(xùn)平臺智能評測應(yīng)用中,此算法可有效提取商品詳情中的主題詞,提高評測功能的準(zhǔn)確率。通過提取的主題詞與商品標(biāo)題的分詞結(jié)果做比對,可以驗(yàn)證學(xué)生編寫的商品描述與當(dāng)前商品標(biāo)題的契合度,并可以通過主題詞與標(biāo)題分詞結(jié)果的交集查驗(yàn)描述是否準(zhǔn)確充分,利用算法對此進(jìn)行查驗(yàn)可以保證評測的及時性和數(shù)據(jù)的有效性,減輕教師的工作量。同時,本文首次提出的數(shù)據(jù)字典特征強(qiáng)化方法,在一定程度上彌補(bǔ)了傳統(tǒng)TF-IDF算法提取文本特征單一、權(quán)重分配不準(zhǔn)確的問題。本算法通過對多文檔進(jìn)行分詞,收集屬性等詞語出現(xiàn)的頻率信息,將短文本詞語少、頻率低的問題放入多文本、大詞量中進(jìn)行解決。經(jīng)過實(shí)驗(yàn)證明,對商品詳情這類主題范圍明確的特殊文本,數(shù)據(jù)字典可有效提高算法提取的正確率,最終很好的實(shí)現(xiàn)了對學(xué)生專業(yè)能力智能評測的平臺功能。

        猜你喜歡
        文本
        文本聯(lián)讀學(xué)概括 細(xì)致觀察促寫作
        重點(diǎn):論述類文本閱讀
        重點(diǎn):實(shí)用類文本閱讀
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        作為“文本鏈”的元電影
        在808DA上文本顯示的改善
        “文化傳承與理解”離不開對具體文本的解讀與把握
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        從背景出發(fā)還是從文本出發(fā)
        語文知識(2015年11期)2015-02-28 22:01:59
        亚洲av无码专区在线电影| 精品久久中文字幕系列| 成午夜福利人试看120秒| 久久视频在线| 成人午夜高潮a∨猛片| 狠狠摸狠狠澡| 乱码1乱码2美美哒| 成人精品天堂一区二区三区| 99久久久无码国产精品秋霞网| 亚洲色大成网站www永久网站| 国产婷婷一区二区三区| 亚洲a级片在线观看| 亚洲综合天堂一二三区| 伊人狼人激情综合影院| 最近中文字幕精品在线| 国产精品一区二区久久久av | 欧美顶级少妇作爱| 久久久久成人精品无码中文字幕 | 亚洲第一免费播放区| 国产精品一区二区三级| 亚洲AV日韩Av无码久久| 少妇人妻系列中文在线| 成人国产一区二区三区av| 人妻激情偷乱视频一区二区三区| 免费无码a片一区二三区| 久久精品人人做人人爽| 欧美成人免费看片一区| av高清视频在线麻豆免费观看 | 香蕉免费一区二区三区| 初尝黑人嗷嗷叫中文字幕| 一本一本久久a久久精品 | 国产一区内射最近更新| 久久综合狠狠综合久久| 国产 中文 制服丝袜 另类| 亚洲男人在线无码视频| 99久久国产综合精品女乱人伦| 青青草视频原手机在线观看| 亚洲精品成人一区二区三区| 97人妻精品一区二区三区男同| 国产精品免费看久久久8| 久久久一本精品99久久|