亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本語(yǔ)音混合模式的家庭生活垃圾分類(lèi)的研究

        2024-01-02 02:28:52王維虎劉嘉成
        關(guān)鍵詞:決策樹(shù)語(yǔ)料語(yǔ)料庫(kù)

        王維虎,劉嘉成

        (湖北工程學(xué)院 計(jì)算機(jī)與信息科學(xué)學(xué)院,湖北 孝感 432000)

        隨著居民生活條件的不斷改善,我國(guó)居民所產(chǎn)生的生活垃圾數(shù)量也持續(xù)增長(zhǎng),在不少地區(qū)居民生活垃圾處理已經(jīng)成為了一個(gè)難題。社區(qū)作為人們?nèi)粘>幼∩畹木奂詤^(qū)域,是生活垃圾產(chǎn)出的主要場(chǎng)所,也是進(jìn)行生活垃圾分類(lèi)的前端源頭[1]。垃圾分類(lèi)投放也越來(lái)越成為人們生活中的一部分,實(shí)行垃圾分類(lèi)也越來(lái)越受人們的關(guān)注[2]。

        垃圾分類(lèi)和處理設(shè)施是城市環(huán)境基礎(chǔ)設(shè)施的不可或缺的一部分,為推動(dòng)生活垃圾分類(lèi)制度的實(shí)施,實(shí)現(xiàn)垃圾減量化、資源化和無(wú)害化處理提供了必要的基礎(chǔ)支持,同時(shí)也是促進(jìn)生態(tài)文明建設(shè)的重要支持?!丁笆濉卑l(fā)展規(guī)劃綱要》(2016—2020年)中明確要求:“健全再生資源回收利用網(wǎng)絡(luò),加強(qiáng)生活垃圾分類(lèi)回收與再生資源回收的銜接”[3]。南京市十六屆人大常委會(huì)更是首次審議《南京市生活垃圾管理?xiàng)l例(草案)》,將生活垃圾管理?xiàng)l例納入立法程序[4]。

        針對(duì)上述存在的問(wèn)題,本文提出了一種決策樹(shù)模型,能夠客觀、快速地對(duì)居民對(duì)垃圾分類(lèi)了解情況進(jìn)行分析和評(píng)判。首先,本文以居民調(diào)查問(wèn)卷方式為基礎(chǔ),獲得被測(cè)居民垃圾分類(lèi)語(yǔ)料數(shù)據(jù),邀請(qǐng)環(huán)保專(zhuān)家,對(duì)獲取到的垃圾分類(lèi)語(yǔ)料數(shù)據(jù)進(jìn)行去噪與清洗,得到高質(zhì)量垃圾分類(lèi)語(yǔ)料庫(kù);其次,從垃圾分類(lèi)語(yǔ)料庫(kù)和專(zhuān)家背景知識(shí)分析,進(jìn)一步選取有效的垃圾分類(lèi)識(shí)別特征并優(yōu)化處理;最后,構(gòu)建基于Python的決策樹(shù)算法構(gòu)建決策樹(shù)模型,進(jìn)行文本識(shí)別和語(yǔ)音識(shí)別。通過(guò)該模型實(shí)現(xiàn)對(duì)居民對(duì)垃圾分類(lèi)了解的情況快速地分析判斷,做到對(duì)居民們的及時(shí)分析和判斷,給出是否存在欠缺垃圾分類(lèi)觀念問(wèn)題。

        1 文本語(yǔ)音混合模式研究框架

        1.1 本文總體框架

        根據(jù)研究目標(biāo)和內(nèi)容,基于文本語(yǔ)音混合模式的家庭生活垃圾分類(lèi)框架圖,如圖1所示。該框架主要包括構(gòu)建垃圾分類(lèi)模型和垃圾分類(lèi)測(cè)試兩個(gè)過(guò)程。在構(gòu)建模型階段,分為3個(gè)步驟:1) 根據(jù)結(jié)合專(zhuān)家指導(dǎo),制定居民垃圾分類(lèi)情況健康問(wèn)卷調(diào)查表,通過(guò)微信、QQ、電子郵件Email、小區(qū)內(nèi)紙質(zhì)調(diào)查表、垃圾分類(lèi)測(cè)試系統(tǒng)等不同方式邀請(qǐng)居民們進(jìn)行填寫(xiě),收集居民垃圾分類(lèi)調(diào)查問(wèn)卷數(shù)據(jù),同時(shí)邀請(qǐng)環(huán)保專(zhuān)家對(duì)問(wèn)卷數(shù)據(jù)進(jìn)行人工分析和標(biāo)記語(yǔ)料是否健康、分類(lèi)、量化、去噪與清洗數(shù)據(jù),構(gòu)建得到高質(zhì)量垃圾分類(lèi)語(yǔ)料庫(kù),將語(yǔ)料庫(kù)分為訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)兩個(gè)部分;2) 根據(jù)環(huán)保專(zhuān)家和環(huán)境學(xué)專(zhuān)業(yè)知識(shí)結(jié)合,獲得的高質(zhì)量垃圾分類(lèi)語(yǔ)料庫(kù),選取居民垃圾分類(lèi)的數(shù)據(jù)的有效特征并優(yōu)化;3) 在已構(gòu)建的訓(xùn)練語(yǔ)料庫(kù)和選取有效特征的基礎(chǔ)上,采用決策樹(shù)算法進(jìn)行構(gòu)建居民垃圾分類(lèi)情況分析模型,得到基于決策樹(shù)算法的居民垃圾分類(lèi)分析模型。在垃圾分類(lèi)測(cè)試階段,將測(cè)試語(yǔ)料輸入到已構(gòu)建的居民垃圾分類(lèi)分析模型中,得到垃圾分類(lèi)預(yù)測(cè)結(jié)果。

        圖1 居民垃圾分類(lèi)情況分析框架圖

        圖2 決策樹(shù)算法垃圾分類(lèi)分析模型圖

        2 構(gòu)建居民垃圾分類(lèi)情況分析模型

        本文構(gòu)建居民垃圾分類(lèi)情況分析模型,主要包括居民垃圾分類(lèi)語(yǔ)料庫(kù)的構(gòu)建、特征選取、模型構(gòu)建三個(gè)基本過(guò)程,下面詳細(xì)介紹。

        2.1 構(gòu)建語(yǔ)料庫(kù)

        語(yǔ)料庫(kù)質(zhì)量的好壞對(duì)后續(xù)的分析與模型構(gòu)建至關(guān)重要。本文結(jié)合環(huán)保專(zhuān)家指導(dǎo),制定居民垃圾分類(lèi)情況問(wèn)卷調(diào)查表,通過(guò)網(wǎng)絡(luò)(微信、QQ、電子郵件Email和垃圾分類(lèi)測(cè)試系統(tǒng))或紙質(zhì)(紙質(zhì)調(diào)查表)等不同方式邀請(qǐng)居民(湖北某些小區(qū))進(jìn)行填寫(xiě),邀請(qǐng)環(huán)保專(zhuān)家對(duì)調(diào)查問(wèn)卷數(shù)據(jù)進(jìn)行分類(lèi)、量化和人工標(biāo)記語(yǔ)料判斷是否健康,形成規(guī)模為8400條語(yǔ)料庫(kù);采用Python相關(guān)工具包對(duì)語(yǔ)料庫(kù)進(jìn)行去噪聲和清洗處理,對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化處理,得到高質(zhì)量垃圾分類(lèi)語(yǔ)料庫(kù),并將該語(yǔ)料庫(kù)進(jìn)行劃分為訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料,數(shù)據(jù)以Excel、utf-8編碼格式進(jìn)行存儲(chǔ)。隨著深度學(xué)習(xí)的發(fā)展和人工智能技術(shù)的不斷進(jìn)步,由此催生了一系列針對(duì)語(yǔ)音識(shí)別技術(shù)的研究與開(kāi)發(fā)[5]。

        2.2 垃圾特征選取

        特征選取的質(zhì)量直接決定機(jī)器學(xué)習(xí)模型性能的好壞。本文根據(jù)垃圾分類(lèi)分析專(zhuān)家指導(dǎo)、常用重要評(píng)判的特征以及結(jié)合高質(zhì)量垃圾分類(lèi)語(yǔ)料庫(kù)選取有效特征,選取了居民垃圾分類(lèi)分析的4個(gè)垃圾分類(lèi)特征維度,分別是可回收垃圾(A)、廚余垃圾(B)、有害垃圾(C)、其他垃圾(D),并且這些特征維度之間相互獨(dú)立,在特征貢獻(xiàn)度實(shí)驗(yàn)中,已經(jīng)驗(yàn)證4個(gè)特征維度線(xiàn)性非相關(guān)。

        根據(jù)垃圾分類(lèi)專(zhuān)家經(jīng)驗(yàn)和居民對(duì)垃圾分類(lèi)了解維度,將每一個(gè)特征維度的取值分別進(jìn)行等級(jí)量化處理,分別轉(zhuǎn)化為明確了解、較了解、有點(diǎn)印象和完全不了解四個(gè)不同等級(jí),如表1所示。

        表1 居民垃圾分類(lèi)了解情況的等級(jí)量化

        2.3 構(gòu)建決策樹(shù)模型

        2.3.1 決策樹(shù) ID3 算法

        已有的數(shù)據(jù)集以 7:3 或 8:2 比例進(jìn)行劃分成測(cè)試集和訓(xùn)練集,測(cè)試集用于測(cè)試模型的準(zhǔn)確率,訓(xùn)練集是用于模型訓(xùn)練。首先,計(jì)算出訓(xùn)練數(shù)據(jù)集的信息增益(或基尼指數(shù)) 最大的特征來(lái)建立決策樹(shù)的當(dāng)前節(jié)點(diǎn),不斷遞歸計(jì)算,建立垃圾分類(lèi)的決策樹(shù)模型;然 后,將測(cè)試集數(shù)據(jù)用以模型測(cè)試,得出準(zhǔn)確率,再根據(jù)準(zhǔn)確率進(jìn)行決策樹(shù)的“剪枝”,最 后得到最合適的垃圾分類(lèi)決策樹(shù)的模型。

        對(duì)于一個(gè)給定的數(shù)據(jù)集,具體計(jì)算方法如下:

        設(shè)訓(xùn)練集為D, D的樣本個(gè)數(shù)為N ,D的數(shù)據(jù)有m個(gè)分類(lèi),分別為C1,C2,C3…,Cm,分類(lèi)Cm的數(shù)據(jù)個(gè)數(shù)為|Cm|,那么D的信息熵為,如公式(1)所示。

        (1)

        設(shè)任一個(gè)特征的n個(gè)不同取值,記為Dn。根據(jù)特征的n個(gè)取值將D劃分的n個(gè)子集為D1,D2,D3…,Dn。對(duì)于任意的子集Di∈{a1,a2,a3,…,an},設(shè)Di的樣本個(gè)數(shù)為Ni,Di中屬于類(lèi)Ci∈{C1,C2,C3,…,Cm}的樣本個(gè)數(shù)為|Ci|,那么特征 A對(duì)數(shù)據(jù)集的條件熵為,如公式(2)所示。

        (2)

        那么,特征 A 對(duì)數(shù)據(jù)集 D 的信息增益,如公式(3)所示。

        G(D,A)=H(D)-H(D|A)

        (3)

        2.3.2 決策樹(shù)模型

        決策樹(shù)是基于樹(shù)狀結(jié)構(gòu)來(lái)進(jìn)行決策的,一般地,一棵決策樹(shù)包含一個(gè)根節(jié)點(diǎn)、若干個(gè)內(nèi)部節(jié)點(diǎn)和若干個(gè)葉節(jié)點(diǎn)。

        2.3.3 基于Python的語(yǔ)音識(shí)別成文本的方法

        在使用Python進(jìn)行語(yǔ)音識(shí)別時(shí),一些部分通過(guò)使用第三方庫(kù)來(lái)實(shí)現(xiàn),因此開(kāi)發(fā)人員很容易就可以得到不錯(cuò)的效果。主要過(guò)程有庫(kù)函數(shù)的使用、顯著特征值的收集、模型的構(gòu)建,最后來(lái)實(shí)現(xiàn)文本語(yǔ)音混合模式。

        1)顯著特征值的收集。本文應(yīng)用MFCC為語(yǔ)音的顯著特征值的指標(biāo)。最先要收取多人讀同一內(nèi)容文件的語(yǔ)音來(lái)進(jìn)行語(yǔ)音采樣,這些實(shí)驗(yàn)的結(jié)果形成文本語(yǔ)音混合的測(cè)試集和訓(xùn)練集,并存放為wav文件。原有的手段取得的MFCC屬性是相對(duì)繁瑣復(fù)雜,在Python中用于第三方庫(kù)函數(shù)能夠更為易于的獲取到MFCC變化。該變量的值會(huì)將從交互入中得的MFCC原理以離散高、低,數(shù)值的正負(fù)數(shù)的數(shù)組的模式存放在文件系統(tǒng)中。

        2)語(yǔ)音深度學(xué)習(xí)(DDN)模型建立。深度學(xué)習(xí)使用多層隱層節(jié)點(diǎn),較淺層學(xué)習(xí)擁有更多的優(yōu)勢(shì),深度學(xué)習(xí)成為研究機(jī)器學(xué)習(xí)的熱點(diǎn)問(wèn)題[6]。將得到的MFCC作為特征向量進(jìn)行訓(xùn)練,進(jìn)而得到訓(xùn)練文件。在神經(jīng)網(wǎng)絡(luò)的輸入層,數(shù)據(jù)被傳遞,而在卷積層中,利用卷積核進(jìn)行特征提取和特征映射。在激勵(lì)層中,考慮到卷積操作本身是一種線(xiàn)性運(yùn)算,于是需要引入非線(xiàn)性映射,也就是激活函數(shù),以增加網(wǎng)絡(luò)的表達(dá)能力。接著,在池化層進(jìn)行下采樣,以對(duì)特征圖進(jìn)行稀疏化處理,減少數(shù)據(jù)的計(jì)算量。Flatten操作的目的是將原始的二維特征圖張量轉(zhuǎn)化為一維向量的形式,以便將其傳遞給隨后的全連接層進(jìn)行處理[7]。最后,在CNN的尾部的全連接層進(jìn)行重新調(diào)整,以最小化特征信息的損失。

        3)語(yǔ)音識(shí)別。首先,對(duì)于獲得的MFCC特征和神經(jīng)網(wǎng)絡(luò)模型,在語(yǔ)音識(shí)別領(lǐng)域,MFCC是最為廣泛采用的聲學(xué)特征之一,其基礎(chǔ)是建立在人耳聽(tīng)覺(jué)生理學(xué)原理的基礎(chǔ)上,即人耳對(duì)不同頻率聲波的聽(tīng)覺(jué)靈敏度存在差異。為應(yīng)對(duì)掩蔽效應(yīng)這一現(xiàn)象,我們采用了一系列帶通濾波器,按照頻率的臨界帶寬從低頻到高頻有序排列,用以對(duì)輸入信號(hào)進(jìn)行濾波處理。因此相較于基于聲道模型的LPCC特征,具備更強(qiáng)的穩(wěn)健性。最終,這些特征被用于進(jìn)行語(yǔ)音比對(duì)和識(shí)別任務(wù)。

        3 實(shí)驗(yàn)過(guò)程及分析

        本文實(shí)驗(yàn)所用實(shí)驗(yàn)數(shù)據(jù)主要來(lái)自于垃圾分類(lèi)語(yǔ)料,將其分為訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料。目前,由于居民垃圾分類(lèi)結(jié)合機(jī)器學(xué)習(xí)方法研究資源匱乏,所以這里需要構(gòu)建語(yǔ)料庫(kù)。垃圾分類(lèi)語(yǔ)料庫(kù)是經(jīng)過(guò)人工處理得到,包含5600條不同的垃圾數(shù)據(jù);制定居民垃圾分類(lèi)問(wèn)卷調(diào)查表,通過(guò)網(wǎng)絡(luò)或紙質(zhì)等不同方式邀請(qǐng)居民(湖北某些小區(qū))進(jìn)行采集,邀請(qǐng)環(huán)保專(zhuān)家對(duì)調(diào)查問(wèn)卷數(shù)據(jù)進(jìn)行分類(lèi)、量化和人工標(biāo)記語(yǔ)料判斷是否健康,所有字段保存為“UTF-8”格式;實(shí)驗(yàn)采用Python語(yǔ)言與機(jī)器學(xué)習(xí)庫(kù)sklearn工具包。

        為了綜合方面衡量本文構(gòu)建的分析模型,實(shí)驗(yàn)主要從三個(gè)方面進(jìn)行評(píng)估模型性能:1) 特征貢獻(xiàn)度實(shí)驗(yàn);2) 語(yǔ)音識(shí)別結(jié)果評(píng)估實(shí)驗(yàn);3) 開(kāi)放與封閉測(cè)試實(shí)驗(yàn)。

        3.1 特征貢獻(xiàn)度實(shí)驗(yàn)

        為了考察本文選取的4個(gè)特征維度——可回收垃圾(A)、廚余垃圾(B)、有害垃圾(C)、其他垃圾(D),對(duì)本文構(gòu)建模型的貢獻(xiàn)度,分別將4種特征單獨(dú)融入分析模型中,并分別比較文本識(shí)別、語(yǔ)音識(shí)別和文本語(yǔ)音混合識(shí)別三種方法的正確率。實(shí)驗(yàn)結(jié)果如表2所示。

        表2 特征貢獻(xiàn)度實(shí)驗(yàn)

        在表2中,第3組實(shí)驗(yàn)使用“文本語(yǔ)音混合識(shí)別”等級(jí),本模型的預(yù)測(cè)正確率最高,正確率達(dá)到99%;其次是文本識(shí)別,正確率達(dá)到96%,語(yǔ)音識(shí)別相比其他兩組實(shí)驗(yàn)較低,現(xiàn)語(yǔ)音識(shí)別只能識(shí)別出普通話(huà),方言識(shí)別不出,故正確率達(dá)到83%。其他重要的等級(jí)分別是文本識(shí)別、語(yǔ)音識(shí)別,其他主要等級(jí)特征之間相互獨(dú)立,呈非線(xiàn)性關(guān)系。

        3.2 語(yǔ)音識(shí)別結(jié)果評(píng)估實(shí)驗(yàn)

        語(yǔ)音識(shí)別的識(shí)別率大多采用詞錯(cuò)誤率和句錯(cuò)誤率進(jìn)行評(píng)估。本文采用詞錯(cuò)誤率進(jìn)行評(píng)估,公式如下:

        WER=100%×Insertions+Substitutions+

        DeletionsT

        (4)

        式中:Insertions:插入錯(cuò)誤,Substitutions:替換錯(cuò)誤,DeletionsT:識(shí)別語(yǔ)音中的總詞數(shù)。

        根據(jù)圖3中標(biāo)識(shí)的錯(cuò)誤類(lèi)型,可以計(jì)算出WER=0.2+0.2+71×100%=71.4%。

        圖3 錯(cuò)誤統(tǒng)計(jì)

        由于在該方法中插入的詞匯也算入錯(cuò)誤率中,所以WER的值可能大于1[8]。

        圖3為錯(cuò)誤率統(tǒng)計(jì)示例。

        3.3 開(kāi)放與封閉實(shí)驗(yàn)

        為了評(píng)估本文構(gòu)建模型的魯棒性,本實(shí)驗(yàn)對(duì)已構(gòu)建的基于決策樹(shù)算法的居民垃圾分類(lèi)分析模型進(jìn)行開(kāi)放與封閉測(cè)試。實(shí)驗(yàn)結(jié)果如圖4和圖5所示。在圖5中,封閉測(cè)試實(shí)驗(yàn)正確率達(dá)到84.136%,開(kāi)放測(cè)試實(shí)驗(yàn)的正確率為82.107%,開(kāi)放測(cè)試比封閉測(cè)試僅低2.029%,因此本文構(gòu)建的模型魯棒性強(qiáng)。

        圖4 迭代次數(shù)與正確率

        4 結(jié)束語(yǔ)

        傳統(tǒng)垃圾分類(lèi)采用人工分析,整套分析流程復(fù)雜、受心理專(zhuān)家主觀意識(shí)影響、工作耗時(shí)耗力等問(wèn)題,這無(wú)疑增加管理者等各層的工作負(fù)擔(dān)。本文針對(duì)該問(wèn)題提出基于文本語(yǔ)音混合模式的家庭生活垃圾分類(lèi),根據(jù)調(diào)查問(wèn)卷結(jié)果進(jìn)行自動(dòng)化判斷居民對(duì)垃圾分類(lèi)的了解,有利于居民們對(duì)垃圾分類(lèi)知識(shí)的理解,且有語(yǔ)音識(shí)別、文字識(shí)別混合識(shí)別功能,實(shí)驗(yàn)證明該方法有效可行。下一步研究中,本文將進(jìn)一步擴(kuò)展語(yǔ)料庫(kù)規(guī)模,針對(duì)不同社區(qū)進(jìn)行細(xì)化構(gòu)建分析模型。

        猜你喜歡
        決策樹(shù)語(yǔ)料語(yǔ)料庫(kù)
        《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
        決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
        基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
        《苗防備覽》中的湘西語(yǔ)料
        免费无码午夜福利片69| 国产美女精品aⅴ在线| 久久久久亚洲av无码专区桃色| 亚洲AV无码成人品爱| 亚洲色图在线视频观看| 日韩一区二区中文字幕| 蜜桃一区二区在线视频| 国产午夜av秒播在线观看| 国产高清一区二区三区视频| 久久久久亚洲女同一区二区| 国产高清一区二区三区视频| 白浆国产精品一区二区| 超级碰碰色偷偷免费视频| 精品中文字幕久久久人妻| 国产亚洲一区二区三区夜夜骚| 少妇爽到高潮免费视频| 中文字幕乱码无码人妻系列蜜桃| 无码人妻精品一区二区三区免费| 国产精品女同久久免费观看| 天堂视频一区二区免费在线观看 | 人妻熟女一区二区三区app下载| 国产女人成人精品视频| 亚洲一区二区三区99区| 丰满少妇在线播放bd| 欧美内射深喉中文字幕| 亚洲色偷偷综合亚洲av伊人| 欧美色图50p| 精品久久人妻一区二区| 亚洲美女毛片在线视频| 日本成本人片视频免费 | 欧美日韩亚洲成人| 人妻少妇无乱码中文字幕| 国产偷国产偷亚洲高清视频| 内射人妻少妇无码一本一道| a一区二区三区乱码在线 | 欧洲| 国产精品,在线点播影院| 精品不卡视频在线网址| 又粗又黑又大的吊av| 最新亚洲人成无码网www电影| 一本一道久久a久久精品综合蜜桃| 精品国产一区二区三区18p|