亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘的專(zhuān)門(mén)用途英語(yǔ)(ESP)測(cè)試自動(dòng)評(píng)分

        2021-11-01 06:29:42薛慧娟劉敏
        微型電腦應(yīng)用 2021年10期
        關(guān)鍵詞:數(shù)據(jù)挖掘文本英語(yǔ)

        薛慧娟, 劉敏

        (1.陜西鐵路工程職業(yè)技術(shù)學(xué)院 基礎(chǔ)課部, 陜西 渭南 714000; 2.陜西理工大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院, 陜西 漢中 723001)

        0 引言

        隨著改革開(kāi)放的不斷深入,我國(guó)對(duì)外貿(mào)易規(guī)模不斷提高。國(guó)內(nèi)外的各種社會(huì)交流也逐年增長(zhǎng),這些都離不開(kāi)我國(guó)對(duì)英語(yǔ)教育事業(yè)的大力支持。但是,隨著競(jìng)爭(zhēng)的不斷加劇,社會(huì)對(duì)復(fù)合型人才的需求越來(lái)越多。企業(yè)要求這些人才不僅要具有扎實(shí)的專(zhuān)業(yè)知識(shí),還需要具備熟練的英語(yǔ)表達(dá)能力,例如專(zhuān)業(yè)領(lǐng)域的術(shù)語(yǔ)溝通等。專(zhuān)門(mén)用途英語(yǔ)(ESP)因此應(yīng)運(yùn)而生[1-3]。不同于普通英語(yǔ),ESP教學(xué)側(cè)重在真實(shí)語(yǔ)境中靈活運(yùn)用語(yǔ)言達(dá)到交際目的,因此口語(yǔ)能力相當(dāng)重要。

        雖然教學(xué)形式得到了多樣化的發(fā)展,但是現(xiàn)階段ESP的口語(yǔ)教學(xué)還處在人工判定階段。需要教師花費(fèi)大量的時(shí)間和精力進(jìn)行各種主觀性測(cè)試,導(dǎo)致工作效率無(wú)法有效提高,特別是大規(guī)模的ESP測(cè)試場(chǎng)景[4]。目前,隨著人工智能技術(shù)的興起和發(fā)展,基于各種人工智能算法的英語(yǔ)測(cè)試自動(dòng)評(píng)分技術(shù)開(kāi)始逐漸被提出[5-8]。例如,魏揚(yáng)威等[8]提出結(jié)合語(yǔ)言學(xué)特征和自編碼器的英語(yǔ)作文自動(dòng)評(píng)分,取得了很好的預(yù)測(cè)效果和魯棒性。李婷等[9]提出了一種集中趨勢(shì)自適應(yīng)增強(qiáng)的英語(yǔ)作文評(píng)分算法,解決了過(guò)擬合問(wèn)題,相比人工評(píng)分該算法的誤差均小于20%。但是可以看出,目前已提出的英語(yǔ)自動(dòng)評(píng)分技術(shù)均僅從軟件或者算法方面進(jìn)行研究,因此實(shí)時(shí)性較差且無(wú)法應(yīng)用于ESP口語(yǔ)測(cè)試。

        為了有效解決ESP口語(yǔ)測(cè)試的自動(dòng)評(píng)分,就必須從硬件上對(duì)評(píng)分系統(tǒng)進(jìn)行整體設(shè)計(jì)。由于ARM9系列平臺(tái)在實(shí)時(shí)數(shù)據(jù)采集和傳輸方面具有功耗低、便攜性、成本低和性能強(qiáng)等優(yōu)勢(shì),武曉燕等[10]設(shè)計(jì)了基于ARM的語(yǔ)音識(shí)別及控制系統(tǒng),為ESP口語(yǔ)測(cè)試的自動(dòng)評(píng)分研究提供了思路。

        因此,在上述研究的基礎(chǔ)上,本文提出一種基于數(shù)據(jù)挖掘和嵌入式ARM設(shè)備的英語(yǔ)口語(yǔ)自動(dòng)評(píng)分系統(tǒng)。在硬件方面采用基于三星S3C6410芯片微處理器、UDA1341TS音頻編解碼器和以太網(wǎng)接口的ARM開(kāi)發(fā)板,能夠?qū)崿F(xiàn)音頻信號(hào)的實(shí)時(shí)采集并上傳。調(diào)用科大訊飛API接口實(shí)現(xiàn)音頻文件轉(zhuǎn)換生成文本答案。對(duì)識(shí)別出的文本答案進(jìn)行聚類(lèi)特征提取,并采用關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)進(jìn)行預(yù)測(cè)評(píng)分。實(shí)際測(cè)試結(jié)果驗(yàn)證該系統(tǒng)的效率較高,其評(píng)分性能達(dá)到了人工評(píng)分的水平。

        1 ESP測(cè)試自動(dòng)評(píng)分平臺(tái)設(shè)計(jì)

        1.1 系統(tǒng)硬件設(shè)計(jì)

        為了降低整體系統(tǒng)的成本,提出系統(tǒng)在硬件方面采用基于三星S3C6410芯片微處理器、UDA1341TS音頻編解碼器和以太網(wǎng)接口的ARM開(kāi)發(fā)板,能夠?qū)崿F(xiàn)音頻信號(hào)的實(shí)時(shí)采集并上傳。工作系統(tǒng)采用ARM+LINUX架構(gòu),支持 LCD 接口和JTAG 調(diào)試接口,且體積小、專(zhuān)用性強(qiáng),系統(tǒng)硬件框圖如圖1所示。

        圖1 ESP測(cè)試自動(dòng)評(píng)分系統(tǒng)的硬件框圖

        1.2 UDA1341TS音頻接口電路設(shè)計(jì)

        本系統(tǒng)采用了飛利浦基于IIS音頻總線的UDA134TS,可以外接8/16 bit的立體聲。UDA134TS音頻芯片的工作電壓為1.8 V-3.6 V。S3C6410微處理器通過(guò)AC-Link 數(shù)字接口對(duì)UDA134TS音頻芯片進(jìn)行功能控制,如圖2所示。

        圖2 AC-Link 數(shù)字接口硬件框圖

        音頻芯片UDA134TS與S3C6410微處理器的連接電路以及外圍電路,如圖3所示。

        圖3 音頻接口部分電路

        ARM開(kāi)發(fā)板的音頻相關(guān)電路有兩個(gè)3.3 V輸入電源,為音頻芯片UDA134TS供電,如圖4所示。

        圖4 音頻接口電源電路

        1.3 系統(tǒng)的軟件實(shí)現(xiàn)

        在ARM開(kāi)發(fā)板上需要通過(guò)交叉編輯構(gòu)建開(kāi)發(fā)環(huán)境,安裝Linux內(nèi)核、根文件系統(tǒng)配置和加載相關(guān)驅(qū)動(dòng)程序。Linux 系統(tǒng)選用的是 Ubuntu 12.04,需要下載到開(kāi)發(fā)板上運(yùn)行、驗(yàn)證程序,交叉開(kāi)發(fā)模式如圖5所示。

        圖5 交叉開(kāi)發(fā)模式

        在臨時(shí)環(huán)境變量配置成功后,通過(guò)執(zhí)行$ct-ng menuconfig命令打開(kāi)Linux的圖形配置界面。然后編譯并安裝arm-linux-gcc 4.8.4交叉編譯工具鏈。

        音頻芯片UDA134TS電路不斷采集語(yǔ)音信息,并由IIS總線接口輸入各個(gè)緩沖區(qū)中。用戶程序可以從當(dāng)前緩沖區(qū)存儲(chǔ)空間直接讀取數(shù)據(jù)音頻模塊的語(yǔ)音信號(hào)。

        2 自動(dòng)評(píng)分功能的實(shí)現(xiàn)

        通過(guò)ARM開(kāi)發(fā)板采集ESP測(cè)試中用戶語(yǔ)音信息后,通過(guò)以太網(wǎng)口上傳到PC端生成音頻文件。然后調(diào)用科大訊飛API接口(語(yǔ)音聽(tīng)寫(xiě)接口)實(shí)現(xiàn)音頻文件的轉(zhuǎn)寫(xiě),生成英語(yǔ)文本答案。

        2.1 聚類(lèi)后的特征提取

        為了對(duì)英語(yǔ)文本答案的內(nèi)容進(jìn)行準(zhǔn)確表征,本文將英語(yǔ)文本的詞向量進(jìn)行K-means聚類(lèi)分析。詞向量的生成借助了詞向量計(jì)算的工具Word2vec[11-13]。將生成的英語(yǔ)文本答案內(nèi)容表征成3×k維向量,則聚類(lèi)分析的步驟如下。

        (1) 設(shè)Word2vec生成的詞向量集合為X={x1,…,xM},其中xi表示英語(yǔ)文本的詞向量。

        (2) 隨機(jī)初始化k個(gè)聚類(lèi)中心,u1,u2,…,uk∈Rn。

        (3) 對(duì)xi的類(lèi)型結(jié)果進(jìn)行計(jì)算,為式(1)。

        (1)

        (4) 然后對(duì)聚類(lèi)中心進(jìn)行調(diào)整,為式(2)。

        (2)

        式中,j∈[1,k]。

        (5) 判斷聚類(lèi)中心是否不發(fā)生變化,是的話就結(jié)束聚類(lèi),否則跳轉(zhuǎn)到步驟(2)繼續(xù)執(zhí)行。

        表1 詞法特征

        2.2 關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘

        在特征構(gòu)建好后,將采用FP_Growth關(guān)聯(lián)規(guī)則挖掘算法[14]應(yīng)用于英語(yǔ)文本評(píng)分的預(yù)測(cè)任務(wù)。令I(lǐng)={i1,i2,…,id}是特征數(shù)據(jù)中所有項(xiàng)的集合,而T={t1,t2,…,tN}是所有事務(wù)的集合。每個(gè)事務(wù)ti包含的項(xiàng)集都是I的子集。

        在關(guān)聯(lián)分析中,支持度(support)和置信度(confidence)的具體表示方式為式(3)、式(4)。

        (3)

        (4)

        式中,N表示事務(wù)的數(shù)量。

        英語(yǔ)文本評(píng)分的支持度計(jì)算方式如式(5)。

        s=|{x|x∈D,rulei∈x}|

        (5)

        其中,D表示訓(xùn)練數(shù)據(jù)集;rulei表示D的規(guī)則。在關(guān)聯(lián)分析中集合是被視為項(xiàng)集(itemset)。

        基于FP_Growth關(guān)聯(lián)規(guī)則挖掘的英語(yǔ)文本評(píng)分預(yù)測(cè)的核心步驟是構(gòu)建FP-tree樹(shù)節(jié)點(diǎn),以便減少所需頻繁項(xiàng)集的數(shù)量。事務(wù)型數(shù)據(jù)的示例如表2所示。

        表2 事務(wù)型數(shù)據(jù)

        FP_tree樹(shù)的節(jié)點(diǎn)機(jī)構(gòu)如圖6所示。

        圖6 FP-tree節(jié)點(diǎn)

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)和評(píng)估指標(biāo)

        為了驗(yàn)證所提ESP測(cè)試自動(dòng)評(píng)分系統(tǒng)的有效性,進(jìn)行了具體測(cè)試。實(shí)驗(yàn)數(shù)據(jù)庫(kù)為國(guó)內(nèi)高校ESP口語(yǔ)比賽數(shù)據(jù)集中隨機(jī)選取的800道簡(jiǎn)答題。選擇一個(gè)測(cè)試者進(jìn)行現(xiàn)場(chǎng)ESP口語(yǔ)簡(jiǎn)答測(cè)試,然后分別進(jìn)行人工評(píng)分和音頻采集自動(dòng)評(píng)分。PC端系統(tǒng)運(yùn)行環(huán)境配置信息如表3所示。

        表3 系統(tǒng)運(yùn)行環(huán)境參數(shù)

        本文自動(dòng)評(píng)分系統(tǒng)和人工評(píng)分均采用二次加權(quán)的Kappa值[15]進(jìn)行量化評(píng)估,其計(jì)算方式如式(6)。

        (6)

        其中,Oi,j表示分?jǐn)?shù)同時(shí)為i和j的答案的數(shù)量(由兩個(gè)不同的評(píng)分人給出);w表示權(quán)重,其計(jì)算方式如式(7)。

        (7)

        其中,N表示評(píng)分的等級(jí)數(shù)。Kappa值越大則準(zhǔn)確度越高。針對(duì)同一個(gè)測(cè)試者分別進(jìn)行了5次人工評(píng)分和自動(dòng)評(píng)分,其中每次人工評(píng)分由3個(gè)專(zhuān)家打分并取平均值,每次自動(dòng)評(píng)分也是取3次結(jié)果的平均值。

        3.2 時(shí)間和準(zhǔn)確度

        利用3.1節(jié)中數(shù)據(jù)集對(duì)基于FP_Growth關(guān)聯(lián)規(guī)則挖掘算法的ESP測(cè)試自動(dòng)評(píng)分系統(tǒng)進(jìn)行實(shí)驗(yàn),在不同最小支持度情況下系統(tǒng)運(yùn)行時(shí)間結(jié)果如圖7所示。

        圖7 運(yùn)行時(shí)間分析

        從圖7可以看出,隨著最小支持度逐漸增大,自動(dòng)評(píng)分系統(tǒng)的運(yùn)行時(shí)間逐漸減少。但是在支持度較大時(shí),本文提出自動(dòng)評(píng)分方法的評(píng)分精度也會(huì)有所降低,因此需要做出適當(dāng)?shù)钠胶?,本文選取的最小支持度為1.2%。

        利用ESP口語(yǔ)比賽數(shù)據(jù)集和人工評(píng)分結(jié)果,對(duì)本文自動(dòng)評(píng)分方法、傳統(tǒng)自動(dòng)評(píng)分方法(VikP)和Adaboost/CT自動(dòng)評(píng)分方法[9]這3種方法進(jìn)行準(zhǔn)確度分析,如表4所示。

        表4 3種自動(dòng)評(píng)分方法的準(zhǔn)確度對(duì)比

        從表4可以看出,對(duì)于不同的ESP題庫(kù),雖然比Adaboost/CT方法要低,但是本文自動(dòng)評(píng)分方法的準(zhǔn)確度明顯高于傳統(tǒng)的VikP自動(dòng)評(píng)分方法,更接近人工評(píng)分的結(jié)果。Adaboost/CT方法在準(zhǔn)確度方面優(yōu)于本文方法,這是由于其采用深度學(xué)習(xí)框架,但也導(dǎo)致其運(yùn)行時(shí)間較長(zhǎng),而本文則是側(cè)重實(shí)時(shí)性,以便配合嵌入式ARM開(kāi)發(fā)需求。另外,噪聲達(dá)到45左右時(shí),會(huì)對(duì)語(yǔ)音測(cè)試者的識(shí)別造成明顯的干擾,識(shí)別的精度降低,導(dǎo)致最終的評(píng)分性能較差。

        4 總結(jié)

        本文提出一種基于數(shù)據(jù)挖掘和嵌入式ARM設(shè)備的英語(yǔ)口語(yǔ)自動(dòng)評(píng)分系統(tǒng)。采用ARM開(kāi)發(fā)板實(shí)現(xiàn)音頻信號(hào)的實(shí)時(shí)采集。調(diào)用科大訊飛API接口實(shí)現(xiàn)音頻文件轉(zhuǎn)換生成文本答案,并進(jìn)行聚類(lèi)特征提取。采用關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)進(jìn)行預(yù)測(cè)評(píng)分。實(shí)際測(cè)試結(jié)果驗(yàn)證該系統(tǒng)的可行性。但是語(yǔ)音識(shí)別時(shí)的噪聲干擾對(duì)整體性能有一定的影響,降噪問(wèn)題將是后續(xù)工作重點(diǎn)。

        猜你喜歡
        數(shù)據(jù)挖掘文本英語(yǔ)
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        讀英語(yǔ)
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        酷酷英語(yǔ)林
        如何快速走進(jìn)文本
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        少妇无套裸按摩呻吟无呜| 天天干夜夜躁| 日韩久久无码免费看A| 久久婷婷国产色一区二区三区| 国产变态av一区二区三区调教| 丰满少妇高潮惨叫久久久一| 精品无码国产污污污免费网站| 第十色丰满无码| 麻豆国产高清精品国在线| 亚洲另类欧美综合久久图片区| 中文字幕精品永久在线| 女人被躁到高潮嗷嗷叫免| 亚洲女同一区二区| 玩两个丰满老熟女| 久久久国产精品ⅤA麻豆| 精品黄色av一区二区三区| 亚洲色图专区在线观看| 久久精品国产亚洲av网站| 国产熟妇人妻精品一区二区动漫| 国产精品主播视频| 亚洲av乱码国产精品观看麻豆| 国产日本精品视频一区二区| 人妻夜夜爽天天爽一区| 亚洲电影一区二区三区| 日韩精品自拍一区二区| 亚洲精品乱码久久久久蜜桃| 一本色道久久88综合日韩精品| 久久精品国产69国产精品亚洲| 香蕉久久人人97超碰caoproen| 亚洲色四在线视频观看| 高清少妇二区三区视频在线观看| 精品亚洲成a人无码成a在线观看| 亚洲在AV极品无码天堂手机版| 精品亚洲一区二区视频| 久久精品国产亚洲av网| 搡老熟女中国老太| 欧美破处在线观看| 日本一区二区免费高清| 色爱无码av综合区| 久久久精品人妻一区亚美研究所| 中文字幕日韩人妻高清在线|