亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大數(shù)據(jù)背景下文本語料預(yù)處理技術(shù)項(xiàng)目探析

2021-09-22 01:45:04許越黃思緣吳佳怡顧秦王絡(luò)

科海故事博覽·上旬刊 2021年6期

關(guān)鍵詞：人工智能

許越黃思緣吳佳怡顧秦王絡(luò)

摘要隨著計(jì)算機(jī)智能化技術(shù)發(fā)展的提升，越來越多的人有條件利用智能設(shè)備進(jìn)行網(wǎng)上娛樂活動(dòng)。但隨著用戶數(shù)量的增加，評(píng)論區(qū)會(huì)出現(xiàn)一些不文明、不理智的發(fā)言。本項(xiàng)目將通過對(duì)于不文明用語的及時(shí)識(shí)別和屏蔽，降低用戶在網(wǎng)絡(luò)上與其他用戶起沖突的可能性，也在一定程度上減輕了網(wǎng)絡(luò)不文明現(xiàn)象可能給被攻擊用戶造成的負(fù)面心理影響。

關(guān)鍵詞文明網(wǎng)絡(luò)交流環(huán)境文本分析技術(shù) 人工智能

中圖分類號(hào)：H0;TP311 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1007-0745（2021）06-0015-03

1 項(xiàng)目?jī)r(jià)值和意義

隨著人們生活水平的不斷提高，智能設(shè)備已經(jīng)逐漸成為了人們生活中的必需品，越來越多的人使用智能設(shè)備在網(wǎng)絡(luò)上通過各種軟件進(jìn)行線上社交活動(dòng)，而在這個(gè)過程中，不可避免地會(huì)產(chǎn)生網(wǎng)絡(luò)不文明用語現(xiàn)象。軟件上的發(fā)布動(dòng)態(tài)、評(píng)論、轉(zhuǎn)發(fā)、聊天等功能給人們提供了一個(gè)更方便地進(jìn)行思想交流的平臺(tái)。但與此同時(shí)，網(wǎng)絡(luò)的匿名性也導(dǎo)致了各類網(wǎng)絡(luò)不文明現(xiàn)象的頻發(fā)。言語上口無遮攔的攻擊謾罵對(duì)網(wǎng)絡(luò)環(huán)境和被攻擊者的心理都造成了極其惡劣的影響，對(duì)于攻擊者本人正確的思想道德培養(yǎng)也有一定的阻礙。[1]

如今，國(guó)內(nèi)人工+機(jī)器的不文明用語審核方式雖已在一定程度上提升了識(shí)別效率，但仍無法趕上用戶創(chuàng)造網(wǎng)絡(luò)用語的速度，識(shí)別的準(zhǔn)確度難以得到提升。且目前的機(jī)器識(shí)別方式仍較死板，只能通過簡(jiǎn)單的文本比對(duì)機(jī)械地識(shí)別出某個(gè)字或某個(gè)詞，不能聯(lián)系前后文本完整地識(shí)別出語句的準(zhǔn)確含義，因此有時(shí)會(huì)導(dǎo)致原本不存在不文明用語的文本被錯(cuò)誤地識(shí)別、屏蔽，給用戶的線上交流帶來一定困擾，也降低了用戶的軟件使用體驗(yàn)。而真正使用了不文明語言的文本也可能因?yàn)槭褂昧颂娲~而沒有被及時(shí)識(shí)別屏蔽，破壞了良好的網(wǎng)絡(luò)語言環(huán)境。本項(xiàng)目將通過文本預(yù)處理、建立語料庫(kù)、不文明用語庫(kù)等方式，使用相似性比較，聚類分析等文本挖掘技術(shù)，實(shí)現(xiàn)對(duì)不文明用語更高速、更準(zhǔn)確的識(shí)別處理。

本項(xiàng)目的意義可以體現(xiàn)在用戶、網(wǎng)絡(luò)平臺(tái)、社會(huì)及人工智能發(fā)展四個(gè)方面：首先，對(duì)用戶而言，本項(xiàng)目將通過對(duì)于不文明用語的及時(shí)識(shí)別和屏蔽，降低用戶在網(wǎng)絡(luò)上與其他用戶起沖突的可能性，也在一定程度上減輕了網(wǎng)絡(luò)不文明現(xiàn)象可能給被攻擊用戶造成的負(fù)面心理影響，同時(shí)能有效避免為防止踩中屏蔽詞只能使用替代詞進(jìn)行交流的情況，增強(qiáng)用戶的溝通效率，提升用戶的軟件使用體驗(yàn)，為交流雙方提供一個(gè)更加健康的網(wǎng)絡(luò)環(huán)境;其次，對(duì)有用戶留言、評(píng)論、轉(zhuǎn)發(fā)等各類功能的網(wǎng)絡(luò)平臺(tái)而言，本項(xiàng)目能為其提供更高效的用戶留言管理方法和策略，創(chuàng)建良好的網(wǎng)絡(luò)語言環(huán)境，減少人工審核不文明用語的成本。同時(shí)也能為用戶創(chuàng)造一個(gè)更優(yōu)秀、更文明的線上交流平臺(tái)，提升用戶的使用體驗(yàn)，使得用戶愿意更頻繁地使用該平臺(tái)進(jìn)行線上交流，為平臺(tái)增加收益。本項(xiàng)目也能幫助平臺(tái)通過某一詞匯的提及度了解用戶對(duì)于某一話題的關(guān)注度，為網(wǎng)絡(luò)平臺(tái)業(yè)務(wù)開展和話題建設(shè)打下良好的基礎(chǔ)。增強(qiáng)平臺(tái)對(duì)網(wǎng)絡(luò)話題趨勢(shì)的掌握度，更清晰地了解用戶喜好，為軟件的功能提升提供方向，吸引更多用戶，最終達(dá)成良性循環(huán);再次，對(duì)社會(huì)而言，網(wǎng)絡(luò)肩負(fù)著引導(dǎo)輿論、成風(fēng)化人的職責(zé)，使用文明規(guī)范的語言文字是傳承文明、傳播文化的基本要求。本項(xiàng)目能夠減少網(wǎng)絡(luò)上不文明用語的出現(xiàn)頻率，從而減少不文明用語對(duì)社會(huì)風(fēng)氣產(chǎn)生的不良影響。同時(shí)，對(duì)于網(wǎng)絡(luò)上數(shù)量龐大的未成年用戶而言，一個(gè)文明和諧的網(wǎng)絡(luò)語言環(huán)境會(huì)對(duì)他們的身心健康發(fā)展起到良性引導(dǎo)的作用。也在一定程度上降低了線上的語言暴力給用戶的身心所帶來的危害;最后，對(duì)人工智能的發(fā)展而言，人工智能本就是在不斷學(xué)習(xí)中成長(zhǎng)，通過對(duì)互聯(lián)網(wǎng)上大量的語言識(shí)別樣本進(jìn)行學(xué)習(xí)意味著能夠使人工智能更精確地識(shí)別出當(dāng)前文本的真實(shí)語義，甚至識(shí)別出帶有更強(qiáng)烈的情感色彩的調(diào)侃、諷刺等語氣的文本含義，避免錯(cuò)誤的識(shí)別屏蔽，達(dá)到優(yōu)化用戶體驗(yàn)的目的。提升人工智能在語言識(shí)別方面的成長(zhǎng)進(jìn)度，為未來人工智能的發(fā)展打下基礎(chǔ)。

2 項(xiàng)目設(shè)計(jì)

2.1 研究對(duì)象與研究方法

項(xiàng)目靈感來源于大一上學(xué)期我們?cè)谒枷胝握n上研究的課題——上海市大學(xué)生對(duì)于網(wǎng)絡(luò)道德的認(rèn)識(shí)。該研究通過向大學(xué)生發(fā)放紙質(zhì)問卷和電子問卷的方式進(jìn)行調(diào)查，采取簡(jiǎn)單隨機(jī)抽樣的方式發(fā)放問卷。研究目的在于從整體上探究大學(xué)生對(duì)于網(wǎng)絡(luò)道德的認(rèn)知程度，從人們對(duì)于網(wǎng)絡(luò)持有的意識(shí)態(tài)度、網(wǎng)上行為規(guī)范、評(píng)價(jià)選擇等方面設(shè)計(jì)問卷。同時(shí)，結(jié)合了校內(nèi)校外隨機(jī)采訪輔助前期調(diào)研，側(cè)重對(duì)訪問者在網(wǎng)上沖浪時(shí)對(duì)于不文明或具有煽動(dòng)性的言論的真實(shí)感受。同時(shí)請(qǐng)大學(xué)生對(duì)于制止網(wǎng)絡(luò)暴力給予適當(dāng)?shù)慕ㄗh。希望通過豐富的問卷內(nèi)容體現(xiàn)出大學(xué)生真實(shí)的心理狀態(tài)，從而進(jìn)一步探究解決網(wǎng)絡(luò)暴力以及網(wǎng)絡(luò)不文明現(xiàn)象的有效手段。

2.2 樣本的概況及分布

本次研究在上海立信會(huì)計(jì)金融學(xué)院等學(xué)校共發(fā)放150份紙質(zhì)調(diào)查問卷，有效問卷112份。在性別比例上，參與調(diào)查的男生占20%，女生占80%。其中大一學(xué)生為本次研究著重調(diào)查的對(duì)象，占據(jù)80%。另外還有14.67%的大二學(xué)生，2.67%的大三學(xué)生和1.33%的大四學(xué)生參與了調(diào)查。

2.3 理論綜述

當(dāng)下，大學(xué)生是使用網(wǎng)絡(luò)最頻繁、耗時(shí)最多的社會(huì)群體之一。根據(jù)數(shù)據(jù)統(tǒng)計(jì)，62.67%的大學(xué)生平均每天會(huì)花費(fèi)4個(gè)小時(shí)以上的時(shí)間在網(wǎng)絡(luò)上，而在其中，有68%的大學(xué)生會(huì)把大部分時(shí)間花在社交媒體上，可見網(wǎng)上交流是大部分大學(xué)生必不可少的社交手段，如今常用的社交媒體包括在全國(guó)甚至全球關(guān)于娛樂休閑生活信息分享交流的平臺(tái)。通過數(shù)據(jù)顯示，82.67%和80%的大學(xué)生把微信和QQ作為常用的社交軟件。此外，還有44%、10.67%和5.33%的大學(xué)生分別把微博、貼吧和直播網(wǎng)站這樣具有互動(dòng)性、透明性、公開性的網(wǎng)上交流平臺(tái)作為常用的社交軟件。其中的互動(dòng)性就體現(xiàn)在媒體會(huì)為那些看到信息的人提供自由評(píng)論的區(qū)域，讓他們發(fā)表看法，這樣的設(shè)計(jì)讓互不相識(shí)的人通過網(wǎng)絡(luò)建立起了聯(lián)系，為網(wǎng)上沖浪增添了許多樂趣。

但是人們對(duì)待同一事物的看法不可能完全相同，有時(shí)候針對(duì)某個(gè)觀點(diǎn)難免會(huì)起紛爭(zhēng)。通過問卷調(diào)查的數(shù)據(jù)，41.34%的大學(xué)生無法做到在閱讀完信息后理性地判斷內(nèi)容的真實(shí)性再轉(zhuǎn)發(fā)評(píng)論，從而導(dǎo)致某些不慎或者過激的言論成為擾亂網(wǎng)絡(luò)秩序的源頭，網(wǎng)絡(luò)暴力也由此而生。

據(jù)調(diào)查，超過四分之一的大學(xué)生遭受過網(wǎng)絡(luò)暴力，其中有17.33%的大學(xué)生以個(gè)人行為代替報(bào)警或舉報(bào)維權(quán)進(jìn)行回?fù)?，?.33%的大學(xué)生只選擇默默忍受或不予理睬?？梢妼?duì)于網(wǎng)絡(luò)暴力的迫害，不是所有的大學(xué)生都能采用正確的渠道合理地進(jìn)行解決。有專家指出，網(wǎng)絡(luò)暴力會(huì)帶來道德綁架、輿論嘲諷、虛假信息和侵犯隱私四種危害。如果沒有有效的手段來治理網(wǎng)絡(luò)暴力，勢(shì)必會(huì)對(duì)大學(xué)生乃至所有網(wǎng)民產(chǎn)生嚴(yán)重的影響。

為了營(yíng)造和諧的網(wǎng)上交流環(huán)境，相關(guān)的平臺(tái)為用戶設(shè)置了舉報(bào)系統(tǒng)。當(dāng)讀者瀏覽到垃圾營(yíng)銷、涉黃信息、人身攻擊、有害信息以及違法信息時(shí)，可以按類型向平臺(tái)進(jìn)行投訴，平臺(tái)的工作人員也會(huì)馬上進(jìn)行反饋。

針對(duì)這一點(diǎn)，我們小組設(shè)計(jì)了相關(guān)問題來調(diào)查大學(xué)生是否能有效利用此類舉報(bào)系統(tǒng)。

經(jīng)數(shù)據(jù)統(tǒng)計(jì)，面對(duì)不良信息只有45.33%的大學(xué)生能夠理性地舉報(bào)所有他們認(rèn)為的不良信息，多數(shù)大學(xué)生只是看心情舉報(bào)，少數(shù)則是不予理睬或是湊個(gè)熱鬧，這表明只有一半不到的大學(xué)生能有效利用平臺(tái)設(shè)置的舉報(bào)系統(tǒng)。大部分的大學(xué)生理應(yīng)具備識(shí)別網(wǎng)絡(luò)暴力的能力，但為什么這類系統(tǒng)不能被大學(xué)生完全利用到位？提出疑問后，我們緊接著就大學(xué)生面對(duì)網(wǎng)絡(luò)暴力所持有的態(tài)度展開調(diào)查。

根據(jù)數(shù)據(jù)顯示，超過四分之一的大學(xué)生面對(duì)網(wǎng)絡(luò)暴力表示無所謂、看熱鬧或是低估了網(wǎng)絡(luò)暴力帶來的傷害。由此可見，從用戶角度來說，平臺(tái)設(shè)置的舉報(bào)系統(tǒng)一定程度上可以懲治發(fā)表不良言論的人，但還有一大批未能被舉報(bào)的用戶成為漏網(wǎng)之魚，同時(shí)，仍有一部分人因?yàn)閷?duì)待網(wǎng)絡(luò)暴力的態(tài)度不同而未能及時(shí)制止使得事態(tài)惡化;從平臺(tái)自身來說，舉報(bào)系統(tǒng)的不完善同樣會(huì)讓部分用戶利用平臺(tái)的漏洞，不斷散播不良信息，這兩點(diǎn)讓網(wǎng)絡(luò)暴力的問題無法得到有效的根治。

所以，為了打造更加文明的網(wǎng)絡(luò)環(huán)境，我們小組決定從用戶發(fā)布信息的源頭探究在信息發(fā)布欄里加入文本分析的技術(shù)，通過文本預(yù)處理、建立語料庫(kù)、不文明用語庫(kù)等方式，使用相似性比較、聚類分析等文本挖掘技術(shù)，對(duì)評(píng)論者發(fā)表的留言、評(píng)論進(jìn)行識(shí)別，提取文本特征，計(jì)算其與不文明用語語料的相似性。從而能夠相對(duì)快速、準(zhǔn)確地對(duì)用戶留言進(jìn)行及時(shí)的處理，識(shí)別其中的不文明用語并通過限制發(fā)文、信用打分等方式對(duì)留言者進(jìn)行標(biāo)識(shí)和評(píng)價(jià)，從而起到一定的警告作用。

3 項(xiàng)目方案

3.1 項(xiàng)目的主要問題

3.1.1評(píng)論數(shù)據(jù)的收集以及數(shù)據(jù)的處理

我們需要大量的數(shù)據(jù)建立屏蔽詞的語料庫(kù)與是否屏蔽的數(shù)據(jù)庫(kù)，首先要解決的是如何獲取大量真實(shí)可靠的清潔數(shù)據(jù)，而數(shù)據(jù)的處理方式需要運(yùn)用大量實(shí)踐去建立初步模型決定采用的預(yù)處理方式，是本次項(xiàng)目的重難點(diǎn)，需要我們運(yùn)用數(shù)據(jù)科學(xué)知識(shí)找到最有效的途徑。

3.1.2建立文明用語的語料庫(kù)

為了實(shí)現(xiàn)屏蔽機(jī)制，我們需要將網(wǎng)絡(luò)上的各種語言分類為文明用語、不文明用語和侮辱性用語。因?yàn)閿?shù)據(jù)較為龐大且存在大量的俚語、隱晦語、網(wǎng)絡(luò)用語、符號(hào)等，如果要全面準(zhǔn)確地識(shí)別隱藏其中的不文明用語，需要合適的文本分析挖掘方法。

3.1.3網(wǎng)絡(luò)環(huán)境維護(hù)方案優(yōu)化策略

在識(shí)別了是否需要屏蔽數(shù)據(jù)之后，我們需要采取一種相對(duì)合適的方式來優(yōu)化，例如直接屏蔽、將屏蔽部分的不文明用語替換成文明用語，并對(duì)用戶進(jìn)行警告，設(shè)置一定限度的禁言措施。但過度的警告措施會(huì)引起用戶反感，所以需要大量數(shù)據(jù)來確定措施的力度對(duì)用戶的影響，在維護(hù)網(wǎng)絡(luò)環(huán)境的同時(shí)最大程度地保證用戶對(duì)平臺(tái)的駐留。

3.2 擬解決途徑

3.2.1數(shù)據(jù)的采集

我們準(zhǔn)備選取當(dāng)下在大學(xué)生中較熱門的網(wǎng)站，比如微博、易班，在這些以評(píng)論作為主要交流方式的平臺(tái)上可以更簡(jiǎn)單地獲取信息，且網(wǎng)站中較大的流量可以獲得更龐大的數(shù)據(jù)，為之后建立數(shù)據(jù)庫(kù)和處理數(shù)據(jù)打下基礎(chǔ)。運(yùn)用爬蟲作為搜集數(shù)據(jù)的工具可以快速準(zhǔn)確地搜集到大量數(shù)據(jù)，減少人工搜集的難度。

3.2.2數(shù)據(jù)預(yù)處理

首先對(duì)于被爬取的數(shù)據(jù)需要過濾污染數(shù)據(jù)，去除重復(fù)數(shù)據(jù)，并去除無關(guān)消息，得到較為干凈的數(shù)據(jù)。中文語料數(shù)據(jù)大多為短文本或長(zhǎng)文本。通過jieba和HanLP等較為簡(jiǎn)單的中文分詞器與詞性注解的方式將較為長(zhǎng)的文本分為我們需要的詞，運(yùn)用去停止詞、特征提取、tf-idf權(quán)值計(jì)算等方式，將文本留言轉(zhuǎn)化成數(shù)據(jù)向量，使用文本相似性計(jì)算，logistic

（下轉(zhuǎn)第27頁(yè)）