亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)背景下文本語料預(yù)處理技術(shù)項(xiàng)目探析

        2021-09-22 01:45:04許越黃思緣吳佳怡顧秦王絡(luò)
        科海故事博覽·上旬刊 2021年6期
        關(guān)鍵詞:人工智能

        許越 黃思緣 吳佳怡 顧秦 王絡(luò)

        摘 要 隨著計(jì)算機(jī)智能化技術(shù)發(fā)展的提升,越來越多的人有條件利用智能設(shè)備進(jìn)行網(wǎng)上娛樂活動(dòng)。但隨著用戶數(shù)量的增加,評(píng)論區(qū)會(huì)出現(xiàn)一些不文明、不理智的發(fā)言。本項(xiàng)目將通過對(duì)于不文明用語的及時(shí)識(shí)別和屏蔽,降低用戶在網(wǎng)絡(luò)上與其他用戶起沖突的可能性,也在一定程度上減輕了網(wǎng)絡(luò)不文明現(xiàn)象可能給被攻擊用戶造成的負(fù)面心理影響。

        關(guān)鍵詞 文明網(wǎng)絡(luò)交流環(huán)境 文本分析技術(shù) 人工智能

        中圖分類號(hào):H0;TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-0745(2021)06-0015-03

        1 項(xiàng)目?jī)r(jià)值和意義

        隨著人們生活水平的不斷提高,智能設(shè)備已經(jīng)逐漸成為了人們生活中的必需品,越來越多的人使用智能設(shè)備在網(wǎng)絡(luò)上通過各種軟件進(jìn)行線上社交活動(dòng),而在這個(gè)過程中,不可避免地會(huì)產(chǎn)生網(wǎng)絡(luò)不文明用語現(xiàn)象。軟件上的發(fā)布動(dòng)態(tài)、評(píng)論、轉(zhuǎn)發(fā)、聊天等功能給人們提供了一個(gè)更方便地進(jìn)行思想交流的平臺(tái)。但與此同時(shí),網(wǎng)絡(luò)的匿名性也導(dǎo)致了各類網(wǎng)絡(luò)不文明現(xiàn)象的頻發(fā)。言語上口無遮攔的攻擊謾罵對(duì)網(wǎng)絡(luò)環(huán)境和被攻擊者的心理都造成了極其惡劣的影響,對(duì)于攻擊者本人正確的思想道德培養(yǎng)也有一定的阻礙。[1]

        如今,國(guó)內(nèi)人工+機(jī)器的不文明用語審核方式雖已在一定程度上提升了識(shí)別效率,但仍無法趕上用戶創(chuàng)造網(wǎng)絡(luò)用語的速度,識(shí)別的準(zhǔn)確度難以得到提升。且目前的機(jī)器識(shí)別方式仍較死板,只能通過簡(jiǎn)單的文本比對(duì)機(jī)械地識(shí)別出某個(gè)字或某個(gè)詞,不能聯(lián)系前后文本完整地識(shí)別出語句的準(zhǔn)確含義,因此有時(shí)會(huì)導(dǎo)致原本不存在不文明用語的文本被錯(cuò)誤地識(shí)別、屏蔽,給用戶的線上交流帶來一定困擾,也降低了用戶的軟件使用體驗(yàn)。而真正使用了不文明語言的文本也可能因?yàn)槭褂昧颂娲~而沒有被及時(shí)識(shí)別屏蔽,破壞了良好的網(wǎng)絡(luò)語言環(huán)境。本項(xiàng)目將通過文本預(yù)處理、建立語料庫(kù)、不文明用語庫(kù)等方式,使用相似性比較,聚類分析等文本挖掘技術(shù),實(shí)現(xiàn)對(duì)不文明用語更高速、更準(zhǔn)確的識(shí)別處理。

        本項(xiàng)目的意義可以體現(xiàn)在用戶、網(wǎng)絡(luò)平臺(tái)、社會(huì)及人工智能發(fā)展四個(gè)方面:首先,對(duì)用戶而言,本項(xiàng)目將通過對(duì)于不文明用語的及時(shí)識(shí)別和屏蔽,降低用戶在網(wǎng)絡(luò)上與其他用戶起沖突的可能性,也在一定程度上減輕了網(wǎng)絡(luò)不文明現(xiàn)象可能給被攻擊用戶造成的負(fù)面心理影響,同時(shí)能有效避免為防止踩中屏蔽詞只能使用替代詞進(jìn)行交流的情況,增強(qiáng)用戶的溝通效率,提升用戶的軟件使用體驗(yàn),為交流雙方提供一個(gè)更加健康的網(wǎng)絡(luò)環(huán)境;其次,對(duì)有用戶留言、評(píng)論、轉(zhuǎn)發(fā)等各類功能的網(wǎng)絡(luò)平臺(tái)而言,本項(xiàng)目能為其提供更高效的用戶留言管理方法和策略,創(chuàng)建良好的網(wǎng)絡(luò)語言環(huán)境,減少人工審核不文明用語的成本。同時(shí)也能為用戶創(chuàng)造一個(gè)更優(yōu)秀、更文明的線上交流平臺(tái),提升用戶的使用體驗(yàn),使得用戶愿意更頻繁地使用該平臺(tái)進(jìn)行線上交流,為平臺(tái)增加收益。本項(xiàng)目也能幫助平臺(tái)通過某一詞匯的提及度了解用戶對(duì)于某一話題的關(guān)注度,為網(wǎng)絡(luò)平臺(tái)業(yè)務(wù)開展和話題建設(shè)打下良好的基礎(chǔ)。增強(qiáng)平臺(tái)對(duì)網(wǎng)絡(luò)話題趨勢(shì)的掌握度,更清晰地了解用戶喜好,為軟件的功能提升提供方向,吸引更多用戶,最終達(dá)成良性循環(huán);再次,對(duì)社會(huì)而言,網(wǎng)絡(luò)肩負(fù)著引導(dǎo)輿論、成風(fēng)化人的職責(zé),使用文明規(guī)范的語言文字是傳承文明、傳播文化的基本要求。本項(xiàng)目能夠減少網(wǎng)絡(luò)上不文明用語的出現(xiàn)頻率,從而減少不文明用語對(duì)社會(huì)風(fēng)氣產(chǎn)生的不良影響。同時(shí),對(duì)于網(wǎng)絡(luò)上數(shù)量龐大的未成年用戶而言,一個(gè)文明和諧的網(wǎng)絡(luò)語言環(huán)境會(huì)對(duì)他們的身心健康發(fā)展起到良性引導(dǎo)的作用。也在一定程度上降低了線上的語言暴力給用戶的身心所帶來的危害;最后,對(duì)人工智能的發(fā)展而言,人工智能本就是在不斷學(xué)習(xí)中成長(zhǎng),通過對(duì)互聯(lián)網(wǎng)上大量的語言識(shí)別樣本進(jìn)行學(xué)習(xí)意味著能夠使人工智能更精確地識(shí)別出當(dāng)前文本的真實(shí)語義,甚至識(shí)別出帶有更強(qiáng)烈的情感色彩的調(diào)侃、諷刺等語氣的文本含義,避免錯(cuò)誤的識(shí)別屏蔽,達(dá)到優(yōu)化用戶體驗(yàn)的目的。提升人工智能在語言識(shí)別方面的成長(zhǎng)進(jìn)度,為未來人工智能的發(fā)展打下基礎(chǔ)。

        2 項(xiàng)目設(shè)計(jì)

        2.1 研究對(duì)象與研究方法

        項(xiàng)目靈感來源于大一上學(xué)期我們?cè)谒枷胝握n上研究的課題——上海市大學(xué)生對(duì)于網(wǎng)絡(luò)道德的認(rèn)識(shí)。該研究通過向大學(xué)生發(fā)放紙質(zhì)問卷和電子問卷的方式進(jìn)行調(diào)查,采取簡(jiǎn)單隨機(jī)抽樣的方式發(fā)放問卷。研究目的在于從整體上探究大學(xué)生對(duì)于網(wǎng)絡(luò)道德的認(rèn)知程度,從人們對(duì)于網(wǎng)絡(luò)持有的意識(shí)態(tài)度、網(wǎng)上行為規(guī)范、評(píng)價(jià)選擇等方面設(shè)計(jì)問卷。同時(shí),結(jié)合了校內(nèi)校外隨機(jī)采訪輔助前期調(diào)研,側(cè)重對(duì)訪問者在網(wǎng)上沖浪時(shí)對(duì)于不文明或具有煽動(dòng)性的言論的真實(shí)感受。同時(shí)請(qǐng)大學(xué)生對(duì)于制止網(wǎng)絡(luò)暴力給予適當(dāng)?shù)慕ㄗh。希望通過豐富的問卷內(nèi)容體現(xiàn)出大學(xué)生真實(shí)的心理狀態(tài),從而進(jìn)一步探究解決網(wǎng)絡(luò)暴力以及網(wǎng)絡(luò)不文明現(xiàn)象的有效手段。

        2.2 樣本的概況及分布

        本次研究在上海立信會(huì)計(jì)金融學(xué)院等學(xué)校共發(fā)放150份紙質(zhì)調(diào)查問卷,有效問卷112份。在性別比例上,參與調(diào)查的男生占20%,女生占80%。其中大一學(xué)生為本次研究著重調(diào)查的對(duì)象,占據(jù)80%。另外還有14.67%的大二學(xué)生,2.67%的大三學(xué)生和1.33%的大四學(xué)生參與了調(diào)查。

        2.3 理論綜述

        當(dāng)下,大學(xué)生是使用網(wǎng)絡(luò)最頻繁、耗時(shí)最多的社會(huì)群體之一。根據(jù)數(shù)據(jù)統(tǒng)計(jì),62.67%的大學(xué)生平均每天會(huì)花費(fèi)4個(gè)小時(shí)以上的時(shí)間在網(wǎng)絡(luò)上,而在其中,有68%的大學(xué)生會(huì)把大部分時(shí)間花在社交媒體上,可見網(wǎng)上交流是大部分大學(xué)生必不可少的社交手段,如今常用的社交媒體包括在全國(guó)甚至全球關(guān)于娛樂休閑生活信息分享交流的平臺(tái)。通過數(shù)據(jù)顯示,82.67%和80%的大學(xué)生把微信和QQ作為常用的社交軟件。此外,還有44%、10.67%和5.33%的大學(xué)生分別把微博、貼吧和直播網(wǎng)站這樣具有互動(dòng)性、透明性、公開性的網(wǎng)上交流平臺(tái)作為常用的社交軟件。其中的互動(dòng)性就體現(xiàn)在媒體會(huì)為那些看到信息的人提供自由評(píng)論的區(qū)域,讓他們發(fā)表看法,這樣的設(shè)計(jì)讓互不相識(shí)的人通過網(wǎng)絡(luò)建立起了聯(lián)系,為網(wǎng)上沖浪增添了許多樂趣。

        但是人們對(duì)待同一事物的看法不可能完全相同,有時(shí)候針對(duì)某個(gè)觀點(diǎn)難免會(huì)起紛爭(zhēng)。通過問卷調(diào)查的數(shù)據(jù),41.34%的大學(xué)生無法做到在閱讀完信息后理性地判斷內(nèi)容的真實(shí)性再轉(zhuǎn)發(fā)評(píng)論,從而導(dǎo)致某些不慎或者過激的言論成為擾亂網(wǎng)絡(luò)秩序的源頭,網(wǎng)絡(luò)暴力也由此而生。

        據(jù)調(diào)查,超過四分之一的大學(xué)生遭受過網(wǎng)絡(luò)暴力,其中有17.33%的大學(xué)生以個(gè)人行為代替報(bào)警或舉報(bào)維權(quán)進(jìn)行回?fù)?,?.33%的大學(xué)生只選擇默默忍受或不予理睬??梢妼?duì)于網(wǎng)絡(luò)暴力的迫害,不是所有的大學(xué)生都能采用正確的渠道合理地進(jìn)行解決。有專家指出,網(wǎng)絡(luò)暴力會(huì)帶來道德綁架、輿論嘲諷、虛假信息和侵犯隱私四種危害。如果沒有有效的手段來治理網(wǎng)絡(luò)暴力,勢(shì)必會(huì)對(duì)大學(xué)生乃至所有網(wǎng)民產(chǎn)生嚴(yán)重的影響。

        為了營(yíng)造和諧的網(wǎng)上交流環(huán)境,相關(guān)的平臺(tái)為用戶設(shè)置了舉報(bào)系統(tǒng)。當(dāng)讀者瀏覽到垃圾營(yíng)銷、涉黃信息、人身攻擊、有害信息以及違法信息時(shí),可以按類型向平臺(tái)進(jìn)行投訴,平臺(tái)的工作人員也會(huì)馬上進(jìn)行反饋。

        針對(duì)這一點(diǎn),我們小組設(shè)計(jì)了相關(guān)問題來調(diào)查大學(xué)生是否能有效利用此類舉報(bào)系統(tǒng)。

        經(jīng)數(shù)據(jù)統(tǒng)計(jì),面對(duì)不良信息只有45.33%的大學(xué)生能夠理性地舉報(bào)所有他們認(rèn)為的不良信息,多數(shù)大學(xué)生只是看心情舉報(bào),少數(shù)則是不予理睬或是湊個(gè)熱鬧,這表明只有一半不到的大學(xué)生能有效利用平臺(tái)設(shè)置的舉報(bào)系統(tǒng)。大部分的大學(xué)生理應(yīng)具備識(shí)別網(wǎng)絡(luò)暴力的能力,但為什么這類系統(tǒng)不能被大學(xué)生完全利用到位?提出疑問后,我們緊接著就大學(xué)生面對(duì)網(wǎng)絡(luò)暴力所持有的態(tài)度展開調(diào)查。

        根據(jù)數(shù)據(jù)顯示,超過四分之一的大學(xué)生面對(duì)網(wǎng)絡(luò)暴力表示無所謂、看熱鬧或是低估了網(wǎng)絡(luò)暴力帶來的傷害。由此可見,從用戶角度來說,平臺(tái)設(shè)置的舉報(bào)系統(tǒng)一定程度上可以懲治發(fā)表不良言論的人,但還有一大批未能被舉報(bào)的用戶成為漏網(wǎng)之魚,同時(shí),仍有一部分人因?yàn)閷?duì)待網(wǎng)絡(luò)暴力的態(tài)度不同而未能及時(shí)制止使得事態(tài)惡化;從平臺(tái)自身來說,舉報(bào)系統(tǒng)的不完善同樣會(huì)讓部分用戶利用平臺(tái)的漏洞,不斷散播不良信息,這兩點(diǎn)讓網(wǎng)絡(luò)暴力的問題無法得到有效的根治。

        所以,為了打造更加文明的網(wǎng)絡(luò)環(huán)境,我們小組決定從用戶發(fā)布信息的源頭探究在信息發(fā)布欄里加入文本分析的技術(shù),通過文本預(yù)處理、建立語料庫(kù)、不文明用語庫(kù)等方式,使用相似性比較、聚類分析等文本挖掘技術(shù),對(duì)評(píng)論者發(fā)表的留言、評(píng)論進(jìn)行識(shí)別,提取文本特征,計(jì)算其與不文明用語語料的相似性。從而能夠相對(duì)快速、準(zhǔn)確地對(duì)用戶留言進(jìn)行及時(shí)的處理,識(shí)別其中的不文明用語并通過限制發(fā)文、信用打分等方式對(duì)留言者進(jìn)行標(biāo)識(shí)和評(píng)價(jià),從而起到一定的警告作用。

        3 項(xiàng)目方案

        3.1 項(xiàng)目的主要問題

        3.1.1評(píng)論數(shù)據(jù)的收集以及數(shù)據(jù)的處理

        我們需要大量的數(shù)據(jù)建立屏蔽詞的語料庫(kù)與是否屏蔽的數(shù)據(jù)庫(kù),首先要解決的是如何獲取大量真實(shí)可靠的清潔數(shù)據(jù),而數(shù)據(jù)的處理方式需要運(yùn)用大量實(shí)踐去建立初步模型決定采用的預(yù)處理方式,是本次項(xiàng)目的重難點(diǎn),需要我們運(yùn)用數(shù)據(jù)科學(xué)知識(shí)找到最有效的途徑。

        3.1.2建立文明用語的語料庫(kù)

        為了實(shí)現(xiàn)屏蔽機(jī)制,我們需要將網(wǎng)絡(luò)上的各種語言分類為文明用語、不文明用語和侮辱性用語。因?yàn)閿?shù)據(jù)較為龐大且存在大量的俚語、隱晦語、網(wǎng)絡(luò)用語、符號(hào)等,如果要全面準(zhǔn)確地識(shí)別隱藏其中的不文明用語,需要合適的文本分析挖掘方法。

        3.1.3網(wǎng)絡(luò)環(huán)境維護(hù)方案優(yōu)化策略

        在識(shí)別了是否需要屏蔽數(shù)據(jù)之后,我們需要采取一種相對(duì)合適的方式來優(yōu)化,例如直接屏蔽、將屏蔽部分的不文明用語替換成文明用語,并對(duì)用戶進(jìn)行警告,設(shè)置一定限度的禁言措施。但過度的警告措施會(huì)引起用戶反感,所以需要大量數(shù)據(jù)來確定措施的力度對(duì)用戶的影響,在維護(hù)網(wǎng)絡(luò)環(huán)境的同時(shí)最大程度地保證用戶對(duì)平臺(tái)的駐留。

        3.2 擬解決途徑

        3.2.1數(shù)據(jù)的采集

        我們準(zhǔn)備選取當(dāng)下在大學(xué)生中較熱門的網(wǎng)站,比如微博、易班,在這些以評(píng)論作為主要交流方式的平臺(tái)上可以更簡(jiǎn)單地獲取信息,且網(wǎng)站中較大的流量可以獲得更龐大的數(shù)據(jù),為之后建立數(shù)據(jù)庫(kù)和處理數(shù)據(jù)打下基礎(chǔ)。運(yùn)用爬蟲作為搜集數(shù)據(jù)的工具可以快速準(zhǔn)確地搜集到大量數(shù)據(jù),減少人工搜集的難度。

        3.2.2數(shù)據(jù)預(yù)處理

        首先對(duì)于被爬取的數(shù)據(jù)需要過濾污染數(shù)據(jù),去除重復(fù)數(shù)據(jù),并去除無關(guān)消息,得到較為干凈的數(shù)據(jù)。中文語料數(shù)據(jù)大多為短文本或長(zhǎng)文本。通過jieba和HanLP等較為簡(jiǎn)單的中文分詞器與詞性注解的方式將較為長(zhǎng)的文本分為我們需要的詞,運(yùn)用去停止詞、特征提取、tf-idf權(quán)值計(jì)算等方式,將文本留言轉(zhuǎn)化成數(shù)據(jù)向量,使用文本相似性計(jì)算,logistic

        (下轉(zhuǎn)第27頁(yè))

        猜你喜歡
        人工智能
        我校新增“人工智能”本科專業(yè)
        用“小AI”解決人工智能的“大”煩惱
        汽車零部件(2020年3期)2020-03-27 05:30:20
        當(dāng)人工智能遇見再制造
        2019:人工智能
        商界(2019年12期)2019-01-03 06:59:05
        AI人工智能解疑答問
        人工智能與就業(yè)
        基于人工智能的電力系統(tǒng)自動(dòng)化控制
        人工智能,來了
        數(shù)讀人工智能
        小康(2017年16期)2017-06-07 09:00:59
        人工智能來了
        男人天堂插插综合搜索| 免费人成网在线观看品观网| 在线免费观看国产视频不卡| 亚洲一区二区一区二区免费视频| 成人影院视频在线播放| 开心久久婷婷综合中文字幕| 成年人男女啪啪网站视频| 中文字幕av人妻少妇一区二区| 久久不见久久见免费影院国语| 精品淑女少妇av久久免费| 亚洲国产成人va在线观看天堂 | 成人国产精品免费网站| 男女男在线精品免费观看| 水蜜桃精品视频在线观看| 亚洲综合欧美色五月俺也去| 成人影院yy111111在线| 无码国产精品一区二区免费16 | 在线观看亚洲av每日更新影片| 午夜精品久久久久久久99老熟妇| 国产三区在线成人av| 日韩乱码人妻无码中文字幕视频 | 日本一二三区视频在线| 毛片亚洲av无码精品国产午夜| 成人片黄网站色大片免费观看app 亚洲av无码专区亚洲av | 在线视频一区二区观看| 国产夫妻自拍视频在线播放| 免费国产黄网站在线观看视频| 无码av天堂一区二区三区| 欧美性猛交xxxx黑人| 久久水蜜桃亚洲av无码精品麻豆| 日本一区免费喷水| 日产精品毛片av一区二区三区| 成人自拍小视频在线看| 内地老熟女老少配视频| 宝贝把腿张开我要添你下边动态图| 中文字幕人妻中文| 成人免费毛片立即播放| 日本在线观看一区二区三| 网禁拗女稀缺资源在线观看| 亚洲av一宅男色影视| 亚洲熟伦在线视频|