亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Word的中文詞頻分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

        2020-12-09 05:24:35楊鵬張利強(qiáng)賀斯慧
        企業(yè)科技與發(fā)展 2020年10期

        楊鵬 張利強(qiáng) 賀斯慧

        【摘 要】隨著互聯(lián)網(wǎng)的飛速發(fā)展,各類網(wǎng)絡(luò)開發(fā)平臺飛速成長,供用戶在網(wǎng)絡(luò)上暢所欲言,交流學(xué)習(xí)。但是,各種垃圾信息在網(wǎng)絡(luò)上頻繁發(fā)布,違背了網(wǎng)絡(luò)平臺開發(fā)的初衷,污染了網(wǎng)絡(luò)環(huán)境。為杜絕此類垃圾信息,各大平臺都采取各種措施優(yōu)化網(wǎng)絡(luò)環(huán)境,但是效果不佳,究其原因在于文字的任意組合排列都會產(chǎn)生不同的信息,而在攔截垃圾信息時(shí)必須進(jìn)行模板化配置攔截,這就導(dǎo)致垃圾信息是可變的而攔截信息卻要人為操作。為解決此類問題,可以將垃圾信息細(xì)化成單獨(dú)的個(gè)體,也就是對信息進(jìn)行分詞。

        【關(guān)鍵詞】word分詞;詞頻;中文分詞

        【中圖分類號】TP311.52 【文獻(xiàn)標(biāo)識碼】A 【文章編號】1674-0688(2020)10-0070-03

        0 引言

        中文分詞處理需要對現(xiàn)有的中文信息至少從字、詞、句等3個(gè)層面進(jìn)行處理,甚至必須從語義、詞性等方面處理才能分析出其中意義。在中文里面,詞是最小的語言單位,如果不處理好中文分詞的問題,那么處理語句問題也就無從談起,所以中文分詞是中文處理技術(shù)的基礎(chǔ)。相對于其他語言,中文分詞是比較復(fù)雜的。英語的單詞之間有著空格相隔,檢索方便,并且采用窮舉的方式表達(dá)其意,因此不存在分詞的說法。中文語句之間是沒有分割符的,想要處理中文,就需要專門的技術(shù)支撐。隨著自然語言的興起發(fā)展,涌現(xiàn)眾多算法支撐中文分詞。根據(jù)特點(diǎn),我們可以分為以下幾類:匹配算法、理解算法、統(tǒng)計(jì)算法、語義算法。每種方法各有優(yōu)劣,目前沒有單一的算法能達(dá)到令人滿意的結(jié)果,只有優(yōu)勢互補(bǔ)才能得到相對好的結(jié)果。

        本文結(jié)合各類算法并利用現(xiàn)有的網(wǎng)絡(luò)環(huán)境提供了多種基于詞典的分詞算法,選用Java語言利用Word分詞去除詞句相近的多重歧義。能夠準(zhǔn)確地識別時(shí)間、日期及數(shù)字等數(shù)量詞,結(jié)合中國國情能夠識別出人名、地名、組織結(jié)構(gòu)名等未登錄詞。提供配置化改變詞庫行為及豐富分詞的功能;用戶自己上傳詞庫,自動監(jiān)聽詞庫改變;能夠在現(xiàn)在流行的分布式環(huán)境下提供支持,提供統(tǒng)計(jì)詞頻、拼音、未登錄詞、量詞等功能。結(jié)合市面上各種各大分布式框架進(jìn)行Lucene、Solr、ElasticSearch、Luke集成實(shí)時(shí)處理。

        1 分詞算法

        分詞算法大體可以總結(jié)為四大類,分別是基于規(guī)則的分詞、基于統(tǒng)計(jì)的分詞、基于語義的分詞、基于理解的分詞。

        1.1 基于規(guī)則的分詞方法

        基于規(guī)則的分詞方法是一種機(jī)械分詞方法,需要依托于字典的詞庫模型分詞,按照定義的策略將要分解的字符串與詞庫模型進(jìn)行逐條匹配。找到則匹配成功。這種方式和數(shù)據(jù)庫的搜索類似,因此該方法受一定的環(huán)境限制,倘若詞庫過于龐大,在匹配時(shí)就會消耗大量的資源和時(shí)間。這種方法需要保證文本的掃描順序、詞典及匹配規(guī)則。文本的掃描索引類似鏈表查詢節(jié)點(diǎn),有正向、逆向、雙向3種選擇。原則上可以分為正向最大匹配法和逆向最大匹配法及雙向結(jié)合最佳匹配法。

        1.2 基于統(tǒng)計(jì)的分詞方法

        基于統(tǒng)計(jì)的分詞的主要思路:詞是能夠窮舉的穩(wěn)定組合,因此如果相鄰的字出現(xiàn)在同一場景下的次數(shù)過多就可能組成一個(gè)詞?;谶@樣的規(guī)則,我們通過字出現(xiàn)的概率和頻率統(tǒng)計(jì)詞的可信度。對文本中字之間出現(xiàn)位置頻度進(jìn)行統(tǒng)計(jì),得出它們之間的相作用信息。該信息體現(xiàn)了文字之間的緊密度。當(dāng)緊密度大于閾值時(shí),可以將這個(gè)字組合認(rèn)為是一個(gè)詞。該方法所應(yīng)用的主要的統(tǒng)計(jì)模型是N-gram模型,也就是本系統(tǒng)主要使用的模型。市面上還有其他成熟模型,例如條件隨機(jī)模型、最大熵模型、隱馬爾可夫模型等。

        1.3 基于理解的分詞方法

        利用計(jì)算機(jī)的運(yùn)算,按照策略模擬大腦運(yùn)算并分析句子的含義,從而達(dá)到識別效果。這是一種先進(jìn)的分詞方式,它結(jié)合了句法、語義、分詞等多種分詞方式進(jìn)行處理。主要包括分詞系統(tǒng)、歧義識別系統(tǒng)、總控系統(tǒng)。在總控系統(tǒng)的協(xié)調(diào)下,分詞系統(tǒng)可以對分詞的相關(guān)詞、句子等信息進(jìn)行判斷,模擬人對文本的理解過程,這種方法需要大量的語言知識庫。

        2 系統(tǒng)設(shè)計(jì)

        本系統(tǒng)從應(yīng)用上劃分為兩大塊;一是作為開放平臺供人們使用統(tǒng)計(jì),用于日常中文分析結(jié)合網(wǎng)絡(luò)環(huán)境動態(tài)識別語言多重含義,分解短語統(tǒng)計(jì)詞性;二是作為開發(fā)平臺銜接市面上各大信息分析框架如Lucence、Solr、ElasticSearch、Luke、Redis等各大分布式緩存框架,提供分詞處理驅(qū)動。

        2.1 分詞引擎

        分詞引擎,分詞實(shí)現(xiàn)支撐主要由分詞詞典和規(guī)則庫組成。利用責(zé)任鏈模式,流程如下:輸入待處理中文文本→基本分詞→歧義字段切分→命名實(shí)體的識別→未登陸詞的識別→分詞過濾→分詞結(jié)果。上述組成分詞引擎,作為開放平臺和開發(fā)平臺的功能支撐(如圖1所示)。

        2.2 平臺架構(gòu)

        開放平臺主要采用流行的Web應(yīng)用,通過前端應(yīng)用傳遞分詞結(jié)果,由后端進(jìn)行處理,調(diào)用分詞引擎將分詞信息返回給調(diào)用者,調(diào)用者通過分析框架和引擎進(jìn)行分詞統(tǒng)計(jì)分析。開發(fā)平臺采用依賴包和請求配置等進(jìn)行接入,不會破壞系統(tǒng)的原來架構(gòu)和代碼,作為一個(gè)插拔式的、拿來即用的應(yīng)用。

        2.3 開發(fā)語言

        開發(fā)語言選用面向?qū)ο蟮恼Z言JAVA作為基礎(chǔ)引擎的功能開發(fā)語言,現(xiàn)在市面上常用應(yīng)用分布在Web端和App端,而這兩端的后臺支撐80%左右都是JAVA語言,并且JAVA語言在數(shù)據(jù)分析存儲方面也有著巨大的優(yōu)勢,比如常搭配分布式使用的ES(ElasticSearch)、Hadoop、Spark等高性能框架。我們采用JAVA語言開發(fā)分詞引擎可以很好地接入這些框架。

        2.4 分詞組件

        Word分詞器自帶多種詞典分詞算法,文本相似算法覆蓋面廣泛,利用N-gram模型識別短語歧義,底層也是采用JAVA語言編寫,因此可以更加方便地接入各大平臺,并且為分詞引擎提供很好的環(huán)境支持。

        3 系統(tǒng)主要模塊設(shè)計(jì)與實(shí)現(xiàn)

        3.1 word分詞

        用戶通過Web表單提交待分詞的中文文本,前端通過Axios.create(config)方法創(chuàng)建Axios實(shí)體攔截用戶請求,調(diào)用axiosInstance.interceptor.response.use(config)方法轉(zhuǎn)發(fā)請求,系統(tǒng)后端在接到請求后初始化繼承自SpringSecurity的OncePerRequestFilter的filter對象,并調(diào)用其doFilterInternal()方法獲得用戶提交的數(shù)據(jù)與請求。獲取文本后,調(diào)用SplitFactory.getInstance(wordConfig.xml)讀取word分詞依賴,并生成analyzer實(shí)例,analyzer調(diào)用tokenStream(“text”,splitWordStr)得到分詞切片器對象tokenStream,然后對分詞切片器進(jìn)行停用詞、詞庫、自建字典、優(yōu)先級設(shè)置,設(shè)置完成后通過split獲得分詞結(jié)果,同時(shí)調(diào)用數(shù)據(jù)訪問類將結(jié)果存入數(shù)據(jù)庫中,供后期詞頻統(tǒng)計(jì)使用。

        3.2 詞頻字典

        數(shù)據(jù)字典是后端應(yīng)用開發(fā)漫長過程中總結(jié)出來的一套通用的程序設(shè)計(jì)方法,它的作用是存儲除了需求業(yè)務(wù)主體之外的屬性信息,從而統(tǒng)一維護(hù)管理。例如,用戶存在性別屬性,性別又有男、女的取值范圍,此時(shí)該屬性的取值范圍或者說取值枚舉就需要用統(tǒng)一數(shù)據(jù)集進(jìn)行維護(hù),這就是數(shù)據(jù)字典的作用。在詞頻分析系統(tǒng)中,為了更快速地對詞頻進(jìn)行分析,借用數(shù)據(jù)字典的思想,將所有字詞作為數(shù)據(jù)元,在數(shù)據(jù)庫中存儲字詞出現(xiàn)的次數(shù)及與其他詞語相關(guān)出現(xiàn)的次數(shù),將這些結(jié)果作為詞的屬性,使用枚舉類型統(tǒng)一管理配置。

        3.3 詞頻分析

        詞頻WordFrequency表示的是某一個(gè)詞語在文本中出現(xiàn)的頻率。假定在文本字符串集S{s1,s2,s3,…,sn}中包含n個(gè)字符串,包含特征詞的Wi的字符串?dāng)?shù)為m,m除以n的結(jié)果就是關(guān)鍵詞Wi的詞頻,即

        WFi值越大,表示詞語在文本中出現(xiàn)的概率高,則該詞語的參考價(jià)值高,反之則表示該詞語參考價(jià)值低。當(dāng)WFi極低時(shí),表明該詞對文本內(nèi)容沒有貢獻(xiàn),刪除該詞對分詞結(jié)果沒有影響,所以為了降低系統(tǒng)的復(fù)雜度,系統(tǒng)通過最小風(fēng)險(xiǎn)估計(jì)法,設(shè)置一個(gè)最低閾值,當(dāng)WFi低于該值時(shí),自動刪除該詞。

        詞頻分析的實(shí)現(xiàn)過程核心如下:

        調(diào)用new WordInfomation()方法初始化用于保存關(guān)鍵詞、出現(xiàn)次數(shù)、相關(guān)度的WordInformation對象,并將當(dāng)前關(guān)鍵詞通過setInfo(keyString.getString())注入wordInformation中,并通過while循環(huán)進(jìn)行遍歷查詢比較,統(tǒng)計(jì)該詞在字符串中出現(xiàn)的次數(shù)及與之相關(guān)的詞語。While(keyStringList.hasNext()){ if(keyString)在文本中出現(xiàn),那么調(diào)用setInfoNumberCount(wordInformation.getInfoNumber()+1);累加出現(xiàn)記錄次數(shù)。完成遍歷后,將出現(xiàn)次數(shù)除以字符串總數(shù),得出詞頻概率,并通wordDaoImplement對象的update(wordFreq)方法將其存入數(shù)據(jù)庫中。

        3.4 結(jié)果展示

        為了更直觀、高效地將分詞與詞頻結(jié)果展示給用戶,后臺完成分詞統(tǒng)計(jì)后,將結(jié)果封裝到j(luò)son對象中,并通過response對象將json轉(zhuǎn)發(fā)給前臺頁面,前臺頁面中使用Vue進(jìn)行數(shù)據(jù)解析,首先調(diào)用initRender()對頁面中需要使用的form、laydateInstance、formInstance等layUI組件進(jìn)行初始化,完成初始化后通過$.each(res.data,function(i,obj))方法完成數(shù)據(jù)的綁定,然后通過render方法將數(shù)據(jù)進(jìn)行渲染刷新,將結(jié)果展現(xiàn)給用戶(如圖2所示)。

        4 結(jié)語

        目前,分詞引擎主要利用自然語言中的技術(shù),尚不能完美地處理語法分析的問題。在語法詞義等方面的自動分析研究還需要進(jìn)一步挖掘。在自然語法挖掘方面,神經(jīng)網(wǎng)絡(luò)分詞具有顯著的優(yōu)勢。但是,目前人們的狀態(tài)轉(zhuǎn)義和規(guī)則推理尚不能完全表達(dá)出人類大腦思維的機(jī)制;對復(fù)雜、模糊的信息處理,仍然處于無能為力的地步;分詞庫的建設(shè)和詞典選擇還具備大量的人為因素。對此,本文提出了一種基于Word的中文詞頻分析系統(tǒng),采用Javaweb框架技術(shù),將傳統(tǒng)分詞進(jìn)行平臺化,為垃圾信息處理提供前置服務(wù)和參考。

        參 考 文 獻(xiàn)

        [1]丁潔,趙景惠.基于N-gram模型的中文分詞算法的研究[J].福建電腦,2017(5):110,116.

        [2]楊貴軍,徐雪,鳳麗洲,等.基于最大匹配算法的似然導(dǎo)向中文分詞方法[J].統(tǒng)計(jì)與信息論壇,2019,34(3):19-24.

        [3]于舒曼,馬秀峰.基于詞頻分析和共詞聚類的圖書館創(chuàng)客空間研究熱點(diǎn)分析[J].大學(xué)圖書情報(bào)學(xué)刊,2019,37(2):99-103.

        欧美日韩精品| 中文字幕一区二区av| 丰满少妇人妻无码| 亚洲av永久无码精品| 国产99re在线观看只有精品| 国产福利一区二区三区视频在线看| 日本视频在线观看一区二区| 18禁裸男晨勃露j毛网站| 日产精品久久久久久久蜜臀| 国产成人福利在线视频不卡 | 又黄又爽又无遮挡免费的网站| 18禁无遮挡羞羞污污污污网站 | 色婷婷久久99综合精品jk白丝 | 色爱无码A V 综合区| 国产精品自拍视频免费看| 欧洲美熟女乱av亚洲一区| 内射无码专区久久亚洲| 国产精品天天看大片特色视频| 中文字幕人妻激情在线视频| 人人妻人人澡人人爽人人精品av | 国产成人av一区二区三区在线| 中文字幕午夜AV福利片| 亚洲国产人成综合网站| 无码视频在线观看| 精品免费在线| 久久精品国产亚洲一级二级| 中文字幕在线乱码一区| 成人精品一区二区三区中文字幕 | 亚洲乱亚洲乱妇50p| 精品国产看高清国产毛片| 精品人妻久久av中文字幕| 蜜桃视频在线看一区二区三区 | 精品国产一区二区三区男人吃奶| 国产精品女同一区二区免费站| 色一情一乱一乱一区99av| 亚洲欧美日韩中文v在线| 亚洲天码一区二区三区| 国产精品天堂avav在线| 国产在视频线精品视频www666| 澳门精品一区二区三区| 中文字幕av伊人av无码av|