亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺談數(shù)據(jù)挖掘技術(shù)在科技搜索服務(wù)中的應(yīng)用*

        2021-06-28 11:07:34王彥婕
        山西電子技術(shù) 2021年3期
        關(guān)鍵詞:數(shù)據(jù)挖掘數(shù)據(jù)庫文本

        王彥婕

        (山西省信息產(chǎn)業(yè)技術(shù)研究院有限公司,山西 太原 030012)

        1 緒論

        隨著信息產(chǎn)業(yè)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)逐步成為大眾獲取與交流信息的最大平臺,我們通過在網(wǎng)頁中簡單地搜索相關(guān)詞語就可以得到我們想要的信息,在科技服務(wù)平臺網(wǎng)上搜索關(guān)鍵詞就能獲取科技相關(guān)方面的知識。在搜索引擎不斷更新交替的現(xiàn)狀下,最初的傳統(tǒng)搜索服務(wù)手段已經(jīng)被淘汰,現(xiàn)代社會越來越不滿足落后且單一的大眾化搜索服務(wù),信息發(fā)展急切需要全面精準(zhǔn)的專業(yè)化信息檢索服務(wù)。本文基于數(shù)據(jù)挖掘技術(shù),獲取了大量科技類文本數(shù)據(jù),并結(jié)合項(xiàng)目已有的大量科技平臺數(shù)據(jù),建立一個數(shù)據(jù)量大且有效性高的數(shù)據(jù)庫,并對數(shù)據(jù)進(jìn)行清洗、處理、量化、建模等步驟,以便于進(jìn)一步服務(wù)于科技搜索引擎。

        2 數(shù)據(jù)采集

        數(shù)據(jù)采集是所有數(shù)據(jù)挖掘研究的基礎(chǔ),構(gòu)建一個數(shù)據(jù)量大,數(shù)據(jù)有效性高的數(shù)據(jù)資源庫是一切數(shù)據(jù)挖掘研究的基礎(chǔ)。我們可以利用網(wǎng)絡(luò)爬蟲技術(shù)來定向獲取或非定向獲取數(shù)據(jù),根據(jù)網(wǎng)絡(luò)爬蟲相關(guān)規(guī)則:以某個選定科技服務(wù)網(wǎng)站作為起始網(wǎng)站,通過各個網(wǎng)站頁面的超鏈接遍歷整個網(wǎng)絡(luò),利用URL根據(jù)廣度優(yōu)先算法從一個網(wǎng)頁文檔爬取到另外一個網(wǎng)頁文檔來獲取所有數(shù)據(jù)信息。

        數(shù)據(jù)采集后將所有數(shù)據(jù)匯集形成自有科技數(shù)據(jù)庫。整合現(xiàn)有數(shù)據(jù),包含各類科技數(shù)據(jù);科技項(xiàng)目中整個項(xiàng)目生命周期中的數(shù)據(jù)包括管理數(shù)據(jù)、申報數(shù)據(jù)、申報信息、結(jié)題驗(yàn)收信息及產(chǎn)生的成果數(shù)據(jù);科技論文內(nèi)容、負(fù)責(zé)人及參與人信息;還包括科研設(shè)施與儀器、生物(物種)資源與實(shí)驗(yàn)材料、科技文獻(xiàn)、科學(xué)數(shù)據(jù)、重點(diǎn)科技創(chuàng)新平臺、重點(diǎn)實(shí)驗(yàn)室、工程技術(shù)研究中心、科技創(chuàng)新團(tuán)隊(duì)、科技基礎(chǔ)條件平臺、創(chuàng)新券服務(wù)等數(shù)據(jù)。只有數(shù)據(jù)庫足夠完全,基于數(shù)據(jù)挖掘形成的科技引擎才足夠可靠。

        3 數(shù)據(jù)清洗

        分析整理平臺現(xiàn)有數(shù)據(jù),進(jìn)行數(shù)據(jù)預(yù)處理,對數(shù)據(jù)進(jìn)行篩查和清洗,最后融合形成自有科技數(shù)據(jù)庫。我們爬取到的數(shù)據(jù)多為文本數(shù)據(jù),文本有其自身特征,比如有很多對我們搜索不太相關(guān)的符號、語氣詞、連詞、亂碼等以及“得”、“啊”、“呀”、“和”、“這”等詞,這些詞基本會出現(xiàn)在所有爬取到或項(xiàng)目已有的文本數(shù)據(jù)中,但這些詞對搜索服務(wù)沒有任何幫助,數(shù)據(jù)建模也毫無意義,因此文本數(shù)據(jù)預(yù)處理就是要將無用詞都刪除掉。我們可以參考停用詞表,停用詞表就是研究人員通過多次數(shù)據(jù)分析及采集總結(jié)出的對數(shù)據(jù)挖掘用處不大的詞語,因此我們選用一個停用詞表對我們的數(shù)據(jù)進(jìn)行清洗。

        4 數(shù)據(jù)處理-分詞技術(shù)

        分詞技術(shù)是數(shù)據(jù)挖掘的基礎(chǔ)。分詞技術(shù)根據(jù)分詞的原理和詞性特征可分為2種:第一種是基于詞典分詞的算法,也可以理解為字符串匹配分詞算法。這種算法是按照特定的規(guī)則將我們構(gòu)建的數(shù)據(jù)庫中的數(shù)據(jù)與一個已經(jīng)建立成功的可靠詞典進(jìn)行比對匹配,若在詞典中找到該詞則比對匹配成功,識別了這個詞匯,反之拋棄。常見的基于詞典的分詞算法有單向最大匹配算法和雙向匹配法。基于詞典的分詞算法是目前應(yīng)用最廣泛和頻繁的,分詞效率快,分詞方法簡單,因此之前很長時間研究者們都致力于提升這種分詞算法的有效性,進(jìn)行優(yōu)化,比如設(shè)定數(shù)據(jù)字符長度,數(shù)據(jù)結(jié)構(gòu)等。第二種分詞方式是基于統(tǒng)計學(xué)的機(jī)器學(xué)習(xí)分詞方法,這類機(jī)器學(xué)習(xí)算法目前常見的有HMM、CRF、SVM、深度學(xué)習(xí)等算法,機(jī)器學(xué)習(xí)算法的基本思路是將數(shù)據(jù)進(jìn)行訓(xùn)練,考慮到了詞出現(xiàn)的頻率,且結(jié)合上下文,因此具備更高的挖掘基礎(chǔ),對數(shù)據(jù)有更佳的識別效果。

        本文通過分詞算法可以將科技數(shù)據(jù)進(jìn)行分詞處理,綜合考慮以上介紹的兩種數(shù)據(jù)挖掘中的分詞技術(shù),本研究采用哈爾濱理工大學(xué)LTP對科技數(shù)據(jù)的語料進(jìn)行分詞處理,處理過后的科技本文數(shù)據(jù)實(shí)例結(jié)果如表1所示。

        表1 分詞處理結(jié)果

        5 數(shù)據(jù)挖掘及建模

        在利用網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行了科技類數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)清洗、數(shù)據(jù)分詞處理等處理后,再進(jìn)行進(jìn)一步的數(shù)據(jù)挖掘。大數(shù)據(jù)處理技術(shù)是通過運(yùn)用大數(shù)據(jù)處理計算框架,對數(shù)據(jù)進(jìn)行分布式計算。在計算之前要將詞語數(shù)值化。

        數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中采用自動或半自動的建模算法,構(gòu)建數(shù)據(jù)之間的關(guān)系網(wǎng),尋找隱藏在數(shù)據(jù)中的信息,是從數(shù)據(jù)庫中挖掘有效信息的過程。數(shù)據(jù)挖掘一般和計算機(jī)科學(xué)相關(guān),并通過機(jī)器學(xué)習(xí)、模式識別、統(tǒng)計學(xué)等方法來實(shí)現(xiàn)知識挖掘。在搜索引擎中主要是進(jìn)行文本挖掘,搜索文本信息需要理解人類的自然語言,文本挖掘指從大量文本數(shù)據(jù)中抽取隱含的、未知的、可能有用的信息。所涉及相關(guān)算法包括:TSP、Best-first Search、Word2vec、TF-IDF、WordNet等算法。

        5.1 Word2vec將詞語數(shù)值化

        采用Word2vec訓(xùn)練構(gòu)建并分詞后的科技類數(shù)據(jù)庫,將所有詞語向量化,變成可用于計算和建模的數(shù)值。簡單來講,Word2vec是一款能高效地將詞轉(zhuǎn)變?yōu)槎嗑S向量的計算工具,其計算思想是:先構(gòu)造一個目標(biāo)函數(shù),詞向量是構(gòu)造目標(biāo)函數(shù)的輔助參數(shù)。通過對目標(biāo)函數(shù)進(jìn)行優(yōu)化,可以獲得各個參數(shù),包括所需要的詞向量。主要通過神經(jīng)網(wǎng)絡(luò)將詞映射到一個N維空間,N維空間表示了詞的特征。在當(dāng)前研究中人們經(jīng)常使用的方法有CBOW模型與Skip-gram模型,圖1和圖2分別給出了兩種模型的示意圖。

        圖1 CBOW說明圖

        圖2 SG說明圖

        其中,Skip-gram模型的方式是使用選取的目標(biāo)詞預(yù)測文本中其他詞語的向量表示,而CBOW則相反,它是根據(jù)詞語所在文本的上下文環(huán)境推測目標(biāo)中心詞,輸出中心詞的向量表示。相比較而言,Skip-pram模型用于將科技文本數(shù)據(jù)向量化的效果更好。

        5.2 TF-IDF數(shù)據(jù)挖掘算法

        將科技文本數(shù)據(jù)向量化后,我們可以運(yùn)用TF-IDF算法對數(shù)據(jù)進(jìn)行加權(quán)處理。TF-IDF是統(tǒng)計學(xué)的一個公式,運(yùn)用于評估一個詞語對于整個文本或者整個數(shù)據(jù)庫的重要程度,我們主觀地認(rèn)為一個詞語的重要性取決于這個詞在數(shù)據(jù)庫中出現(xiàn)的頻度,出現(xiàn)次數(shù)越多,越重要。比如在一篇科技類論文中,“爬蟲技術(shù)”一次頻繁出現(xiàn),那我們認(rèn)為該論文主要研究爬蟲技術(shù)。因此某詞語在一篇科技類文檔中出現(xiàn)次數(shù)越多, 同時在我們構(gòu)建的數(shù)據(jù)庫中出現(xiàn)次數(shù)越少, 越能夠凸顯本文檔,這就是TF-IDF數(shù)據(jù)挖掘算法的意義。

        6 結(jié)束語

        通過數(shù)據(jù)挖掘后的數(shù)據(jù)是數(shù)值化的、有效性高的、利于進(jìn)一步建模利用與搜索服務(wù)的數(shù)據(jù)。通過本文的研究成果,節(jié)約了大量數(shù)據(jù)分析的時間,有很強(qiáng)的可行性,對實(shí)現(xiàn)智能化科技信息服務(wù),形成“互聯(lián)網(wǎng)+專業(yè)化科技服務(wù)”的新型科技服務(wù)體系模型,打造科技服務(wù)生態(tài)圈,拓展科技服務(wù)業(yè)有很高的利用價值。

        猜你喜歡
        數(shù)據(jù)挖掘數(shù)據(jù)庫文本
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        數(shù)據(jù)庫
        財經(jīng)(2016年6期)2016-02-24 07:41:51
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        99久久精品费精品国产一区二| 亚洲综合久久1区2区3区| 亚洲一区二区女优视频| 国产变态av一区二区三区调教| 国产综合无码一区二区辣椒| 日本高清一区二区三区水蜜桃| 久久无码中文字幕东京热| 日韩精品久久午夜夜伦鲁鲁| 亚洲av乱码一区二区三区按摩 | 午夜福利视频合集1000| 亚洲国产综合专区在线电影| 麻豆视频av在线观看| 日本一道综合久久aⅴ免费| 五十路熟妇高熟无码视频| 久久亚洲国产成人精品v| 深夜日韩在线观看视频| 人妻在卧室被老板疯狂进入| 无码人妻精品一区二区三18禁| 美女裸体无遮挡黄污网站| 国产高清一区二区三区三州| 人妻少妇精品视频三区二区一区| 国产av无码专区亚洲av手机麻豆| 强d漂亮少妇高潮在线观看| 性色av色香蕉一区二区蜜桃| 久久久久亚洲av成人网人人网站| 欧美国产小视频| 毛片色片av色在线观看| 在线人成视频播放午夜| 野花社区视频www官网| 亚洲乱码少妇中文字幕| 午夜免费观看一区二区三区| 久久国产免费观看精品3| 亚洲熟妇少妇任你躁在线观看| 在线免费观看视频播放| 精品国产一区二区三区三级| 一二三四在线观看免费视频| 永久免费看免费无码视频| 久久久亚洲av午夜精品| 人妻少妇精品视频专区| 日韩中文无线码在线视频观看| 97超碰中文字幕久久|