亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本挖掘的學(xué)科領(lǐng)域相關(guān)問題研究

        2018-01-01 00:00:00馬敏中
        大科技·D版 2018年4期

        摘 要:在科學(xué)技術(shù)快速發(fā)展的過程中,傳統(tǒng)的科學(xué)需要不斷發(fā)展和分化,新的科學(xué)也隨之產(chǎn)生,各個學(xué)科之間的聯(lián)系也逐漸緊密,逐漸向著整體化、綜合化的方向發(fā)展。本文主要研究了學(xué)科整體的組成,探究了各個學(xué)科的特點,研究了學(xué)科之間的較差部分以及整個學(xué)科的演化趨勢,對科技工作者研究學(xué)科的發(fā)展歷程以及各個學(xué)科之間的協(xié)調(diào)發(fā)展有著十分重要的作用。

        關(guān)鍵詞:演化趨勢;文本挖掘;學(xué)科代碼

        中圖分類號:G252 文獻(xiàn)標(biāo)識碼:A 文章編號:1004-7344(2018)12-0022-02

        從20世紀(jì)開始,科學(xué)技術(shù)得到了較為快速的發(fā)展,科學(xué)研究的范圍逐漸寬廣,科學(xué)研究的學(xué)科交叉融合、綜合性和等現(xiàn)象變得日益明顯,學(xué)科的發(fā)展情況有了很大變化。在科學(xué)技術(shù)得到快速發(fā)展時,傳統(tǒng)的自然科學(xué)就會出現(xiàn)相應(yīng)的發(fā)展和細(xì)分,各個學(xué)科之間的滲透情況變得日益明顯,交叉學(xué)科、邊緣學(xué)科開始大量出現(xiàn),新的學(xué)科不斷產(chǎn)生,科學(xué)技術(shù)也逐漸向整體化、綜合化發(fā)展。

        1 對學(xué)科領(lǐng)域進(jìn)行劃分的兩種主要方式

        從相關(guān)資料中發(fā)掘?qū)W科領(lǐng)域的組成結(jié)構(gòu)、研究其發(fā)展前景,就需要了解這門學(xué)科的外延范圍。外延范圍一般就是指這門學(xué)科的范圍所包含的建議書集合。因為單個建議書只從屬于一定的學(xué)科領(lǐng)域外延,因此就需要對建議書語料進(jìn)行相應(yīng)的劃分,進(jìn)而就能得到學(xué)科的領(lǐng)域范圍。

        對學(xué)科領(lǐng)域進(jìn)行劃分時通常采用兩種方式。①通過學(xué)科代碼進(jìn)行相應(yīng)的劃分。因為建議書是某個具體學(xué)科的代碼,換句話說這個項目建議書是具體學(xué)科的學(xué)科代碼,因此對應(yīng)學(xué)科的科學(xué)代碼則表示了這個學(xué)科的代碼以及相應(yīng)的外延范圍。②對學(xué)科的建議書語料直接進(jìn)行相應(yīng)的劃分。在劃分的過程中直接忽略了該學(xué)科的學(xué)科代碼,項目建議書本身表示了該學(xué)科所有的外延知識,也就是特定學(xué)科的項目建議書可直接反映該學(xué)科所有的外延范圍[1]。

        所以在對學(xué)科代碼進(jìn)行確定的過程中可直接從學(xué)科代碼來對相關(guān)語料進(jìn)行劃分,并且還能直接忽略該學(xué)科的學(xué)科代碼,從而對學(xué)科語料進(jìn)行直接劃分。為了進(jìn)行明確的區(qū)別,本次研究將這兩種劃分方式所得到的學(xué)科領(lǐng)域命名為學(xué)科簇類以及學(xué)科代碼。學(xué)科簇類和學(xué)科代碼分別表示了該學(xué)科的領(lǐng)域,只是在劃分的方式存在著明顯差異。

        2 對學(xué)科的文本進(jìn)行挖掘

        挖掘的內(nèi)容主要是指抽取有用、新穎、散布在文本里面的只是,還要利用這些知識充分利用組織信息。1998年底,在國家研究項目中明確提出,文本挖掘的主要內(nèi)容是對“自然語言理解、語言、圖像與知識”中的內(nèi)容進(jìn)行挖掘。并且這種挖掘是對信息挖掘的主要過程,能將文本信息進(jìn)行充分利用。文本挖掘的只要方式是對智能算法充分利用,就像對可能性推理、基于案例的推理、神經(jīng)網(wǎng)絡(luò)等,并根據(jù)相應(yīng)的處理技術(shù),對文本源(如網(wǎng)頁、問題查詢、客戶電子郵件、電子表格、文檔等)進(jìn)行大量分析,標(biāo)記文本中的文字信息,然后根據(jù)內(nèi)容進(jìn)行分類,從而得到有用的文本信息[2]。文本挖掘是一個較為復(fù)雜的過程,并且其中應(yīng)用了多種技術(shù),主要有概率理論、線性幾何、統(tǒng)計數(shù)據(jù)分析,計算語言學(xué)、自然語言處理、機(jī)器學(xué)習(xí)、信息檢索、信息抽取、數(shù)據(jù)挖掘技術(shù)甚至還有圖論。

        3 對文本分類的內(nèi)容進(jìn)行分析和處理

        從上面得出的結(jié)論可發(fā)現(xiàn),文本語料是在學(xué)科代碼的基礎(chǔ)上分類而來的,并且屬于同一類型。但這種方式主要通過人工進(jìn)行劃分,經(jīng)常會出現(xiàn)偏差,有些建議書或許會被分在沒有相關(guān)性的學(xué)科代碼中,文章列出了集中主要原因。

        (1)學(xué)科代碼列出的只是和代碼有關(guān)系的領(lǐng)域,并沒有明確這個領(lǐng)域研究的主要內(nèi)容,研究人員只是按照代碼所對應(yīng)的領(lǐng)域進(jìn)行申報。由于每個人的理解水平存在差異,這就會造成申請項目和學(xué)科代碼出現(xiàn)差異的現(xiàn)象。

        (2)隨著科學(xué)技術(shù)的不斷發(fā)展,學(xué)科領(lǐng)域中也出現(xiàn)了交叉融合的現(xiàn)象,而且有的研究范圍也出現(xiàn)了模糊的現(xiàn)象;研究的內(nèi)涵也發(fā)生了巨大變化,新的研究對象也在不斷出現(xiàn),有很多舊的研究方式不斷被淘汰。面對這種狀況,要是申請的項目涉及的領(lǐng)域較多時,科研工作者在申報項目的過程中就會出現(xiàn)迷惑,無法將申報的項目和科學(xué)代碼進(jìn)行對應(yīng),經(jīng)常會出現(xiàn)是申報項目和代碼不符的狀況。

        (3)在研究的過程中還會受到科研人員的主觀因素影響,為了最大程度的提升申報成功率,故意把項目申報在關(guān)系不密切的學(xué)科代碼下。

        受到上面因素的影響,建議書語料里面或許存在著和項目代碼不符的狀況,在一般情況下,80%的建議書能申報到相符的科學(xué)代碼之下,但仍然有20%的建議書或許存在著偏差。要是沒有注意到這種偏差,直接通過代碼對語料進(jìn)行挖掘,進(jìn)行相應(yīng)的分析,那么得到的結(jié)果就會出現(xiàn)偏差。

        為了防止偏差的出現(xiàn),本次研究通過文本分類的方式建議書文本集合進(jìn)行相應(yīng)的處理。通過文本分類的方式,能按照文本內(nèi)容來對文本類別進(jìn)行自動確定。同時還能進(jìn)行相應(yīng)的分類,按照反復(fù)分類的方式將存在偏差的建議書分類到正確的代碼之下。在此基礎(chǔ)上,對相關(guān)領(lǐng)域進(jìn)行分析。

        4 對文本聚類進(jìn)行相應(yīng)的處理和評價

        把學(xué)科代碼當(dāng)作學(xué)科領(lǐng)域中的內(nèi)容,然后再進(jìn)行相應(yīng)的學(xué)科領(lǐng)域分析,這種方式較為科學(xué)和準(zhǔn)確,但這種方式還有著一些問題:①建立相應(yīng)的學(xué)科代碼是為了充分利用而設(shè)立的,因此學(xué)科代碼在分類的過程中不是完全根據(jù)學(xué)科分類而進(jìn)行劃分的。學(xué)科代碼只能對學(xué)科領(lǐng)域的情況進(jìn)行部分反映,并不能全部包括無法對所有領(lǐng)域的學(xué)科情況進(jìn)行反應(yīng),而且在對有些學(xué)科進(jìn)行劃分的過程中可能過于細(xì)致,但在學(xué)科領(lǐng)域劃分時過于細(xì)致或許是不必要的。②學(xué)科代碼體系會在較短的時間之內(nèi)保持不變,但科學(xué)技術(shù)在發(fā)展的過程中是不斷變化的,研究的領(lǐng)域和內(nèi)容不斷出現(xiàn),學(xué)科領(lǐng)域也會出現(xiàn)相應(yīng)的變化,因此學(xué)科代碼不能對科學(xué)研究的情況進(jìn)行完全反映,而且也不能對學(xué)科領(lǐng)域隨著時間的變化情況進(jìn)行完全反映。從建議書語料里面對學(xué)科領(lǐng)域進(jìn)行相應(yīng)的劃分,也是很好的研究方式。所以本次研究主要通過文本聚類的方式對建議書語料進(jìn)行相應(yīng)的劃分,然后把聚類所獲得的結(jié)論叫做學(xué)科簇類,從而對學(xué)科領(lǐng)域的情況進(jìn)行反映。

        5 文本挖掘的前景

        數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)技術(shù)發(fā)展過程中的一個全新領(lǐng)域,文本挖掘的時間相對較短。傳統(tǒng)的信息檢索技術(shù)對信息量較大的數(shù)據(jù)處理效果不是很好,因此文本挖掘就顯得更為重要了,由此可發(fā)現(xiàn)文本挖掘技術(shù)主要是從信息挖掘領(lǐng)域而逐漸發(fā)展起來的。

        隨著網(wǎng)計算機(jī)技術(shù)的不斷發(fā)展,用戶能獲得娛樂資訊、商業(yè)信息到新聞報道、技術(shù)資料等多方面的信息和文檔,從而形成了一個十分廣闊的有著異構(gòu)性、開放性特征的數(shù)據(jù)資料庫,在這個數(shù)據(jù)庫中有著很多的非文本數(shù)據(jù)。然后再和人工智能中的計算機(jī)語言學(xué)以及自然語言理解進(jìn)行結(jié)合,在數(shù)據(jù)挖掘的過程中產(chǎn)生了兩種新興的領(lǐng)域:文本挖掘以及網(wǎng)絡(luò)挖掘。

        網(wǎng)絡(luò)挖掘的過程中主要是分析和挖掘網(wǎng)絡(luò)中的有關(guān)數(shù)據(jù),主要有鏈接結(jié)構(gòu)(運行過程中所產(chǎn)生的網(wǎng)絡(luò)導(dǎo)航)、文本。一個網(wǎng)頁中有著各個方面的數(shù)據(jù)類型,所以網(wǎng)絡(luò)挖掘的內(nèi)容就包括了圖像挖掘、數(shù)據(jù)挖掘、文本挖掘等。文本挖掘是一種較為新穎的數(shù)據(jù)挖掘方式,主要的目的就是把文本信息轉(zhuǎn)變?yōu)槿祟惸軕?yīng)用的知識。

        6 結(jié)束語

        綜上所述,當(dāng)前有越來越多的研究人員把學(xué)科的特征、整體性質(zhì)當(dāng)作學(xué)科研究的重點,再次認(rèn)識學(xué)科的特點,從而不斷發(fā)掘?qū)W科的發(fā)展規(guī)律、特征、性質(zhì)和整體結(jié)構(gòu)的重要性,探究各個學(xué)科的特點,研究學(xué)科之間的較差部分以及整個學(xué)科的演化趨勢,這對開展學(xué)科研究、各個學(xué)科之間協(xié)調(diào)發(fā)展有著十分重要的作用。

        參考文獻(xiàn)

        [1]任 剛.面向?qū)W科相關(guān)性分析的文本關(guān)聯(lián)規(guī)則挖掘技術(shù)研究[D].長沙:中南大學(xué),2011.

        [2]陳 黎.基于文本挖掘的學(xué)科領(lǐng)域相關(guān)問題研究[D].大連:大連理工大學(xué),2008.

        收稿日期:2018-3-26

        作者簡介:馬敏中(1992-),男,廣東廣州人,本科,從事教育工作。

        日韩av一区二区网址| 久久99精品这里精品动漫6| 丰满少妇一区二区三区专区| 99久久婷婷国产一区| 69精品人人人人| 国产午夜影视大全免费观看| 高潮喷水无遮挡毛片视频| 日本高清一区二区不卡| 国产成人av一区二区三区在线观看| 欧美大黑帍在线播放| 国产熟女精品一区二区三区| 亚洲一区二区三区免费av| 国产精品亚洲精品日韩已方| 国产精品久久久久久影视 | 无码一区二区三区人| 中文字幕亚洲五月综合婷久狠狠| 亚洲日韩精品无码专区网址| 亚洲人成网7777777国产| 亚洲成AV人久久| 沐浴偷拍一区二区视频| 巨大巨粗巨长 黑人长吊| 无限看片在线版免费视频大全 | 亚洲情久久久精品黄色| 性高朝久久久久久久3小时| 真实单亲乱l仑对白视频| 国产午夜亚洲精品一级在线| 高清中文字幕一区二区三区| 中文字幕色av一区二区三区| 又爽又黄无遮挡高潮视频网站 | 日本在线免费不卡一区二区三区| 国色天香中文字幕在线视频| 色一情一区二| 日韩不卡无码三区| 日本a级一级淫片免费观看| 曰本大码熟中文字幕| 国产无套视频在线观看香蕉| 午夜视频在线观看国产| 亚洲av无码码潮喷在线观看| 八区精品色欲人妻综合网 | 99精品人妻少妇一区二区三区| 亚洲第一最快av网站|