亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文本和數(shù)據(jù)挖掘技術(shù)(TDM)與著作權(quán)保護(hù)

        2018-05-30 08:33:37楊博宇
        職工法律天地·上半月 2018年8期
        關(guān)鍵詞:數(shù)據(jù)挖掘文本過程

        楊博宇 余 萍

        (611130 西南財(cái)經(jīng)大學(xué) 四川 成都)

        一、TDM的定義

        TDM,Text and Data Ming,也被稱做Content Mining,是一種基于計(jì)算機(jī)數(shù)據(jù)處理技術(shù)對數(shù)字化的數(shù)據(jù)進(jìn)行處理并提取隱含信息的過程。學(xué)界中對于其定義有諸多討論。

        1.我國學(xué)者定義

        郝文江(2007)認(rèn)為,文本和數(shù)據(jù)挖掘(TDM),是指通過運(yùn)用自動(dòng)分析技術(shù)對現(xiàn)有的文本和數(shù)據(jù)進(jìn)行考察分析,以便從中發(fā)現(xiàn)某種模型、趨勢或其他有用信息?;亓郑?008)認(rèn)為,數(shù)據(jù)挖掘是指從大量的、不完全的、模糊的、隨機(jī)的應(yīng)用數(shù)據(jù)中,提取隱含在其中的但又是潛在有用的信息和知識(shí)的過程。宋海艷、邵承瑾等(2014)認(rèn)為數(shù)據(jù)挖掘只是知識(shí)發(fā)現(xiàn)階段即從數(shù)據(jù)集中提取信息階段的一個(gè)關(guān)鍵環(huán)節(jié),整個(gè)知識(shí)發(fā)現(xiàn)階段應(yīng)當(dāng)包括數(shù)據(jù)準(zhǔn)備階段、數(shù)據(jù)挖掘階段以及結(jié)果解釋與評(píng)價(jià)階段。

        2.國際上典型的定義

        更為明確的定義可以在英國知識(shí)產(chǎn)權(quán)辦公室(UK IPO)2012年針對TDM做的一項(xiàng)影響分析中找到,“文本和數(shù)據(jù)以及數(shù)據(jù)分析方法是從現(xiàn)有的電子信息中提取數(shù)據(jù),建立新的事實(shí)和關(guān)系,以從先前的研究中建立新的科學(xué)發(fā)現(xiàn)。這種方式包括復(fù)制已完成的工作成果,作為提取數(shù)據(jù)過程的一部分。”國際科學(xué)、技術(shù)和醫(yī)學(xué)出版商協(xié)會(huì)(STM)認(rèn)為,“文本和數(shù)據(jù)挖掘意味著對發(fā)布者的內(nèi)容進(jìn)行廣泛的自動(dòng)化的搜索,其包括對語言結(jié)構(gòu)的排序、分析、增補(bǔ)或刪除以及選擇和包含,常在行業(yè)索引或者數(shù)據(jù)庫中用于分類或識(shí)別關(guān)系。”

        Jean-Paul Triaille et al (2014)的報(bào)告中將TDM稱做數(shù)據(jù)分析(Data Analysis,DA),認(rèn)為這是一種對于數(shù)字材料的自動(dòng)化處理,包括文本、數(shù)據(jù)、聲音、圖像或其他元素,或這些元素的組合,以便發(fā)現(xiàn)新的知識(shí)或見解。這個(gè)過程有四個(gè)特點(diǎn):①具有自動(dòng)性:是電腦對于選擇的電子數(shù)據(jù)進(jìn)行自動(dòng)獲取的過程(他們認(rèn)為正是這種區(qū)別于人為選擇的技術(shù)性特征使得TDM功能強(qiáng)大且引發(fā)了新的版權(quán)問題);②數(shù)據(jù)經(jīng)過處理:包括提取、復(fù)制、比較、分類以及其他數(shù)據(jù)分析過程;③對象是數(shù)字化材料,包括文本、數(shù)據(jù)、圖片及其他元素;④是為了發(fā)現(xiàn)新知識(shí)或啟示。

        由上可知,生活中我們所進(jìn)行的數(shù)據(jù)檢索工作、數(shù)據(jù)庫使用過程,數(shù)字圖書館館藏圖書閱讀等操作,都是在TDM或DA的基礎(chǔ)上,對我們所選擇的數(shù)據(jù)進(jìn)行處理后所呈現(xiàn)的成果。

        二、TDM的應(yīng)用和價(jià)值

        當(dāng)前,TDM技術(shù)在多個(gè)領(lǐng)域都展現(xiàn)出極強(qiáng)的實(shí)用價(jià)值。出版研究聯(lián)盟針對期刊文本挖掘技術(shù)適用的一項(xiàng)調(diào)查(2016)表明,文本和數(shù)據(jù)挖掘技術(shù)正在被人們所認(rèn)知和接受,人們普遍認(rèn)為該技術(shù)能夠?qū)γ恳粋€(gè)領(lǐng)域的研究人員產(chǎn)生積極的作用。李鋼(2016)提出,在商業(yè)領(lǐng)域,商家解決信息不對稱問題的傳統(tǒng)方式是依賴統(tǒng)計(jì)數(shù)據(jù)推測消費(fèi)者偏好,而文本挖掘通過自然語言分析使商家能夠直接了解消費(fèi)者對產(chǎn)品的喜好,并對其市場策略做出相應(yīng)的調(diào)整。孟慶良、展俊平(2014)在一項(xiàng)醫(yī)學(xué)研究中運(yùn)用TDM技術(shù),得出結(jié)論,認(rèn)為TDM技術(shù)能夠?yàn)橹形麽t(yī)結(jié)合研究提供更直觀的展示,為中醫(yī)臨床研究提供有益參考,更好地指導(dǎo)服務(wù)于臨床。郭金龍、許鑫(2012)從TDM在數(shù)字人文研究中的典型應(yīng)用出發(fā),指出TDM技術(shù)的發(fā)展將對創(chuàng)新人文科學(xué)的研究方法和研究范式產(chǎn)生深遠(yuǎn)的影響。

        綜上而言,TDM技術(shù)可以被視為廣義上的一種利用“大數(shù)據(jù)”的網(wǎng)絡(luò)背景,對現(xiàn)有的電子化文本和數(shù)據(jù)進(jìn)行挖掘,處理并提煉出有用信息的過程,其具有知識(shí)發(fā)現(xiàn)、運(yùn)用廣泛、商業(yè)潛力巨大的特點(diǎn)。

        三、TDM與著作權(quán)保護(hù)的沖突

        全球研究界每年將產(chǎn)生150多萬篇新的學(xué)術(shù)文章,這些文章以及其他類似文學(xué)、技術(shù)、科學(xué)作品經(jīng)過發(fā)表和數(shù)據(jù)化處理之后,就形成了一個(gè)極為龐大的全球性的文獻(xiàn)數(shù)據(jù)庫。由于訪問限制等原因,文章的數(shù)據(jù)會(huì)被分類儲(chǔ)存到不同的載體或者電子館藏圖書館中。但是TDM技術(shù)在一定程度上可以突破訪問壁壘,在將所能提取到的數(shù)據(jù)整合后,呈獻(xiàn)給訪問者一種可視化的數(shù)據(jù)分析后的成果。其結(jié)果可能是根據(jù)關(guān)鍵詞導(dǎo)出的段落化的文獻(xiàn),根據(jù)信息搜索出的碎片化的數(shù)據(jù)信息,或者根據(jù)圖片分類檢索功能產(chǎn)生的圖片映像等形式。

        大致來說,TDM的應(yīng)用過程可以分為大致幾個(gè)階段:

        (1)數(shù)據(jù)源的獲?。簩⑺枰膬?nèi)容從外部來源或內(nèi)部自有數(shù)據(jù)中提取出來,該內(nèi)容可能是受到版權(quán)保護(hù)或者是數(shù)據(jù)庫通過一定的技術(shù)手段進(jìn)行防護(hù)的;

        (2)轉(zhuǎn)化內(nèi)容:必要時(shí),將提取出的內(nèi)容轉(zhuǎn)化為所需要的形式;

        (3)加載內(nèi)容:將需要的內(nèi)容加載到數(shù)據(jù)集、存儲(chǔ)庫或者內(nèi)容集合中;

        (4)數(shù)據(jù)分析:對內(nèi)容數(shù)據(jù)進(jìn)行挖掘并分析;

        (5)成果展現(xiàn):通過分析產(chǎn)生挖掘后的結(jié)果。

        在這五個(gè)階段之中,無論是對于數(shù)據(jù)的獲取或者轉(zhuǎn)化、復(fù)制、重新加載以及分析,都會(huì)在一定程度上觸碰到法律的邊界。

        I.Hargreaves (2011)在其研究中肯定了TDM的價(jià)值,認(rèn)為對學(xué)術(shù)文獻(xiàn)和其他數(shù)字化的文本進(jìn)行挖掘和分析為新知識(shí)的發(fā)展和創(chuàng)新提供了一個(gè)真正的機(jī)會(huì)。但Dr. Diane McDonald & Ursula Kelly(2012)指出,為了“被挖掘”,上述數(shù)據(jù)必須被訪問、復(fù)制、分析、注釋并與現(xiàn)存的信息和理解所關(guān)聯(lián),這在一定程度上,侵犯了出版商的利益。

        對于這樣一種使用價(jià)值巨大、前景良好的技術(shù)來說,其還需要克服一些法律法規(guī)上的壁壘,尤其是在數(shù)據(jù)處理過程中所發(fā)生的,對數(shù)據(jù)進(jìn)行復(fù)制、分析、破解時(shí)的自主技術(shù)性操作和著作權(quán)法中為了保護(hù)版權(quán)所賦予權(quán)利人的權(quán)利價(jià)值之間,所產(chǎn)生的實(shí)踐價(jià)值和法律價(jià)值的沖突選擇。

        四、數(shù)據(jù)的定義和分級(jí)

        首先,我國著作權(quán)法應(yīng)當(dāng)在法律層面,對“數(shù)據(jù)”下一個(gè)符合使用目的的定義?,F(xiàn)行《著作權(quán)法》第五條規(guī)定了我國的版權(quán)客體排除規(guī)則,參照美國通過版權(quán)客體排除規(guī)則解決大數(shù)據(jù)產(chǎn)業(yè)排除困境的現(xiàn)行做法,我國或許可以將“數(shù)據(jù)”納入公有領(lǐng)域范疇,成為版權(quán)保護(hù)的例外性規(guī)定。

        其次,既然TDM是針對電子化的文本和數(shù)據(jù)進(jìn)行挖掘的技術(shù),則法律應(yīng)當(dāng)從技術(shù)的本源出發(fā),對其所挖掘的客觀對象——數(shù)據(jù),進(jìn)行分級(jí)。

        例如,有學(xué)者在將數(shù)據(jù)的獲取和展示分成了四個(gè)級(jí)別:

        級(jí)別 種類完全公開 網(wǎng)絡(luò)數(shù)據(jù)多方對多方 社交媒體數(shù)據(jù)一方對多方 合同/出版商數(shù)據(jù)單方對單方 保密數(shù)據(jù)

        針對不同級(jí)別的數(shù)據(jù),使用者需要不同程度的相應(yīng)授權(quán)。授權(quán)內(nèi)容應(yīng)當(dāng)包括使用的目的、使用的形式、使用的時(shí)間等基本的合同性約定。而在處理不同層次的數(shù)據(jù)時(shí),數(shù)據(jù)處理者所承擔(dān)的責(zé)任也應(yīng)當(dāng)是有所區(qū)分的。

        鑒于歐盟并未對TDM的具體使用模式作出限定,現(xiàn)有的主流立法模式主要有美國采取的“無條件例外”的合理使用模式和英國“版權(quán)例外”的模式。

        許可方式的選擇實(shí)際上是一種對于傳統(tǒng)版權(quán)產(chǎn)業(yè)與新興大數(shù)據(jù)產(chǎn)業(yè)之間如何激勵(lì)取舍的制度安排問題。李國慶(2016)在審視了谷歌圖書案之后提出,我國的合理使用制度應(yīng)當(dāng):①以版權(quán)法目的——信息共享作為價(jià)值訴求;②為實(shí)現(xiàn)合理使用的價(jià)值訴求,合理使用制度應(yīng)當(dāng)具有一定的靈活性。

        美國采取的“無條件例外”的“合理使用”許可模式并未對TDM技術(shù)的使用對象進(jìn)行限定,英國的特殊性版權(quán)例外許可允許任何非權(quán)利人按照規(guī)定模式使用,僅歐盟的《草案》將TDM的適用對象限定在研究機(jī)構(gòu)之上。

        筆者認(rèn)為限制技術(shù)的使用對象是不適宜的?,F(xiàn)行的TDM技術(shù)的提供者和使用者主要集中在數(shù)據(jù)庫、數(shù)字型圖書館、搜索平臺(tái)等以研究機(jī)構(gòu)、高校、公司等集體性組織之上,普通大眾暫時(shí)只作為TDM技術(shù)的成果接收方和獲益者參與其中。作為成果第三方,普通人應(yīng)當(dāng)不與TDM技術(shù)提供方就TDM操作過程中可能存在的侵權(quán)事宜承擔(dān)連帶責(zé)任。但在獲取由TDM技術(shù)提供后的信息之后,新知識(shí)的再創(chuàng)建過程例如科學(xué)研究中利用所獲取的數(shù)據(jù)實(shí)驗(yàn)得出研究成果,經(jīng)濟(jì)學(xué)家通過搜索到的經(jīng)濟(jì)數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù)進(jìn)行重新編排制作觀察報(bào)告的過程可能涉及到對原始數(shù)據(jù)的再編排過程,該行為是否違反《著作權(quán)法》還有待討論。因而,現(xiàn)行立法過程中不應(yīng)該對技術(shù)的適用對象進(jìn)行限制。

        [1]郝文江.基于數(shù)據(jù)挖掘技術(shù)對公安犯罪分析的改進(jìn).吉林公安高等??茖W(xué)院學(xué)報(bào),2007年第3期,第112頁.

        [2]化柏林.數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)關(guān)系探析[J].情報(bào)理論與實(shí)踐 ,2008(4).

        [3]宋海艷,邵承瑾,顧立平,張東榮,潘衛(wèi),黃文麗,蔣麗麗,陳天天,張浩.我國科研人員對機(jī)構(gòu)知識(shí)庫認(rèn)知與使用的現(xiàn)狀調(diào)查與分析[J].現(xiàn)代圖書情報(bào)技術(shù),2014,8-16.

        [4]李鋼.大數(shù)據(jù)時(shí)代文本挖掘的版權(quán)例外[J],圖書館工作與研究,2016,1(3),28-31.

        [5]袁軍鵬,朱東華,李毅,李連宏,黃進(jìn).文本挖掘技術(shù)研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2006,23(2),1-4.

        [6]UK IPO, An impact assessment for the introduction of the‘exception for coping of works for use by text and data analytics.’[7]The International Association of Scientific, Technical and Medical Publishers.

        [8]STM, Text and Data Mining Sample Subscription,2012.

        [9]Jean-Paul Triaille, Jér?me de Mee?s d’Argenteuil & Amélie de Francquan, Study on the Legal Framework of text and data mining(TDM),2014.

        [10]Text Mining of Journal Literature 2016, Commissioned by Publishing Research Consortium.

        [11]孟慶良,展俊平,郭會(huì)卿,郭洪濤,鄭光,呂愛平,姜淼.基于文本挖掘技術(shù)析甲氨蝶呤與中醫(yī)治療聯(lián)合應(yīng)用的規(guī)律[J].中國中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2014.

        [12]郭金龍,許鑫.數(shù)字人文中的文本挖掘研究[J].大學(xué)圖書館學(xué)報(bào),2012,30(3),11-18.

        [13]M.Ware & M.Mabe, The stm report: An overview of scientific and scholar journal publishing,2009.

        [14]李國慶.谷歌圖書館案The Authors Guild, Inc. v Google, Inc.判決述評(píng)——以合理使用制度為視角[J].中國版權(quán),2016.

        猜你喜歡
        數(shù)據(jù)挖掘文本過程
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        描寫具體 再現(xiàn)過程
        臨終是個(gè)怎樣的過程
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        在這個(gè)學(xué)習(xí)的過程中收獲最大的是哪些,為什么?
        Coco薇(2015年12期)2015-12-10 03:54:58
        圓滿的過程
        亚洲成人av大片在线观看| 91精品福利观看| 日韩精品久久久中文字幕人妻| 亚洲天堂av路线一免费观看| 国产手机在线观看一区二区三区| 久久天堂综合亚洲伊人hd妓女| 精品一区二区三区在线观看视频| 色窝综合网| 日韩午夜免费视频精品一区| 欧美日韩精品久久久久| 国产精品久久久久久麻豆一区| 亚洲AⅤ乱码一区二区三区| 三级日本理论在线观看| 国产免费一区二区三区免费视频| 国产精品视频一区国模私拍| 国产激情一区二区三区在线蜜臀| 国产精品成人av大片| 无人区一码二码三码四码区| 五月婷一本到五月天| 免费毛片一区二区三区女同| 开心五月天第四色婷婷| 国内精品人妻无码久久久影院导航| 午夜无码一区二区三区在线| 国产av精品一区二区三区不卡| 婷婷色综合视频在线观看| 亚洲学生妹高清av| 无码丰满熟妇浪潮一区二区av| 日本在线观看不卡一区二区| 久久精品国产亚洲av高清热| 色综合久久综合欧美综合图片| 视频在线播放观看免费| 国产av精品一区二区三| 色窝窝免费播放视频在线| 精品亚洲人伦一区二区三区| 免费人成视网站在线剧情| 俺去俺来也在线www色官网| 日韩精品欧美激情亚洲综合| 青青青爽在线视频免费播放| 国产一区内射最近更新| 亚洲色婷婷免费视频高清在线观看| 亚洲一级天堂作爱av|