亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于聚類和關鍵詞抽取的采購需求識別方法研究

        2025-02-07 00:00:00陳濤
        中國經貿導刊 2025年2期
        關鍵詞:文本

        摘要:準確識別采購需求是基于網絡的智能采購平臺精準匹配供應商資源的關鍵環(huán)節(jié),能有效助推企業(yè)降低采購成本,優(yōu)化資源配置,提高市場響應速度。本文通過文本挖掘技術,利用K-Means聚類算法提取歷史采購數據的需求主題,采用短語抽取方法和詞頻統計方法識別采購需求關鍵詞,形成采購需求關鍵詞特征向量,有效支撐智能采購平臺供應方案自動匹配和推薦,提升企業(yè)供應鏈效率和經濟管理水平。

        關鍵詞:采購需求識別;關鍵詞抽?。籘F-IDF模型

        引言

        在企業(yè)的經濟活動中,供應鏈扮演著連接企業(yè)內外部經濟活動的關鍵角色,是企業(yè)經濟管理不可或缺的一環(huán)。采購需求構成了供應鏈管理的起始點,是招標人制定采購需求文件、確定投標者資格以及匹配供應方案的關鍵參考。精確地識別采購需求有助于企業(yè)有效控制采購成本,迅速響應市場需求,優(yōu)化資源配置,并提高企業(yè)運營效率。

        借助網絡采購平臺和大數據技術的優(yōu)勢,通過標準化采購數據,可以對采購數據進行深入的分析和挖掘。依托大數據與人工智能等先進數字手段,實現采購需求在線自動編制與智能決策,促進采購流程的線上自動化管控與云端協作,這對彰顯集團化采購的協同效應,提高大型集團的經濟管理效能,具有不可忽視的價值。

        一、采購需求識別的基本思路

        識別用戶采購需求是智能采購平臺設計中不可分割的組成部分,與智能推薦、自動匹配、AI評審等功能的實現密不可分。用戶采購需求的識別構成了采購需求研究的核心環(huán)節(jié)。關鍵在于從采購文件的特征出發(fā),運用特定的手段和方法,將潛藏于采購需求文件中的關鍵要素揭示出來,并轉化為明確的需求表達。在技術日新月異的背景下,大數據與機器學習的融合推動了需求識別方式的變革,由演繹法轉向以“數據+模型+分析”為核心理念的歸納法。在當前情境下,無須直接與采購用戶接觸,僅需深入挖掘需求文件中的關鍵信息,即可精確捕捉到用戶的具體需求[1]。

        無監(jiān)督文本主題生成模型旨在將多維詞集映射至低維主題分布,以實現需求識別的降維,助力智能采購平臺迅速捕捉需求文檔的核心要義。采用文本挖掘模型對需求文檔進行主題分析,由此提煉出“主題詞”的概率分布,進而識別出蘊含在其中的關鍵特征詞,最終完成對用戶需求核心信息的精準界定。

        二、結構化采購需求編制

        (一)智能采購平臺采購需求匹配流程

        以結構化采購文件編制工具為心臟的智能采購平臺,在供應商關系管理(SRM)標包編制階段嵌入開發(fā),作為結構化采購文件編制的起點。需求側數據標準庫體系的建設主要基于規(guī)則要素庫和業(yè)務組件庫,通過特征要素的提取,生成范本模型庫和范本,以支持用戶完成采購文件的編制;供應側則通過資質樣本庫、資質業(yè)績庫和業(yè)績標準庫,為用戶提供報價文件編制的支持[2]。評審中心通過識別采購需求的特征,并與報價文件進行特征匹配,通過匹配度的計算,形成智能評審的結果(圖1所示)。

        (二)采購需求編制

        依托智能匹配技術,該采購文件編制平臺集成了采購文件范本與經典實例,旨在助力采購人員高效地完成采購文件編制流程。所采用的核心技術依托于采購流程,通過深入分析歷史采購文件的樣本特征,構建采購文件樣本框架,并借助商務與技術樣本模型,構建了結構化的樣本文件庫,為自動化采購文件的編制提供了有力支撐。

        采購文件編制平臺主要功能包括:功能包括支持對采購文件進行導入、解析、導出、下載以及查看等操作;實施采購文件范本的匹配與切換操作,并智能引用范本要素;在采購需求數據領域,對經典實例及其要素進行智能化的推薦與引用,旨在實現數據結構的規(guī)范化和標準化處理。

        三、基于聚類算法和TF-IDF模型的采購需求主題識別

        在采購需求數據結構化和標準化的基礎上,以用戶采購需求文件為研究對象,項目提出了一種基于關鍵詞抽取的采購主題識別方法,以實現對采購需求的識別和分類。其主要流程包括采購數據獲取、采購數據預處理、采購主題聚類、采購需求關鍵詞抽取四個步驟,以實現采購需求主題的識別(圖2所示)。

        (一)需求數據收集

        在真實的采購場合搜集樣本數據,涉及采購文件及所需采購信息。通過文本分析技術,辨識企業(yè)常規(guī)采購需求,依托物資采購合同數據,運用統計手段剖析核心數據,同時針對需求文本所采用的采購查詢系統,對每份合同進行細致梳理,包括合同名稱、簽署日期、合同金額、供應商及采購方信息、地域歸屬等關鍵要素,并借助文本分析手段,從整體采購流程中提煉出企業(yè)采購類別,為系統在運行過程中精準推薦采購要素奠定了堅實的數據基礎[3]。

        (二)數據預處理

        良好的數據條件是開展采購流程數據化的先決條件。對收集到的樣本數據進行預處理,包括分詞、詞性標注等步驟,以便于后續(xù)的特征提取和模型訓練。

        分詞是一項基礎任務,正確的分詞可以提升主題聚類的效果。項目的文本分析基于Python(“蟒蛇”是一種計算機程序編程語言)的Jieba(結巴庫)分詞實現。為提升分詞結果的可靠性,本文構建了行業(yè)詞庫和標準詞庫,以形成對分詞自帶詞庫的有益補充?;谝陨显~庫,對收集的各部門產品目錄進行分詞,并對分詞結果進行精細化的人工篩選,最終得到能源企業(yè)采購關鍵詞庫[4]。

        在經過字符型分詞與停用詞的過濾之后,用戶需求的文檔數據得以轉換成數值型數據,以便機器解析。在開展需求文本的主題建模作業(yè)之前,首要任務是完成對分詞文本的數字化處理,即實現文本向量化轉換。文本向量化過程中,自然語言處理領域廣泛采用詞袋模型作為常用模型。

        通過對文本進行分詞處理,可以計算出每個詞在樣本中的出現頻率。這些頻率值為每個樣本提供了基于詞匯的特征。當將這些特征與相應的詞匯一起整理時,就可以形成所謂的“向量化”表示。這種方法使得文本信息可以通過數值化的形式進行處理,從而便于后續(xù)的分析和應用。

        (三)采購數據的聚類分析

        為了進行采購需求關鍵詞的聚類分析,首先需要將每個需求描述轉化為語義向量。Doc2Vec是一種深度學習模型,用于生成段落或文檔的向量表示,它通過無監(jiān)督學習方法,將采購需求文檔(包括句子、段落等)的內容轉化為固定長度的向量。這些向量捕捉了文檔的語義信息,使得后續(xù)的文本處理工作可以轉化為向量空間中的數學運算,極大簡化了分析流程。Doc2Vec模型包含兩種主要算法:RAKE算法和SkipGram模型。通過在歷史采購數據中的所有需求文檔上應用這些算法進行訓練,可以生成每個文檔的語義向量表示。這些向量能夠有效地反映文檔的語義特征,為后續(xù)的需求分析和聚類提供基礎支持。在Doc2Vec模型中,每個句子都會被轉換成一個獨特的向量。經過該處理后,每個需求文件可以表示為一個n維的向量,其中n表示向量的維度,向量中的每個元素wi表示需求關鍵詞在相應維度上的權重。這種表示方式使得文本能夠在高維語義空間中被有效地捕捉和表示。

        在應用Doc2Vec方法后,可以得到每個需求文件的向量表示。為了進一步提取需求文本的核心主題,接下來需要對需求中的關鍵詞進行聚類分析。通過這種方式,可以識別出文本中潛在的重要主題信息。為了對采購需求文檔進行主題分析,采用了K-Means聚類算法,這是一種既簡單又高效的聚類技術。通過設定目標聚類數k,該算法可以有效地將需求文件中的關鍵詞進行分組,從而揭示出每個文檔中的主要主題。在聚類過程中,依據每個采購需求文件的語義向量,K-Means算法對所有文本關鍵詞進行分析并進行分類。

        通過對文本數據進行分析,系統平臺能夠根據不同采購類別,自動為采購人員推薦相關的關鍵詞。此功能助力采購人員迅速構建需求文檔,并顯著提高編制需求的精確性與規(guī)范化程度?;趯v史數據的深入剖析,該系統得以依托實時數據及市場動態(tài),實施靈活且迅速的調整策略,進而顯著提升采購環(huán)節(jié)的適應性與反應效率。

        (四)采購需求的關鍵詞抽取

        主題關鍵詞的提取是需求識別過程中的核心步驟。本文采用RAKE(快速自動關鍵字提?。┧惴?,從需求文件的描述中提取出與采購需求相關的主題關鍵詞,從而構建出用戶需求的主題向量[5]。RAKE方法是一種高效的關鍵技術短語提取算法,專注于從文本中識別并抽取具有較長結構的短語。在提取關鍵詞的過程中,該方法優(yōu)先考慮那些能夠準確反映主題的多詞短語,從而提高了關鍵詞提取的質量和精度。RAKE算法的基本原理包括以下步驟:首先,通過標點符號和停用詞對文本進行分句處理;然后,利用詞語在短語中的共現頻率構建共現矩陣,其中矩陣的列表示詞匯的度數。接著,根據詞頻、度數以及度頻比來提取特征,最后,通過計算詞匯的度數和詞頻來評估關鍵短語的得分(Score)。

        最終,通過按得分(Score)降序排列,選擇得分最高的三分之一詞匯作為關鍵詞。基于這些候選短語,進一步采用TF-IDF(詞頻-逆文檔頻率)方法,從各個采購文件中提取出關鍵需求信息。隨后,采用停用詞過濾和詞性過濾兩種方法,對候選關鍵詞進行精篩,去除其中包含停用詞的短語,從而確保短語集合中只保留有效的關鍵詞。

        (五)采購需求的主題識別方法

        根據前述的候選技術短語集合,利用詞頻統計方法來識別每個采購類別中的關鍵特征詞。通過定義TF-IDF權重,衡量特征關鍵詞在文檔中的重要性,并依據這些權重對每個聚類中的短語進行排序,從而構建出用戶需求的特征向量。TF-IDF是一種廣泛應用于信息檢索和數據挖掘的加權方法,用于衡量詞項在文檔中的相對重要性。它通過評估詞項在特定文檔中的頻率以及該詞項在所有文檔中的分布,來判斷該詞的權重。TF-IDF由兩個部分組成:在文本分析領域,“詞頻”與“逆文檔頻率”扮演著至關重要的角色,所謂“詞頻”,即TermFrequency,它揭示了單個詞語在特定文檔中出現的次數;而“逆文檔頻率”,即InverseDocumentFrequency,則衡量了詞語在所有文檔中的分布情況。這兩個概念在信息檢索和文本挖掘中具有重要應用價值,它們共同構成了衡量詞語重要性的重要指標。在計算過程中,首要任務是求取每個詞匯的TF(詞頻)和IDF(逆文檔頻率)數值,隨后將這兩個數值相乘,以此獲得該詞匯的TF-IDF(詞頻-逆文檔頻率)得分,進而評估其在文檔中的關鍵程度。在文檔中,一個詞語的TF-IDF值越高,通常預示著該詞語在文檔中的地位愈發(fā)顯著,重要性亦隨之提升。對文檔內各詞匯進行TF-IDF值評估,并按降序排列,從而篩選出位列前茅的詞匯,這些詞匯即構成文檔的核心。

        任意詞項t,它在一個文檔d中的重要性(即TF-IDF權重)的計算公式為:

        在TF-IDF計算中,TF(t,d)表示詞項t在采購需求文檔d中的出現頻率;df(t)則是詞項t在所有歷史需求文檔中出現的文檔數量;N代表總的文檔數量。通過這些指標,可以量化詞項的重要性。該公式的含義是,當一個采購需求關鍵詞在某個文檔中頻繁出現,而在其他文檔中較少出現時,說明該關鍵詞對當前文檔的重要性較高。基于TF-IDF權重,項目研究中度量了需求關鍵詞在各個需求文檔中的重要性,并對需求關鍵詞在各個需求文檔中的權重進行排序,最后將每個需求文檔中重要性最高的k個關鍵詞作為采購需求文檔的主題向量,用于標示該需求文檔的特征。

        四、總結

        本文提出了一種通過文本挖掘技術,進行關鍵詞提取識別采購需求的方法,基于歷史采購數據構建采購需求的數據樣本,通過數據組件和文件范本以結構化數據方式輔助采購人員編制采購文件;采用K-Means聚類算法得到不同采購需求類別下的采購需求的主題關鍵詞,利用短語抽取方法和詞頻統計方法識別各個采購類別中的關鍵詞短語,形成按重要性排序的采購需求主題向量,實現采購需求的識別,有效縮短企業(yè)供應鏈響應時間,提升企業(yè)經濟管理水平和市場競爭力。

        參考文獻:

        [1]孔艷芳,劉建旭,趙忠秀.數據要素市場化配置研究:內涵解構、運行機理與實踐路徑[J].經濟學家,2021(11):24-32.

        [2]趙玲,黃昊.企業(yè)數字化轉型、供應鏈協同與成本粘性[J].當代財經,2022(5):124-136.

        [3]馬斌,周楊,馮嶺.基于CPC專利分類系統的新興技術主題識別方法[J].中國發(fā)明與專利,2023,20(09):13-21.

        [4]侯鳳成,劉士偉,李國威,等.采購需求標準數字化工作探析[J].中國機關后勤,2023,20(06):13-21.

        [5]胡蕓,傅立云,范尋.基于讀者決策采購的多元輔助決策采購模式研究[J].內蒙古科技與經濟,2020(2):3.

        (作者簡介:陳濤,國家能源集團物資有限公司數據科技分公司智能評審部主管)

        猜你喜歡
        文本
        文本聯讀學概括 細致觀察促寫作
        重點:論述類文本閱讀
        重點:實用類文本閱讀
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        作為“文本鏈”的元電影
        藝術評論(2020年3期)2020-02-06 06:29:22
        在808DA上文本顯示的改善
        “文化傳承與理解”離不開對具體文本的解讀與把握
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        從背景出發(fā)還是從文本出發(fā)
        語文知識(2015年11期)2015-02-28 22:01:59
        波多野结衣有码| 久久精品中文字幕| 免费毛片a线观看| 性夜影院爽黄a爽在线看香蕉 | 麻神在线观看免费观看| 成人欧美日韩一区二区三区| 四虎影视永久在线精品| 午夜爽毛片| 亚洲一区二区精品在线| 亚洲一区二区三区影院| 亚洲中文字幕无码mv| 国产在线看不卡一区二区| 精品高清一区二区三区人妖| 精品乱人伦一区二区三区| 久久人妻少妇嫩草av蜜桃| 国产思思久99久精品| 国产在线一区二区三区四区乱码| 国模冰莲自慰肥美胞极品人体图 | 国产成人国产在线观看入口| 亚洲一区二区女优av| 91精品人妻一区二区三区久久久| 日韩视频中文字幕精品偷拍 | 日本在线观看不卡| 91热久久免费频精品99| 吃奶摸下高潮60分钟免费视频| 亚洲精品久久久久久动漫| 色偷偷女人的天堂亚洲网| 亚洲精品女同一区二区三区| 又粗又黄又猛又爽大片免费 | 国产成人无码免费视频在线| 久久亚洲欧洲无码中文| 亚洲精品区二区三区蜜桃| 男女射黄视频网站在线免费观看| 欧美a级情欲片在线观看免费| 国产在线无码免费视频2021| 99麻豆久久精品一区二区| 女人被男人爽到呻吟的视频| 人妻人人澡人人添人人爽人人玩 | 久久精品亚洲一区二区三区画质 | 97久久香蕉国产线看观看| 国产精品日日摸夜夜添夜夜添|