說明:(1)點擊文章鏈接,將下載之后的默認文件名作為文章ID(是文獻的唯一標識符),比如鏈接 https://www.aclweb.org/anthology/C12-1150.pdf 下載之后的文檔默認名為C12-1150,打開文件后文章標題為:Initial explorations on using CRFs for Turkish Named Entity Recognition。(2)人工閱讀文獻全文,重點為摘要和方法論部分。識別其中作者使用的研究方法實體。(3)實體類型分為四類,分別為:algorithm & model, tool, data source, index & measurement(現有一個方法詞典可供參考)。(4)實體句為文章明確提出使用了前面對應單元格里方法實體的句子。若一篇文章對于某個實體有多個句子,比如文章在摘要和方法論部分均提到使用了CRF模型。則僅標注最先使用的句子,即摘要里面那句話。
(1)句子中含有algorithm、model、approach、rules、grammar等提示詞屬于算法模型的可能性比較大。
(2)句子中含有package,parser,platform,tool,toolkit,API和一些特殊的以“er”結尾的名詞屬于工具的可能性大。
(3)句子中含有Wikipedia、corpus、dataset、corpora和一些經典評測會議使用的數據集,比如CoNLL 2002/2003、ACE 2005等名詞屬于data source的可能性大。
(4)句子中含有metrics,values,points,scores,test,rate等詞屬于評價指標的可能性大。
(5)注意所有句子中全大寫的單詞,有可能是實體。