作者:鐘原,劉小溶,王杰,陳雁,張泰
摘要:隨著“智能油田”的建設加快,構建基于海量石油數據的智能分析系統意義重大。然而,由于石油生產過程中產生的文本數據往往無結構且類型多樣,從中抽取關鍵信息進行分析成為一個研究熱點,而信息抽取又需要高質量的語義實體做支撐。根據這一特定問題,提出基于命名實體識別(Named Entity Recognition,NER)技術針對石油非結構化文本進行信息抽取,構建雙向長短時記憶(Bidirectional Long Short-Term Memory,Bi LSTM)網絡模型提取語料特征,并結合條件隨機場(Conditional Random Field,CRF)做分類器,構建了基于Bi LSTM+CRF的高精度NER模型,針對石油工業領域的非結構化文本進行命名實體抽取。通過在修井作業文本數據集上進行對比實驗表明,本方法具有較高的精確率和召回率。
發文機構:西南石油大學計算機科學學院
關鍵詞:命名實體識別BiLSTM+CRF信息抽取非結構化文本NERBi-LSTM+CRFinformation extractionunstructured text
分類號: TE319[石油與天然氣工程—油氣田開發工程]