05/06/2024
CaseLaw-BERT / Custom Legal-BERT
《When Does Pretraining Help? Assessing Self-Supervised Learning for Law and the CaseHOLD Dataset》
摘要(由google自動翻譯論文之摘要,稍微做成修改)
儘管 #自監督學習在自然語言處理方面取得了快速進展,但研究人員何時應該進行資源密集的特定專業領域預訓練(專業領域預訓練)仍不清楚。
令人費解的是,儘管人們普遍認為法律語言是獨一無二的,#但該法律幾乎沒有在領域預訓練方面產生實質效益的記錄實例。#我們假設這些現有結果源於這樣一個事實:#現有的合法NLP任務過於簡單,#無法滿足專業領域預訓練可以提供幫助的條件。
為了解決這個問題,我們首先提出 #CaseHOLD(#法律決策案件控股), , #用於識別所引用案件的相關控股。
該資料集為律師提供了一項基本任務,從 NLP 角度來看,既具有法律意義,又很困難(F1 為 0.4,BiLSTM 基準)。其次,我們評估 CaseHOLD 和現有法律 NLP 資料集的效能提升。
雖然在通用語料庫(Google 圖書和維基百科)上預訓練的Transformer 架構(BERT) 可以提高性能, #但使用自定義法律詞彙進行專業領域預訓練(#使用美國所有法院的約350萬個判決的語料庫比BERT的規模還要大)表現出了CaseHOLD 帶來了最顯著的性能提升(F1 提高了7.2%,相當於BERT 提高了12%),並且在其他兩項法律任務中也獲得了一致的性能提升。
第三,我們表明,當任務與預訓練語料庫表現出足夠的相似性時,領域預訓練可能是有必要的:三個法律任務的表現提高水準與任務的領域特殊性直接相關。
#我們的研究結果告訴研究人員何時應該進行資源密集型預訓練,#並表明基於Transformer的架構也可以學習暗示不同法律語言的嵌入。
項目
https://huggingface.co/casehold/custom-legalbert
論文:
https://arxiv.org/abs/2104.08671
While self-supervised learning has made rapid advances in natural language processing, it remains unclear when researchers should engage in resource-intensive domain-specific pretraining (domain pretraining). The law, puzzlingly, has yielded few documented instances of substantial gains to domain pr...