4.3.3. BiLSTM+CRF¶
BiLSTM¶
双向长短时记忆
BiLSTM 是一种循环神经网络(RNN)的变体,具有前向和后向两个方向的隐藏状态。
作用: 用于捕捉输入序列中的上下文信息,对文本进行双向建模,更好地理解词汇之间的依赖关系。
CRF¶
条件随机场
定义: CRF 是一种概率图模型,用于对序列标签进行建模。
作用: 在 NER 任务中,CRF 用于建模标签之间的转移概率,确保生成的标签序列是合理的。
BiLSTM+CRF¶
结合方式: BiLSTM 用于提取输入序列的特征,而 CRF 用于对标签序列进行建模,结合了上下文信息和标签间的关系。
优势: 具有更强大的建模能力,特别适用于需要考虑上下文信息和标签关系的序列标注任务,如 NER。
备注
总结一下,使用 BiLSTM+CRF 模型架构实现 NER 任务,大致分为两个阶段:使用 BiLSTM 生成发射分数(标签向量),基于发射分数使用 CRF 解码最优的标签路径。