主页

索引

模块索引

搜索页面

4.3.3. BiLSTM+CRF

BiLSTM

  • 双向长短时记忆

  • BiLSTM 是一种循环神经网络(RNN)的变体,具有前向和后向两个方向的隐藏状态。

  • 作用: 用于捕捉输入序列中的上下文信息,对文本进行双向建模,更好地理解词汇之间的依赖关系。

CRF

  • 条件随机场

  • 定义: CRF 是一种概率图模型,用于对序列标签进行建模。

  • 作用: 在 NER 任务中,CRF 用于建模标签之间的转移概率,确保生成的标签序列是合理的。

BiLSTM+CRF

  • 结合方式: BiLSTM 用于提取输入序列的特征,而 CRF 用于对标签序列进行建模,结合了上下文信息和标签间的关系。

  • 优势: 具有更强大的建模能力,特别适用于需要考虑上下文信息和标签关系的序列标注任务,如 NER。

https://img.zhaoweiguo.com/uPic/2024/01/htpX6Y.png

使用 BiLSTM+CRF 实现 NER:在 BiLSTM 上方添加了一个 CRF 层。具体地,在基于 BiLSTM 获得各个位置的标签向量之后,这些标签向量将被作为 发射分数 传入 CRF 中。这些发射分数(标签向量)传入 CRF 之后,CRF 会据此解码出一串标签序列。CRF 的作用就是在所有可能的路径中,找出得出概率最大,效果最优的一条路径,那这个标签序列就是模型的输出。

备注

总结一下,使用 BiLSTM+CRF 模型架构实现 NER 任务,大致分为两个阶段:使用 BiLSTM 生成发射分数(标签向量),基于发射分数使用 CRF 解码最优的标签路径。

主页

索引

模块索引

搜索页面