5.3.1. 常用¶

命名实体识别（NER）属于自然语言处理中的最常见的也是最基础的任务，是指从文本中识别出特定命名指向的词，比如人名、地名和组织机构名等。命名实体识别任务做标签方法有很多，包括 BIO、BIOSE、IOB、BILOU、BMEWO、BMEWO + 等，最常见的是 BIO 与 BIOES 这两种。不同做标签的方法会对模型效果有些许影响，例如有些时候用 BIOES 会比 BIO 有些许优势。
技术方法：1. 传统方法： 基于规则 和 基于统计 的方法，使用手工设计的规则或特征进行模型训练；2. 深度学习方法：近年来，深度学习模型如 BiLSTM-CRF、BERT 等在 NER 任务上取得了显著的性能提升，能够更好地捕捉上下文信息和语境关系。
主要目标是从文本中识别和抽取出具有特定意义的命名实体，这些命名实体通常是人、地点、组织、日期等具有特定名称的实体。
Named Entity Recognition (NER) is a task of extracting some entities from text, such as dates, addresses, people names, etc. Together with intent classification, NER is often used in dialog systems to extract parameters from user’s utterance.
命名实体识别（NER）是从文本中提取某些实体的任务，例如日期、地址、人名等。与意图分类一起，NER 通常用于对话系统中，以从用户的话语中提取参数。
命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向 Semantic Web 的元数据标注等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。一般来说，命名实体识别的任务就是识别出待处理文本中三大类（实体类、时间类和数字类）、七小类（人名、机构名、地名、时间、日期、货币和百分比）命名实体。
NER 是自然语言处理中的重要任务，旨在从文本中识别并分类出命名实体，如人名、地名、组织机构等。NER 在信息提取、问答系统、机器翻译等领域都有广泛的应用。分为基于规则的方法和基于机器学习的方法两种。基于规则的方法依赖于预定义的规则和模式来识别实体，而基于机器学习的方法则通过训练模型来自动学习实体的特征和上下文信息。常见的基于机器学习的 NER 方法包括基于统计的方法（如隐马尔可夫模型、条件随机场等）和基于深度学习的方法（如循环神经网络、Transformer 模型等）。

应用场景:

信息检索：通过识别文本中的命名实体，提高搜索引擎的准确性
问答系统：用于从问题中提取关键实体，有助于更准确地回答用户的问题
机器翻译：在翻译过程中正确处理文本中的实体，确保翻译的准确性
社交媒体分析：识别社交媒体文本中的人名、地名等信息，用于社交网络分析
金融领域：用于从金融新闻中提取公司、股票等相关信息
医学领域：在医学文献中识别疾病、药物等实体，用于信息提取和知识图谱构建

工具¶

https://github.com/taishan1994/awesome-chinese-ner?tab=readme-ov-file#ner%E5%B7%A5%E5%85%B7

text VS image¶

NER is like image segmentation when it comes to text.
Question Answer is like image detection when it comes to text.
When doing image segmentation, each pixel gets assigned to a class. When doing NER, each word (or token) gets assigned to a class.
When doing image detection, we find boxes in the image instead of irregular shapes. When doing Question Answer, we find “boxes” in the text instead of “irregular shapes”.

参考¶

Feedback Prize - Evaluating Student Writing: https://www.kaggle.com/competitions/feedback-prize-2021/discussion/295794
浅析命名实体识别（NER）的三种序列标注方法: 这儿