主页

索引

模块索引

搜索页面

4.3.2. 序列标注

命名实体识别通常包括两部分:

实体边界识别 确定实体类别(人名、地名、机构名或其他)

标注的标签类型如下表所示:

类型   说明
B     Begin        代表实体片段的开始
I     Internediate 代表实体片段的中间
M     Middle       代表实体片段的中间
E     End          代表实体片段的结束
S     Single       代表实体片段为单个字
O     Other        代表字符不为任何实体

实体识别三种常见的序列标注方法:

BIO:标识实体的开始,中间部分和非实体部分
BMES:增加 S 单个实体情况的标注
BIOSE:增加 E 实体的结束标识

BIO - 三位序列标注法 (B-begin,I-inside,O-outside):

B-X 代表实体 X 的开头
I-X 代表实体 X 的中间或结尾
O 代表不属于任何类型的

>>> 样例:
 我 O
 是 O
 李 B-PER
 果 I-PER
 冻 I-PER
 , O
 我 O
 爱 O
 中 B-ORG
 国 I-ORG
 , O
 我 O
 来 O
 自 O
 四 B-LOC
 川 I-LOC
 。 O

BMES - 四位序列标注法 (B-begin,M-middle,E-end,S-single):

B 表示一个词的词首位值
M 表示一个词的中间位置
E 表示一个词的末尾位置
S 表示一个单独的字词

样例:
  S
  S
  B
  M
  E

BIOES - 四位序列标注法 (B-begin,I-inside,O-outside,E-end,S-single):

B 表示开始
I 表示内部
O 表示非实体
E 表示实体尾部
S 表示改词本身就是一个实体

样例:
 我 O
 是 O
 李 B-PER
 果 I-PER
 冻 E-PER
 , O
 我 O
 爱 O
 中 B-LOC
 国 E-LOC
 , O
 我 O
 来 O
 自 O
 四 B-LOC
 川 E-LOC
 。 O

常用的标记包括:

B:表示实体的开始部分(Beginning),通常是实体的第一个词。
I:表示实体的中间部分(Inside),通常是实体的非第一个词。
O:表示非实体部分(Outside),即非命名实体的词语。

PER(人名):用于标记人物名称。
LOC(地点名):用于标记地点名称。
ORG(组织名):用于标记组织或机构名称。
Lead(领导者):用于标记领导者或负责人名称。
Position(职位):用于标记职位或头衔名称。
MISC(杂项):用于标记其他不属于以上列出的类别的命名实体,如时间、事件、产品名称等。
TIME(时间):用于标记时间相关的命名实体,如日期、时间段等。
EVENT(事件):用于标记事件名称或相关实体,如会议、比赛等。
PROD(产品):用于标记产品名称或相关实体,如商业产品、品牌名称等。

主页

索引

模块索引

搜索页面