4.3.2. 序列标注¶
命名实体识别通常包括两部分:
实体边界识别 确定实体类别(人名、地名、机构名或其他)
标注的标签类型如下表所示:
类型 说明
B Begin 代表实体片段的开始
I Internediate 代表实体片段的中间
M Middle 代表实体片段的中间
E End 代表实体片段的结束
S Single 代表实体片段为单个字
O Other 代表字符不为任何实体
实体识别三种常见的序列标注方法:
BIO:标识实体的开始,中间部分和非实体部分
BMES:增加 S 单个实体情况的标注
BIOSE:增加 E 实体的结束标识
BIO - 三位序列标注法 (B-begin,I-inside,O-outside):
B-X 代表实体 X 的开头
I-X 代表实体 X 的中间或结尾
O 代表不属于任何类型的
>>> 样例:
我 O
是 O
李 B-PER
果 I-PER
冻 I-PER
, O
我 O
爱 O
中 B-ORG
国 I-ORG
, O
我 O
来 O
自 O
四 B-LOC
川 I-LOC
。 O
BMES - 四位序列标注法 (B-begin,M-middle,E-end,S-single):
B 表示一个词的词首位值
M 表示一个词的中间位置
E 表示一个词的末尾位置
S 表示一个单独的字词
样例:
我 S
是 S
四 B
川 M
人 E
BIOES - 四位序列标注法 (B-begin,I-inside,O-outside,E-end,S-single):
B 表示开始
I 表示内部
O 表示非实体
E 表示实体尾部
S 表示改词本身就是一个实体
样例:
我 O
是 O
李 B-PER
果 I-PER
冻 E-PER
, O
我 O
爱 O
中 B-LOC
国 E-LOC
, O
我 O
来 O
自 O
四 B-LOC
川 E-LOC
。 O
常用的标记包括:
B:表示实体的开始部分(Beginning),通常是实体的第一个词。
I:表示实体的中间部分(Inside),通常是实体的非第一个词。
O:表示非实体部分(Outside),即非命名实体的词语。
PER(人名):用于标记人物名称。
LOC(地点名):用于标记地点名称。
ORG(组织名):用于标记组织或机构名称。
Lead(领导者):用于标记领导者或负责人名称。
Position(职位):用于标记职位或头衔名称。
MISC(杂项):用于标记其他不属于以上列出的类别的命名实体,如时间、事件、产品名称等。
TIME(时间):用于标记时间相关的命名实体,如日期、时间段等。
EVENT(事件):用于标记事件名称或相关实体,如会议、比赛等。
PROD(产品):用于标记产品名称或相关实体,如商业产品、品牌名称等。