序列标注 ======== 命名实体识别通常包括两部分: 实体边界识别 确定实体类别(人名、地名、机构名或其他) 标注的标签类型如下表所示:: 类型 说明 B Begin 代表实体片段的开始 I Internediate 代表实体片段的中间 M Middle 代表实体片段的中间 E End 代表实体片段的结束 S Single 代表实体片段为单个字 O Other 代表字符不为任何实体 实体识别三种常见的序列标注方法:: BIO:标识实体的开始,中间部分和非实体部分 BMES:增加 S 单个实体情况的标注 BIOSE:增加 E 实体的结束标识 BIO - 三位序列标注法 (B-begin,I-inside,O-outside):: B-X 代表实体 X 的开头 I-X 代表实体 X 的中间或结尾 O 代表不属于任何类型的 >>> 样例: 我 O 是 O 李 B-PER 果 I-PER 冻 I-PER , O 我 O 爱 O 中 B-ORG 国 I-ORG , O 我 O 来 O 自 O 四 B-LOC 川 I-LOC 。 O BMES - 四位序列标注法 (B-begin,M-middle,E-end,S-single):: B 表示一个词的词首位值 M 表示一个词的中间位置 E 表示一个词的末尾位置 S 表示一个单独的字词 样例: 我 S 是 S 四 B 川 M 人 E BIOES - 四位序列标注法 (B-begin,I-inside,O-outside,E-end,S-single):: B 表示开始 I 表示内部 O 表示非实体 E 表示实体尾部 S 表示改词本身就是一个实体 样例: 我 O 是 O 李 B-PER 果 I-PER 冻 E-PER , O 我 O 爱 O 中 B-LOC 国 E-LOC , O 我 O 来 O 自 O 四 B-LOC 川 E-LOC 。 O 常用的标记包括:: B:表示实体的开始部分(Beginning),通常是实体的第一个词。 I:表示实体的中间部分(Inside),通常是实体的非第一个词。 O:表示非实体部分(Outside),即非命名实体的词语。 PER(人名):用于标记人物名称。 LOC(地点名):用于标记地点名称。 ORG(组织名):用于标记组织或机构名称。 Lead(领导者):用于标记领导者或负责人名称。 Position(职位):用于标记职位或头衔名称。 MISC(杂项):用于标记其他不属于以上列出的类别的命名实体,如时间、事件、产品名称等。 TIME(时间):用于标记时间相关的命名实体,如日期、时间段等。 EVENT(事件):用于标记事件名称或相关实体,如会议、比赛等。 PROD(产品):用于标记产品名称或相关实体,如商业产品、品牌名称等。