主页

索引

模块索引

搜索页面

1.2.3. NFKC

  • NFKC(Normalization Form KC(Compatibility Composition),即兼容性分解和重组)是一种 Unicode 标准化形式,主要用于将文本中的字符标准化为统一的、兼容的格式。

  • 它通过分解字符(分解组合字符为基础字符和附加符号),并重组为兼容字符(将相同语义但不同外观的字符统一为标准字符)来简化文本表示。

NFKC 的特点

  • 兼容性转换:NFKC 会将具有相同语义的字符转换为标准的、兼容的字符表示。例如,将上标“²”转换为“2”、全角“A”转换为半角“A”。

  • 分解和重组:NFKC 会先将字符分解为其基础字符(如将“é”分解为 “e” 和重音符 ́),然后将这些分解的字符重新组合为标准的兼容字符表示。

NFKC 的作用

  • 一致性:在文本处理中,NFKC 可以将具有相同含义的字符统一成标准表示,方便文本比对和查找。

  • 数据清洗:确保文本中的字符格式统一,避免因字符外观或格式差异带来的问题。

示例

2(全角数字 2)→ 2(半角数字)
①(带圈的数字 1)→ 1
fl(连字 fl)→ f + l

NFKC 的应用场景

  • NFKC 通常用于文本清洗、搜索、数据匹配等领域,尤其适合自然语言处理中的预处理步骤,帮助模型更一致地理解文本内容。

NFKC 与 NFD 的区别

  • NFD (Normalization Form Decomposition):将字符分解为基础字符和组合符。例如,将“é”分解为“e” + “´”(重音符号)。

  • NFKC:不仅执行分解操作,还会将一些具有相同视觉形态或功能的字符合并为“兼容字符”。例如,将全宽字符(如“A”)转换为普通的 ASCII 字符(如“A”)。

主页

索引

模块索引

搜索页面