1.2.3. NFKC¶

NFKC（Normalization Form KC(Compatibility Composition)，即兼容性分解和重组）是一种 Unicode 标准化形式，主要用于将文本中的字符标准化为统一的、兼容的格式。
它通过分解字符（分解组合字符为基础字符和附加符号），并重组为兼容字符（将相同语义但不同外观的字符统一为标准字符）来简化文本表示。

NFKC 的特点¶

兼容性转换：NFKC 会将具有相同语义的字符转换为标准的、兼容的字符表示。例如，将上标“²”转换为“2”、全角“Ａ”转换为半角“A”。
分解和重组：NFKC 会先将字符分解为其基础字符（如将“é”分解为 “e” 和重音符 ́），然后将这些分解的字符重新组合为标准的兼容字符表示。

NFKC 的作用¶

一致性：在文本处理中，NFKC 可以将具有相同含义的字符统一成标准表示，方便文本比对和查找。
数据清洗：确保文本中的字符格式统一，避免因字符外观或格式差异带来的问题。

示例¶

２（全角数字 2）→ 2（半角数字）
①（带圈的数字 1）→ 1
ﬂ（连字 fl）→ f + l

NFKC 的应用场景¶

NFKC 通常用于文本清洗、搜索、数据匹配等领域，尤其适合自然语言处理中的预处理步骤，帮助模型更一致地理解文本内容。

NFKC 与 NFD 的区别¶

NFD (Normalization Form Decomposition)：将字符分解为基础字符和组合符。例如，将“é”分解为“e” + “´”（重音符号）。
NFKC：不仅执行分解操作，还会将一些具有相同视觉形态或功能的字符合并为“兼容字符”。例如，将全宽字符（如“Ａ”）转换为普通的 ASCII 字符（如“A”）。