1.2.1. 通用¶
Unicode normalization forms是用于标准化Unicode字符序列的过程,以确保文本的可比性和一致性。
Unicode标准中定义了四种主要的规范化形式,每种形式都旨在处理字符组合和变体,从而消除潜在的歧义:
1. NFC (Normalization Form C) 2. NFD (Normalization Form D) 3. NFKC (Normalization Form KC) 4. NFKD (Normalization Form KD)
规范化的作用:
文本比较:通过标准化,可以确保同样的字符以相同的方式表示,使得文本比较更加准确。
存储一致性:在数据库和其他存储系统中,统一字符表示方式可以减少存储冗余和解析错误。
处理输入:在用户输入文本时,规范化可以确保输入的一致性,避免因字符形式不同而导致的错误。