在Unicode中是否存在每个“字符”的编码。只是一个代码点?

试着改写:你能将每个组合字符组合映射到一个代码点吗? 我是Unicode的新手,但在我看来,没有编码,规范化或表示,其中一个字符在Unicode的每种情况下都是一个代码点。它是否正确? 基本多语言平面也是如此吗?     
已邀请:
如果你的意思是一个char ==一个数字(即:每个char由相同数量的字节/单词/ what-have-you表示):在UCS-4中,每个字符由一个4字节的数字表示。这种方式足以让每个角色都由一个单独的值来表示,但如果你不需要任何更高的字符,那就太浪费了。 如果你的意思是兼容性顺序(即:其中e +´ =>é):对于现有现代语言中使用的大多数组合,都有单字符表示。如果你正在编写自己的语言,你可能会遇到问题...但如果你坚持使用人们实际使用的语言,那你就没问题了。     
  你能映射每个组合字符吗?   组合成一个代码点? 每个组合字符组合?你提出的编码如何代表字符串“à̴̵̶̷̸̡̢̧̨̛̖̗̘̙̜̝̞̟̠̣̤̥̦̩̪̫̬̭̮̯̰̳̹̺̻̼͇͈͉͍͎̄̅̆̇̈̉̊̋̌̍̏̐̑̒̓̔̽̾̿̓̈͆͊͋͌̕̚͏͓͔͕͖͙͚͐͑͒͗͛ͣͤͥͦͧͨͩͪͫͬͭͮͯ͘͜͟͢͝͞͠͡”? (附有一百多个组合标记的'a'?)这是不切实际的。 但是,Unicode中有很多“预组合”字符,比如áçñü。规范化形式C将尽可能使用这些而不是分解版本。     
  在我看来,没有编码,规范化或表示,其中一个字符在Unicode的每种情况下都是一个代码点。它是否正确? 取决于“字符”一词含义的含义.Unicode具有抽象字符的概念(标准第3章中的定义7:“用于组织,控制或表示文本数据的信息单元”)和编码字符(定义11:“抽象字符和代码点之间的关联(或映射)”)。所以一个字符永远不是一个代码点,但是对于许多代码点,存在一个映射到代码点的抽象字符,这个映射被称为“编码字符”。但是(定义11,第4段):“一个抽象字符也可以用一系列代码点来表示“   基本多语言平面也是如此吗? 在BMP和其他平面之间没有与抽象或编码字符相关的概念差异。上面的语句适用于代码空间的所有子集。 根据您的应用程序,您必须区分术语字形,字形簇,字形,抽象字符,编码字符,代码点,标量值,代码单元和字节。所有这些概念都不同,它们之间没有简单的映射。特别是,这些实体之间几乎从不存在一对一的映射。     

要回复问题请先登录注册