Свойство символа Юникода - Unicode character property
Стандарт Unicode присваивает различные свойства для каждого символа Unicode и кодовой точки .
Свойства могут использоваться для обработки символов (кодовых точек) в процессах, например, при переносе строк, направлении скрипта справа налево или применении элементов управления. Некоторые «свойства символа» также определены для кодовых точек, которым не назначен символ, и кодовых точек, помеченных как «<не символ>». Свойства персонажа описаны в Стандартном Приложении №44.
У свойств есть уровни силы: нормативная, информативная, вспомогательная или предварительная. Для простоты описания свойство символа может быть присвоено путем указания непрерывного диапазона кодовых точек, которые имеют одно и то же свойство.
Семантические элементы
Свойства отображаются в следующем порядке:
[code];[name];[gc];[cc];[bc];[decomposition];;;[nv];[bm];[alias];;;;
- 'alias' = исправленное имя
- 'bc' = двунаправленное (двунаправленное) категория [L, R и т. д.]
- 'bm' = зеркальное отображение двунаправленного текста [N или Y]
- 'cc' = объединяющий класс [позиция диакритического знака]
- разложение = буква + диакритический знак, лигатура XY, верхний индекс X, шрифт X, начальный X, средний X, конечный X, изолированный X, вертикальный X и т. д.
- 'gc' = общая категория [буква, символ, цифра, пунктуация, регистр и т. д.]
- 'nv' = числовое значение [цифры]
Имя
Символу Unicode присваивается уникальное имя (na). Имя состоит из прописных букв A – Z, цифр 0–9, - (дефис-минус) и <пробел>. Некоторые последовательности исключены: имена, начинающиеся с пробела или дефиса, имена, заканчивающиеся пробелом или дефисом, повторяющиеся пробелы или дефисы и пробелы после дефиса не допускаются. Имя гарантированно уникально в Юникоде и может использоваться для идентификации кодовой точки и ее символа. Идеографические символы, которых насчитывается несколько десятков тысяч, названы в шаблоне « cjk unified ideograph - hhhh ». Например, U + 4E00 一 CJK UNIFIED IDEOGRAPH-4E00 . Также указаны символы форматирования: U + 00A0 NO-BREAK SPACE .
Следующие классы кодовых точек не имеют имени (na = ""): элементы управления (общая категория: Cc), частное использование (Co), суррогатное (Cs), несимвольные (Cn) и зарезервированные (Cn). На них могут неофициально ссылаться общее или конкретное мета-имя, называемое «метки кодовых точек»: <control>, <control-0088>, <reserved>, <noncharacter- hhhh >, <private-use- hhhh > , <суррогат>. Поскольку эти метки содержат скобки <>, они никогда не могут отображаться как имя, что предотвращает путаницу.
Имена версии 1.0
В версии 2.0 Unicode были изменены многие имена. С этого момента вступило в силу правило «имя никогда не изменится», включая строгое (нормативное) использование псевдонимов. Неиспользуемые имена версии 1.0 были перемещены в свойство Alias для обеспечения обратной совместимости.
Псевдоним имени персонажа
Начиная с версии 2.0 Unicode, опубликованное имя кодовой точки никогда не изменится. Следовательно, в случае неправильного написания имени персонажа или если имя персонажа полностью неверно или серьезно вводит в заблуждение, персонажу может быть назначен формальный псевдоним имени персонажа, и этот псевдоним может использоваться приложениями вместо фактического дефектного имени персонажа. . Например, U + FE18 ︘ ФОРМА ПРЕЗЕНТАЦИИ ДЛЯ ВЕРТИКАЛЬНОГО ПРАВОГО БЕЛОГО ЛЕНТИКУЛЯРНОГО КРОНШТЕЙНА имеет псевдоним имени символа «ПРЕЗЕНТАЦИОННАЯ ФОРМА ДЛЯ ВЕРТИКАЛЬНОГО ПРАВОГО БЕЛОГО ЛЕНТИКУЛЯРНОГО КРОНШТЕЙНА», чтобы избежать неправильного написания «скобки» как «скобки» в фактическом имени символа; U + A015 ꀕ YI SYLLABLE WU имеет псевдоним имени символа «YI SYLLABLE ITERATION MARK», потому что, в отличие от имени символа, он не имеет фиксированного слогового значения.
В дополнение к псевдонимам имен символов, которые являются исправлением дефектных имен символов, некоторым символам присваиваются псевдонимы, которые являются альтернативными именами или сокращениями. В стандарте Unicode определены пять типов псевдонимов имен символов:
- Исправление: исправления неправильно написанных или серьезно неправильных имен персонажей;
- Управление: имена ISO 6429 для функций управления C0 и C1 (которым не присвоены имена символов в стандарте Unicode);
- Альтернативный вариант: альтернативные имена для некоторых символов формата (только U + FEFF «ZERO WIDTH NO-BREAK SPACE», имеющий псевдоним «BYTE ORDER MARK»);
- Рисунок: Документированные метки для некоторых функций управляющего кода C1, которые не являются действительными именами ни в одном стандарте;
- Аббревиатура: аббревиатуры или акронимы для управляющих кодов, символов формата, пробелов и селекторов вариантов.
Все формальные псевдонимы имен символов соответствуют правилам для допустимых имен символов и гарантированно уникальны как в псевдониме имени символа, так и в пространстве имен символов (по этой причине имя ISO 6429 «BELL» не определено как псевдоним для U +0007, потому что U + 1F514 назван "BELL").
Начиная с Unicode версии 12.1, двадцать восемь формальных псевдонимов имен символов определены как исправления для дефектных имен символов. Они перечислены ниже .
Помимо этих нормативных имен, в таблицах кодов Unicode могут отображаться неофициальные имена . Это другие часто используемые имена для символа, и их необязательно ограничивать буквами A – Z, цифрами 0–9, - (дефис-минус) и <пробел>. Уникальность этих неофициальных имен не гарантируется, и они могут быть изменены или удалены в более поздних версиях стандарта.
Общая категория
Каждой кодовой точке присваивается значение для общей категории. Это одно из свойств символа, которые также определены для неназначенных кодовых точек и кодовых точек, которые определены как «не символ».
Общая категория ( свойство символа Юникода ) | |||||
---|---|---|---|---|---|
Ценить | Категория Major, minor | Базовый тип | Назначенный персонаж | Подсчитать (по состоянию на 14.0) |
Замечания |
L, буква; LC, прописная буква (только Lu, Ll и Lt) | |||||
Лу | Буква в верхнем регистре | Графический | Характер | 1831 | |
Ll | Буква в нижнем регистре | Графический | Характер | 2,227 | |
Lt | Буква, заглавие | Графический | Характер | 31 год | Лигатуры, содержащие прописные буквы, за которыми следуют строчные буквы (например, Dž , Lj , Nj и Dz ) |
Lm | Буква, модификатор | Графический | Характер | 334 | Модификатор письмо |
Lo | Письмо, другое | Графический | Характер | 127 333 | Иероглиф или письмо в Unicase алфавите |
М, Марк | |||||
Mn | Марк, без промежутка | Графический | Характер | 1,950 | |
Mc | Отметка, интервал совмещения | Графический | Характер | 445 | |
Мне | Марка, включающая | Графический | Характер | 13 | |
N, число | |||||
Nd | Число, десятичная цифра | Графический | Характер | 660 | Все они, и только они, имеют числовой тип = De |
Nl | Число, буква | Графический | Характер | 236 | Цифры, состоящие из букв или буквоподобных символов (например, римские цифры ) |
Нет | Число, другое | Графический | Характер | 895 | Например, вульгарные дроби , цифры надстрочного и подстрочного индекса. |
P, пунктуация | |||||
ПК | Пунктуация, разъем | Графический | Характер | 10 | Включает подчеркивание "_" |
Pd | Пунктуация, тире | Графический | Характер | 26 год | Включает несколько знаков дефиса |
Ps | Пунктуация, открытая | Графический | Характер | 79 | Открытие скобки символов |
Пе | Знаки препинания, закрыть | Графический | Характер | 77 | Символы закрывающей скобки |
Пи | Пунктуация, начальная цитата | Графический | Характер | 12 | Открывающая кавычка . Не включает "нейтральные" кавычки ASCII. Может вести себя как Ps или Pe в зависимости от использования |
ПФ | Пунктуация, заключительная цитата | Графический | Характер | 10 | Закрывающая кавычка. Может вести себя как Ps или Pe в зависимости от использования |
По | Пунктуация, другое | Графический | Характер | 605 | |
S, символ | |||||
См | Символ, математика | Графический | Характер | 948 | Математические символы (например, + , - , = , × , ÷ , √ , ∊ , ≠ ). Не включает круглые и квадратные скобки, которые есть в категориях Ps и Pe. Также не входит ! , * , - или / , которые, несмотря на частое использование в качестве математических операторов, в первую очередь считаются «пунктуацией». |
Sc | Символ, валюта | Графический | Характер | 63 | Символы валюты |
Sk | Символ, модификатор | Графический | Характер | 125 | |
Так | Символ, другое | Графический | Характер | 6 605 | |
Z, разделитель | |||||
Zs | Разделитель, пробел | Графический | Характер | 17 | Включает пробел, но не включает TAB , CR или LF , которые являются Cc |
Zl | Разделитель, линия | Формат | Характер | 1 | Только U + 2028 СЕПАРАТОР ЛИНИИ (LSEP) |
Zp | Разделитель, абзац | Формат | Характер | 1 | Только U + 2029 РАЗДЕЛИТЕЛЬ ПАРАМЕТРОВ (PSEP) |
C, Другое | |||||
Копия | Другое, контроль | Контроль | Характер | 65 (никогда не изменится) | Без имени, <контроль> |
Cf | Другое, формат | Формат | Характер | 163 | Включает мягкий дефис , объединяющие управляющие символы ( zwnj и zwj ), управляющие символы для поддержки двунаправленного текста и символы языковых тегов. |
CS | Другой, суррогатный | Суррогат | Не (используется только в UTF-16 ) | 2048 (никогда не изменится) | Без имени, <суррогат> |
Co | Другое, личное использование | Частное использование | Характер (но без указания толкования) | Всего 137 468 (никогда не изменится) ( 6400 в BMP , 131 068 в самолетах 15–16 ) | Без имени, <частное использование> |
Cn | Другое, не назначено | Нехарактерный | Нет | 66 (никогда не изменится) | Без имени, <несимвола> |
Зарезервированный | Нет | 829 768 | Без имени, <зарезервировано> | ||
Пунктуация
У символов есть отдельные свойства, чтобы обозначить, что они являются символом пунктуации . Все свойства имеют значения Да / Нет : Dash , Quotation_Mark , Sentence_Terminal , Terminal_Punctuation .
Пробел
Пробелы - это часто используемое понятие для создания типографского эффекта. В основном он охватывает невидимые символы, которые имеют эффект интервала в отображаемом тексте. Он включает в себя пробелы , табуляции и элементы управления форматированием новой строки. В Юникоде для такого символа установлено свойство WSpace = yes. В версии 14.0 25 пробелов.
Имя | Кодовая точка | Коробка ширины | Может сломаться ? | В IDN ? |
Сценарий | Блокировать | Общая категория |
Примечания | |
---|---|---|---|---|---|---|---|---|---|
табуляция символов | U + 0009 | 9 | да | Нет | Общий | Базовая латынь | Другое, контроль |
HT, горизонтальная табуляция . HTML / XML именованный объект : 	 , LaTeX : '\ вкладка'
|
|
перевод строки | U + 000A | 10 | Это разрыв строки | Общий | Базовая латынь | Другое, контроль |
LF, перевод строки . Именованный объект HTML / XML:

|
||
табуляция строк | U + 000B | 11 | Это разрыв строки | Общий | Базовая латынь | Другое, контроль |
VT, вертикальная вкладка | ||
подача формы | U + 000C | 12 | Это разрыв строки | Общий | Базовая латынь | Другое, контроль |
FF, подача формы | ||
возврат каретки | U + 000D | 13 | Это разрыв строки | Общий | Базовая латынь | Другое, контроль |
CR, возврат каретки | ||
Космос | U + 0020 | 32 | да | Нет | Общий | Базовая латынь | Разделитель, пробел |
Самый распространенный (нормальное пространство ASCII) | |
следующая строка | U + 0085 | 133 | Это разрыв строки | Общий | Дополнение Latin-1 |
Другое, контроль |
NEL, следующая строка | ||
беспрерывное пространство | U + 00A0 | 160 | Нет | Нет | Общий | Дополнение Latin-1 |
Разделитель, пробел |
Неразрывный пробел : идентичен U + 0020, но не точка, в которой линия может быть прервана. Именованный объект HTML / XML:, LaTeX: '\'
|
|
Огамовый пробел | U + 1680 | 5760 | да | Нет | Огам | Огам | Разделитель, пробел |
Используется для разделения слов в огамском тексте. Обычно это вертикальная линия в вертикальном тексте или горизонтальная линия в горизонтальном тексте, но также может быть пустым пространством в шрифтах без основы. Требуется шрифт Огам. | |
en quad | U + 2000 | 8192 | да | Нет | Общий | Общая пунктуация |
Разделитель, пробел |
Ширина одного эн . U + 2002 канонически эквивалентен этому персонажу; U + 2002 предпочтительнее. | |
em quad | U + 2001 | 8193 | да | Нет | Общий | Общая пунктуация |
Разделитель, пробел |
Также известен как «баранья четверка». Ширина одной эм . U + 2003 канонически эквивалентен этому персонажу; U + 2003 предпочтительнее. | |
en space | U + 2002 | 8194 | да | Нет | Общий | Общая пунктуация |
Разделитель, пробел |
Также известен как «орех». Ширина одного эн . U + 2000 En Quad канонически эквивалентен этому персонажу; U + 2002 предпочтительнее. Именованный объект HTML / XML:,   LaTeX: '\ enspace'
|
|
em пробел | U + 2003 | 8195 | да | Нет | Общий | Общая пунктуация |
Разделитель, пробел |
Также известен как «баранина». Ширина одной эм . U + 2001 Em Quad канонически эквивалентен этому персонажу; U + 2003 предпочтительнее. Именованный объект HTML / XML:,   LaTeX: '\ quad'
|
|
пробел по три на каждую | U + 2004 | 8196 | да | Нет | Общий | Общая пунктуация |
Разделитель, пробел |
Также известен как «толстое пространство». Одна треть em шириной. Именованный объект HTML / XML: 
|
|
четыре пробела на каждую | U + 2005 | 8197 | да | Нет | Общий | Общая пунктуация |
Разделитель, пробел |
Также известен как «средний космос». Одна четверть em шириной. Именованный объект HTML / XML: 
|
|
шесть пробелов на каждую | U + 2006 | 8198 | да | Нет | Общий | Общая пунктуация |
Разделитель, пробел |
Ширина в одну шестую em. В компьютерной типографике иногда приравнивается к U + 2009. | |
фигура пространство | U + 2007 | 8199 | Нет | Нет | Общий | Общая пунктуация |
Разделитель, пробел |
Фигурное пространство . В шрифтах с моноширинными цифрами, равными ширине одной цифры. Именованный объект HTML / XML: 
|
|
пробел | U + 2008 | 8200 | да | Нет | Общий | Общая пунктуация |
Разделитель, пробел |
Такой же ширины, как и узкая пунктуация в шрифте, т. Е. Ширина точки или запятой. Именованный объект HTML / XML: 
|
|
тонкое пространство | U + 2009 | 8201 | да | Нет | Общий | Общая пунктуация |
Разделитель, пробел |
Тонкое пространство ; одна пятая (иногда одна шестая) ширины em. Рекомендуется использовать в качестве разделителя тысяч для измерений в единицах СИ . В отличие от U + 2002 - U + 2008, его ширина может регулироваться при наборе. HTML / XML с именем объекта:   ; LaTeX: '\,'
|
|
пространство для волос | U + 200A | 8202 | да | Нет | Общий | Общая пунктуация |
Разделитель, пробел |
Тоньше тонкого пространства. Именованный объект HTML / XML:   ( работает не во всех браузерах)
|
|
разделитель строк | U + 2028 | 8232 | Это разрыв строки | Общий | Общая пунктуация |
Разделитель, линия |
|||
разделитель абзацев | U + 2029 | 8233 | Это разрыв строки | Общий | Общая пунктуация |
Разделитель, абзац |
|||
узкое неразрывное пространство | U + 202F | 8239 | Нет | Нет | Общий | Общая пунктуация |
Разделитель, пробел |
Узкое пространство без перерывов . По функциям аналогичен U + 00A0 No-Break Space. При использовании с монгольским языком его ширина обычно составляет треть нормального пространства; в другом контексте его ширина иногда напоминает ширину Тонкого пространства (U + 2009). | |
среднее математическое пространство | U + 205F | 8287 | да | Нет | Общий | Общая пунктуация |
Разделитель, пробел |
MMSP. Используется в математических формулах. Четыре восемнадцатых эм. В математической типографике ширина пробелов обычно указывается в целых числах, кратных восемнадцатой em, и 4/18 em могут использоваться в нескольких ситуациях, например, между a и + и между + и b в выражение a + b . Именованный объект HTML / XML: 
|
|
идеографическое пространство | U + 3000 | 12288 | да | Нет | Общий | Символы и знаки препинания CJK |
Разделитель, пробел |
По ширине, как ячейка символа CJK ( полная ширина ). Используется, например, в тай тоу . |
Имя | Кодовая точка | Коробка ширины | Может сломаться ? | В IDN ? |
Сценарий | Блокировать | Общая категория |
Примечания | |
---|---|---|---|---|---|---|---|---|---|
монгольский разделитель гласных | U + 180E | 6158 | | да | Нет | Монгольский | Монгольский | Другое, Формат |
МВС. Символ с узким пространством, используемый в монгольском языке, чтобы последние два символа слова принимали разные формы. Он больше не классифицируется как пробел (то есть в категории Zs) в Unicode 6.3.0, хотя это было в предыдущих версиях стандарта. |
пространство нулевой ширины | U + 200B | 8203 | | да | Нет | ? | Общая пунктуация |
Другое, Формат |
ZWSP, пространство нулевой ширины . Используется для обозначения границ слов для систем обработки текста при использовании скриптов, в которых не используется явный интервал. Он похож на мягкий дефис , с той разницей, что последний используется для обозначения границ слога и должен отображать видимый дефис, когда линия разрывается на нем. Именованный объект HTML / XML :​
|
без стыковки с нулевой шириной | U + 200C | 8204 | | да | Зависит от контекста | ? | Общая пунктуация |
Другое, Формат |
ZWNJ, без стыковки с нулевой шириной . При размещении между двумя символами, которые в противном случае были бы связаны, ZWNJ заставляет их печатать в их окончательной и исходной формах соответственно. Именованный объект HTML / XML:‌
|
соединитель нулевой ширины | U + 200D | 8205 | | да | Зависит от контекста | ? | Общая пунктуация |
Другое, Формат |
ZWJ, соединитель нулевой ширины . При размещении между двумя символами, которые в противном случае не были бы связаны, ZWJ заставляет их печатать их в связанных формах. Также может использоваться для изолированного отображения объединяемых форм. В зависимости от того, ожидается ли по умолчанию лигатура или конъюнкт, может либо вызывать (как в смайликах, так и в сингальском ) или подавлять (как в Деванагари ) замену одним глифом, при этом разрешая использование отдельных форм соединения (в отличие от ZWNJ). Именованный объект HTML / XML:‍
|
соединитель слов | U + 2060 | 8288 | | Нет | Нет | ? | Общая пунктуация |
Другое, Формат |
WJ, соединитель слов . Подобно U + 200B, но не точка, в которой линия может быть прервана. Именованный объект HTML / XML:⁠
|
неразрывный пробел нулевой ширины | U + FEFF | 65279 | | Нет | Нет | ? | Формы представления на арабском языке -B |
Другое, Формат |
Неразрывный пробел нулевой ширины . Используется в основном как знак порядка байтов . Использование в качестве индикатора неразрывности устарело, начиная с Unicode 3.2; см. вместо этого U + 2060. |
Прочие общие характеристики
Идеографический, буквенный, безхарактерный.
Комбинированный класс
Некоторые общие коды:
- 0 = интервал между буквой, символом или модификатором (например, a, (, ʰ)
- 1 = наложение
- 6 = ханьское чтение (диакритические знаки чтения CJK)
- 7 = nukta (диакритический nukta в сценариях Брахмических )
- 8 = знаки озвучивания кана
- 9 = вирама
10–199 = различные классы фиксированного положения
Метки, прикрепляемые к основной букве:
- 200 = прикреплен внизу слева
- 202 = прикреплен непосредственно внизу (например, седиль на ç)
- 204 = прикреплен внизу справа
- 208 = прикреплен слева
- 210 = прикреплен справа
- 212 = прикреплен вверху слева
- 214 = прикреплен непосредственно выше
- 216 = прикреплен вверху справа
Метки, которые не прикрепляются к основной букве:
- 218 = внизу слева
- 220 = прямо внизу (например, кольцо на n̥)
- 222 = внизу справа
- 224 = слева
- 226 = право
- 228 = вверху слева
- 230 = вверху (например, ударение с острым ударением на á)
- 232 = вверху справа
- 233 = вдвое ниже (образует две базы)
- 234 = вдвое выше (расширяет две базы)
- 240 = индекс йота (только греческий диакритический знак)
Формовка, ширина.
Двунаправленное письмо
К двунаправленному письму относятся шесть свойств символов: Bidi_Class, Bidi_Control, Bidi_Mirrored, Bidi_Mirroring_Glyph, Bidi_Paired_Bracket и Bidi_Paired_Bracket_Type.
Одной из основных функций Unicode является поддержка двунаправленного ( Bidi ) отображения текста справа налево (R-to-L) и слева направо (L-to-R). Двунаправленный алгоритм Unicode UAX9 описывает процесс представления текста с изменением направления сценария. Например, он включает цитату на иврите в английском тексте. Bidi_Character_Type отмечает поведение персонажа при направленном письме. Чтобы переопределить направление, Unicode определил специальные символы управления форматированием ( Bidi-Control s). Эти символы могут определять направление и по определению влияют только на двунаправленное письмо.
У каждой кодовой точки есть свойство Bidi_Class . Он определяет его поведение в двунаправленном тексте, интерпретируемом алгоритмом:
Тип | Описание | Сила | Направленность | Общий объем | Bidi_Control символ |
---|---|---|---|---|---|
L | Слева направо | Сильный | Слева направо | Большинство алфавитных и слоговых символов, китайские иероглифы, неевропейские или неарабские цифры, символ LRM, ... | U + 200E МАРКА СЛЕВА НАПРАВО (LRM) |
р | Справа налево | Сильный | R-to-L | Адлам, иврит, мандайский, менде кикакуи, н'ко, самаритянский, древние письменности, такие как харошти и набатейский, персонаж RLM, ... | U + 200F ПРАВО НАЛЕВО МАРКА (RLM) |
AL | Арабское письмо | Сильный | R-to-L | Арабский, ханифи-рохинджа, согдийский, сирийский и танаский алфавиты и большинство знаков препинания, характерных для этих алфавитов, символ ALM, ... | U + 061C АРАБСКАЯ БУКВА (ALM) |
EN | Европейский номер | Слабый | Европейские цифры, восточно-арабские-индийские цифры, коптские эпактные числа, ... | ||
ES | Европейский сепаратор | Слабый | знак плюс , минус , ... | ||
ET | Терминатор европейского номера | Слабый | знак градуса , символы валюты, ... | ||
AN | Арабский номер | Слабый | Арабско-индийские цифры, арабские десятичные дроби и разделители тысяч, цифры руми, цифры ханифи рохинья, ... | ||
CS | Общий разделитель чисел | Слабый | двоеточие , запятая , точка , неразрывный пробел , ... | ||
NSM | Непространственный знак | Слабый | Знаки в общих категориях: Отметить, без пробелов, и Отметить, заключить (Mn, Me) | ||
BN | Граница нейтральная | Слабый | Игнорируемые, несимволы, управляющие символы по умолчанию, кроме явно заданных других типов | ||
B | Разделитель абзацев | Нейтральный | разделитель абзацев , соответствующие функции новой строки, определение абзаца протокола более высокого уровня | ||
S | Разделитель сегментов | Нейтральный | Вкладки | ||
WS | Пробел | Нейтральный | пробел , пробел , разделитель строк , подача формы , общие пробелы в блоках пунктуации (меньший набор, чем список пробелов Unicode ) | ||
НА | Другие нейтральные | Нейтральный | Все остальные символы, включая символ замены объекта | ||
ЖРД | Вложение слева направо | Явный | Слева направо | Только символ LRE | U + 202A ЛЕВАЯ ВСТАВКА (LRE) |
МРО | Слева направо Переопределение | Явный | Слева направо | Только персонаж LRO | U + 202D ПЕРЕХОД СЛЕВА НАПРАВО (LRO) |
RLE | Вложение справа налево | Явный | R-to-L | Только символ RLE | U + 202B ПРАВОЕ ВЛОЖЕНИЕ (RLE) |
RLO | Переопределение справа налево | Явный | R-to-L | Только символ RLO | U + 202E ПЕРЕХОД ВПРАВО-ВЛЕВО (RLO) |
Поп-направленный формат | Явный | Только символ PDF | НАПРАВЛЕННОЕ ФОРМАТИРОВАНИЕ POP U + 202C (PDF) | ||
LRI | Изоляция слева направо | Явный | Слева направо | Только символ LRI | U + 2066 ИЗОЛЯЦИЯ СЛЕВА НАПРАВО (LRI) |
RLI | Изоляция справа налево | Явный | R-to-L | Только символ RLI | U + 2067 ИЗОЛЯЦИЯ ПРАВО-ЛЕВО (RLI) |
FSI | Первый сильный изолятор | Явный | Только символ FSI | U + 2068 ПЕРВЫЙ СИЛЬНЫЙ ИЗОЛЯТОР (FSI) | |
PDI | Поп-направленный изолятор | Явный | Только символ PDI | НАПРАВЛЕННЫЙ ИЗОЛЯТОР POP U + 2069 (PDI) | |
Примечания
|
В обычных ситуациях алгоритм может определять направление текста по этому свойству символа. Для управления более сложными ситуациями с Bidi, например, когда в английском тексте есть кавычки на иврите, в Unicode добавляются дополнительные параметры. Двенадцать символов имеют свойство Bidi_Control = Yes : ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM и RLO, как указано в таблице. Это невидимые управляющие символы форматирования, используемые только алгоритмом и не имеющие никакого эффекта за пределами двунаправленного форматирования. Несмотря на название, они являются символами форматирования, а не управляющими символами, и имеют общую категорию «Другой, формат (Cf)» в определении Unicode.
По сути, алгоритм определяет последовательность символов с одним и тем же строгим типом направления (R-to-L или L-to-R) с учетом отмены специальных элементов управления Bidi. Числовым строкам (слабые типы) присваивается направление в соответствии с их сильным окружением, как и нейтральным символам. Наконец, символы отображаются в соответствии с направлением строки.
Два свойства символа имеют отношение к определению зеркального отображения глифа в двунаправленном тексте: Bidi_Mirrored = Yes указывает, что глиф должен быть зеркальным при записи R-to-L. Свойство Bidi_Mirroring_Glyph = U + hhhh может затем указывать на зеркальный символ. Например, скобки «()» отражаются таким образом. Формирование рукописных шрифтов, таких как арабский, и зеркальное отображение глифов, имеющих направление, не является частью алгоритма.
Кожух
Значение Case является нормативным в Юникоде. Это относится к тем сценариям, в которых используются прописные (они же заглавные, мажускулы) и строчные (маленькие, минускульные) буквы. Разница в регистре встречается в адламском, армянском, чероки, коптском, кириллице, десеретском, глаголице, греческом, хуцури и мхедрули грузинском, латинском, медефайдринском, старовенгерском, осейдж, виткуки и варанг сити.
(верхний, нижний, заголовок, складной - простой и полный)
Числовые значения и типы
Десятичный
Символы классифицируются по числовому типу . Такие символы, как дроби, индексы, надстрочные индексы, римские цифры, числители валют, числа в кружках и цифры, относящиеся к скрипту, относятся к типу Numeric. Они имеют числовое значение, которое может быть десятичным, включая ноль и минус, или обычную дробь. Если такого значения нет, как у большинства символов, числовой тип - «Нет».
Символы, которые имеют числовое значение, разделены на три группы: десятичные (De), цифровые (Di) и числовые (Nu, т. Е. Все остальные). «Десятичный» означает, что символ представляет собой прямую десятичную цифру. Числовой тип Decimal имеют только символы, входящие в непрерывный диапазон кодирования 0–9. Другие цифры, например надстрочные, имеют числовой тип Digit. Все числовые символы, такие как дроби и римские цифры, заканчиваются типом «Числовой». Предполагаемый эффект состоит в том, что простой синтаксический анализатор может использовать эти десятичные числовые значения, не отвлекаясь, скажем, на числовой верхний индекс или дробь. Семьдесят три иероглифа CJK, которые представляют собой числа, в том числе используемые для бухгалтерского учета, набираются как числовые.
С другой стороны, символы, которые могут иметь числовое значение в качестве второго значения, по-прежнему помечаются как числовой тип «Нет» и не имеют числового значения («»). Например, в нумерации абзацев можно использовать латинские буквы, такие как «II.A.1.b», но буквы «I», «A» и «b» не являются числовыми (тип «None») и не имеют числового значения.
свойство символа Юникода ) | Числовой тип (||||
---|---|---|---|---|
Числовой тип | Код | Имеет числовое значение | Пример | Замечания |
Не числовой | None |
Нет |
|
Числовое значение = "NaN" |
Десятичный | De |
да |
|
Прямая цифра (десятичная система счисления ). Соответствует в обоих направлениях General Category = Nd |
Цифра | Di |
да |
|
Десятичный, но в типографском контексте |
Числовой | Nu |
да |
|
Числовое значение, но не десятичная система счисления |
а. ^ «Раздел 4.6: Числовое значение» (PDF) . Стандарт Юникода . Консорциум Unicode. Сентябрь 2021 г. | ||||
б. ^ «Производные числовые типы Unicode 14.0» . База данных символов Юникода . Консорциум Unicode. 2021-03-08. |
Шестнадцатеричные цифры
Шестнадцатеричные символы - это символы в последовательности с шестнадцатеричными значениями 0 ... 9ABCDEF (шестнадцать символов, десятичное значение 0–15). Свойство символа Hex_Digit имеет значение Да, когда персонаж находится в такой серии:
Символы в Юникоде отмечены Hex_Digit=Yes
|
|||
---|---|---|---|
0123456789ABCDEF |
Базовая латынь, заглавные буквы | Также ASCII_Hex_Digit=Yes
|
|
0123456789abcdef |
Базовая латиница, строчные буквы | Также ASCII_Hex_Digit=Yes
|
|
0123456789ABCDEF |
Полноширинные формы , заглавные буквы | ||
0123456789abcdef |
Полноширинные формы, строчные буквы | ||
а. ^ "Unicode 14.0 UCD: PropList.txt" . 2021-08-12 . Проверено 12 марта 2020 . |
Сорок четыре символа помечены как Hex_Digit. Те, что в блоке Basic Latin, также помечены как ASCII_Hex_Digit .
Юникод не имеет отдельных символов для шестнадцатеричных значений. Следствием этого является то, что при использовании обычных символов невозможно определить, предназначено ли шестнадцатеричное значение или даже предназначено ли оно вообще. Это должно быть определено на более высоком уровне, например, добавлением «0x» к шестнадцатеричному числу или контекстом. Единственная особенность заключается в том, что Unicode может отметить, что последовательность может быть или не может быть шестнадцатеричным значением.
Блокировать
Блок представляет собой уникальное имя, непрерывный диапазон кодовых точек. Он идентифицируется его первой и последней кодовой точкой. Блоки не перекрываются . Блок может содержать кодовые точки, которые зарезервированы, не присвоено и т.д. Каждый символ , который будет назначен, имеет один «имя блока» значение из 320 имен , присвоенных в версии Unicode 14.0 Нераспределенных кодовых точек вне существующего блока, имеет значение по умолчанию «No_block».
Самолет | Блокировать диапазон | Имя блока | Кодовые точки | Назначенные символы | Скрипты |
---|---|---|---|---|---|
0 BMP | U + 0000..U + 007F | Базовая латынь | 128 | 128 | Латинский (52 символа), Обычный (76 символов) |
0 BMP | U + 0080..U + 00FF | Дополнение Latin-1 | 128 | 128 | Латинский (64 символа), Обычный (64 символа) |
0 BMP | U + 0100..U + 017F | Расширенная латиница-A | 128 | 128 | латинский |
0 BMP | U + 0180..U + 024F | Расширенная латиница-B | 208 | 208 | латинский |
0 BMP | U + 0250..U + 02AF | Расширения IPA | 96 | 96 | латинский |
0 BMP | U + 02B0..U + 02FF | Буквы модификатора интервала | 80 | 80 | Bopomofo (2 символа), Latin (14 символов), Common (64 символа) |
0 BMP | U + 0300..U + 036F | Объединение диакритических знаков | 112 | 112 | Унаследовано |
0 BMP | U + 0370..U + 03FF | Греческий и коптский | 144 | 135 | Коптский (14 символов), греческий (117 символов), общий (4 символа) |
0 BMP | U + 0400..U + 04FF | Кириллица | 256 | 256 | Кириллица (254 символа), Унаследованное (2 символа) |
0 BMP | U + 0500..U + 052F | Дополнение к кириллице | 48 | 48 | Кириллица |
0 BMP | U + 0530..U + 058F | Армянский | 96 | 91 | Армянский |
0 BMP | U + 0590..U + 05FF | иврит | 112 | 88 | иврит |
0 BMP | U + 0600..U + 06FF | арабский | 256 | 256 | Арабский (238 символов), Общий (6 символов), Унаследованный (12 символов) |
0 BMP | U + 0700..U + 074F | Сирийский | 80 | 77 | Сирийский |
0 BMP | U + 0750..U + 077F | Дополнение на арабском языке | 48 | 48 | арабский |
0 BMP | U + 0780..U + 07BF | Thaana | 64 | 50 | Thaana |
0 BMP | U + 07C0..U + 07FF | НКо | 64 | 62 | Nko |
0 BMP | U + 0800..U + 083F | Самаритянин | 64 | 61 | Самаритянин |
0 BMP | U + 0840..U + 085F | Мандаикский | 32 | 29 | Мандаикский |
0 BMP | U + 0860..U + 086F | Сирийское дополнение | 16 | 11 | Сирийский |
0 BMP | U + 0870..U + 089F | Арабский расширенный-B | 48 | 41 год | арабский |
0 BMP | U + 08A0..U + 08FF | Арабский расширенный-A | 96 | 96 | Арабский (95 символов), общий (1 символ) |
0 BMP | U + 0900..U + 097F | Деванагари | 128 | 128 | Деванагари (122 символа), Обычный (2 символа), Унаследованный (4 символа) |
0 BMP | U + 0980..U + 09FF | Бенгальский | 128 | 96 | Бенгальский |
0 BMP | U + 0A00..U + 0A7F | Гурмукхи | 128 | 80 | Гурмукхи |
0 BMP | U + 0A80..U + 0AFF | Гуджарати | 128 | 91 | Гуджарати |
0 BMP | U + 0B00..U + 0B7F | Ория | 128 | 91 | Ория |
0 BMP | U + 0B80..U + 0BFF | Тамильский | 128 | 72 | Тамильский |
0 BMP | U + 0C00..U + 0C7F | телугу | 128 | 100 | телугу |
0 BMP | U + 0C80..U + 0CFF | Каннада | 128 | 90 | Каннада |
0 BMP | U + 0D00..U + 0D7F | Малаялам | 128 | 118 | Малаялам |
0 BMP | U + 0D80..U + 0DFF | Сингальский | 128 | 91 | Сингальский |
0 BMP | U + 0E00..U + 0E7F | Тайский | 128 | 87 | Тайский (86 символов), Общий (1 символ) |
0 BMP | U + 0E80..U + 0EFF | Лаосский | 128 | 82 | Лаосский |
0 BMP | U + 0F00..U + 0FFF | тибетский | 256 | 211 | Тибетский (207 символов), Общий (4 символа) |
0 BMP | U + 1000..U + 109F | Мьянма | 160 | 160 | Мьянма |
0 BMP | U + 10A0..U + 10FF | Грузинский | 96 | 88 | Грузинский (87 символов), Общий (1 символ) |
0 BMP | U + 1100..U + 11FF | Хангыль джамо | 256 | 256 | Хангыль |
0 BMP | U + 1200..U + 137F | Эфиопский | 384 | 358 | Эфиопский |
0 BMP | U + 1380..U + 139F | Эфиопское дополнение | 32 | 26 год | Эфиопский |
0 BMP | U + 13A0..U + 13FF | Чероки | 96 | 92 | Чероки |
0 BMP | U + 1400..U + 167F | Единое слоговое письмо канадских аборигенов | 640 | 640 | Канадские аборигены |
0 BMP | U + 1680..U + 169F | Огам | 32 | 29 | Огам |
0 BMP | U + 16A0..U + 16FF | Рунический | 96 | 89 | Рунический (86 символов), Обычный (3 символа) |
0 BMP | U + 1700..U + 171F | Тагальский | 32 | 23 | Тагальский |
0 BMP | U + 1720..U + 173F | Хануноо | 32 | 23 | Хануноо (21 символ), Обычное (2 символа) |
0 BMP | U + 1740..U + 175F | Бухид | 32 | 20 | Бухид |
0 BMP | U + 1760..U + 177F | Tagbanwa | 32 | 18 | Tagbanwa |
0 BMP | U + 1780..U + 17FF | Кхмерский | 128 | 114 | Кхмерский |
0 BMP | U + 1800..U + 18AF | Монгольский | 176 | 158 | Монгольский (155 символов), общий (3 символа) |
0 BMP | U + 18B0..U + 18FF | Унифицированная слоговая речь канадских аборигенов расширенная | 80 | 70 | Канадские аборигены |
0 BMP | U + 1900..U + 194F | Лимбу | 80 | 68 | Лимбу |
0 BMP | U + 1950..U + 197F | Тай Ле | 48 | 35 год | Тай Ле |
0 BMP | U + 1980..U + 19DF | Новый Тай Лю | 96 | 83 | Новый Тай Лю |
0 BMP | U + 19E0..U + 19FF | Кхмерские символы | 32 | 32 | Кхмерский |
0 BMP | U + 1A00..U + 1A1F | Бугийский | 32 | 30 | Бугийский |
0 BMP | U + 1A20..U + 1AAF | Тай Тхам | 144 | 127 | Тай Тхам |
0 BMP | U + 1AB0..U + 1AFF | Расширенное объединение диакритических знаков | 80 | 31 год | Унаследовано |
0 BMP | U + 1B00..U + 1B7F | Балийский | 128 | 124 | Балийский |
0 BMP | U + 1B80..U + 1BBF | Суданский | 64 | 64 | Суданский |
0 BMP | U + 1BC0..U + 1BFF | Батак | 64 | 56 | Батак |
0 BMP | У + 1C00..U + 1C4F | Лепча | 80 | 74 | Лепча |
0 BMP | U + 1C50..U + 1C7F | Ol Chiki | 48 | 48 | Ol Chiki |
0 BMP | У + 1C80..U + 1C8F | Кириллица расширенная-C | 16 | 9 | Кириллица |
0 BMP | U + 1C90..U + 1CBF | Грузинский расширенный | 48 | 46 | Грузинский |
0 BMP | U + 1CC0..U + 1CCF | Сунданская добавка | 16 | 8 | Суданский |
0 BMP | U + 1CD0..U + 1CFF | Ведические расширения | 48 | 43 год | Обычный (16 символов), Унаследованный (27 символов) |
0 BMP | U + 1D00..U + 1D7F | Фонетические расширения | 128 | 128 | Кириллица (2 символа), греческий (15 символов), латинский (111 символов) |
0 BMP | U + 1D80..U + 1DBF | Дополнение к фонетическим расширениям | 64 | 64 | Греческий (1 символ), латинский (63 символа) |
0 BMP | У + 1DC0..U + 1DFF | Дополнение к комбинированным диакритическим знакам | 64 | 64 | Унаследовано |
0 BMP | U + 1E00..U + 1EFF | Расширенная латиница Дополнительная | 256 | 256 | латинский |
0 BMP | U + 1F00..U + 1FFF | Греческий расширенный | 256 | 233 | Греческий |
0 BMP | U + 2000..U + 206F | Общая пунктуация | 112 | 111 | Обычный (109 символов), Унаследованный (2 символа) |
0 BMP | U + 2070..U + 209F | Верхние и нижние индексы | 48 | 42 | Латинский (15 знаков), Обычный (27 знаков) |
0 BMP | U + 20A0..U + 20CF | Символы валюты | 48 | 33 | Общий |
0 BMP | U + 20D0..U + 20FF | Комбинирование диакритических знаков для символов | 48 | 33 | Унаследовано |
0 BMP | U + 2100..U + 214F | Буквоподобные символы | 80 | 80 | Греческий (1 символ), Латинский (4 символа), Обычный (75 символов) |
0 BMP | U + 2150..U + 218F | Числовые формы | 64 | 60 | Латинский (41 символ), Обычный (19 символов) |
0 BMP | U + 2190..U + 21FF | Стрелки | 112 | 112 | Общий |
0 BMP | U + 2200..U + 22FF | Математические операторы | 256 | 256 | Общий |
0 BMP | U + 2300..U + 23FF | Разное Техническое | 256 | 256 | Общий |
0 BMP | U + 2400..U + 243F | Контрольные изображения | 64 | 39 | Общий |
0 BMP | U + 2440..U + 245F | Оптическое распознавание символов | 32 | 11 | Общий |
0 BMP | U + 2460..U + 24FF | Вложенные буквенно-цифровые символы | 160 | 160 | Общий |
0 BMP | U + 2500..U + 257F | Рисунок Коробки | 128 | 128 | Общий |
0 BMP | U + 2580..U + 259F | Блочные элементы | 32 | 32 | Общий |
0 BMP | U + 25A0..U + 25FF | Геометрические фигуры | 96 | 96 | Общий |
0 BMP | U + 2600..U + 26FF | Разные символы | 256 | 256 | Общий |
0 BMP | U + 2700..U + 27BF | Дингбаты | 192 | 192 | Общий |
0 BMP | U + 27C0..U + 27EF | Разные математические символы-A | 48 | 48 | Общий |
0 BMP | U + 27F0..U + 27FF | Дополнительные стрелки-A | 16 | 16 | Общий |
0 BMP | U + 2800..U + 28FF | Шаблоны Брайля | 256 | 256 | Шрифт Брайля |
0 BMP | U + 2900..U + 297F | Дополнительные стрелки-B | 128 | 128 | Общий |
0 BMP | U + 2980..U + 29FF | Разные математические символы-B | 128 | 128 | Общий |
0 BMP | U + 2A00..U + 2AFF | Дополнительные математические операторы | 256 | 256 | Общий |
0 BMP | U + 2B00..U + 2BFF | Разные символы и стрелки | 256 | 253 | Общий |
0 BMP | U + 2C00..U + 2C5F | Глаголица | 96 | 96 | Глаголица |
0 BMP | У + 2C60..U + 2C7F | Расширенная латиница-C | 32 | 32 | латинский |
0 BMP | U + 2C80..U + 2CFF | Коптский | 128 | 123 | Коптский |
0 BMP | У + 2Д00..У + 2Д2Ф | Дополнение к Грузии | 48 | 40 | Грузинский |
0 BMP | У + 2Д30..У + 2Д7Ф | Тифинаг | 80 | 59 | Тифинаг |
0 BMP | У + 2Д80..У + 2ДДФ | Эфиопский расширенный | 96 | 79 | Эфиопский |
0 BMP | U + 2DE0..U + 2DFF | Кириллица расширенная-A | 32 | 32 | Кириллица |
0 BMP | U + 2E00..U + 2E7F | Дополнительная пунктуация | 128 | 94 | Общий |
0 BMP | U + 2E80..U + 2EFF | Приложение CJK Radicals | 128 | 115 | Хан |
0 BMP | U + 2F00..U + 2FDF | Kangxi Radicals | 224 | 214 | Хан |
0 BMP | U + 2FF0..U + 2FFF | Символы идеографического описания | 16 | 12 | Общий |
0 BMP | U + 3000..U + 303F | Символы и знаки препинания CJK | 64 | 64 | Хан (15 символов), Хангыль (2 символа), Обычный (43 символа), Унаследованный (4 символа) |
0 BMP | U + 3040..U + 309F | Хирагана | 96 | 93 | Хирагана (89 символов), Обычный (2 символа), Унаследованный (2 символа) |
0 BMP | U + 30A0..U + 30FF | Катакана | 96 | 96 | Катакана (93 символа), Обычный (3 символа) |
0 BMP | U + 3100..U + 312F | Бопомофо | 48 | 43 год | Бопомофо |
0 BMP | U + 3130..U + 318F | Совместимость с хангыль Джамо | 96 | 94 | Хангыль |
0 BMP | U + 3190..U + 319F | Канбун | 16 | 16 | Общий |
0 BMP | U + 31A0..U + 31BF | Бопомофо расширенный | 32 | 32 | Бопомофо |
0 BMP | U + 31C0..U + 31EF | CJK инсульты | 48 | 36 | Общий |
0 BMP | U + 31F0..U + 31FF | Фонетические расширения катаканы | 16 | 16 | Катакана |
0 BMP | U + 3200..U + 32FF | Прилагаемые письма и месяцы CJK | 256 | 255 | Хангыль (62 символа), Катакана (47 символов), Общий (146 символов) |
0 BMP | U + 3300..U + 33FF | Совместимость с CJK | 256 | 256 | Катакана (88 символов), Обычный (168 символов) |
0 BMP | U + 3400..U + 4DBF | Расширение унифицированных иероглифов CJK A | 6 592 | 6 592 | Хан |
0 BMP | У + 4DC0..U + 4DFF | Символы гексаграммы Ицзин | 64 | 64 | Общий |
0 BMP | U + 4E00..U + 9FFF | Единые иероглифы CJK | 20 992 | 20 992 | Хан |
0 BMP | U + A000..U + A48F | Yi слоги | 1,168 | 1,165 | Йи |
0 BMP | U + A490..U + A4CF | Yi Radicals | 64 | 55 | Йи |
0 BMP | U + A4D0..U + A4FF | Лису | 48 | 48 | Лису |
0 BMP | U + A500..U + A63F | Вай | 320 | 300 | Вай |
0 BMP | U + A640..U + A69F | Кириллица расширенная-B | 96 | 96 | Кириллица |
0 BMP | U + A6A0..U + A6FF | Бамум | 96 | 88 | Бамум |
0 BMP | U + A700..U + A71F | Тональные буквы модификатора | 32 | 32 | Общий |
0 BMP | U + A720..U + A7FF | Расширенная латиница-D | 224 | 193 | Латинский (188 символов), Обычный (5 символов) |
0 BMP | U + A800..U + A82F | Силоти Нагри | 48 | 45 | Силоти Нагри |
0 BMP | U + A830..U + A83F | Общие индийские числовые формы | 16 | 10 | Общий |
0 BMP | U + A840..U + A87F | Phags-pa | 64 | 56 | Phags Pa |
0 BMP | U + A880..U + A8DF | Саураштра | 96 | 82 | Саураштра |
0 BMP | U + A8E0..U + A8FF | Деванагари расширенный | 32 | 32 | Деванагари |
0 BMP | U + A900..U + A92F | Кая Ли | 48 | 48 | Кая Ли (47 символов), Обычный (1 символ) |
0 BMP | U + A930..U + A95F | Rejang | 48 | 37 | Rejang |
0 BMP | U + A960..U + A97F | Хангыль Джамо расширенный-А | 32 | 29 | Хангыль |
0 BMP | U + A980..U + A9DF | Яванский | 96 | 91 | Яванский (90 символов), общий (1 символ) |
0 BMP | U + A9E0..U + A9FF | Мьянма Extended-B | 32 | 31 год | Мьянма |
0 BMP | U + AA00..U + AA5F | Чам | 96 | 83 | Чам |
0 BMP | U + AA60..U + AA7F | Мьянма Extended-A | 32 | 32 | Мьянма |
0 BMP | U + AA80..U + AADF | Тай Вьет | 96 | 72 | Тай Вьет |
0 BMP | U + AAE0..U + AAFF | Расширения Meetei Mayek | 32 | 23 | Митей Майек |
0 BMP | U + AB00..U + AB2F | Эфиопский язык Extended-A | 48 | 32 | Эфиопский |
0 BMP | U + AB30..U + AB6F | Расширенная латиница-E | 64 | 60 | Латинский (56 символов), греческий (1 символ), общий (3 символа) |
0 BMP | U + AB70..U + ABBF | Дополнение Cherokee | 80 | 80 | Чероки |
0 BMP | U + ABC0..U + ABFF | Митей Майек | 64 | 56 | Митей Майек |
0 BMP | U + AC00..U + D7AF | Слоги хангыль | 11 184 | 11 172 | Хангыль |
0 BMP | U + D7B0..U + D7FF | Хангыль Джамо расширенный-B | 80 | 72 | Хангыль |
0 BMP | U + D800..U + DB7F | Высокие суррогаты | 896 | 0 | Неизвестный |
0 BMP | U + DB80..U + DBFF | Суррогаты с высоким уровнем частного использования | 128 | 0 | Неизвестный |
0 BMP | U + DC00..U + DFFF | Низкие суррогаты | 1,024 | 0 | Неизвестный |
0 BMP | U + E000..U + F8FF | Зона частного использования | 6 400 | 6 400 | Неизвестный |
0 BMP | U + F900..U + FAFF | Идеографы совместимости CJK | 512 | 472 | Хан |
0 BMP | U + FB00..U + FB4F | Алфавитные формы представления | 80 | 58 | Армянский (5 символов), иврит (46 символов), латинский (7 символов) |
0 BMP | U + FB50..U + FDFF | Формы представления на арабском языке-A | 688 | 631 | Арабский (629 символов), Общий (2 символа) |
0 BMP | U + FE00..U + FE0F | Селекторы вариаций | 16 | 16 | Унаследовано |
0 BMP | U + FE10..U + FE1F | Вертикальные формы | 16 | 10 | Общий |
0 BMP | U + FE20..U + FE2F | Комбинирование половинных отметок | 16 | 16 | Кириллица (2 символа), Наследуется (14 символов) |
0 BMP | U + FE30..U + FE4F | Формы совместимости CJK | 32 | 32 | Общий |
0 BMP | U + FE50..U + FE6F | Варианты малой формы | 32 | 26 год | Общий |
0 BMP | U + FE70..U + FEFF | Формы представления на арабском языке-B | 144 | 141 | Арабский (140 символов), общий (1 символ) |
0 BMP | U + FF00..U + FFEF | Формы половинной и полной ширины | 240 | 225 | Хангыль (52 символа), катакана (55 символов), латиница (52 символа), общий (66 символов) |
0 BMP | U + FFF0..U + FFFF | Специальные | 16 | 5 | Общий |
1 SMP | U + 10000..U + 1007F | Слоговое письмо линейного письма B | 128 | 88 | Линейное письмо B |
1 SMP | U + 10080..U + 100FF | Идеограммы линейного письма Б | 128 | 123 | Линейное письмо B |
1 SMP | U + 10100..U + 1013F | Эгейские числа | 64 | 57 год | Общий |
1 SMP | U + 10140..U + 1018F | Древнегреческие числа | 80 | 79 | Греческий |
1 SMP | U + 10190..U + 101CF | Древние символы | 64 | 14 | Греческий (1 символ), Общий (13 символов) |
1 SMP | U + 101D0..U + 101FF | Фестский диск | 48 | 46 | Обычный (45 символов), Унаследованный (1 символ) |
1 SMP | U + 10280..U + 1029F | Ликийский | 32 | 29 | Ликийский |
1 SMP | U + 102A0..U + 102DF | Карийский | 64 | 49 | Карийский |
1 SMP | U + 102E0..U + 102FF | Коптские номера эпактов | 32 | 28 год | Обычный (27 символов), Унаследованный (1 символ) |
1 SMP | U + 10300..U + 1032F | Старый курсив | 48 | 39 | Старый курсив |
1 SMP | U + 10330..U + 1034F | Готика | 32 | 27 | Готика |
1 SMP | U + 10350..U + 1037F | Старая Пермь | 48 | 43 год | Старая Пермь |
1 SMP | U + 10380..U + 1039F | Угаритский | 32 | 31 год | Угаритский |
1 SMP | U + 103A0..U + 103DF | Древнеперсидский | 64 | 50 | Древнеперсидский |
1 SMP | U + 10400..U + 1044F | Deseret | 80 | 80 | Deseret |
1 SMP | U + 10450..U + 1047F | Шавиан | 48 | 48 | Шавиан |
1 SMP | U + 10480..U + 104AF | Османья | 48 | 40 | Османья |
1 SMP | U + 104B0..U + 104FF | Осейдж | 80 | 72 | Осейдж |
1 SMP | U + 10500..U + 1052F | Эльбасан | 48 | 40 | Эльбасан |
1 SMP | U + 10530..U + 1056F | Кавказский албанский | 64 | 53 | Кавказский албанский |
1 SMP | U + 10570..U + 105BF | Виткуки | 80 | 70 | Виткуки |
1 SMP | U + 10600..U + 1077F | Линейное письмо А | 384 | 341 | Линейное письмо А |
1 SMP | U + 10780..U + 107BF | Расширенная латиница-F | 64 | 57 год | латинский |
1 SMP | U + 10800..U + 1083F | Кипрская слоговая азбука | 64 | 55 | Киприот |
1 SMP | U + 10840..U + 1085F | Императорский арамейский | 32 | 31 год | Императорский арамейский |
1 SMP | U + 10860..U + 1087F | Пальмирена | 32 | 32 | Пальмирена |
1 SMP | U + 10880..U + 108AF | Набатейский | 48 | 40 | Набатейский |
1 SMP | U + 108E0..U + 108FF | Хатран | 32 | 26 год | Хатран |
1 SMP | U + 10900..U + 1091F | Финикийский | 32 | 29 | Финикийский |
1 SMP | U + 10920..U + 1093F | Лидийский | 32 | 27 | Лидийский |
1 SMP | U + 10980..U + 1099F | Меройские иероглифы | 32 | 32 | Меройские иероглифы |
1 SMP | U + 109A0..U + 109FF | Меройский курсив | 96 | 90 | Меройский курсив |
1 SMP | U + 10A00..U + 10A5F | Харошти | 96 | 68 | Харошти |
1 SMP | U + 10A60..U + 10A7F | Старый южноаравийский | 32 | 32 | Старый южноаравийский |
1 SMP | U + 10A80..U + 10A9F | Старый северноаравийский | 32 | 32 | Старый северноаравийский |
1 SMP | U + 10AC0..U + 10AFF | Манихейский | 64 | 51 | Манихейский |
1 SMP | U + 10B00..U + 10B3F | Авестийский | 64 | 61 | Авестийский |
1 SMP | U + 10B40..U + 10B5F | Письменный парфянский | 32 | 30 | Письменный парфянский |
1 SMP | U + 10B60..U + 10B7F | Пехлеви с надписью | 32 | 27 | Пехлеви с надписью |
1 SMP | U + 10B80..U + 10BAF | Псалтырь Пехлеви | 48 | 29 | Псалтырь Пехлеви |
1 SMP | U + 10C00..U + 10C4F | Древнетюркский | 80 | 73 | Древнетюркский |
1 SMP | U + 10C80..U + 10CFF | Древневенгерский | 128 | 108 | Древневенгерский |
1 SMP | U + 10D00..U + 10D3F | Ханифи Рохинджа | 64 | 50 | Ханифи Рохинджа |
1 SMP | U + 10E60..U + 10E7F | Цифровые символы Руми | 32 | 31 год | арабский |
1 SMP | U + 10E80..U + 10EBF | Езиды | 64 | 47 | Езиды |
1 SMP | U + 10F00..U + 10F2F | Старый согдийский | 48 | 40 | Старый согдийский |
1 SMP | U + 10F30..U + 10F6F | Согдийский | 64 | 42 | Согдийский |
1 SMP | U + 10F70..U + 10FAF | Старый уйгурский | 64 | 26 год | Старый уйгурский |
1 SMP | U + 10FB0..U + 10FDF | Хорезмист | 48 | 28 год | Хорезмист |
1 SMP | U + 10FE0..U + 10FFF | Elymaic | 32 | 23 | Elymaic |
1 SMP | U + 11000..U + 1107F | Брахми | 128 | 115 | Брахми |
1 SMP | U + 11080..U + 110CF | Kaithi | 80 | 68 | Kaithi |
1 SMP | U + 110D0..U + 110FF | Сора Сомпенг | 48 | 35 год | Сора Сомпенг |
1 SMP | U + 11100..U + 1114F | Чакма | 80 | 71 | Чакма |
1 SMP | U + 11150..U + 1117F | Махаджани | 48 | 39 | Махаджани |
1 SMP | U + 11180..U + 111DF | Шарада | 96 | 96 | Шарада |
1 SMP | U + 111E0..U + 111FF | Сингальские архаические числа | 32 | 20 | Сингальский |
1 SMP | U + 11200..U + 1124F | Хойки | 80 | 62 | Хойки |
1 SMP | U + 11280..U + 112AF | Мултани | 48 | 38 | Мултани |
1 SMP | U + 112B0..U + 112FF | Худавади | 80 | 69 | Худавади |
1 SMP | U + 11300..U + 1137F | Гранта | 128 | 86 | Гранта (85 символов), Унаследовано (1 символ) |
1 SMP | U + 11400..U + 1147F | Newa | 128 | 97 | Newa |
1 SMP | U + 11480..U + 114DF | Тирхута | 96 | 82 | Тирхута |
1 SMP | U + 11580..U + 115FF | Сиддхам | 128 | 92 | Сиддхам |
1 SMP | U + 11600..U + 1165F | Моди | 96 | 79 | Моди |
1 SMP | U + 11660..U + 1167F | Монгольское дополнение | 32 | 13 | Монгольский |
1 SMP | U + 11680..U + 116CF | Такри | 80 | 68 | Такри |
1 SMP | U + 11700..U + 1174F | Ахом | 80 | 65 | Ахом |
1 SMP | U + 11800..U + 1184F | Догра | 80 | 60 | Догра |
1 SMP | U + 118A0..U + 118FF | Варанг Сити | 96 | 84 | Варанг Сити |
1 SMP | U + 11900..U + 1195F | Дайвс Акуру | 96 | 72 | Дайвс Акуру |
1 SMP | U + 119A0..U + 119FF | Нандинагари | 96 | 65 | Нандинагари |
1 SMP | U + 11A00..U + 11A4F | Площадь Занабазар | 80 | 72 | Площадь Занабазар |
1 SMP | U + 11A50..U + 11AAF | Соёмбо | 96 | 83 | Соёмбо |
1 SMP | U + 11AB0..U + 11ABF | Унифицированная слоговая речь канадских аборигенов расширенная-A | 16 | 16 | Канадские аборигены |
1 SMP | U + 11AC0..U + 11AFF | Пау Чин Хау | 64 | 57 год | Пау Чин Хау |
1 SMP | U + 11C00..U + 11C6F | Bhaiksuki | 112 | 97 | Bhaiksuki |
1 SMP | U + 11C70..U + 11CBF | Марчен | 80 | 68 | Марчен |
1 SMP | U + 11D00..U + 11D5F | Масарам Гонди | 96 | 75 | Масарам Гонди |
1 SMP | U + 11D60..U + 11DAF | Гунджала Гонди | 80 | 63 | Гунджала Гонди |
1 SMP | U + 11EE0..U + 11EFF | Макасар | 32 | 25 | Макасар |
1 SMP | U + 11FB0..U + 11FBF | Дополнение Лису | 16 | 1 | Лису |
1 SMP | U + 11FC0..U + 11FFF | Тамильское дополнение | 64 | 51 | Тамильский |
1 SMP | U + 12000..U + 123FF | Клинопись | 1,024 | 922 | Клинопись |
1 SMP | U + 12400..U + 1247F | Клинописные числа и знаки препинания | 128 | 116 | Клинопись |
1 SMP | U + 12480..U + 1254F | Раннединастическая клинопись | 208 | 196 | Клинопись |
1 SMP | U + 12F90..U + 12FFF | Кипро-минойский | 112 | 99 | Кипро-минойский |
1 SMP | U + 13000..U + 1342F | Египетские иероглифы | 1072 | 1,071 | Египетские иероглифы |
1 SMP | U + 13430..U + 1343F | Элементы управления форматом египетских иероглифов | 16 | 9 | Египетские иероглифы |
1 SMP | U + 14400..U + 1467F | Анатолийские иероглифы | 640 | 583 | Анатолийские иероглифы |
1 SMP | U + 16800..U + 16A3F | Бамум Дополнение | 576 | 569 | Бамум |
1 SMP | U + 16A40..U + 16A6F | Mro | 48 | 43 год | Mro |
1 SMP | U + 16A70..U + 16ACF | Танса | 96 | 89 | Танса |
1 SMP | U + 16AD0..U + 16AFF | Басса Вах | 48 | 36 | Басса Вах |
1 SMP | U + 16B00..U + 16B8F | Пахау Хмонг | 144 | 127 | Пахау Хмонг |
1 SMP | U + 16E40..U + 16E9F | Медефайдрин | 96 | 91 | Медефайдрин |
1 SMP | U + 16F00..U + 16F9F | Мяо | 160 | 149 | Мяо |
1 SMP | U + 16FE0..U + 16FFF | Идеографические символы и знаки препинания | 32 | 7 | Хан (4 символа), Киданьский маленький шрифт (1 символ), Нушу (1 символ), Тангут (1 символ) |
1 SMP | U + 17000..U + 187FF | Тангутский | 6 144 | 6136 | Тангутский |
1 SMP | U + 18800..U + 18AFF | Тангутские компоненты | 768 | 768 | Тангутский |
1 SMP | U + 18B00..U + 18CFF | Киданьский маленький шрифт | 512 | 470 | Киданьский маленький шрифт |
1 SMP | U + 18D00..U + 18D7F | Тангутская добавка | 128 | 9 | Тангутский |
1 SMP | U + 1AFF0..U + 1AFFF | Кана Расширенная-B | 16 | 13 | Катакана |
1 SMP | U + 1B000..U + 1B0FF | Дополнение кана | 256 | 256 | Хирагана (255 символов), Катакана (1 символ) |
1 SMP | U + 1B100..U + 1B12F | Кана Расширенная-А | 48 | 35 год | Хирагана (32 символа), Катакана (3 символа) |
1 SMP | U + 1B130..U + 1B16F | Маленькое расширение Кана | 64 | 7 | Хирагана (3 символа), Катакана (4 символа) |
1 SMP | U + 1B170..U + 1B2FF | Нушу | 400 | 396 | Нюшу |
1 SMP | U + 1BC00..U + 1BC9F | Дуплоян | 160 | 143 | Дуплоян |
1 SMP | U + 1BCA0..U + 1BCAF | Элементы управления сокращенным форматом | 16 | 4 | Общий |
1 SMP | U + 1CF00..U + 1CFCF | Знаменная нотная запись | 208 | 185 | Обычный (116 символов), Унаследованный (69 символов) |
1 SMP | U + 1D000..U + 1D0FF | Византийские музыкальные символы | 256 | 246 | Общий |
1 SMP | U + 1D100..U + 1D1FF | Музыкальные символы | 256 | 233 | Обычный (211 символов), Унаследованный (22 символа) |
1 SMP | U + 1D200..U + 1D24F | Древнегреческая музыкальная нотация | 80 | 70 | Греческий |
1 SMP | U + 1D2E0..U + 1D2FF | Цифры майя | 32 | 20 | Общий |
1 SMP | У + 1Д300..У + 1Д35Ф | Символы Тай Сюань Цзин | 96 | 87 | Общий |
1 SMP | U + 1D360..U + 1D37F | Счетные числа на стержнях | 32 | 25 | Общий |
1 SMP | У + 1D400..U + 1D7FF | Математические буквенно-цифровые символы | 1,024 | 996 | Общий |
1 SMP | U + 1D800..U + 1DAAF | Знак Саттона | 688 | 672 | Знак |
1 SMP | U + 1DF00..U + 1DFFF | Расширенная латиница-G | 256 | 31 год | латинский |
1 SMP | U + 1E000..U + 1E02F | Дополнение к глаголице | 48 | 38 | Глаголица |
1 SMP | U + 1E100..U + 1E14F | Nyiakeng Puachue Hmong | 80 | 71 | Nyiakeng Puachue Hmong |
1 SMP | U + 1E290..U + 1E2BF | Тото | 48 | 31 год | Тото |
1 SMP | U + 1E2C0..U + 1E2FF | Wancho | 64 | 59 | Wancho |
1 SMP | U + 1E7E0..U + 1E7FF | Эфиопский расширенный-B | 32 | 28 год | Эфиопский |
1 SMP | U + 1E800..U + 1E8DF | Mende Kikakui | 224 | 213 | Mende Kikakui |
1 SMP | U + 1E900..U + 1E95F | Адлам | 96 | 88 | Адлам |
1 SMP | U + 1EC70..U + 1ECBF | Индийские числа сияк | 80 | 68 | Общий |
1 SMP | U + 1ED00..U + 1ED4F | Османские числа Siyaq | 80 | 61 | Общий |
1 SMP | U + 1EE00..U + 1EEFF | Арабские математические алфавитные символы | 256 | 143 | арабский |
1 SMP | U + 1F000..U + 1F02F | Плитки для маджонга | 48 | 44 год | Общий |
1 SMP | U + 1F030..U + 1F09F | Домино Плитка | 112 | 100 | Общий |
1 SMP | U + 1F0A0..U + 1F0FF | Играя в карты | 96 | 82 | Общий |
1 SMP | U + 1F100..U + 1F1FF | Закрытое буквенно-цифровое приложение | 256 | 200 | Общий |
1 SMP | U + 1F200..U + 1F2FF | Прилагаемое идеографическое приложение | 256 | 64 | Хирагана (1 символ), Обычный (63 символа) |
1 SMP | U + 1F300..U + 1F5FF | Разные символы и пиктограммы | 768 | 768 | Общий |
1 SMP | U + 1F600..U + 1F64F | Смайлики | 80 | 80 | Общий |
1 SMP | U + 1F650..U + 1F67F | Декоративные дингбаты | 48 | 48 | Общий |
1 SMP | U + 1F680..U + 1F6FF | Транспортные и картографические символы | 128 | 117 | Общий |
1 SMP | U + 1F700..U + 1F77F | Алхимические символы | 128 | 116 | Общий |
1 SMP | U + 1F780..U + 1F7FF | Расширенные геометрические фигуры | 128 | 102 | Общий |
1 SMP | U + 1F800..U + 1F8FF | Дополнительные стрелки-C | 256 | 150 | Общий |
1 SMP | U + 1F900..U + 1F9FF | Дополнительные символы и пиктограммы | 256 | 256 | Общий |
1 SMP | U + 1FA00..U + 1FA6F | Шахматные символы | 112 | 98 | Общий |
1 SMP | U + 1FA70..U + 1FAFF | Расширенные символы и пиктограммы-A | 144 | 88 | Общий |
1 SMP | U + 1FB00..U + 1FBFF | Символы для устаревших вычислений | 256 | 212 | Общий |
2 глотка | U + 20000..U + 2A6DF | Расширение B унифицированных иероглифов CJK | 42 720 | 42 720 | Хан |
2 глотка | U + 2A700..U + 2B73F | Расширение унифицированных иероглифов CJK C | 4 160 | 4 153 | Хан |
2 глотка | U + 2B740..U + 2B81F | Расширение унифицированных иероглифов CJK D | 224 | 222 | Хан |
2 глотка | U + 2B820..U + 2CEAF | Расширение унифицированных иероглифов CJK E | 5776 | 5762 | Хан |
2 глотка | U + 2CEB0..U + 2EBEF | Расширение унифицированных иероглифов CJK F | 7 488 | 7 473 | Хан |
2 глотка | U + 2F800..U + 2FA1F | Приложение к идеографам совместимости CJK | 544 | 542 | Хан |
3 СОВЕТ | U + 30000..U + 3134F | Расширение унифицированных иероглифов CJK G | 4944 | 4939 | Хан |
14 SSP | U + E0000..U + E007F | Теги | 128 | 97 | Общий |
14 SSP | U + E0100..U + E01EF | Дополнение к селекторам вариаций | 240 | 240 | Унаследовано |
15 PUA-A | U + F0000..U + FFFFF | Зона дополнительного частного использования-A | 65 536 | 65 534 | Неизвестный |
16 PUA-B | U + 100000..U + 10FFFF | Дополнительная зона частного использования-B | 65 536 | 65 534 | Неизвестный |
Сценарий
Каждый назначенный символ может иметь одно значение для своего свойства «Сценарий», указывающее, к какому сценарию он принадлежит. Значение представляет собой четырехбуквенный код в диапазоне Aaaa-Zzzz, как это доступно в ISO 15924, который отображается в систему записи . Помимо описания фона и использования сценария, Unicode не использует связь между сценарием и языками, которые используют этот сценарий. Итак, «иврит» относится к еврейскому письму, а не к еврейскому языку.
Специальный код Zyyy для «Common» допускает одно значение для символа, который используется в нескольких сценариях. Код Zinh «Унаследованный сценарий», используемый для комбинирования символов и некоторых других кодовых точек специального назначения, указывает на то, что символ «наследует» свою идентичность сценария от символа, с которым он комбинируется. (В Unicode для этой цели раньше использовался частный код Qaai.) Код Zzzz «Неизвестно» используется для всех символов, которые не принадлежат сценарию (т. Е. Значения по умолчанию), таких как символы и символы форматирования. В целом, символы одного скрипта могут быть разбросаны по нескольким блокам, как латинские символы . И наоборот: в одном блоке может присутствовать несколько скриптов, например, блок Letterlike Symbols содержит символы из латинского, греческого и обычного скриптов.
Когда сценарий "" (пустой), в соответствии с Unicode символ не принадлежит сценарию. Это относится к символам, поскольку существующие коды сценариев ISO «Zmth» (математическая нотация), «Zsym» (символ) и «Zsye» (символ, вариант эмодзи) не используются в Unicode. Свойство «Сценарий» также пусто для кодовых точек, не являющихся типографскими символами, таких как элементы управления, замены и кодовые точки для частного использования.
Если есть конкретный сценарий имя псевдонима в ISO 15924, она используется в имени персонажа: U + 0041 A LATIN заглавной буквы A , и U + 05D0 א ЕВРЕЙСКОГО ПИСЬМО Алеф .
ISO 15924 | Скрипт в Юникоде | ||||||
---|---|---|---|---|---|---|---|
Код | Официальное название ISO | Направленность | Unicode псевдоним | Версия | Символы | Примечания | Описание |
Adlm | Адлам | сценарий с написанием справа налево | Адлам | 9.0 | 88 | Ch 19.9 | |
Афак | Афака | варьируется | - Не в Unicode, предложение изучается | ||||
Aghb | Кавказский албанский | слева направо | Кавказский албанский | 7.0 | 53 | Древний / исторический | Ch 8.11 |
Ахом | Ахом, Тай Ахом | слева направо | Ахом | 8.0 | 65 | Древний / исторический | Ch 15.15 |
Араб | арабский | сценарий с написанием справа налево | арабский | 1.0 | 1,365 | Ch 9.2 | |
Аран | Арабский (вариант насталик) | смешанный | § арабский ) | - Типографский вариант арабского языка (||||
Арми | Императорский арамейский | сценарий с написанием справа налево | Императорский арамейский | 5.2 | 31 год | Древний / исторический | Ch 10.4 |
Armn | Армянский | слева направо | Армянский | 1.0 | 96 | Ch 7.6 | |
Avst | Авестийский | сценарий с написанием справа налево | Авестийский | 5.2 | 61 | Древний / исторический | Ch 10.7 |
Бали | Балийский | слева направо | Балийский | 5.0 | 124 | Ch 17.3 | |
Баму | Бамум | слева направо | Бамум | 5.2 | 657 | Ch 19.6 | |
Бас | Басса Вах | слева направо | Басса Вах | 7.0 | 36 | Древний / исторический | Ch 19.7 |
Батк | Батак | слева направо | Батак | 6.0 | 56 | Ch 17.6 | |
Beng | Бенгальский (бангла) | слева направо | Бенгальский | 1.0 | 96 | Ch 12.2 | |
Bhks | Bhaiksuki | слева направо | Bhaiksuki | 9.0 | 97 | Древний / исторический | Ch 14.3 |
Blis | Блиссимволы | варьируется | - Не в Unicode, предложение изучается | ||||
Бопо | Бопомофо | слева направо | Бопомофо | 1.0 | 77 | Ch 18.3 | |
Брах | Брахми | слева направо | Брахми | 6.0 | 115 | Древний / исторический | Ch 14.1 |
Brai | Шрифт Брайля | слева направо | Шрифт Брайля | 3.0 | 256 | Ch 21.1 | |
Буги | Бугийский | слева направо | Бугийский | 4.1 | 30 | Ch 17.2 | |
Buhd | Бухид | слева направо | Бухид | 3.2 | 20 | Ch 17.1 | |
Cakm | Чакма | слева направо | Чакма | 6.1 | 71 | Ch 13.11 | |
Банки | Единое слоговое письмо канадских аборигенов | слева направо | Канадские аборигены | 3.0 | 726 | Ch 20.2 | |
Кари | Карийский | сценарий слева направо, справа налево | Карийский | 5.1 | 49 | Древний / исторический | Глава 8.5 |
Чам | Чам | слева направо | Чам | 5.1 | 83 | Ch 16.10 | |
Шер | Чероки | слева направо | Чероки | 3.0 | 172 | Ch 20.1 | |
Chrs | Хорезмист | скрипт справа налево , сверху вниз | Хорезмист | 13,0 | 28 год | Древний / исторический | Ch 10.8 |
Cirt | Cirth | варьируется | - Не в Юникоде | ||||
Копт | Коптский | слева направо | Коптский | 1.0 | 137 | Древний / исторический, разделенный с греческим в 4.1 | Глава 7.3 |
Cpmn | Кипро-минойский | слева направо | Кипро-минойский | 14.0 | 99 | Древний / исторический | Ch 8.4 |
Cprt | Кипрское слоговое письмо | сценарий с написанием справа налево | Киприот | 4.0 | 55 | Древний / исторический | Глава 8.3 |
Кирл | Кириллица | слева направо | Кириллица | 1.0 | 443 | Включает типографский вариант на старославянском языке ( § Cyrs) | Глава 7.4 |
Cyrs | Кириллица (старославянский вариант) | варьируется | § Cyrl ) | - Типографский вариант кириллицы (Древний / исторический | |||
Дева | Деванагари (Нагари) | слева направо | Деванагари | 1.0 | 154 | Ch 12.1 | |
Диак | Дайвс Акуру | слева направо | Дайвс Акуру | 13,0 | 72 | Древний / исторический | Ch 15.14 |
Dogr | Догра | слева направо | Догра | 11.0 | 60 | Древний / исторический | Ch 15.17 |
Dsrt | Дезерет (мормон) | слева направо | Deseret | 3.1 | 80 | Ch 20.4 | |
Dupl | Стенография Дуплояна, стенография Дуплояна | слева направо | Дуплоян | 7.0 | 143 | Ch 21.6 | |
Египет | Египетский демотик | смешанный | - Не в Юникоде | ||||
Египет | Египетский иератический | смешанный | - Не в Юникоде | ||||
Египетский | Египетские иероглифы | сценарий с написанием справа налево | Египетские иероглифы | 5.2 | 1,080 | Древний / исторический | Ch 11.4 |
Эльба | Эльбасан | слева направо | Эльбасан | 7.0 | 40 | Древний / исторический | Ch 8.10 |
Элим | Elymaic | сценарий с написанием справа налево | Elymaic | 12.0 | 23 | Древний / исторический | Ch 10.9 |
Эти | Эфиопский (геэз) | слева направо | Эфиопский | 3.0 | 523 | Ch 19.1 | |
Геок | Хуцури (Асомтаврули и Нусхури) | слева направо | Грузинский | Группы Unicode «Хуцори», «Асомтаврули» и «Нусхури» на «грузинский» ( § Геок ). Также «Мхедрули» и «Мтаврули» являются «грузинскими» ( § Геор ) | Ch 7.7 | ||
Геор | Грузинский (мхедрули и мтаврули) | слева направо | Грузинский | 1.0 | 173 | В Unicode также включает Геок (Нусхури) | Ch 7.7 |
Glag | Глаголица | слева направо | Глаголица | 4.1 | 134 | Древний / исторический | Ch 7.5 |
Гонг | Гунджала Гонди | слева направо | Гунджала Гонди | 11.0 | 63 | Ch 13.15 | |
Гонм | Масарам Гонди | слева направо | Масарам Гонди | 10.0 | 75 | Ch 13.14 | |
Гот | Готика | слева направо | Готика | 3.1 | 27 | Древний / исторический | Ch 8.9 |
Бабушка | Гранта | слева направо | Гранта | 7.0 | 85 | Древний / исторический | Ch 15.13 |
Грек | Греческий | слева направо | Греческий | 1.0 | 518 | Направленность иногда как бустрофедон | Глава 7.2 |
Гуджр | Гуджарати | слева направо | Гуджарати | 1.0 | 91 | Ch 12.4 | |
Гуру | Гурмукхи | слева направо | Гурмукхи | 1.0 | 80 | Ch 12.3 | |
Ханб | Хан с Бопомофо (псевдоним Хан + Бопомофо) | смешанный | § Хани , § Бопо | - См.||||
Вешать | Хангыль (Hangŭl, Hangeul) | слева направо, сверху вниз | Хангыль | 1.0 | 11 739 | Слоги хангыль перемещены в 2.0 | Ch 18.6 |
Хани | Хан (ханзи, кандзи, ханджа) | сверху вниз, столбцы справа налево (исторически) | Хан | 1.0 | 94 215 | Ch 18.1 | |
Hano | Хануноо (Hanunóo) | слева направо, снизу вверх | Хануноо | 3.2 | 21 год | Ch 17.1 | |
Ганс | Хан (упрощенный вариант) | варьируется | § хани ) | - Подмножество хань (ханзи, кандзи, ханджа) (||||
Хант | Хан (традиционный вариант) | варьируется | § Хани | - Подмножество||||
Hatr | Хатран | сценарий с написанием справа налево | Хатран | 8.0 | 26 год | Древний / исторический | Ch 10.12 |
Hebr | иврит | сценарий с написанием справа налево | иврит | 1.0 | 134 | Ch 9.1 | |
Хира | Хирагана | сверху вниз, слева направо | Хирагана | 1.0 | 380 | Ch 18.4 | |
Hluw | Анатолийские иероглифы (лувийские иероглифы, хеттские иероглифы) | слева направо | Анатолийские иероглифы | 8.0 | 583 | Древний / исторический | Ch 11.6 |
Hmng | Пахау Хмонг | слева направо | Пахау Хмонг | 7.0 | 127 | Ch 16.11 | |
Hmnp | Nyiakeng Puachue Hmong | слева направо | Nyiakeng Puachue Hmong | 12.0 | 71 | Ch 16.12 | |
Hrkt | Слоговые алфавиты японского языка (псевдоним Хирагана + Катакана) | сверху вниз, слева направо | Катакана или Хирагана | См. § Хира , § Кана | Ch 18.4 | ||
Висела | Древневенгерский (венгерский рунический) | сценарий с написанием справа налево | Древневенгерский | 8.0 | 108 | Древний / исторический | Ch 8.8 |
Inds | Инд (Хараппан) | смешанный | - Не в Unicode, предложение изучается | ||||
Ital | Старый курсив (этрусский, осканский и др.) | сценарий с письмом справа налево , слева направо | Старый курсив | 3.1 | 39 | Древний / исторический | Ch 8.6 |
Джамо | Джамо (псевдоним Jamo подмножества хангыль) | варьируется | § Hang | - Подмножество||||
Джава | Яванский | слева направо | Яванский | 5.2 | 90 | Ch 17.4 | |
Jpan | Японский (псевдоним Хан + Хирагана + Катакана) | варьируется | § Хани , § Хира и § Кана | - См.||||
Jurc | Чжурчжэнь | слева направо | - Не в Юникоде | ||||
Кали | Кая Ли | слева направо | Кая Ли | 5.1 | 47 | Ch 16.9 | |
Кана | Катакана | сверху вниз, слева направо | Катакана | 1.0 | 320 | Ch 18.4 | |
Хар | Харошти | сценарий с написанием справа налево | Харошти | 4.1 | 68 | Древний / исторический | Ch 14.2 |
Кхмр | Кхмерский | слева направо | Кхмерский | 3.0 | 146 | Ch 16.4 | |
Ходж | Хойки | слева направо | Хойки | 7.0 | 62 | Древний / исторический | Ch 15.7 |
Китл | Кидань большой шрифт | слева направо | - Не в Юникоде | ||||
Наборы | Киданьский маленький шрифт | сверху вниз | Киданьский маленький шрифт | 13,0 | 471 | Древний / исторический | Ch 18.12 |
Knda | Каннада | слева направо | Каннада | 1.0 | 90 | Ch 12.8 | |
Kore | Корейский (псевдоним хангыль + хань) | слева направо | § Hani , § Hang | - См.||||
Kpel | Kpelle | слева направо | - Не в Unicode, предложение изучается | ||||
Кти | Kaithi | слева направо | Kaithi | 5.2 | 68 | Древний / исторический | Ch 15.2 |
Лана | Тай Тхам (Ланна) | слева направо | Тай Тхам | 5.2 | 127 | Ch 16.7 | |
Лаоо | Лаосский | слева направо | Лаосский | 1.0 | 82 | Ch 16.2 | |
Latf | Латинский (вариант Fraktur) | варьируется | § Latn ) | - Типографский вариант латыни (||||
Латг | Латинский (гэльский вариант) | слева направо | § Latn ) | - Типографский вариант латыни (||||
Latn | латинский | слева направо | латинский | 1.0 | 1,475 | См. Также: Латинский шрифт в Юникоде | Глава 7.1 |
Leke | Leke | слева направо | - Не в Юникоде | ||||
Лепц | Лепча (Ронг) | слева направо | Лепча | 5.1 | 74 | Ch 13.12 | |
Конечность | Лимбу | слева направо | Лимбу | 4.0 | 68 | Ch 13.6 | |
Лина | Линейное письмо А | слева направо | Линейное письмо А | 7.0 | 341 | Древний / исторический | Глава 8.1 |
Linb | Линейное письмо B | слева направо | Линейное письмо B | 4.0 | 211 | Древний / исторический | Глава 8.2 |
Лису | Лису (Фрейзер) | слева направо | Лису | 5.2 | 49 | Ch 18.9 | |
Лома | Лома | слева направо | - Не в Unicode, предложение изучается | ||||
Lyci | Ликийский | слева направо | Ликийский | 5.1 | 29 | Древний / исторический | Глава 8.5 |
Lydi | Лидийский | сценарий с написанием справа налево | Лидийский | 5.1 | 27 | Древний / исторический | Глава 8.5 |
Mahj | Махаджани | слева направо | Махаджани | 7.0 | 39 | Древний / исторический | Ch 15.6 |
Мака | Макасар | слева направо | Макасар | 11.0 | 25 | Древний / исторический | Ch 17.8 |
Манд | Мандайский, мандейский | сценарий с написанием справа налево | Мандаикский | 6.0 | 29 | Ch 9.5 | |
Мани | Манихейский | сценарий с написанием справа налево | Манихейский | 7.0 | 51 | Древний / исторический | Ch 10.5 |
Марк | Марчен | слева направо | Марчен | 9.0 | 68 | Древний / исторический | Ch 14.5 |
майя | Иероглифы майя | смешанный | - Не в Юникоде | ||||
Медф | Медефайдрин (Обери Окайме, Обери Окаимо) | слева направо, слева направо | Медефайдрин | 11.0 | 91 | Ch 19.10 | |
Исправить | Mende Kikakui | сценарий с написанием справа налево | Mende Kikakui | 7.0 | 213 | Ch 19.8 | |
Merc | Меройский курсив | сценарий с написанием справа налево | Меройский курсив | 6.1 | 90 | Древний / исторический | Ch 11.5 |
Меро | Меройские иероглифы | сценарий с написанием справа налево | Меройские иероглифы | 6.1 | 32 | Древний / исторический | Ch 11.5 |
Млым | Малаялам | слева направо | Малаялам | 1.0 | 118 | Ch 12.9 | |
Моди | Моди, Moḍī | слева направо | Моди | 7.0 | 79 | Древний / исторический | Ch 15.11 |
Монг | Монгольский | сверху вниз, слева направо | Монгольский | 3.0 | 168 | Mong включает ясные и маньчжурские скрипты | Ch 13.5 |
Луна | Луна (код Луны, сценарий Луны, тип Луны) | смешанный | - Не в Unicode, предложение изучается | ||||
Mroo | Мро, Мру | слева направо | Mro | 7.0 | 43 год | Ch 13.8 | |
Мтей | Мейтей Майек (Meithei, Meetei) | слева направо | Митей Майек | 5.2 | 79 | Ch 13.7 | |
Mult | Мултани | слева направо | Мултани | 8.0 | 38 | Древний / исторический | Ch 15.9 |
Mymr | Мьянма (бирманский) | слева направо | Мьянма | 3.0 | 223 | Ch 16.3 | |
Nand | Нандинагари | слева направо | Нандинагари | 12.0 | 65 | Древний / исторический | Ch 15.12 |
Нарб | Старый северноаравийский (древний северноаравийский) | справа налево скрипт , справа левый скрипт | Старый северноаравийский | 7.0 | 32 | Древний / исторический | Ch 10.1 |
Нбат | Набатейский | сценарий с написанием справа налево | Набатейский | 7.0 | 40 | Древний / исторический | Ch 10.10 |
Newa | Нева, невар, невари, непала липи | слева направо | Newa | 9.0 | 97 | Ch 13.3 | |
Nkdb | Наси Донгба (na²¹ɕi³³ to³³ba²¹, Nakhi Tomba) | слева направо | - Не в Юникоде | ||||
НКГБ | Накхи Геба (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-baw, Накхи Геба) | слева направо | - Не в Unicode, предложение изучается | ||||
Nkoo | N'Ko | сценарий с написанием справа налево | НКо | 5.0 | 62 | Ch 19.4 | |
Ншу | Нюшу | сверху вниз | Нушу | 10.0 | 397 | Ch 18.8 | |
Огам | Огам | снизу вверх, слева направо | Огам | 3.0 | 29 | Древний / исторический | Ch 8.14 |
Olck | Ол Чики (Ol Cemet ', Ol, Santali) | слева направо | Ol Chiki | 5.1 | 48 | Ch 13.10 | |
Орх | Древнетюркский, орхонский рунический | сценарий с написанием справа налево | Древнетюркский | 5.2 | 73 | Древний / исторический | Ch 14.8 |
Оря | Ория (Одиа) | слева направо | Ория | 1.0 | 91 | Ch 12.5 | |
Osge | Осейдж | слева направо | Осейдж | 9.0 | 72 | Ch 20.3 | |
Осма | Османья | слева направо | Османья | 4.0 | 40 | Ch 19.2 | |
Ougr | Старый уйгурский | смешанный | Старый уйгурский | 14.0 | 26 год | Древний / исторический | Ch 14.11 |
Пальма | Пальмирена | сценарий с написанием справа налево | Пальмирена | 7.0 | 32 | Древний / исторический | Ch 10.11 |
Паук | Пау Чин Хау | слева направо | Пау Чин Хау | 7.0 | 57 год | Ch 16.13 | |
Pcun | Прото-клинопись | слева направо | - Не в Юникоде | ||||
Пельм | Протоэламский | слева направо | - Не в Юникоде | ||||
Пермь | Старая Пермь | слева направо | Старая Пермь | 7.0 | 43 год | Древний / исторический | Ch 8.13 |
Phag | Phags-pa | сверху вниз | Phags-pa | 5.0 | 56 | Древний / исторический | Ch 14.4 |
Phli | Пехлеви с надписью | сценарий с написанием справа налево | Пехлеви с надписью | 5.2 | 27 | Древний / исторический | Ch 10.6 |
Phlp | Псалтырь Пехлеви | сценарий с написанием справа налево | Псалтырь Пехлеви | 7.0 | 29 | Древний / исторический | Ch 10.6 |
Phlv | Бронировать Пехлеви | смешанный | - Не в Юникоде | ||||
Phnx | Финикийский | сценарий с написанием справа налево | Финикийский | 5.0 | 29 | Древний / исторический | Ch 10.3 |
Piqd | КЛИНГОН (KLI pIqaD) | слева направо | - Отклонено для включения в Unicode | ||||
Plrd | Мяо (Поллард) | слева направо | Мяо | 6.1 | 149 | Ch 18.10 | |
Прти | Письменный парфянский | сценарий с написанием справа налево | Письменный парфянский | 5.2 | 30 | Древний / исторический | Ch 10.6 |
Псин | Прото-синайский | смешанный | - Не в Юникоде | ||||
Qaaa-Qabx | Зарезервировано для частного использования (диапазон) | - Не в Юникоде | |||||
Ранж | Ранджана | слева направо | - Не в Юникоде | ||||
Rjng | Реджанг (Реджанг, Каганга) | слева направо | Rejang | 5.1 | 37 | Ch 17.5 | |
Рог | Ханифи Рохинджа | сценарий с написанием справа налево | Ханифи Рохинджа | 11.0 | 50 | Ch 16.14 | |
Роро | Ронгоронго | смешанный | - Не в Unicode, предложение изучается | ||||
Runr | Рунический | слева направо, бустрофедон | Рунический | 3.0 | 86 | Древний / исторический | Ch 8.7 |
Samr | Самаритянин | скрипт справа налево , сверху вниз | Самаритянин | 5.2 | 61 | Ch 9.4 | |
Сара | Сарати | смешанный | - Не в Юникоде | ||||
Сарб | Старый южноаравийский | сценарий с написанием справа налево | Старый южноаравийский | 5.2 | 32 | Древний / исторический | Ch 10.2 |
Саур | Саураштра | слева направо | Саураштра | 5.1 | 82 | Ch 13.13 | |
Sgnw | Знак | сверху вниз | Знак | 8.0 | 672 | Ch 21.7 | |
Шоу | Шавиан (Шоу) | слева направо | Шавиан | 4.0 | 48 | Ch 8.15 | |
Шрд | Шарада, Шарада | слева направо | Шарада | 6.1 | 96 | Ch 15.3 | |
Шуй | Шуйшу | слева направо | - Не в Юникоде | ||||
Сидд | Сиддхам, Сиддхах, Сиддхаматрика | слева направо | Сиддхам | 7.0 | 92 | Древний / исторический | Ch 15.5 |
Синд | Худавади, синдхи | слева направо | Худавади | 7.0 | 69 | Ch 15.8 | |
Sinh | Сингальский | слева направо | Сингальский | 3.0 | 111 | Ch 13.2 | |
Согдийская | Согдийский | горизонтальное и вертикальное письмо восточноазиатскими шрифтами сверху вниз | Согдийский | 11.0 | 42 | Древний / исторический | Ch 14.10 |
Сого | Старый согдийский | сценарий с написанием справа налево | Старый согдийский | 11.0 | 40 | Древний / исторический | Ch 14.9 |
Сора | Сора Сомпенг | слева направо | Сора Сомпенг | 6.1 | 35 год | Ch 15.16 | |
Сойо | Соёмбо | слева направо | Соёмбо | 10.0 | 83 | Древний / исторический | Ch 14.7 |
Сунд | Суданский | слева направо | Суданский | 5.1 | 72 | Ch 17.7 | |
Sylo | Силоти Нагри | слева направо | Силоти Нагри | 4.1 | 45 | Древний / исторический | Ch 15.1 |
Syrc | Сирийский | сценарий с написанием справа налево | Сирийский | 3.0 | 88 | Включает типографские варианты Estrangelo ( § Syre ), Western ( § Syrj ) и Eastern ( § Syrn ) | Ch 9.3 |
Сырье | Сирийский (вариант Эстранджело) | смешанный | § Syrc ) | - Типографский вариант сирийского языка (||||
Сырдж | Сирийский (западный вариант) | смешанный | § Syrc ) | - Типографский вариант сирийского языка (||||
Сырн | Сирийский (восточный вариант) | смешанный | § Syrc ) | - Типографский вариант сирийского языка (||||
Tagb | Tagbanwa | слева направо | Tagbanwa | 3.2 | 18 | Ch 17.1 | |
Такр | Такри, Шакри, Шанкри | слева направо | Такри | 6.1 | 68 | Ch 15.4 | |
Сказка | Тай Ле | слева направо | Тай Ле | 4.0 | 35 год | Ch 16.5 | |
Талу | Новый Тай Лю | слева направо | Новый Тай Лю | 4.1 | 83 | Ch 16.6 | |
Тамл | Тамильский | слева направо | Тамильский | 1.0 | 123 | Ch 12.6 | |
Тан | Тангутский | сверху вниз, столбцы справа налево, слева направо | Тангутский | 9.0 | 6 914 | Древний / исторический | Ch 18.11 |
Тавт | Тай Вьет | слева направо | Тай Вьет | 5.2 | 72 | Ch 16.8 | |
Телу | телугу | слева направо | телугу | 1.0 | 100 | Ch 12.7 | |
Тэн | Тенгвар | слева направо | - Не в Юникоде | ||||
Tfng | Тифинаг (берберский) | слева направо | Тифинаг | 4.1 | 59 | Ch 19.3 | |
Tglg | Тагальский (байбайын, алибата) | слева направо | Тагальский | 3.2 | 23 | Ch 17.1 | |
Таа | Thaana | сценарий с написанием справа налево | Thaana | 3.0 | 50 | Ch 13.1 | |
Тайский | Тайский | слева направо | Тайский | 1.0 | 86 | Ch 16.1 | |
Тибт | тибетский | слева направо | тибетский | 2.0 | 207 | Добавлено в 1.0, удалено в 1.1 и повторно введено в 2.0 | Ch 13.4 |
Тирх | Тирхута | слева направо | Тирхута | 7.0 | 82 | Ch 15.10 | |
Tnsa | Танса | слева направо | Танса | 14.0 | 89 | Ch 13.18 | |
Тото | Тото | слева направо | Тото | 14.0 | 31 год | Ch 13.17 | |
Угар | Угаритский | слева направо | Угаритский | 4.0 | 31 год | Древний / исторический | Ch 11.2 |
Вайи | Вай | слева направо | Вай | 5.1 | 300 | Ch 19.5 | |
Visp | Видимая речь | слева направо | - Не в Юникоде | ||||
Вит | Виткуки | слева направо | Виткуки | 14.0 | 70 | Древний / исторический | Ch 8.12 |
Вара | Варанг Сити (Варанг Кшити) | слева направо | Варанг Сити | 7.0 | 84 | Ch 13.9 | |
Wcho | Wancho | слева направо | Wancho | 12.0 | 59 | Ch 13.16 | |
Воле | Woleai | смешанный | - Не в Unicode, предложение изучается | ||||
Xpeo | Древнеперсидский | слева направо | Древнеперсидский | 4.1 | 50 | Древний / исторический | Ch 11.3 |
Xsux | Клинопись, шумеро-аккадский | слева направо | Клинопись | 5.0 | 1,234 | Древний / исторический | Ch 11.1 |
Йези | Езиды | сценарий с написанием справа налево | Езиды | 13,0 | 47 | Древний / исторический | Ch 9.6 |
Yiii | Йи | слева направо | Йи | 3.0 | 1,220 | Ch 18.7 | |
Занб | Площадь Занабазар (Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, Horizontal Square Script) | слева направо | Площадь Занабазар | 10.0 | 72 | Древний / исторический | Ch 14.6 |
Zinh | Код для унаследованного скрипта | Унаследовано | 657 | ||||
Zmth | Математические обозначения | - Не скрипт в Юникоде | |||||
Зым | Символы | - Не скрипт в Юникоде | |||||
Zsye | Символы (вариант смайликов) | - Не скрипт в Юникоде | |||||
Zxxx | Код для неписаных документов | - Не скрипт в Юникоде | |||||
Зыыы | Код для неопределенного сценария | Общий | 8 252 | ||||
Zzzz | Код для некодированного скрипта | Неизвестный | 969 350 | В Юникоде: все остальные кодовые точки | |||
Примечания
|
Свойства нормализации
Декомпозиции, тип декомпозиции, канонический класс комбинирования, исключения композиции и многое другое.
Возраст
Возраст - это версия Стандарта, в которой кодовая точка была впервые обозначена. Номер версии сокращен до нумерации major.minor, хотя используются более подробные номера версий: версии 4.0.0 и 4.0.1 обе называются 4.0 как Age. Для выпусков возраст может быть из диапазона: 1.1, 2.0, 2.1, 3.0, 3.1, 3.2, 4.0, 4.1, 5.0, 5.1, 5.2, 6.0, 6.1, 6.2, 6.3, 7.0, 8.0, 9.0, 10.0, 11.0. , 12,0, 12,1, 13,0 и 14,0. Длинные значения для Age начинаются с буквы V и используют подчеркивание вместо точки: например, V1_1. Кодовые точки без специально назначенного значения возраста имеют значение «NA» с длинной формой «Unassigned».
Устарело
После определения персонажа он не будет удален или переназначен. Тем не менее, символ может быть устаревшим , что означает, что его «использование категорически не рекомендуется». Начиная с Unicode версии 14.0, следующие пятнадцать символов устарели:
Устаревшие символы в Юникоде | ||||
---|---|---|---|---|
Codepoint | Название характера | Рекомендуемая альтернатива | Замечания | |
U + 0149 | ЛАТИНСКАЯ СТРОЧНАЯ БУКВА N ПРЕДШЕСТВУЕТ АПОСТРОФУ | U + 02BC U + 006E | ʼN | |
U + 0673 | АРАБСКАЯ БУКВА ALEF С ВОЛНОВОЙ ХАМЗА НИЖЕ | U + 0627 U + 065F | اٟ | |
U + 0F77 | ТИБЕТСКИЙ ГЛАВНЫЙ ЗНАК VOCALIC RR | U + 0FB2 U + 0F81 | ྲཱ ྀ | |
U + 0F79 | ТИБЕТСКИЙ ГЛАВНЫЙ ЗНАК VOCALIC LL | U + 0FB3 U + 0F81 | ླཱ ྀ | |
U + 17A3 | НЕЗАВИСИМЫЙ ГЛАВНЫЙ QAQ ХМЕР | U + 17A2 | អ | |
U + 17A4 | ХМЕР НЕЗАВИСИМЫЙ ГЛАВНЫЙ QAA | U + 17A2 U + 17B6 | អា | |
U + 206A | ЗАПРЕТ СИММЕТРИЧНОЙ ЗАМЕНА | Никто | ||
U + 206B | АКТИВИРОВАТЬ СИММЕТРИЧНУЮ ЗАМЕНУ | Никто | ||
U + 206C | ЗАПРЕЩАЕТСЯ ФОРМИРОВАТЬ АРАБСКИЕ ФОРМЫ | Никто | ||
U + 206D | АКТИВИРОВАТЬ АРАБСКИЕ ФОРМЫ | Никто | ||
U + 206E | НАЦИОНАЛЬНЫЕ ФОРМЫ ЦИФРОВ | Никто | ||
U + 206F | НОМИНАЛЬНЫЕ ФОРМЫ ЦИФРОВ | Никто | ||
U + 2329 | КРОНШТЕЙН ЛЕВОГО УГОЛА | U + 3008 | 〈 | U + 27E8 ⟨ МАТЕМАТИЧЕСКОЙ ЛЕВЫЙ УГОЛ ОПОРА рекомендуются для математических и других технических целей |
U + 232A | УГЛОВОЙ КРОНШТЕЙН ВПРАВО | U + 3009 | 〉 | U + 27E9 ⟩ МАТЕМАТИЧЕСКОЙ ПРАВЫЙ УГОЛ ОПОРА рекомендуются для математических и других технических целей |
U + E0001 | ТЕГ ЯЗЫКА | Никто | ||
Границы
Стандарт Unicode определяет следующие свойства, связанные с границами:
- Кластер графема
- Слово
- Линия
- Приговор
Исправление псевдонимов Unicode-имен
Характер | Имя | Псевдоним | |
---|---|---|---|
01A2 | Ƣ | ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА OI | ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА ГСГ |
01A3 | ƣ | ЛАТИНСКАЯ СТРОЧНАЯ БУКВА OI | ЛАТИНСКАЯ СТРОЧНАЯ БУКВА ГСГ |
0709 | ܉ | СИРИЙСКАЯ СУБЛИНЕЙНАЯ КОЛОНКА С ПЕРЕКРЕПЛЕНИЕМ ВПРАВО | СИРИЙСКАЯ СУБЛИНЕЙНАЯ КОЛОНКА С СКОРОМ ВЛЕВО |
0CDE | ೞ | КАННАДА ПИСЬМО FA | КАННАДА ПИСЬМО LLLA |
0E9D | ຝ | ЛАО ПИСЬМО ФО ТАМ | ЛАО ПИСЬМО ФО ФОН |
0E9F | ຟ | ЛАО ПИСЬМО ФО СУНГ | LAO ПИСЬМО FO FAY |
0EA3 | ຣ | ЛАО ПИСЬМО ЛО ЛИНГ | ЛАО ПИСЬМО RO |
0EA5 | ລ | LAO ПИСЬМО ЛО ЛУТ | ЛАО ПИСЬМО ЛО |
0FD0 | ࿐ | ТИБЕТСКИЙ МАРК БСКА- ШОГ ГИ МГО РГЯН | ТИБЕТСКИЙ МАРК БКА- ШОГ ГИ МГО РГЯН |
11EC | ᇬ | ХАНГЫЛЬ ЧОНСОН ИЁН-КИЕОК | ХАНГЫЛЬ ЧОНСОН ЕСИЁН-КИЕОК |
11ED | ᇭ | HANGUL JONGSEONG IEUNG-SSANGKIYEOK | ХАНГЫЛЬ ЧОНСОН ЕСИЁН-ССАНГИЕОК |
11EE | ᇮ | ХАНГЫЛЬ ЧОНСОН САНГИЁН | ХАНГЫЛЬ ЧОНГСОН ССАНГЕСЫУН |
11EF | ᇯ | ХАНГЫЛЬ ЧОНСОН ИЫН-КИЕУК | ХАНГЫЛЬ ЧОНСОН ЕСЬЮН-КИЕУК |
2118 | ℘ | ЗАГЛАВНАЯ СТРАНИЦА P | ЭЛЛИПТИЧЕСКАЯ ФУНКЦИЯ WEIERSTRASS |
2448 | ⑈ | OCR DASH | MICR НА СИМВОЛЕ США |
2449 | ⑉ | НОМЕР УЧЕТНОЙ ЗАПИСИ КЛИЕНТА OCR | СИМВОЛ MICR DASH |
2B7A | ⭺ | ТРЕУГОЛЬНАЯ СТРЕЛКА ВЛЕВО С ДВОЙНЫМ ГОРИЗОНТАЛЬНЫМ ХОДОМ | ТРЕУГОЛЬНАЯ СТРЕЛКА ВЛЕВО С ДВОЙНЫМ ВЕРТИКАЛЬНЫМ ХОДОМ |
2B7C | ⭼ | ТРЕУГОЛЬНАЯ СТРЕЛКА ВПРАВО С ДВОЙНЫМ ГОРИЗОНТАЛЬНЫМ штрихом | ТРЕУГОЛЬНАЯ СТРЕЛКА ВПРАВО С ДВОЙНЫМ ВЕРТИКАЛЬНЫМ ХОДОМ |
A015 | ꀕ | YI SYLLABLE WU | YI СИЛОВАЯ МЕТКА ИТЕРАЦИИ |
FE18 | ︘ | ПРЕЗЕНТАЦИОННАЯ ФОРМА ДЛЯ ВЕРТИКАЛЬНОГО ПРАВОГО БЕЛОГО ЛЕНТИКУЛЯРНОГО ТОРМОЗА | ФОРМА ПРЕЗЕНТАЦИИ ДЛЯ ВЕРТИКАЛЬНОГО ПРАВОГО БЕЛОГО ЛЕНТИКУЛЯРНОГО КРОНШТЕЙНА |
122D4 | 𒋔 | CUNEIFORM SIGN SHIR TENU | КУНЕЙНЫЙ ЗНАК NU11 TENU |
122D5 | 𒋕 | РУБАШКА CUNEIFORM SIGN, ОБОРУДОВАННАЯ НА РУБАШКЕ | ЗНАК CUNEIFORM NU11 НАД NU11 BUR OVER BUR |
16E56 | 𖹖 | МЕДЕФАИДРИН ЗАГЛАВНАЯ БУКВА HP | МЕДЕФАЙДРИН ЗАГЛАВНАЯ БУКВА H |
16E57 | 𖹗 | МЕДЕФАЙДРИН ЗАГЛАВНАЯ БУКВА NY | МЕДЕФАЙДРИН ЗАГЛАВНАЯ БУКВА NG |
16E76 | 𖹶 | MEDEFAIDRIN СТРОЧНАЯ БУКВА HP | МЕДЕФАЙДРИН СТРОЧНАЯ БУКВА H |
16E77 | 𖹷 | МЕДЕФАЙДРИН СТРОЧНАЯ БУКВА NY | МЕДЕФАЙДРИН СТРОЧНАЯ БУКВА NG |
1B001 | 𛀁 | ХИРАГАНА ПИСЬМО АРХАИЧЕСКОЕ ДА | ХЕНТАЙГАНА ПИСЬМО E-1 |
1D0C5 | 𝃅 | ВИЗАНТИЙСКИЙ МУЗЫКАЛЬНЫЙ СИМВОЛ FHTORA SKLIRON CHROMA VASIS | ВИЗАНТИЙСКИЙ МУЗЫКАЛЬНЫЙ СИМВОЛ FTHORA SKLIRON CHROMA VASIS |
внешние ссылки
- База данных символов Юникода , приложение № 44, объясняющее различные свойства
- UnicodeData.txt - список всех символов Unicode с их свойствами
использованная литература
-
^ a b c d e "Стандарт Unicode, Глава 4: Свойства символов" (PDF) . Unicode, Inc. сентября 2021 . Проверено 15 августа 2021 . Cite journal requires
|journal=
(help) - ^ a b c "Приложение № 44 к стандарту Unicode: База данных символов Unicode" . Стандарт Юникода . 2017-06-14.
- ^ "UCD: Псевдонимы" . База данных символов Юникода . Консорциум Unicode. 2019-03-08.
- ^ «Стандарты дизайна персонажей - символы пробела» . Стандарты дизайна персонажей . Microsoft . 1998–1999. Архивировано из оригинального 23 августа 2000 года . Проверено 18 мая 2009 .
- ^ Стандарт Unicode 5.0, печатное издание, стр.205
- ^ "Общая пунктуация" (PDF) . Стандарт Юникода 5.1 . Unicode Inc . 1991–2008 гг . Проверено 13 мая 2009 .
- ↑ Сарджент, Мюррей III (29 августа 2006 г.). «Юникодное кодирование почти простого текста математики (версия 2)» . Техническая записка Unicode № 28 . Unicode Inc . С. 19–20 . Проверено 19 мая 2009 .
- ^ Гиллам, Ричард (2002). Unicode Demystified: Практическое руководство программиста по стандарту кодирования . Эддисон-Уэсли. ISBN 0-201-70052-2.
- ^ а б Хиксон, Ян . «12.5 Ссылки на именованные символы» . Стандарт HTML . WHATWG .
- ^ Вольфрам . "\ [NegativeThickSpace]" . Документация по языку Wolfram Language .
- ^ Вольфрам . "\ [NegativeMediumSpace]" . Документация по языку Wolfram Language .
- ^ Вольфрам . "\ [NegativeThinSpace]" . Документация по языку Wolfram Language .
- ^ Вольфрам . "\ [NegativeVeryThinSpace]" . Документация по языку Wolfram Language .
- ^ Faltstrom П., изд. (Август 2010 г.). «Несоединяемый элемент нулевой ширины» . Кодовые точки Unicode и интернационализированные доменные имена для приложений (IDNA) . IETF . сек. А.1. DOI : 10,17487 / RFC5892 . RFC 5892 . Проверено 4 сентября 2019 года .
- ^ Faltstrom П., изд. (Август 2010 г.). «Столяр нулевой ширины» . Кодовые точки Unicode и интернационализированные доменные имена для приложений (IDNA) . IETF . сек. А.2. DOI : 10,17487 / RFC5892 . RFC 5892 . Проверено 4 сентября 2019 года .
- ^ "Приложение № 44 к стандарту Unicode, База данных символов Unicode" .
- ^ a b «Приложение № 9 к стандарту Unicode: двунаправленный алгоритм Unicode» . Стандарт Юникода . 2017-05-14.
- ^ "Приложение № 24 к стандарту Unicode: Свойство сценария Unicode" . Стандарт Юникода . 2015-06-01.
- ^ a b c d e f g h i «Предлагаемые новые сценарии» . Консорциум Unicode . 2018-05-25 . Проверено 12 сентября 2019 .
- ^ Майкл Эверсон (1997-09-18). «Предложение по кодированию клингонов в плоскости 1 стандарта ISO / IEC 10646-2» .
- ^ Консорциум Unicode (2001-08-14). «Утвержденный протокол совместного заседания UTC 87 / L2 184» .
- ^ «Ближний Восток-II, Древние сценарии» (PDF) . 14.0.0. The Unicode Consortiumtitle = Ближневосточные скрипты II . Проверено 15 сентября 2021 .
- ^ "UCD: Производный возраст" . База данных символов Юникода . Консорциум Unicode. 2021-07-10.
-
^ «Политика стабильности кодировки символов Unicode» . Юникод . Консорциум Unicode . 2017-06-23 . Проверено 25 июля 2021 .
После того, как символ закодирован, он не будет перемещен или удален.
- ^ «3.4: Символы и кодировка, D13: Устаревший символ» (PDF) . Стандарт Unicode, версия 14.0 . Маунтин-Вью: Консорциум Unicode . 2021-09-14. ISBN 9781936213-290. Проверено 15 сентября 2021 .
- ^ "PropList-14.0.0.txt" . Юникод . Консорциум Unicode . 2021-08-12 . Проверено 15 сентября 2021 .
- ^ «Глава 23.3: Символы устаревшего формата» (PDF) . Стандарт Unicode, версия 13.0 . Маунтин-Вью: Консорциум Unicode . 2020-03-10. ISBN 9781936213269. Проверено 25 июля 2021 .
- ^ «23.9: Символы тегов, использование не рекомендуется для языковых тегов» (PDF) . Стандарт Unicode, версия 13.0 . Маунтин-Вью: Консорциум Unicode . 2020-03-10. ISBN 9781936213269. Проверено 25 июля 2021 .