Big5 - Big5

Big5
MIME / IANA Big5
Псевдоним (а) Большой-5, 大 五 碼
Язык (и) Традиционный китайский , английский
Создан Институт информационной индустрии
Классификация Расширенная ASCII - , переменной ширины кодирование , DBCS , CJK кодирование
Расширяется ASCII
Расширения Windows-950 , Big5-HKSCS , многие другие
Другая связанная кодировка (и) CNS 11643

Big-5 или Big5 - это метод кодировки китайских символов, используемый в Тайване , Гонконге и Макао для традиционных китайских символов .

Китайская Народная Республика (КНР) , которая использует упрощенный китайские иероглифы , использует GB 18030 вместо набора символов.

Big5 получил свое название от консорциума из пяти тайваньских компаний, которые его разработали.

Организация

Исходный набор символов Big5 сортируется сначала по частоте использования, затем по количеству штрихов и, наконец, по радикалу Kangxi .

В исходном наборе символов Big5 не хватало многих часто используемых символов. Для решения этой проблемы каждый производитель разработал собственное расширение. Расширение ETen стало частью текущего стандарта Big5 благодаря своей популярности.

Структура Big5 не соответствует стандарту ISO 2022 , но имеет определенное сходство с кодировкой Shift JIS . Это двухбайтовый набор символов (DBCS) со следующей структурой:

Первый байт («ведущий байт») От 0x81 до 0xfe (или от 0xa1 до 0xf9 для символов, не определенных пользователем)
Второй байт От 0x40 до 0x7e, от 0xa1 до 0xfe

(префикс 0x обозначает шестнадцатеричные числа).

Стандартные назначения (за исключением расширений поставщика или определяемых пользователем) не используют байты от 0x7F до 0xA0 или 0xFF как ведущие (первые) или конечные (вторые) байты. Байты с 0xA1 по 0xFE используются как для начальных, так и для конечных байтов для двухбайтовых (Big5) кодов. Байты с 0x40 по 0x7E используются как конечные байты, следующие за старшим байтом, или для однобайтовых кодов в противном случае. Если второй байт не входит ни в один из диапазонов, поведение не определено (т. Е. Изменяется от системы к системе). Кроме того, некоторые варианты набора символов Big5, например HKSCS , используют расширенный диапазон для ведущего байта, включая значения в диапазоне от 0x81 до 0xA0 (аналогично Shift JIS ), тогда как другие используют сокращенные диапазоны ведущих байтов (например, вариант Apple Macintosh использует коды от 0xFD до 0xFF в качестве однобайтовых кодов, ограничивая диапазон ведущих байтов до 0xA1 до 0xFC).

Численное значение отдельных кодов big5 часто дают как 4-значное шестнадцатеричное число, которое описывает два байта , которые содержат код Big5 как если два байта были большие байтами представления 16-битного числа. Например, код Big5 для полноразмерного пространства, которым являются байты 0xa1 0x40, обычно записывается как 0xa140 или просто A140.

Строго говоря, кодировка Big5 содержит только символы DBCS. Однако на практике коды Big5 всегда используются вместе с неопределенным, системно-зависимым однобайтовым набором символов ( ASCII или 8-битным набором символов, таким как кодовая страница 437 ), так что вы найдете смесь DBCS символы и однобайтовые символы в тексте с кодировкой Big5. Байты в диапазоне от 0x00 до 0x7f, которые не являются частью двухбайтового символа, считаются однобайтовыми символами. (Более подробное описание этой проблемы см. Ниже в разделе «Соответствие SBCS».)

Значение отдельных байтов, отличных от ASCII, за пределами разрешенных значений, которые не являются частью двухбайтового символа, варьируется от системы к системе. В старых системах на основе MSDOS они, вероятно, будут отображаться как 8-битные символы; в современных системах они могут дать непредсказуемые результаты или сгенерировать ошибку.

Более детальный взгляд на организацию

В оригинальной Big5 кодировка разделена на разные зоны:

От 0x8140 до 0xa0fe Зарезервировано для пользовательских символов 造字
С 0xa140 по 0xa3bf «Графические персонажи» 圖形 碼
От 0xa3c0 до 0xa3fe Зарезервировано, не для определяемых пользователем символов
С 0xa440 по 0xc67e Часто используемые символы 常用 字
От 0xc6a1 до 0xc8fe Зарезервировано для определяемых пользователем символов
От 0xc940 до 0xf9d5 Менее используемые символы 次 常用 字
От 0xf9d6 до 0xfefe Зарезервировано для определяемых пользователем символов

«Графические символы» фактически включают знаки препинания, частичные знаки препинания (например, половина тире, половина многоточия; см. Ниже), дингбаты , иностранные символы и другие специальные символы (например, презентационные «полноширинные» формы, цифры для цифр Сучжоу , чжуинь фухао и т. д.)

В большинстве расширений поставщиков расширенные символы помещаются в различные зоны, зарезервированные для определяемых пользователем символов, каждая из которых обычно считается связанной с предыдущей зоной. Например, ожидается, что дополнительные «графические символы» (например, знаки препинания) будут помещены в диапазон 0xa3c0–0xa3fe, а дополнительные логограммы будут помещены в диапазон 0xc6a1–0xc8fe или 0xf9d6–0xfefe. Иногда это невозможно из-за добавления большого количества расширенных символов; например, буквы кириллицы и японская кана были помещены в зону, связанную с «часто используемыми символами».

Что на самом деле кодирует код Big5

Отдельный код Big5 не всегда представляет собой законченную семантическую единицу. Коды Big5 логограмм всегда являются логограммами, но коды в разделе «графические символы» не всегда являются полными «графическими символами». Big5 кодирует конкретные графические представления символов или части символов, которые помещаются в пространство, занимаемое двумя моноширинными символами ASCII. Это свойство наборов двухбайтовых символов, обычно используемых в вычислениях CJK (китайский, японский и корейский), и не является уникальной проблемой Big5.

(Вышеупомянутое может потребовать некоторого объяснения, представив его в исторической перспективе, поскольку это теоретически неверно: в те времена, когда персональные вычисления в текстовом режиме все еще были нормой, символы обычно представлялись как отдельные байты, и каждый символ занимал одну позицию на экране. поэтому практическая причина настаивать на том, что двухбайтовые символы должны занимать две позиции на экране, а именно, что стандартное программное обеспечение американского производства можно было бы использовать без изменений в системе на основе DBCS. Если символ может принимать произвольное количество положений экрана, программное обеспечение, которое предполагает, что один байт текста занимает одну позицию экрана, приведет к некорректному выводу. Конечно, если бы компьютеру никогда не приходилось иметь дело с текстовым экраном, производитель не стал бы применять это искусственное ограничение; Apple Примером может служить Macintosh. Тем не менее, сама кодировка должна быть спроектирована так, чтобы она корректно работала в системах с текстовым экраном.)

Чтобы проиллюстрировать это, рассмотрим код Big5 0xa14b (…). Для англоговорящих это выглядит как многоточие, и стандарт Unicode определяет его как таковой; однако в китайском языке многоточие состоит из шести точек, которые помещаются в пространство двух китайских иероглифов (……), поэтому на самом деле нет кода Big5 для китайского многоточия, а код Big5 0xa14b просто представляет половину китайского многоточия . Он представляет собой только половину многоточия, потому что весь многоточие должен занимать пространство двух китайских символов, а во многих системах DBCS один символ DBCS должен занимать точно пространство одного китайского символа.

Символы, закодированные в Big5, не всегда представляют вещи, которые можно легко использовать в текстовых файлах; Примером может служить «знак цитирования» (0xa1ca, ﹋), который при использовании должен быть набран под названием литературного произведения. Другой пример - цифры Сучжоу , которые представляют собой форму научного обозначения, которая требует, чтобы число было расположено в двумерной форме, состоящей как минимум из двух строк.

Соответствующие SBCS

На практике Big5 нельзя использовать без соответствующего однобайтового набора символов (SBCS) ; в основном это связано с соображениями совместимости. Однако, как и в случае с другими наборами символов CJK DBCS, используемый SBCS никогда не указывался. Big5 всегда определялся как DBCS, хотя при использовании он должен сочетаться с подходящим, неопределенным SBCS и поэтому использоваться как то, что некоторые люди называют MBCS ; тем не менее, Big5, как определено, является строго DBCS.

Неопределенный SBCS для использования означает, что используемый SBCS теоретически может варьироваться от системы к системе. В настоящее время ASCII - единственный возможный SBCS, который можно использовать. Однако в старых системах на основе DOS кодовая страница 437 - с ее дополнительными специальными символами в области управляющего кода, включая позицию 127 - была гораздо более распространенной. Тем не менее, в системе Macintosh с комплектом китайского языка или в системе Unix, на которой запущен эмулятор терминала cxterm, SBCS в паре с Big5 не будет кодовой страницей 437.

За пределами допустимого диапазона Big5 старые системы на основе DOS обычно интерпретируют вещи в соответствии с SBCS, который связан с Big5 в этой системе. В таких системах, например, символы с 127 по 160, скорее всего, не избегались, потому что они приводили к недопустимому Big5, но использовались, потому что они были бы допустимыми символами в кодовой странице 437.

Современная характеристика Big5 как MBCS, состоящая из DBCS Big5 и SBCS из ASCII, поэтому исторически неверна и потенциально ошибочна, поскольку выбор соответствующей SBCS был и теоретически остается совершенно независимым от используемого вкуса Big5. .

История

Неспособность ASCII поддерживать большие наборы символов, такие как используемые для китайского, японского и корейского языков, побудила правительства и промышленность искать творческие решения, позволяющие отображать их языки на компьютерах. Разнообразие специальных и обычно частных методов ввода привело к попыткам разработать стандартную систему. В результате кодирование Big5 было определено Тайваньским институтом информационной индустрии в 1984 году. Название «Big5» является признанием того, что стандарт появился в результате сотрудничества пяти крупнейших тайваньских ИТ-компаний: Acer (宏 碁); MiTAC (神通); Цзяцзя (佳佳), ZERO ONE Technology (零 壹 или 01tech ); и First International Computer (FIC) (大眾).

Big5 был быстро популяризирован на Тайване и во всем мире среди китайцев, которые использовали традиционный китайский набор символов, благодаря его внедрению в нескольких коммерческих программных пакетах, в частности, в китайской системе ввода DOS E-TEN ( ETen Chinese System ). Правительство Китайской Республики объявило Big5 своим стандартом в середине 1980-х годов, поскольку к тому времени это был фактический стандарт использования традиционного китайского языка на компьютерах.

Расширения

Оригинальная Big-5 включает только логограммы CJK из Таблиц стандартных форм общих национальных символов (4808 символов) и менее распространенных национальных символов (6343 символа), но не буквы из имен людей, географических названий, диалектов, химии и т. Д. биология , японская кана . В результате, многие вспомогательные программы Большой пятерки включают расширения для решения проблем.

Множество вариантов делают UTF-8 или UTF-16 более согласованной кодовой страницей для современного использования.

Расширения поставщика

Расширения ETEN

В китайской операционной системе ETEN (倚天) добавлены следующие кодовые точки, чтобы сделать ее совместимой с кодовой страницей IBM5550 :

  • A3C0 – A3E0: 33 управляющих символа.
  • C6A1-C875: круг 1-10, кронштейн 1-10, римские цифры 1-9 (I-IX), КИЕ радикальные глифы, японский хираган , японский катакан , кириллические символы
  • F9D6 – F9FE: «碁», «銹», «恒», «裏», «墻», «粧», «嫺» и 34 дополнительных символа.

В некоторых версиях Eten есть дополнительные графические символы и символы упрощенного китайского языка .

Кодовые страницы Microsoft

Microsoft (微軟) создала свою собственную версию расширения Big5 как кодовую страницу 950 для использования с Microsoft Windows , которая поддерживает расширения ETEN, но только кодовые точки F9D6-F9FE. В ОС Windows ME , то евро символ валюты отображался на биг-5 кода точки A3E1, но не в более поздних версиях операционной системы.

После установки патча Microsoft HKSCS поверх традиционной китайской Windows (или любой версии Windows 2000 и выше с соответствующим языковым пакетом) приложения, использующие кодовую страницу 950, автоматически используют скрытую таблицу кодовых страниц 951. Таблица поддерживает все кодовые точки в HKSCS-2001, за исключением кодовых точек совместимости, указанных в стандарте.

Кодовая страница 950, используемая в Windows 2000 и Windows XP, сопоставляет символы хираганы и катакана с блоком области частного использования Unicode при экспорте в Unicode, но с соответствующими блоками Unicode хираганы и катакана в Windows Vista.

Шрифт ChinaSea

Шрифты ChinaSea (中國 海 字 集) - это традиционные китайские шрифты, созданные ChinaSea. Шрифты редко продаются отдельно, но идут в комплекте с другими продуктами, такими как китайская версия Microsoft Office 97 . Шрифты поддерживают японские кана , кокудзи и другие символы, отсутствующие в Big-5. В результате расширения ChinaSea стали более популярными, чем расширения, поддерживаемые государством. Некоторые Гонконгские BBS использовали кодировку шрифтов ChinaSea до появления HKSCS .

Шрифт Sakura

«Сакура» шрифт (日和字集Sakura Version) разработана в Гонконге и предназначен , чтобы быть совместимым с HKSCS . Он добавляет поддержку кокудзи и проприетарных дингбатов (включая Doraemon ), которых нет в HKSCS.

Unicode-at-on

Unicode-at-on ( Unicode 補 完 計畫), ранее называвшийся расширением BIG5, расширяет BIG-5, изменяя таблицы кодовых страниц, но использует расширения ChinaSea, начиная с версии 2. Однако с банкротством ChinaSea, поздним развитием и увеличением популярность HKSCS и Unicode (проект несовместим с HKSCS), успех этого расширения в лучшем случае ограничен.

Несмотря на проблемы, символы, ранее сопоставленные с областью частного использования Unicode, переназначаются на стандартизованные эквиваленты при экспорте символов в формат Unicode.

OPG

На веб-сайтах Oriental Daily News и Sun Daily , принадлежащих Oriental Press Group Limited (東方 報業 集團 有限公司) в Гонконге, использовался загружаемый шрифт с кодировкой расширения Big-5, отличной от HKSCS .

Официальные расширения

Шрифт Министерства образования Тайваня

Министерство образования Тайваня предоставило собственный шрифт, шрифт Министерства образования Тайваня (臺灣 教育部 造字 檔) для внутреннего использования.

Шрифт Тайваньского совета по сельскому хозяйству

Шрифт Тайваньского совета по сельскому хозяйству, Executive Yuan представил 133-символьный пользовательский шрифт Тайваньского совета по сельскому хозяйству (臺灣 農委會 常用 中文 外 字 集), который включает 84 символа из радикала «рыба» и 7 из радикала «птица». .

Big5 +

Китайский фонд Оцифровка Technology (中文數位化技術推廣委員會) представил Big5 + в 1997 году, который использовал более 20000 точек кода , чтобы включить все CJK логограммы в Unicode 1.1. Однако дополнительные кодовые точки превышают исходное определение Big-5 (Big5 + использует старшие байтовые значения 81-FE и младшие байтовые значения 40-7E и 80-FE), что не позволяет установить его в Microsoft Windows без новых файлов кодовых страниц.

Биг-5Э

Чтобы позволить пользователям Windows использовать собственные шрифты, Китайский фонд технологий оцифровки представил Big-5E, который добавил 3954 символа (в трех блоках кодовых точек: 8E40-A0FE, 8140-86DF, 86E0-875C) и удалил японскую кана из расширение ETEN. В отличие от Big-5 +, Big5E расширяет Big-5 в пределах своего первоначального определения. Mac OS X 10.3 и более поздних версий поддерживает Big-5E в шрифтах LiHei Pro (儷 黑 Pro.ttf) и LiSong Pro (儷 宋 Pro.ttf).

Большой5-2003

Китайский фонд Оцифровка технологии сделали определение Big5 и поместить его в ЦНС 11643 в виде ноты, что делает его частью официального стандарта на Тайване.

Big5-2003 включает в себя все символы Big-5, представленные в расширениях ETEN 1984 года (кодовые точки A3C0-A3E0, C6A1-C7F2 и F9D6-F9FE), а также символ евро. Кириллические символы не были включены, поскольку официальные органы утверждали, что CNS 11643 не включает такие символы.

CDP

Academia Синица сделал шрифт китайский обработки данных (漢字構形資料庫) в конце 1990 - х годов, что последний релиз версии 2.5 включены 112,533 символы, некоторые меньше , чем Mojikyo шрифтов.

HKSCS

Гонконг также принял Big5 для кодировки символов. Однако в письменном кантонском диалекте есть свои символы, которых нет в обычном наборе символов Big5. Чтобы решить эту проблему, правительство Гонконга создало набор правительственных символов Китая (GCCS) расширений «Большой пятерки» в 1995 году и дополнительный набор символов Гонконга в 1999 году. Гонконгские расширения обычно распространялись в виде патчей. Он все еще распространяется как патч Microsoft, но полный шрифт Unicode также доступен на веб-сайте правительства Гонконга.

Существует две схемы кодирования HKSCS: одна схема кодирования предназначена для стандарта кодирования Big-5, а другая - для стандарта ISO 10646 . После первоначального выпуска существуют также HKSCS-2001 и HKSCS-2004. HKSCS-2004 технически согласован с ISO / IEC 10646: 2003 и поправкой 1 к нему, опубликованной в апреле 2004 года Международной организацией по стандартизации (ISO).

HKSCS включает все символы из общего расширения ETEN, а также некоторые символы из упрощенного китайского , географические названия, имена людей и кантонские фразы (включая ненормативную лексику ).

По состоянию на 2020 год самой последней версией HKSCS является HKSCS-2016; однако последней версией HKSCS, кодирующей все свои символы в Big5, была HKSCS-2008, в то время как символы, добавленные в более поздних редакциях, отображаются только в ISO 10646 / Unicode (как горизонтальное расширение глифов CJK Unified Ideographs, где это необходимо). Кроме того, аналогично ситуации в Гонконге, существуют также символы, которые необходимы Макао, но не включены ни в Big5, ни в HKSCS, поэтому был разработан дополнительный набор символов Макао , включающий символы, которых нет в Big5 или HKSCS; это, однако, также не закодировано в Big5. Первая партия из 121 символа MSCS была представлена ​​для включения в отображение Unicode в 2009 году, а первая окончательная версия MSCS была создана в 2020 году.

Кана и кириллица

Существует два основных макета расширения Big5 для кодирования каны , русской кириллицы и маркеров списка в диапазоне от 0xC6A1 до 0xC875. Они несовместимы друг с другом. Они сравниваются в таблице ниже.

Макет каны и кириллицы ETEN также используется вариантами HKSCS (включая HTML5 ) и Unicode-At-On, а также версией кодовой страницы 950 IBM, а также макетом ETEN каны (без кириллицы). используется вариантом Big5-2003. Опубликованные файлы сопоставления для Windows-950 не содержат ни того, ни другого, и этот диапазон Big5 сопоставлен с областью частного использования реализацией Windows-950 из International Components for Unicode . Встроенная реализация кодека Pythoncp950 , используемая в системах, отличных от Windows, или когда кодовая страница 950 не является активной кодовой страницей Windows, использует макет BIG5.TXT. Классический Mac OS версия включает в себя ни раскладку.

Смотрите также

использованная литература

внешние ссылки