Unicode

Материал из Национальной библиотеки им. Н. Э. Баумана
Версия от 13:05, 13 ноября 2016; andrey nikolaev (обсуждение | вклад) (Версии Юникода)

Юникод (англ. Unicode) — стандарт кодирования символов, позволяющий представить знаки почти всех письменных языков. Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода». Применение этого стандарта позволяет закодировать очень большое число символов из разных письменностей: в документах Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы, при этом становится ненужным переключение кодовых страниц.

Стандарт состоит из двух основных разделов: универсальный набор символов (UCS, universal character set) и семейство кодировок (UTF, Unicode transformation format). Универсальный набор символов задаёт однозначное соответствие символов кодам — элементам кодового пространства, представляющим неотрицательные целые числа. Семейство кодировок определяет машинное представление последовательности кодов UCS.

Коды в стандарте Юникод разделены на несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора ASCII с соответствующими кодами. Далее расположены области знаков различных письменностей, знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем. Под символы кириллицы выделены области знаков с кодами от U+0400 до U+052F, от U+2DE0 до U+2DFF, от U+A640 до U+A69F.

Предпосылки создания и развитие Юникода

К концу 1980-х годов стандартом стали 8-битные символы. При этом существовало множество разных 8-битных кодировок, и постоянно появлялись всё новые. Это объяснялось как постоянным расширением круга поддерживаемых языков, так и стремлением создать кодировку, частично совместимую с какой-нибудь другой (характерный пример — появление альтернативной кодировки для русского языка, обусловленное эксплуатацией западных программ, созданных для кодировки CP437). В результате появилось несколько проблем:

  1. проблема «кракозябр»;
  2. проблема ограниченности набора символов;
  3. проблема преобразования одной кодировки в другую;
  4. проблема дублирования шрифтов.

Проблема «кракозябр» — проблема отображения документов в неправильной кодировке. Проблему можно было решить либо последовательным внедрением методов указания используемой кодировки, либо внедрением единой (общей) для всех кодировки.

Проблема ограниченности набора символов. Проблему можно было решить либо переключением шрифтов внутри документа, либо внедрением «широкой» кодировки. Переключение шрифтов издавна практиковалось в текстовых процессорах, причём часто использовались шрифты с нестандартной кодировкой, т.н. «dingbat fonts». В итоге при попытке переноса документа в другую систему все нестандартные символы превращались в «кракозябры».

Проблема преобразования одной кодировки в другую. Проблему можно было решить либо составлением таблиц перекодировки для каждой пары кодировок, либо использованием промежуточного преобразования в третью кодировку, включающую все символы всех кодировок.

Проблема дублирования шрифтов. Для каждой кодировки создавался свой шрифт, даже если наборы символов в кодировках совпадали частично или полностью. Проблему можно было решить путём создания «больших» шрифтов, из которых впоследствии выбирались бы нужные для данной кодировки символы. Однако это требовало создания единого реестра символов, чтобы определять, чему что соответствует.

Была признана необходимость создания единой «широкой» кодировки. Кодировки с переменной длиной символа, широко использующиеся в Восточной Азии, были признаны слишком сложными в использовании, поэтому было решено использовать символы фиксированной ширины. Использование 32-битных символов казалось слишком расточительным, поэтому было решено использовать 16-битные.

Первая версия Юникода представляла собой кодировку с фиксированным размером символа в 16 бит, то есть общее число кодов было 216 (65 536). С тех пор символы стали обозначать четырьмя шестнадцатеричными цифрами (например, U+04F0). При этом в Юникоде планировалось кодировать не все существующие символы, а только те, которые необходимы в повседневном обиходе. Редко используемые символы должны были размещаться в «области пользовательских символов», которая первоначально занимала коды U+D800…U+F8FF. Чтобы использовать Юникод также и в качестве промежуточного звена при преобразовании разных кодировок друг в друга, в него включили все символы, представленные во всех наиболее известных кодировках.

В дальнейшем, однако, было принято решение кодировать все символы и в связи с этим значительно расширить кодовую область. Одновременно с этим, коды символов стали рассматриваться не как 16-битные значения, а как абстрактные числа, которые в компьютере могут представляться множеством разных способов.

Поскольку в ряде компьютерных систем (например, Windows NT) фиксированные 16-битные символы уже использовались в качестве кодировки по умолчанию, было решено все наиболее важные знаки кодировать только в пределах первых 65 536 позиций (так называемая англ. basic multilingual plane, BMP). Остальное пространство используется для «дополнительных символов»: систем письма вымерших языков или очень редко используемых китайских иероглифов, математических и музыкальных символов.

Для совместимости со старыми 16-битными системами была изобретена система UTF-16, где первые 65 536 позиций, за исключением позиций из интервала U+D800…U+DFFF, отображаются непосредственно как 16-битные числа, а остальные представляются в виде «суррогатных пар» (первый элемент пары из области U+D800…U+DBFF, второй элемент пары из области U+DC00…U+DFFF). Для суррогатных пар была использована часть кодового пространства (2048 позиций), отведённого «для частного использования».

Поскольку в UTF-16 можно отобразить только 220+216−2048 (1 112 064) символов, то это число и было выбрано в качестве окончательной величины кодового пространства Юникода (диапазон кодов: 0x000000-0x10FFFF).

Хотя кодовая область Юникода была расширена за пределы 216 уже в версии 2.0, первые символы в «верхней» области были размещены только в версии 3.1.

Роль этой кодировки в веб-секторе постоянно растёт. На начало 2010 доля веб-сайтов, использующих Юникод, составила около 50 %.

Версии Юникода

Работа по доработке стандарта продолжается. Новые версии выпускаются по мере изменения и пополнения таблиц символов. Параллельно выпускаются новые документы ISO/IEC 10646.

Первый стандарт выпущен в 1991 году, последний — в 2016, следующий ожидается летом 2017 года. Стандарты версий 1.0—5.0 публиковались как книги, и имеют ISBN. Номер версии стандарта составлен из трёх цифр (например, «4.0.1»). Третью цифру меняют при внесении в стандарт небольших изменений, не добавляющих новых символов.

Временная линия Юникода
Номер версии Дата публикации ISBN книги Издание ISO/IEC 10646 Количество письменностей Количество символов Изменения
1.0.0 Октябрь 1991 ISBN 0-201-56788-1 (Vol.1) 24 7161 Изначально таблицы Юникода содержали символы следующих письменностей: арабское письмо, армянское письмо, бенгальское письмо, чжуиньское письмо, кириллица, деванагари, грузинское письмо, греческое и коптское письмо, гуджарати, гурмукхи, хангыль, еврейское письмо, хирагана, каннада, Катакана, лаосское письмо, латинское письмо, малаялам, ория, тамильское письмо, телугу, тайское письмо и тибетское письмо
1.0.1 Июнь 1992 ISBN 0-201-60845-6 (Vol.2) 25 28 359 Добавлено 20 902 идеограммы китайского, японского и корейского письма
1.1 Июнь 1993 ISO/IEC 10646-1:1993 24 34 233 Добавлено более 4306 слогов хангыля, дополнивших уже имеющиеся в таблицах 2350 символов. Удалены символы тибетского письма
2.0 Июль 1996 ISBN 0-201-48345-9 ISO/IEC 10646-1:1993 и Amendments 5, 6, 7 25 38 950 Удалены добавленные ранее слоги хангыля, и добавлены 11 172 новых слога хангыля с новыми кодами. Возвращены удалённые ранее символы тибетского письма; символы получили новые коды и были размещены в разных таблицах. Введён механизм суррогатных символов. Выделено место для плоскостей (англ. planes) 15 и 16
2.1 Май 1998 ISO/IEC 10646-1:1993, Amendments 5, 6, 7, два символа из Amendment 18 25 38 952 Добавлен символ евро
3.0 Сентябрь 1999 ISBN 0-201-61633-5 ISO/IEC 10646-1:2000 38 49 259 Добавлены символы следующих письменностей: письмо чероки, эфиопское письмо, кхмерское письмо, монгольские письменности, бирманское письмо, огамическое письмо, руны, сингальское письмо, сирийское письмо, тана, канадское слоговое письмо и письмо и, а также символы шрифта Брайля
3.1 Март 2001 ISO/IEC 10646-1:2000

ISO/IEC 10646-2:2001

41 94 205 Добавлены символы следующих письменностей: дезеретское письмо, готское письмо и старое итальянское письмо, а также символы западной и византийской музыки, 42 711 идеограмм китайского, японского и корейского письма
3.2 Март 2002 ISO/IEC 10646-1:2000 и Amendment 1

ISO/IEC 10646-2:2001

45 95 221 Добавлены символы следующих письменностей: письмо бухид, письмо hanunó'o, байбайин и письмо тагбанва
4.0 Апрель 2003 ISBN 0-321-18578-1 ISO/IEC 10646:2003 52 96 447 Добавлены символы следующих письменностей: кипрское письмо, письмо лимбу, линейное письмо Б, сомалийское письмо, алфавит шоу, письмо tai le и угаритское письмо, а также символы гексаграмм
4.1 Март 2005 ISO/IEC 10646:2003 и Amendment 1 59 97 720 Добавлены символы следующих письменностей: письмо лонтара, глаголица, письмо кхароштхи, новое письмо лы, древнеперсидская клинопись, силхетское нагари и древнеливийское письмо. Символы коптского письма были отделены от символов греческого письма. Также добавлены символы старых греческих цифр и музыкальные символы
5.0 Июль 2006 ISBN 0-321-48091-0 ISO/IEC 10646:2003, Amendments 1, 2, четыре символа из Amendment 3 64 99 089 Добавлены символы следующих письменностей: балийское письмо, клинопись, письмо нко, монгольское квадратное письмо и финикийское письмо
5.1 Апрель 2008 ISO/IEC 10646:2003 и Amendments 1, 2, 3, 4 75 100 713 Добавлены символы следующих письменностей: карийское письмо, чамская письменность, письмо кая-ли, письмо лепча, ликийское письмо, лидийское письмо, письмо ол-чики, реджангское письмо, письмо саураштра, сунданское письмо и письмо ваи. Добавлены символы с фестского диска, символы для фишек игр маджонг и домино, заглавная буква эсцет (ß), а также символы — аббревиатур scribal, используемых в средневековых рукописях. Новыми символами дополнен набор символов бирманского письма
5.2 Октябрь 2009 ISO/IEC 10646:2003 и Amendments 1, 2, 3, 4, 5, 6 90 107 361 Добавлены символы следующих письменностей: авестийское письмо, письмо бамум, египетское иероглифическое письмо (по списку Гардинера, содержащему 1071 символ), письмо imperial aramaic, письмо inscriptional pahlavi, письмо inscriptional parthian, яванское письмо, письмо кайтхи, письмо лису, письмо манипури, южноаравийское письмо, древнетюркское руническое письмо, самаритянское письмо, письмо ланна и письмо tai viet. Добавлены 4149 новых идеиграмм китайского, японского и корейского письма (CJK-C), символы ведийского письма, а также расширен набор символов Jamo старого хангыля
6.0 Октябрь 2010 ISO/IEC 10646:2010 и символ валюты Индии 93 109 449 Добавлены символы следующих письменностей: батакское письмо, письмо брахми, письмо mandaic. Добавлены символы игральных карт, дорожных знаков, географических карт, алхимии, эмотикона и эмодзи. Добавлены 222 идеограммы китайского, японского и корейского письма (CJK-D)
6.1 Январь 2012 ISO/IEC 10646:2012 100 110 181 Добавлены символы следующих письменностей: письмо чакма, мероитский рукописный шрифт и мероитские иероглифы, письмо мяо, письмо шарада, письмо sora sompeng и письмо такри
6.2 Сентябрь 2012 ISO/IEC 10646:2012 и символ турецкой валюты 100 110 182 Добавлен символ турецкой валюты
6.3 Сентябрь 2013 ISO/IEC 10646:2012 и шесть символов 100 110 187 Добавлено пять символов для форматирования двунаправленного текста
7.0 Июнь 2014 ISO/IEC 10646:2012, Amendments 1, 2 и символ рубля 123 113 021 Добавлены символы следующих письменностей: письмо басса, агванское письмо, письмо duployan, эльбасанское письмо, письмо грантха, письмо khojki, письменность khudawadi, линейное письмо А, письмо mahajani, письмо manichaean, письмо кикакуи, письмо моди, письмо mro, набатейское письмо, северноаравийское письмо, древнепермское письмо, письмо пахау, письмо palmyrene, письмо pau cin hau, письмо psalter pahlavi, сиддхаматрика, письмо тирхута, варанг-кшити и орнамент dingbat
8.0 Июнь 2015
9.0 21 июня 2016

Кодовое пространство

Система кодирования

Модифицирующие символы

Алгоритмы нормализации

Представленные символы

Способы представления

Проблемы Юникода