применять диакритические знаки к любому символу, а не ограничивать себя комбинациями, которые предусмотрел проектировщик кодировки. На самом деле в шрифты включены глифы для наиболее распространенных комбинаций символа и диакритического знака, но отображение символа и его кодирование — вещи разные.
При проектировании Unicode приходилось учитывать такие вещи, как эффективность и совместимость с существующими национальными кодировками. Иногда это приводит к избыточности; например, в Unicode имеются кодовые позиции как для составных форм, так и для многих уже применяющихся монолитных форм.
Рассмотрим, к примеру, немецкое слово «öffnen» (открывать). Даже если забыть о регистре, его можно закодировать четырьмя способами:
1. о
+ МОДИФИЦИРУЮЩАЯ ТРЕМА (u+0308
) +f+f+n+e +n
2. СТРОЧНАЯ ЛАТИНСКАЯ БУКВА О С ТРЕМОЙ (U+00F6
) + f + f + n + е + n
3. о + МОДИФИЦИРУЮЩАЯ ТРЕМА + ЛИГАТУРА ДВОЙНОЕ F (U+FB00
) + n + е + n
.
4. СТРОЧНАЯ ЛАТИНСКАЯ БУКВА О С ТРЕМОЙ + ЛИГАТУРА ДВОЙНОЕ F + n + e + n
1. Форма D (каноническая декомпозиция).
2. Форма С (каноническая декомпозиция с последующей канонической композицией).
3. Форма KD (совместимая декомпозиция).
4. Форма KC (совместимая декомпозиция с последующей канонической композицией).
Иногда можно встретить аббревиатуры NKFC (Normalization Form KC) и т.д.
Точные правила, сформулированные в стандарте, довольно сложны; в них проведено различие между «канонической эквивалентностью» и «совместимой эквивалентностью». (Корейский и японский языки требуют особого рассмотрения, но мы не станем тратить на это время.) В таблице 4.2 показано, как форма нормализации влияет на приведенные выше строки.
Таблица 4.2. Нормализованные формы в Unicode
Исходная | NFD | NFC | NFKD | NFKC |
---|---|---|---|---|
o+ ̈+f+f+n+e+n | o+ ̈+f+f+n+e+n | ö+f+f+n+e+n | o+ ̈+f+f+n+e+n | ö+f+f+n+e+n |
ö+f+f+n+e+n | o+ ̈+f+f+n+e+n | ö+f+f+n+e+n | o+ ̈+f+f+n+e+n | ö+f+f+n+e+n |
o+ ̈+ff+n+e+n | o+ ̈+ff+n+e+n | ö+ff+n+e+n | o+ ̈+f+f+n+e+n | ö+f+f+n+e+n |
ö+ff+n+e+n | o+ ̈+ff+n+e+n | ö+ff+n+e+n | o+ ̈+f+f+n+e+n | ö+f+f+n+e+n |
Формы С и D обратимы, KC и KD — нет. С другой стороны, потеря некоторых данных в формах KC и KD — свидетельство того, что все четыре строки двоично эквивалентны. Какая форма лучше всего подходит, зависит от приложения. Мы ещё вернемся к этой теме в следующем разделе.
Для Ruby есть библиотека, позволяющая выполнить описанные нормализации, хотя в стандартный дистрибутив она не входит. Вы можете скачать ее со страницы http://www.yoshidam.net/Ruby.html и установить командой gem install Unicode
.
Если библиотека Unicode установлена, то для выполнения любой нормализации достаточно вызвать один из методов Unicode.normalize_x
:
require 'Unicode'
sword_kd = Unicode.normalize_KD(sword)
sword_kd.scan(/./) # ['e', ''', 'p', 'e', ''', 'e']
sword_kc = Unicode.normalize_KC(sword)
sword_kc.scan(/./) # [ 'é', 'p', 'é', 'e']
4.2.5. Упорядочение строк
Обычно, хотя и не всегда, строки упорядочиваются по алфавиту или сходным образом.
Предположим, например, что мы хотим отсортировать такой массив строк:
eacute = [0x00Е9].pack('U')
acute = [0x0301].pack('U')
array = ['epicurian', '#{eacute}p#{eacute}e', 'e#{acute}lan']
# ['epicurian', 'éрéе', 'élan']
Что произойдет, если передать этот массив методу Array#sort
?