контексте одно и то же количество информации. Вероятность связана с частотой следующим образом. Если две, и только две, равновероятные единицы — х и у — могут встретиться в рассматриваемом контексте, каждая из них встречается (в среднем) ровно в половине всех соответствующих случаев: вероятность каждой, a priori, равна 1/2. Обозначим вероятность отдельной единицы х через рх. Итак, в данном случае рх = 1/2 и ру = 1/2. В более общем виде вероятность каждой из n равновероятных единиц (x1, х2, х3, . . ., хn) равна 1/n. (Заметим, что сумма вероятностей всего множества единиц равна 1. Это справедливо независимо от более частного условия равной вероятности. Особым случаем вероятности является «достоверность». Вероятность появления единиц, которые не могут не появиться в данном контексте, равна 1.) Если единицы равновероятны, каждая из них несет одно и то же количество информации.
Более интересны, поскольку более типичны для языка, неравные вероятности. Предположим, например, что встречаются две, и только две, единицы, х и у, и что х встречается в среднем вдвое чаще, чем у, тогда рх = 2/3 и ру = 1/3. Информационное содержание x вдвое меньше, чем содержание у. Другими словами, количество информации обратно пропорционально вероятности (и, как мы увидим, логарифмически связано с ней): это фундаментальный принцип теории информации.
С первого взгляда это может показаться несколько странным. Однако рассмотрим сначала предельный случай полной предсказуемости. В письменном английском языке появление буквы u, когда она следует за q, почти полностью предсказуемо; если отвлечься от некоторых заимствованных слов и собственных имен, можно сказать, что оно полностью предсказуемо (его вероятность равна 1). Подобно этому, вероятность слова to в таких предложениях, как I want . . . go home, I asked him . . . help me [29] (предполагается, что пропущено только одно слово), равна 1. Если бы мы решили опустить u (в queen 'королева', queer 'странный', inquest 'следствие' и т. п.) или слово to в упомянутых контекстах, никакой информации не было бы потеряно (здесь мы наблюдаем связь между обычным и более специальным значением слова «информация»). Поскольку буква u и слово to не находятся в парадигматическом контрасте ни с какими другими единицами того же уровня, которые могли бы встретиться в том же контексте, вероятность их появления равна 1, а их информационное содержание — 0; они целиком избыточны. Рассмотрим теперь случай двучленного контраста, где рх = 2/3 и ру = 1/3. Ни один из членов не является целиком избыточным. Но ясно, что пропуск х приводит к меньшим последствиям, чем пропуск у. Поскольку появление х вдвое вероятнее, чем появление у, получатель сообщения (знающий априорные вероятности) имеет в среднем вдвое лучшие шансы «угадать» пропуск х, чем «угадать» пропуск у. Таким образом, избыточность проявляется в различной степени. Избыточность х в два раза больше, чем избыточность у. В общем, чем более вероятно появление единицы, тем большей оказывается степень ее избыточности (и тем ниже ее информационное содержание).
Количество информации обычно измеряется в битах (этот термин происходит от англ. binary digit 'двоичный знак'). Всякая единица с вероятностью появления 1/2 содержит один бит информации; всякая единица с вероятностью 1/4 несет 2 бита информации, и так далее. Удобство такого измерения количества информации станет очевидным, если мы обратимся к практической задаче «кодирования» множества единиц (сначала предположим, что вероятности их появления равны) группами двоичных знаков. В предыдущем разделе мы видели, что каждый элемент множества из восьми единиц может быть реализован отдельной группой из трех двоичных знаков (см. § 2.3.8). Это определяется связью между числом 2 (основанием двоичной системы исчисления) и 8 (количеством единиц, которые требуется различать): 8 = 23. В более общем виде, если N — это число единиц, которые следует различать, a m — это число позиций контраста в группах двоичных знаков, требуемых для их различения, то N = 2m. Связь между числом парадигматических контрастов на «высшем» уровне (N) и синтагматической длиной групп элементов «низшего» уровня (m), таким образом, логарифмическая: m = log2 N. (Логарифм числа есть степень, в которую следует возвести основание числовой системы, чтобы получить данное число. Если N = xm, то m = logx N 'если N равняется х в степени m, то m равняется логарифму N по основанию x'. Напомним, что в десятичной арифметике логарифм 10 равен 1, логарифм 100 равен 2, логарифм 1000 равен 3 и т. д., т. е. log10 10 = 1, log10 100 = 2, log10 1000 = 3 и т. д. Если бы теория информации основывалась на десятичной, а не на двоичной системе измерения, то было бы удобнее определять единицу информации в терминах вероятности 1/10. Читателю должно быть ясно, что приведенное здесь равенство N = 2m — это частный случай равенства N = р1 ? р2 ? р3, ..., рm, введенного в § 2.3.8. Равенство N = 2m справедливо, если в каждой позиции синтагматической группы в парадигматическом контрасте находится одно и то же число элементов.
Количество информации измеряется обычно в битах, просто потому, что многие механические системы для хранения и передачи информации действуют на основе бинарного принципа: это системы с двумя состояниями. Например, информацию можно закодировать на магнитной ленте (для обработки с помощью цифровой ЭВМ) как последовательность намагниченных и ненамагниченных позиций (или групп позиций): каждая позиция находится в одном из двух возможных состояний и может, таким образом, нести один бит информации. Кроме того, информацию можно передавать (как, например, в азбуке Морзе) в виде последовательности «импульсов», каждый из которых принимает одно из двух значений: короткий или длинный по продолжительности, положительный или отрицательный по электрическому заряду и т. п. Всякая система, использующая «алфавит», состоящий более чем из двух элементов, может быть перекодирована в бинарную систему у источника передачи и снова перекодирована в первоначальный «алфавит», когда сообщение получено по месту назначения. Это имеет место, например, при передаче сообщений по телеграфу. То, что информационное содержание должно измеряться с помощью логарифмов с основанием 2, а не логарифмов с каким-либо другим числовым основанием, есть следствие того факта, что инженеры связи обычно работают с системами с двумя состояниями. Что касается вопроса об уместности применения принципа двоичного «кодирования» именно при исследовании языка в нормальных условиях «передачи» от говорящего к слушающему, то он вызывает значительные разногласия среди лингвистов. Не подлежит сомнению, что многие наиболее важные фонологические, грамматические и семантические различия бинарны, как мы увидим в последующих главах; мы уже видели, что один из двух членов бинарной оппозиции может рассматриваться как положительный, или маркированный, а другой — как нейтральный, или немаркированный (см. § 2.3.7). Мы