Данный эксперимент описан в массе литературы и его приведение не обязывает соблюдать копират.

Возьмите 32 пустые карточки и напишите на них все буквы русского алфавита. Положите все карточки в коробку, тщательно перемешайте. Извлеките наугад одну букву. Запишите, какую именно. Теперь бросьте карточку с буквой в коробку и перемешайте карточки еще раз. Тщательнее перемешивайте! Еще раз! Еще! Теперь достаточно. Можете извлечь следующую букву и записать ее рядом с предыдущей.

Проделав подобную процедуру раз 30-40, вы получите набор букв и слов (одна из 32 карточек должна быть пустой). Я уже приводил его в предыдущем окне.

Чередование букв наиболее беспорядочно, хаотично. Энтропия текста обладает наибольшей их всех возможных текстов величиной.

Все это вытекает из описанной методики эксперимента. В самом деле, вероятность извлечения любой из букв одинакова, то есть выполняется условие:

Чтобы это условие не нарушилось, необходимо после извлечения карточки возвращать ее к коробку и тщательно снова все перемешивать.

Заметим, что вероятность извлечения пустой карточки, соответствующей интервалу между словами, также равна 1/32. Поэтому-то такими несуразно длинными получились слова нашего странного текста: каждое слово, формируемое описанным способом, состоит в среднем из 32 букв, то есть на каждые 32 наугад извлеченные буквы попадется в среднем один интервал.

В реальных текстах средняя длина слова составляет примерно 6 букв. Это значит, что в реальных текстах интервал встречается примерно в 5 раз чаще, чем в нашем эксперименте. Значит, его вероятность для реального тек ста составляет не 1/32, а 5/32=1/6=0,17.

Так же обстоит дело и с остальными буквами вероятность их появления в реальных текстах значительно отличается от 1/32.

Для определения реальных значений вероятностей появления букв в письменных текстах фиксировали частоту появления каждой буквы на протяжении сотен и тысяч страниц.

В результате такого учета было установлено, что чаще всего в русских текстах появляется буква "О" (Pо=0,09),

а реже всего буква "Ф" (Pф= 0,002). Чаще, чем буква "О" и другие буквы, появляются в русских текстах интервалы между словами. Их вероятность составляет Pинтервала =0,17.

Благодаря тому, что вероятности появления различных букв в реальных текстах неодинаковы, их энтропия (беспорядочность) меньше, чем в экспериментальном, искусственном тексте. Реальные тексты отличаются от энтропийного определенным порядком чередования букв.

Чтобы уяснить, как возникает порядок, попытаемся составить текст, в котором соблюдались бы реальные вероятности появления букв. Для этого нам придется вновь поместить карточки с буквами в общую коробку, но теперь понадобится не 32 карточки, а значительно больше, потому что число карточек должно быть пропорционально вероятностям появления букв (например, на две карточки с буквой "Ф", имеющей вероятность Pф =0,002, должно приходиться 90 карточек с буквой "О", имеющей вероятность Pо =0,09 и т. д.).

Впрочем, можно не тратить времени на приготовление множества карточек с буквами. Тот же эксперимент можно проделать без карточек, используя обычный печатный текст. Ведь в тексте каждая буква будет встречаться именно с той частотой, которая соответствует ее вероятности. Если, закрыв глаза, наугад переворачивать страницы и указывать на букву, а затем приписывать ее к ряду ранее таким же образом отобранных букв, то вы получите новый искусственный текст, в котором частота появления букв будет соответствовать вероятности их появления в русском тексте. Действуя, таким образом получим фразу, помещенную в нижеприведенной таблице под номером 2.

Номер фразы

Фраза

Условие получения фразы

1

СУХЕРРОБЬДЩ ЯЫХВЩИЮАЙЖТЛФВНЗАГФОЕНВШТЦР ПХГБКУЧТЖЮРЯПЧЬЙХРЫС Принято условие равной вероятности всех букв алфавита и интервала между словами

2

ЕЫНТ ЦИЯЬА ОЕРВ ОДНГ ЬУЕМЛОЛЙКЗБЯ ЕВНТША Учтены вероятности отдельных букв в русском тексте

3

ВЕСЕЛ ВРАТЬСЯ НЕ СУХОМ И НЕПО И КОРКО Учтены вероятности 4-буквенных сочетаний в русском тексте

4

ТЕОРИЯ ИНФОРМАЦИИ ПОЗВОЛЯЕТ ИЗУЧИТЬ ЭТО СВОЙСТВО РЕАЛЬНЫХ... Соблюдены реальные вероятности сочетания всех букв

Мы намеренно расположили фразу  2 рядом с ранее полученной искусственной фразой1, чтобы читатель мог наглядно убедиться, насколько возрос порядок в тексте после того, как мы учли реальные вероятности появления букв.

В чем проявляется порядок? Во-первых, исчезли из текста слова несуразно длинные. Это произошло потому, что мы учли реальную вероятность появления интервала между словами (Pинтервала=0,17).

Во-вторых, в отличие от фразы  1, где друг за другом следовали 5 или 6 согласных букв (ЖТЛФВНЗ и т. п.), во фразе  2 гласные и согласные буквы чередуются более или менее равномерно, потому что учтены реальные вероятности появления и тех и других. Благодаря этому слова фразы  2 стали более или менее "удобочитаемы", в отличие от фразы  1, где сколько бы вы ни старались, вам не удастся произнести вслух такие сочетания букв, как БЬДЩ или ЖТЛФВНЗ.

Впрочем, и во фразе  2 порядок не столь велик, чтобы всю эту фразу можно было "озвучить". Ну как, например, произнести стоящий в начале слова ЬУЕМЛОЛЙКЗБЯ мягкий знак?

По всей видимости, в нашей упорядоченной фразе 2 еще не учтены все правила, по которым строятся реальные тексты. Чтобы сделать еще один шаг, приближающий наши искусственные фразы к фразам реальных текстов, давайте несколько усложним эксперимент. Будем учитывать вероятности не только отдельных букв, но и их сочетаний. Для этого снова раскроем наугад какую-нибудь книгу и из случайно выбранного слова выпишем четыре буквы, идущие одна за другой, например ВЕСЕ. Теперь будем скользить глазами по строчкам текста до тех пор, пока не встретим в тексте сочетание ЕСЕ (три последние буквы нашей записи ВЕСЕ). Выпишем ту букву, которая следует за сочетанием ЕСЕ (если, к примеру, встретившееся нам сочетание ЕСЕ принадлежит слову "ПЕРЕСЕЛЕНИЕ", то выпишем следующую за сочетанием ЕСЕ букву Л). Теперь записанное нами сочетание букв превратилось в ВЕСЕЛ. Снова запоминаем три последние буквы СЕЛ и ищем такое же сочетание в реальном тексте. Допустим, что такое сочетание встретилось нам в словах "присел на скамейку". В этом тексте следом за сочетанием СЕЛ следует интервал. Значит и в "конструируемом" нами тексте интервал должен следовать за сочетанием ВЕСЕЛ.

Все описанные манипуляции были проделаны с английскими текстами Шенноном и с русскими текстами Добрушиным. В результате Добрушин получил "странную фразу", помещенную в нашей таблице под 3.

Подобную фразу может сочинить электронная машина если, подбирая сочетания букв по заданной программе она будет учитывать хранящиеся в ее памяти вероятности различных 4-буквенных сочетаний, встречающихся в текстах различных книг. Эта "машинная речь", хотя и далека от человеческой речи, все же по некоторым формальным признакам очень напоминает обычный, осмысленный текст. По этим признакам можно даже найти во фразе 3 составное сказуемое (ВЕСЕЛ ВРАТЬСЯ), дополнения (НЕ СУХОМ, НЕПО, КОРКО) и т. п.

Заметим, кстати, что описанная процедура составления фраз очень напоминает один из приемов каббалы. Многие прорицатели, используя случайный набор слогов из священных (или из "черных", то бишь дьявольских) книг, пытались разгадывать и истолковывать таинственный смысл полученных слов и фраз. Считалось, что таким образом "ни вступают в общение с духом, подсказавшим эти фразы или слова. Мы с вами не станем уподобляться прорицателям и не будем гадать, какой каббалистический смысл вкладывал дух во фразу ВЕСЕЛ ВРАТЬСЯ НЕ СУХОМ И НЕПО И КОРКО. В ней нет, разумеется, никакого тайного смысла, а есть лишь смысл вполне очевидный: ее вероятностная структура приближается к вероятностной структуре обычных осмысленных фраз.

Все полученные Добрушиным искусственные фразы сведены нами в таблицу. К ним добавлена еще одна фраза, которой мы присвоили 4. Она выписана наугад прямо из текста и, следовательно, соответствует всем грамматическим и фонетическим правилам русского языка. Теперь окинем взглядом снизу вверх всю таблицу: перед нами картина распада и деградации: буквы, которые в нижней фразе соблюдали осмысленный строгий порядок, постепенно "сбиваясь с толку", в конце концов настолько между собой перемешались, что превратились в полную абракадабру (фраза 1).

Превращение фразы 4 сначала во фразы 3 и 2, а затем во фразу 1 - это модель перехода всякой упорядоченной системы в состояние термодинамического равновесия, то есть такого хаоса, при котором энтропия становится максимальной, а вероятности выравниваются, приближаясь к условию

Теперь попробуем на те же фразы посмотреть в обратном порядке, перемещая взгляд сверху вниз, от фразы 1 к фразе 4. Перед нами предстанет модель всех накапливающих порядок антиэнтропийных процессов. Элементы системы (в рассматриваемом случае система- это текст, а элементы системы - отдельные буквы) сначала следуют друг за другом в любых сочетаниях, не соблюдая правил, не "обращая внимания" на то, какие элементы появились до них (фраза 1). Первый проблеск порядка появился после того, как частоты появления элементов системы стали соответствовать вероятностям появления тех же элементов в структуре реальных упорядоченных систем (фраза 2). Порядок в системе существенно увеличился после того, как стали учитываться вероятности сочетаний ее элементов, определяемые правилами образования слогов в тексте (фраза 3).

"Полный порядок" образовался с того момента, как стали учитываться все правила русского языка (фраза 4).

С каждым шагом от хаоса к упорядоченности все меньше и меньше становится энтропия системы, потому что все больше и больше отличаются друг от друга различные вероятности pi входящие в формулу энтропии:

Стало быть, окинув взглядом сверху вниз таблицу, мы увидели, как протекает типичный антиэнтропийный процесс.

Подобная "антиэнтропийная метаморфоза" может происходить не только с текстом, но и с системами самой разнообразной природы. Например, можно представить себе, как молекулы жидкости, метавшиеся из стороны в сторону в хаотичном броуновском движении, для которого все скорости и направления в равной степени вероятны, начали вдруг выстраиваться в упорядоченные "колонны" и "шеренги" (потому что вероятности направлений движения стали различными) и постепенно образовали сложный, многогранный кристалл. А можно вообразить, как из сумбура нечленораздельных звуков начали образовываться закономерные сочетания (звуковые сигналы), которые постепенно превратились в осмысленные слова.

Как в этих, так и во многих других процессах, приводящих к увеличению порядка в структуре формирующихся систем, происходит накопление информации, количество которой определяется с помощью той же функции

Известный физик Леон Бриллюэн показал, что количество накопленной и сохраняемой в структуре систем информации (D I)в точности равно уменьшению их энтропии (D H).

Посмотрим, как это общее правило (так называемый негэнтропийный принцип информации) проявляется на частном примере рассмотренных нами фраз.

С помощью функции подсчитали, что при переходе от фразы 1 к фразе 4 энтропия текста уменьшилась примерно в 5 раз. Для фразы 1 энтропия (неопределенность появления каждой новой буквы) составляет 5 бит. Во фразе 2 неопределенность появления каждой буквы уменьшается на 1 бит и составляет 4 бита на букву. Энтропия реальных текстов меньше, чем

максимальная энтропия (фраза 1) на 4 бита. Она составляет около 1 бита на букву.

Уменьшение энтропии реальных текстов по сравнению с фразой 1 обусловлено тем, что в структуре реального текста содержится информация всех грамматических и фонетических правил русского языка. Разность между энтропией реального текста Нp = 1 бит на букву и максимальной энтропией фразы 1, Нmax=5 бит на букву- это и есть количество информации Iп, содержащейся в грамматических и фонетических правилах, которым подчиняются реальные тексты. Таким образом:

Iп = Hmax-Hp =4 бита на букву.

Этого количества информации оказывается достаточно для того, чтобы представленную фразой 1 абракадабру превратить в осмысленный текст.

Специалисты по телефонной, телеграфной и радиосвязи называют информацию грамматических и фонетических правил избыточной информацией. Почему? Это не так уж сложно понять.

Дело в том, что специалистов, проектирующих системы связи, письменные тексты интересуют только с одной точки зрения: как с помощью этих текстов передать по каналу связи при минимальной затрате энергии и в максимально короткий срок наибольшее количество новостей?

Мы только что выяснили, что в структуре реальных текстов содержится информация грамматических и фонетических правил.

Является ли эта информация для получателя новой? Нет, разумеется. Надо думать, что правила грамматики он усвоил еще на школьной скамье. А раз так, решили специалисты по связи, значит, информация эта избыточна и лучше по мере возможности не загружать ею канал. Приняв точку зрения специалистов по теории информации и технике связи, взглянем еще раз на фразы нашей таблицы.

Фраза 1 и проделанный для нее расчет энтропии показывают, что наибольшая неопределенность появления буквы составляет 5 бит на букву. Расчеты, проделанные для фразы 4 и других реальных текстов, показали, что неопределенность (непредсказуемость, неожиданность) появления каждой буквы в реальных текстах уменьшается до 1 бита за счет упорядоченности, обусловленной правилами, по которым строится всякий реальный текст.

Другими словами, неожиданность сообщений для знакомого с правилами грамматики и фонетики адресата уменьшается на 80 процентов, так как 80 процентов содержащейся в тексте информации не является для него неожиданной, новой. Так стоит ли загружать такой информацией дорогостоящий телеграфный или телефонный канал?

Специалисты решили: не стоит. И стали искать способы, позволяющие уменьшить этот "избыточный груз".

Например, получив сообщение ТЬС, можно безошибочно предугадать, что дальше последует буква Я. Почти с полной уверенностью можно предсказывать, что вслед за сочетанием КИ появится либо И, либо М, либо X, либо Е. А если учесть еще связь между передаваемым словом и предыдущим, то можно сказать уже без всяких сомнений, какая буква последует после сочетания СКИ. Если до этого было слово ЯЩИК, а потом пришло сочетание ГРОМОЗДСКИ, то вполне очевидно, что следом появится И. А если раньше было получено слово ВЕЩЕЙ. то после СКИ появится Х и т. п.

Исходя из того, что многие буквы передаваемых текстов можно предсказывать до их получения, создатели теории информации задались вполне законным вопросом:

может быть, для экономии времени и энергии эти буквы можно совсем не передавать?

Методами теории вероятностей и статистики были исследованы разнообразные сообщения: тексты, телеграфные коды, радио- и телесигналы и т. д. Оказалось, что все они обладают значительной долей избыточной информации, то есть той информации, которую можно предсказывать еще до ее получения или вообще не передавать по каналам связи, сохранив при этом возможность восстановить на приемном конце полный текст.

Но тут мы должны отвлечься от задач техники связи и передачи сообщений, чтобы обратить внимание на одно очень важное обстоятельство: та информация, которая оказывается избыточной для техники связи, вовсе не будет излишней для самого языка.

В самом деле: лишите-ка вы текст той избыточной информации правил (Iп==4 бита на букву), благодаря которой буквы следуют друг за другом в определенном порядке. Что тогда станет с текстом? Вполне очевидно:

он тут же рассыплется, перемешает между собой все свои буквы, превратится в абракадабру, подобную фразе 1.

То же самое произойдет и в любой другой упорядоченной (а стало быть, сохраняющей определенное количество информации) системе: стоит лишить ее этой информации, и она превратится в хаотичную смесь элементов, перестанет существовать как система.

Чтобы еще раз убедиться в том, что одна и та же информация может быть с одной точки зрения избыточной, а с другой точки зрения - крайне необходимой, допустим, что вам пришло такое сообщение: из яйца вылупился птенец, у которого есть крылья и нет плавников. Являются для вас новостью сведения о плавниках и крыльях? Нет, не являются. Для вас это избыточная информация. А для птенца?

Ситуация тут похожа на известный анекдот про сумасшедших: больной после излечения знает, что он не зерно, но знает ли об этом петух, который хочет это зерно склевать?

Так и в нашем примере: мы-то знаем, что петух из яйца должен вылупиться не с плавниками, а с крыльями. Но если лишить петуха (пока существующего в виде зародыша) этой самой избыточной информации о плавниках и крыльях, откуда петух узнает, что он должен родиться на свет не рыбой, а петухом? Не будь в яйцеклетках "избыточной" информации обо всех важных подробностях структуры зарождающихся в них организмов, на свет рождались бы только уродцы точно такие, как в сказке: "Не мышонок, не лягушка, а неведома зверюшка". Какая-нибудь несуразная, фантастическая и, уж конечно же, нежизнеспособная смесь. Значит, живым организмам "избыточная" информация необходима так же, как языку.

В продуктах питания, которые мы употребляем в пищу, помимо перевариваемых и усваиваемых организмом веществ (белков, углеводов, жиров и др.), есть вещества, которые только способствуют процессу пищеварения.

Так вот, если хотите, величина Нp = 1 бит на букву - это и есть та информация текста, которая представляет собой пищу для ума. Соответственно Iп=4 бита на букву - это та структурная информация, которая помогает "переваривать" новый текст.

Пусть читатель извинит нас за грубость этой "пищеварительной" аналогии, которая дает весьма наглядное представление о роли, которую играют содержащиеся в каждом тексте величины Нр и Iп.

Их присутствие не обнаруживается с первого взгляда. Для выявления соотношения непредсказуемой и избыточной информации, содержащейся в текстах, понадобились годы упорного и кропотливого труда. И даже он не привел бы ни к каким результатам, если бы теория информации не предложила способов измерений информации, позволивших выразить величины Нр и Iп количеством битов.

Веками копил язык информацию, создающую в чередовании звуков и букв определенный сложный порядок. Именно избыточная информация, накапливаемая в совокупности всех грамматических и фонетических правил, собственно, и сделала язык языком. А замечательная функция отразила в себе весь процесс упорядочивания, который описывается лаконичным языком математики как процесс постепенного перехода -от равенства всех вероятностей к их существенному различию, когда вероятность буквы "О" возрастает до 0,09, а вероятность буквы "Ф" падает до 0,0002.

Ну а если этот процесс продлится и дальше? Во что в конце концов превратится письменный текст?

Если много раз подряд подбрасывать игральную кость и записывать выпавшие очки, получится случайное чередование чисел: 3, 2, 5, 4, 1, 6, 2, 2, 6, 3 и т. д.

Какова вероятность того, что в следующий раз выпадет грань с пятью точками? Догадаться нетрудно. Если все грани строго симметричны, то с равной вероятностью может выпасть любая из 6 граней, то есть Р123= Р4= Р5= Р6=l/6.

А какова вероятность того, что при очередном броске выпадет любая из 6 граней? Каждый легко догадается, что вероятность такого события равна единице. В самом деле, не может же игральная кость встать на ребро!

На языке теории вероятностей это условие запишется вот в каком виде: Р1-6 = Р1 + Р2+ Р3+ Р4+ Р5+ Р6=1

Точно таким же образом на языке теории вероятностей можно сказать, что, закрыв глаза и передвигая кончик карандаша вдоль строки какой-нибудь книги, а затем остановив его наугад, вы обязательно попадете на букву (если считать буквой и интервал). Это условие записывается в виде: РА-Я = РА + РБ+ РВ+ :+ РЯ+ Ринтервал = 1.

Используя математический знак суммирования , все, что было сказано об игральной кости и буквах печатного текста, можно свести к следующей короткой записи:

, где i равно: для игральной кости 1,2,3,4,5,6; для письменных текстов А, Б, ... , Я, интервал.

Зная это условие, можно предсказать, что же в конце концов произойдет с текстом, если будет продолжаться тот процесс его упорядочивания, который можно наблюдать, просматривая сверху вниз все фразы, записанные в нашей таблице. Мы уже знаем, что бессмысленная фраза 1 может превратиться в некоторое подобие осмысленного текста только в том случае, если разные буквы будут иметь различные вероятности. А только что записанное нами условие позволяет сделать следующий вывод: чем больше становятся вероятности одних букв, тем меньше вероятности останется на долю других (поскольку сумма всех вероятностей по-прежнему будет равна единице-согласно условию ).

В царстве букв происходит процесс образования своего рода кастовых сословий: преимущества одних букв оплачиваются бесправием других. Возможность выхода в свет бесправных ограничена малой вероятностью их появлений на страницах газет, журналов и книг. Зато избранные буквы всегда на виду. А если продолжить этот процесс расслоения до его логического завершения, то в конце концов одна какая-то буква (например, "А") должна узурпировать все права (этот процесс будет выражаться условием pА = 1), а вероятности всех остальных букв в силу

условия станут равны нулю.

Так что же осталось от текста? АААА... Странный текст! А главное, в принципе непонятно: копил, копил язык информацию, развивался, вырабатывал правила, усложняя собственную структуру, а в итоге... выродился в примитивное АААА...

Что можно сообщить таким текстом? Кое-что, оказывается, можно. Представим себе такую ситуацию: мы договорились заранее с отправителем сообщений, что получив направленный к нему груз, он подтвердит его получение условным сигналом "А". Груз направляется периодически (скажем, раз в сутки молочная фабрика доставляет свою продукцию базе), и каждый раз в качестве подтверждения приходит все то же сообщение "А".

Но допустим, что адрес базы переменился, и надо сообщить об этом на фабрику. Вот тут уж одной буквой не обойдешься, придется вновь вспоминать о том, что, помимо "А", существует еще целый алфавит, и составлять необходимый для сообщения нового адреса текст.

Теперь становится ясно, что же в конце концов получилось из текста: накапливая порядок и информацию, он постепенно выродился в узкоспециализированный текст, который имеет смысл только для заранее обусловленных, строго определенных и неизменных условий. Если что-нибудь в условиях изменилось, текст становится нежизнеспособным: сообщить хотя бы о перемене адреса с его помощью уже нельзя.

Да и в тех случаях, когда адрес не изменяется, текст из одних "А" нужен лишь до тех пор, пока нет стопроцентной уверенности в своевременном прибытии груза. А что если груз неизменно и своевременно приходит по заданному адресу, как, например, регулярно проходят планеты определенные точки своих орбит? В этом случае сообщать вообще ничего не нужно. Регулярный текст "А - пауза - А - пауза - А..." может тянуться до бесконечности, не давая никакой дополнительной информации, поскольку время и место доставки груза, так же как и орбиты планет, подтвержденные и наблюдением и расчетом, известны еще до получения сообщения "А - пауза - А-пауза-А...". Подобный текст из регулярно повторяющихся одинаковых сообщений не только избыточен, но и бесполезен: он содержит в себе только средство для переваривания пищи (избыточную информацию), а пищи (то есть новой, неожиданной, непредсказуемой информации) в данном случае нет.