в наших предсказаниях, математики разработали алгоритмы, позволяющие машинам обучаться похожим способом.
Для понимания механизмов подобного ассоциативного обучения важна концепция 'ценности'. Безусловный раздражитель в экспериментах Павлова обладает внутренней ценностью – положительной в случае еды (награда) и отрицательной в случае электрического удара (наказание). Этот ассоциативный механизм работает благодаря тому, что всякий раз, когда мы получаем награду, что угодно, предшествовавшее этой награде, приобретает дополнительную ценность. Даже нечто случившееся задолго до награды становится хотя бы чуть-чуть более ценным. Некоторые из таких вещей никак не связаны с наградой и предшествовали ей по чистой случайности. Но тогда, вероятнее всего, когда что-то подобное произойдет в следующий раз, за ним не последует награды. Это вызовет поступление сигнала об ошибке. Ожидаемая награда не была получена, и ценность не связанного с ней события будет снижена. Но когда происходит нечто, позволяющее правильно предсказать получение награды, сигнал об ошибке не поступает, и такое событие приобретает с каждым разом все большую ценность. Тем самым наш мозг учится присваивать определенную ценность всем событиям, объектам и местам в окружающем нас мире. Многие из них при этом остаются для нас безразличными, но многие приобретают высокую или низкую ценность.
Мы испытываем ощущения, отражающие эту карту ценностей, заключенную в нашем мозгу, когда возвращаемся из долгой заграничной поездки: мы чувствуем прилив эмоций, нарастающий по мере того, как улицы, по которым мы движемся, становятся все более знакомыми.
Стремясь к тому, что обладает высокой ценностью, и избегая того, что обладает низкой ценностью, мы можем получать награды и избегать наказаний. Но этот механизм ассоциативного обучения говорит нам только о том, какие вещи обладают высокой ценностью. Он не говорит нам, как добиться этих ценных вещей. Кошки Торндайка, когда их впервые сажали в клетку-головоломку, знали, что рыба обладает высокой ценностью, но при этом не знали, что сделать, чтобы до нее добраться.
Механизм, позволяющий научиться, что делать, чтобы получать награды (или избегать наказаний), тоже существует. Его называют
Рис. 4.5. Мозг представляет окружающий мир как пространство возможных наград (reward space).
Верхний рисунок: Карта конференц-центра. Составленная моим мозгом карта конференц-центра как пространства потенциальных наград.
Нижний рисунок: Я прибыл в незнакомый конференц-центр без карты. Стол с напитками скрыт за несколькими перегородками. Я могу найти его только методом проб и ошибок. После того, как я несколько раз нахожу стол с напитками, мой мозг создает карту конференц-центра как пространства потенциальных наград. Окраска отражает ценность (чем светлее, тем выше ценность). Если я буду двигаться в сторону участков, окрашенных светлее, я рано или поздно доберусь до стола с напитками. Но я не знаю, что руководствуюсь этой картой. Я просто иду к столу с напитками.
Вольфрам Шульц и специалисты по вычислительным системам Питер Даян и Рид Монтегю показали, что допаминовые нервные клетки ведут себя именно так, как следовало бы ожидать, исходя из того, что мозг обезьяны пользуется тем же методом обучения, что и машина, использующая алгоритм временных различий. Активность допаминовых клеток и отражает те ошибки в предсказаниях, которые позволяют обезьяне обучаться, не имея учителя. Этот механизм обучения работает отнюдь не только в нервных клетках обезьян. Обучением путем предсказаний можно объяснить также поведение пчел, которые ищут лучшие цветы, и людей, играющих в азартные игры.[99] В обоих случаях обучение путем предсказаний формирует карту возможных действий, на которой отмечено, какие действия с наибольшей вероятностью приведут к награде.
Пользуясь ассоциативным обучением, мозг составляет карту окружающего мира. По сути дела, это карта ценностей. На этой карте отмечены объекты, обладающие высокой ценностью, сулящие награду, и объекты, обладающие низкой ценностью, сулящие наказание. Кроме того, на ней отмечены действия, обладающие высокой ценностью, которые сулят успех, и действия, обладающие низкой ценностью, сулящие неуспех.
Стоя на пороге университетской столовой, я инстинктивно направляюсь туда, где смогу найти лучшую еду и напитки. Я направляюсь к столикам, за которыми обычно сидят мои друзья, и подальше от столиков, за которые часто садятся специалисты по молекулярной генетике и профессора английского языка. Я автоматически толкаю дверь, которая открывается вовнутрь, и прохожу, не задумываясь, туда, где подают горячее.[100] В какой-то момент администрация столовой может решить переставить столики и поменять дверь. Некоторое время я по-прежнему буду пытаться толкать дверь, которая теперь открывается наружу, но рано или поздно карта в моем мозгу будет автоматически подправлена.
Взяв свой обед, я сажусь за столик, и вскоре оказывается, как ни странно, что я сижу рядом с профессором английского языка и пытаюсь убедить ее, что все эти новые данные о том, как мозг познаёт окружающий мир, интересны и важны. Я говорю ей, что для нашего мозга окружающая действительность выглядит не какой-то звенящей разноцветной путаницей, а картой, на которой обозначены открытые перед нами возможности. И что эта карта открытых возможностей обеспечивает нашу глубокую связь с непосредственно окружающим нас миром. Стоит мне только увидеть вон ту кружку, как мой мозг уже начинает играть мышцами и сгибать мои пальцы на случай, если я захочу взять ее в руку.
Рис. 4.6. Наш мозг автоматически готовит программы действий в соответствии с окружающими объектами.
Умберто Кастьелло и его коллеги провели ряд экспериментов, показавших, как различные находящиеся в поле зрения предметы вызывают автоматическую активацию реакций (программы действий), требуемых, чтобы протянуть руку и взять в нее каждый из этих предметов, даже если у человека нет осознанного намерения брать их в руки. Этот было сделано путем очень точного измерения движений рук испытуемых при взятии различных предметов. Когда мы берем что-либо рукой, расстояние между большим пальцем и остальными пальцами заранее приводится в соответствие с размером предмета. Когда я тянусь за яблоком, я раскрываю руку шире, чем когда тянусь за вишней. Но если я тянусь за вишней, в то время как на столе, кроме вишни, есть еще и яблоко, то я раскрываю руку шире, чем обычно делаю, чтобы взять вишню. Действие, требуемое, чтобы взять вишню, попадает под влияние действия, требуемого, чтобы взять яблоко. Такое влияние возможного действия на совершаемое показывает, что мозг одновременно параллельно заготавливает программы для всех этих действий.
Я объясняю ей, что именно так наше сознание и встраивается в материальный мир. Именно так наш