Теперь обратите, пожалуйста, внимание на сам набор символов: «%EC%E5%ED %E5%E4%E6%E5%F0».
Он начинается после знака «=» и заканчивается перед знаком «&». Этот перечень и представляет собой слово «Менеджер», написанное в определенной кодировке. В данном случае нам неважно, как она называется, гораздо существеннее то, что это стандартная кодировка, которая применяется во всех системах. Если же кому-то из читателей это все-таки интересно, то сообщаем, что именуется она не иначе как UrlEncode, а то, что стоит после знака процента, – код символа в UTF-8.
Научившись разбираться во всех приведенных нюансах, вы сможете автоматизировать процесс создания набора символов для подобных сложных страниц. Причем изучать кодировки для этого совершенно не требуется.
Проведем простейший эксперимент: наберем в поисковой строке Яндекса слово «Manager», а в отдельном запросе – слово «Менеджер» и сравним URL’ы страниц, которые будут получены в ответ.
Итак, адрес страницы по англоязычному запросу «Manager» выглядит следующим образом:
http://www.yandex.ru/yandsearch? stype=www&nl=0&text=Manager.
А вот так выглядит URL ресурса по русскоязычному запросу «Менеджер»:
http://www.yandex.ru/yandsearch?text=%EC%E5%ED %E5%E4%E6%E5%F0&stype=www.
Очевидно, что кодированные тексты в запросе резюме на сайте e1 и на Яндексе по слову «менеджер» идентичны и имеют вид
«%EC%E5%ED%E5%E4%E6%E5%F0».
Мы уже располагаем примером синтаксиса строки страницы номер один с сайта e1 по запросу «менеджер»:
Можно произвольно подставлять любое нужное слово, предварительно получая его закодированное написание в Яндексе, и таким образом принудительно генерировать на сайте e1 и ему подобных ресурсах нужные страницы с нужным форматом адреса, который впоследствии технически можно ставить на автоматический мониторинг.
Проверим это утверждение на примере запроса по ключевому слову «Автоленд».
Написание слова «Автоленд» в URL’е, полученное с помощью запроса в Яндексе, выглядит так:
«%C0%E2%F2%EE%EB%E5%ED%E4».
Если механически подставить это значение в строку запроса по поиску вакансий на сайте e1 для первой страницы выдачи, то адрес будет выглядеть следующим образом:
Подставив эти координаты в адресную строку браузера, мы получили всего одну страницу, на которой содержалось резюме конкретного специалиста. В тексте этого документа была информация о том, что человек действительно работал когда-то в компании «Автоленд».
Однако помимо всего описанного выше, долгое время существовала еще проблема индексации динамически генерируемых страниц, которая относила их к невидимому Интернету.
Динамические страницы – это ресурсы, создаваемые небольшой программой – скриптом – в момент запроса браузера к серверу. Такая страница часто имеет вид:
aaaa?b=x&c=y
где aaaa – название скрипта, а после «?» идут параметры, включенные в запрос. Обычно динамические страницы определяются пауком на том основании, что они содержат символы
«?», «&» и «=«в URL.
Большинство поисковых систем до недавнего времени старались обходить такие страницы стороной, т. к. паук вполне мог на них «зависнуть» навсегда, в силу технических причин – потому что он непрерывно пытался посетить несуществующие страницы, адреса которых практически до бесконечности может генерировать скрипт.
Динамические страницы очень удобны для производства сайтов, и игнорировать их было бы недальновидно. Поэтому в последнее время крупнейшие поисковые системы стали одна за другой объявлять о том, что они начинают индексировать такие ресурсы, так что сайтов, которые относились прежде к невидимому Интернету в силу того, что содержали динамические страницы, стало меньше.
Преимущества невидимого Интернета
Поисковые системы удобны, поскольку позволяют проводить поиск по ключевым словам. Однако все популярные поисковики такого плана – вроде Яндекса, Гугла и Рамблера, – рассчитаны на широкую, а не целевую аудиторию.
В то время как невидимый Интернет изобилует источниками, посвященными определенной теме: они подобраны и проверены специалистами вручную и потому в большинстве случаев содержат наиболее полную и подробную информацию по конкретному вопросу.
Так, на сайте проекта «Рифпарк», расположенном по адресу http://rifpark.ru/, вы можете ознакомиться с материалами по аквариумистике, многие из которых взяты из видимого Интернета и собраны вместе на данном ресурсе, оценены специалистами на предмет компетентного подхода к проблеме и представлены в виде тематических каталогов. При этом часть материалов из каталога сайта «Рифпарк» на момент написания книги была не проиндексирована поисковыми машинами, несмотря на то, что главная страница ресурса проиндексирована была.
Например, фраза: «Водоросли обычно придают аквариуму неэстетичный вид (хотя в природе они встречаются повсеместно) или служат индикатором плохого качества воды», – взятая с этого сайта, при поиске по ней информации в Яндексе не вывела нас на ссылку, которая указывала бы на ресурс проекта «Рифпарк». Были найдены другие сайты с таким же текстом. Это видно на рис. 6.

Рис. 6. Яндекс не видит сайта «Рифпарк» при запросе фразы с этого сайта.
Как указывают эксперты по поиску в Интернете, поисковые машины общего назначения постоянно выбирают между тем, какой ответ предоставить: самый простой, самый полный, самый интересный… (перечень критериев можно продолжить – вплоть до «наилучшего»). Как мы уже говорили, эти системы вынуждены ограничивать себя в процессе удовлетворения запроса пользователя, так как их работа имеет определенную себестоимость. Поисковик – коммерческое предприятие, ничего уж тут не поделаешь.
С другой стороны, правительства, учебные заведения и другие организации, не преследующие целей получения прибыли, очень активно используют ресурсы невидимого Интернета. Такие сайты не стараются угадать интересы каждого, «заточены» под потребности представителей определенной отрасли и очень часто дают полный ответ на вопрос, на котором, собственно, и специализируются. Ответ этот, как правило, позволяет провести исчерпывающий поиск в конкретной предметной области и оперативно обновлять результаты.
Таким образом, нередко невидимый Интернет имеет преимущества перед видимым:
– фокусируется на узкоспециальном контенте, что позволяет ему обеспечивать более полные результаты;
– часто имеет соответствующий своей теме поисковый интерфейс, отчего запросы могут настраиваться