Этот сайт - часть системы сайтов для начинающих веб-мастеров
|
Поисковый
агент — это программа, периодически сканирующая всю Сеть и проверяющая,
есть ли по тому или иному адресу Web-страница. Если страница есть, агент проверяет
ее HTML-код, извлекает из него интернет-адреса, ведущие на другие Web-страницы.
Также он извлекает ее название и пытается извлечь описание и набор ключевых
слов, если они есть, после чего заносит все это в базу данных поисковика (или,
как говорят опытные интернетчики, выполняет индексирование). Далее он
обращается к Web-страницам, находящимся по найденным на текущей странице адресам,
и проделывает с ними то же самое.
Поисковые
агенты, как правило, пишутся на заказ очень опытными и знающими программистами.
Хороший поисковый агент — настоящее произведение программистского искусства.
Он должен отсекать несуществующие адреса, правильно опознавать HTML-теги, "интеллектуально"
создавать описания и при этом быстро работать. Сами понимаете: Сеть велика,
а времени всегда не хватает...
Вообще, проанализировать
HTML-код — задача не очень сложная. В самом деле, название страницы помещается
внутри тега <TITLE> в секции заголовка <HEAD>, а интернет-адреса
других страниц с большой долей вероятности следует искать в тегах <А>
и <AREA>. Написать программу, извлекающую такую информацию, для опытного
программиста — пара пустяков.
Сложность
здесь совсем в другом.
Давайте вспомним,
какие данные помещаются в базу данных поисковой машины, и классического поисковика,
и каталога. Кроме адреса и названия страницы, это еще и краткое описание и набор
ключевых слов. А откуда их взять?
Проанализировать
текст, помещенный на Web-странице? А как? Как обычная программа, даже очень
сложная и подающая признаки легкого "интеллекта", узнает, какое из
многих сотен, а то и тысяч слов текста страницы можно использовать как ключевое?
Как она "ужмет" многокилобайтовый текст в краткое описание из 200
символов (такое ограничение на размер текста описания накладывают многие каталоги)?
Как при этом выбрать нужную информацию и выжать всю "воду"?
Нет, это задача
непроста даже для человека-модератора. Что уж требовать от программы...
Да, но как-то
нужно выбирать из текста страниц необходимую информацию!
Как раз для
этого и предназначены метатеги HTML. Именно с их помощью можно представить в
HTML-коде информацию, которая не будет предназначена человеку, а исключительно
программам. Человек ее даже не увидит (если, конечно, не станет специально для
этого просматривать HTML-код).
Конечно, поисковые
агенты пользуются для добычи информации не только метатегами. Они также проверяют
текст страницы, причем, в зависимости от тега, в котором находится этот текст,
они придают ему разное значение. Также они сравнивают, какие данные находятся
в метатегах и основном тексте страницы, и на основании результатов этого сравнения
делают определенные выводы. Уже говорилось, что хороший поисковый агент — это
настоящее произведение программистского искусства, несущее в себе частицу его
создателя.
А теперь все
же обратимся к метатегам.