logo search
internet_marketing

10 Методы поиска информации в Интернете

Для получения качественного результата при проведении поиска необходимо соблюдать ряд условий. Основными из них являются контроль полноты охвата ресурсов и достоверности найденной информации.

По способу организации и хранения информации ее источники в Интернете можно разделить на следующие основные категории:

·  файловые серверы — являются традиционным способом хранения данных и представляют собой компьютеры, часть дискового пространства которых доступна через Интернет;

·  web-сайты являются сегодня основным и наиболее распространенным типом информационных ресурсов в Сети;

·  телеконференции – представляют собой способ общения людей, имеющих доступ в Сеть, и предназначены для обсуждения каких-либо вопросов или распространения информации;

·  базы данных могут содержать самую произвольную информацию: публикации, справочную информацию, другие данные.

Все названные ранее источники можно классифицировать по ряду признаков:

·  по языковому признаку;

·  по географическому признаку;

·  по виду и характеру представляемой информации

По принципу организации и использования средства поиска можно выделить следующие инструменты:

·  поисковые машины — являются ключевым инструментом поиска информации, поскольку содержат индексы большинства web-серверов Интернета.

·  мета-средства поиска — позволяют ускорить выполнение запроса путем передачи аргументов поиска, то есть ключевых слов, одновременно нескольким поисковым системам;

·  специализированные средства поиска — представляют собой «программы-пауки», которые в автоматическом режиме просматривают web-страницы, отыскивая на них нужную информацию;

·  каталоги — как и поисковые машины, используются посетителями Интернета для нахождения необходимой информации.

Поиск информации в Интернете может быть произведен при помощи двух основных методов:

·  использование поисковых систем;

·  поиск по гипертекстовым ссылкам —поиск информации может быть произведен путем последовательного просмотра с помощью браузера связанных ссылками web-страниц.

Для эффективного использования поисковых серверов, прежде всего необходим список ключевых слов, организованный с учетом семантических отношений между ними, то есть тезаурус.

Одним из подходов к составлению тезауруса может стать использование законов Ципфа. Ципф определил, что если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина приблизительно постоянна для всех текстов на одном языке:

где f — частота вхождения слов, r — ранг частоты, n — число слов

Ципф также установил, что зависимость количества слов с данной частотой от частоты постоянна для всех текстов в пределах одного языка.

Процедура оптимального выбора ключевых слов, основанная на применении законов Ципфа, заключается в следующем: берут любой текст-источник, близкий к искомой теме, то есть «образец», и анализируют его, выделяя значимые слова. В качестве текста-источника может служить книга, статья, web-страница, любой другой документ. Анализ текста производится в следующем порядке:

  1. «стоп-слова» удаляются из текста;

  2. вычисляется частота вхождения каждого слова и составляется список, в котором слова расположены в порядке убывания их частоты;

  3. выбирается диапазон частот, лежащий в середине списка, и из него отбираются слова, наиболее полно соответствующие смыслу текста;

  4. составляется запрос к поисковой машине в форме перечисления отобранных таким образом ключевых слов, связанных логическим оператором OR(ИЛИ) Запрос в таком виде позволяет обнаружить тексты, в которых встречается хотя бы одно из перечисленных слов.

Всего известно около нескольких сотен поисковых систем, различающихся по регионам охвата, принципам проведения поиска, объему индексной базы, скорости обновления информации, способности искать «нестандартную» информацию и т. д. Основными критериями выбора поисковых систем являются объем индексной базы сервера и степень развитости самой поисковой машины, то есть уровень сложности воспринимаемых ею запросов.

Как формат, так и семантика запросов может варьироваться в зависимости от применяемой поисковой машины и конкретной предметной области. Запросы должны составляться так, чтобы область поиска была максимально конкретизирована и сужена.

Результат запроса, то есть выведенный системой список ссылок на найденные ресурсы, обрабатывается в два этапа. На первом этапе производится отсечение очевидно нерелевантных источников, попавших в выборку в силу несовершенства поисковой машины или недостаточной «интеллектуальности» запроса. Параллельно проводится семантический анализ, имеющий целью уточнение тезауруса для модификации последующих запросов. Дальнейшая обработка производится путем последовательного обращения на каждый из найденных ресурсов и анализа находящейся там информации.

Конечной стадией поиска является анализ ресурсов и сбор искомой информации. Первичный анализ ресурсов может основываться на аннотациях, если они есть, а при их отсутствии — на ознакомлении с информационным наполнением ресурса. Далее информация извлекается с отобранных источников и используется в соответствующих поиску целях.