[email protected]
— специалист по маркетингу, в разное время участвовал в поддержке сайтов AtRus, Newspepper.ru, Boom.ru, Boomerang.ru и других, в 1999 году выпускал подписной лист «Новости поисковых систем» на e-mail.com.ua.
Найденные поисковой машиной документы относятся к одной из двух категорий: одни соответствуют запросу (релевантны), другие ему не соответствуют, то есть нерелевантны…
На этом простом механизме в настоящее время строится перспективный бизнес. Сами поисковые машины тоже относятся к одной из двух категорий: одни технологически эффективны, другие наоборот. Однако, современные поисковики настолько сложные системы, что уже не могут быть описаны в кооординатах «хорошо-плохо». Настоящий обзор представляет основные характеристики и текущее положение на рынке трех ведущих поисковых систем.
«Рамблер»
Поисковая машина «
Важно для рекламодателей. Примерно половину показов на «Рамблере» дает поисковая система. Новый «Рамблер» распознает темы по аннотациям, чтобы связывать результаты поиска с другими разделами портала. Составлен тезаурус запросов, с помощью которого выделяются их темы. К примеру, запрос «лекарство такое-то» и реклама того же лекарства в некой аптеке дает CTR в 10 раз больше обычного. Делаются «перевязки» на другие разделы портала, которые выдаются вместе с результатами поиска, обеспечивая примерно 20% общей посещаемости разделов Rambler.ru (их средний CTR 4%). Существует статистический сервис, пока не сделанный публичным (доступен только работникам «Рамблера» и некоторым рекламодателям): выдача списка других запросов, которые делают авторы базового запроса, интересующего рекламодателя.
Важно для вебмастеров. «Паук» «Рамблера» производит индексирование в новостях 5 раз в день; в сайтах, входящих в Top100, — 1 раз в день; все прочие посещаются не чаще, чем 1 раз в две недели. Рамблер не индексирует личные странички, находящиеся на публичных зарубежных серверах (geocities, tripod и других), а страницы подобных отечественных сайтов (narod, boom) обходит медленней, чем другие ресурсы. Поскольку новостными считаются всего около 40 сайтов, выгодно иметь на своих страницах счетчик Top100 для быстрого отображения страниц в поисковой машине «Рамблера». К тому же, в рейтинг Top100 можно вносить подробные аннотации объемом до 4 Кб. Динамические страницы «Рамблер» пока не индексирует. На выставке «Комтек» руководством компании было указано, что именно нынешним летом эта ситуация может измениться. Новый и. о. президента «Рамблера» Антон Носик против этого запланированного нововведения.
Специалисты «Рамблера» пришли к выводу, что борьба с копиями не может идти только на уровне программных алгоритмов. Например, такая простая операция как отслеживание (с участием модератора) ситуации, при которой каждый документ, имеющий на 40 зеркалах библиотеки Мошкова, считается системой за один, экономит до 10% ресурсов поисковой базы.
«Апорт»
Поисковая машина «
По тем же историческим причинам «Апорт» создавался и продолжает функционировать под Windows NT, хотя в XXI веке уже становится очевидным, что поисковая машина должна работать на платформе UNIX (когда речь идет о системе на базе NT, включающей 40-50 серверов, то кнопку Reset приходится нажимать несколько раз в день, а вовсе не один раз в месяц). Правда, «Апорт» не использует единственное кластерное решение, которое предлагает Microsoft (MS Claster Server со всеми его ограничениями), и вообще избегает универсальных решений (не используется, например, SQL-сервер или Oracle — они хороши для большого круга задач, но не для полнотекстового поиска).
Важнейшими свойствами первой версии «Апорта» являлся перевод запроса и результатов поиска на английский язык и обратно, а также реконструкция всех проидексированных страниц из собственной базы (что означает возможность просмотра страниц, уже несуществующих в оригинале).
В ноябре 1998 года компания «Агама» была куплена за 55 тысяч долларов израильским капиталом в лице Джозефа Авчука (с сохранением торговых марок «Апорт» и «Агама»). В марте 1999 года Авчук входит в долю, а летом того же года окончательно покупает каталог Ау!, торговой марке которого повезло существенно меньше — она была переименована сначала в AtRus, а потом и вовсе уничтожена при экспорте каталога на сайты «
«Апорт 2000» стал первым русским поисковиком, построенным на основе выдачи результатов по отдельно взятым сайтам. Для разделения ресурсов на сайты используется информация, которую «Апорту» предоставляет каталог AtRus или сведения, введенные в «Апорт» владельцами ресурсов. На худой конец, приходится опираться на алгоритм, который позволяет по некоторым формальным признакам выделить отдельные сайты.
«Апорт 2000» стал первой российской поисковой машиной, практически реализовавший две базовых технологии американской поисковой машины
Еще на этапе разработки «Апорта 2000» в него были заложены «крючечки», позволяющие корректировать приоритеты в выдаче результатов с учетом посещаемости сайтов по счетчику Aport Top 1000 и для сайтов, чье название в службах реальных имен является синонимом или совпадает со словами запроса (так как любая служба имен модеририруется, и полной чуши в ее данных быть не может). Обе эти возможности до сих пор не реализованы.
Можно отметить и то, что «Апорт»
И, наконец, еще одно первенство «Апорта» — использование платной нулевой строки в выдаче (кстати, «Апорт» первым среди наших поисковиков начал покупать такой сервис у AltaVista, которая за небольшую плату выдавала его ссылку первой при запросе «Russian Search»). Однако в «Апорте»
Пользователи «Апорта» (в отличие завсегдатаев «Яндекса») мало пользуются расширенным поиском (на 8000 загрузок простой страницы приходится 300 вызовов страницы «Расширенный поиск»).
Организация масштабируемости в архитектуре «Апорт 2000» такова, что можно дробить поисковую базу «Апорта» на несколько отдельных баз, каждый маленький «Апорт» работает на своем компьютере. «Апорт 2000» считает, что весь Интернет поделен на фрагменты. После проведения поиска по этим фрагментам, пользователю интегрируется и выдается общий ответ. Добавлять новые маленькие «апортики» можно путем не очень сложной процедуры. В случаях аварий отдельных машин выдаются несколько отличные от штатных интегральные результаты, что мы можем время от времени наблюдать.
31 июля 2000 года
В мае 2001 года окончательно завершилась сделка по смене хозяина самого Golden Telecom. Андрей Косогов (первый заместитель председателя правления «Альфа-банка») сообщил «Интерфаксу» о том, что новые владельцы контрольного пакета будут осуществлять только стратегическое управление Golden Telecom через совет директоров (все прежние хозяева «Апорта» непосредственно вмешивались в управление проектом).
Важно для вебмастеров. «Апорт» индексирует динамические страницы, но не по умолчанию, а по отдельным просьбам владельцев сайтов. «Апорт» изначально и по настоящее время учитывает метатеги.
«Яндекс»
В 1996 году компанией
23 сентября 1997 года «Яндекс» стал
В настоящее время «Яндекс» обладает самой полной базой документов среди русских искалок, а также самой узнаваемой маркой.
Сравнение качества поиска
Поисковая машина характеризуется двумя важнейшими параметрами: точностью и полнотой (полнота есть отношение количества найденных релевантных документов к полному количеству релевантных документов в базе данных).
Пример. Пусть по запросу найдено 50 документов. После просмотра их всех пользователь принимает решение, что 30 документов релевантны запросу, а 20 нерелевантны. Сплошной просмотр всей базы данных показывает, что в ней содержится 100 документов, релевантных запросу. Отсюда получаем, что полнота 30/100 = 0,3; точность 30/50 = 0,6. Как правило, улучшая один из названных параметров, ухудшаешь другой.
Используется также такая обобщенная характеристика, как техническая эффективность поисковых машин, включающая скорость поиска по запросу, объем базы, удобство представления результатов, скорость индексирования информации и так далее. Но особое место среди этих параметров занимают показатели качества поиска — в этом сходятся мнения всех создателей поисковых машин.
Отечественная компьютерная пресса, которая так любит устраивать тестирование лингвистических программ (например, систем оптического распознавания), пока ни разу не организовала ни одного тестирования отечественных поисковиков (в отличие от ZDnet).
Результаты иследований представлены ниже. Значения годичной давности оставлены, чтобы показать изменения эффективности при переходе «Яндекса» на более совершенную версию поисковой машины в июне 2000 года и изменение точности «Рамблера», вследствие того, что с ноября 2000 года некоторые нововведения стали последовательно внедряться в старый движок.
Результаты для «Апорта», по словам его создателя Евгения Киреева, качественно похожи на правду, потому что за прошедший год ничего в технологиях повышения релевантности в этой системе не менялось, так как, по его мнению, ничего уже и невозможно принципиально изменить. По его словам, команда «Апорта» спокойно ждет, пока «Яндекс» и «Рамблер» подтянутся до такого же уровня, и это будет уровнем развития отрасли. Фактически, результаты последнего исследования от 24 мая 2001 года, проведенные на следующий день после представления новой версии «Яндекса», показывают, что с нынешнего лета уровень отрасли определяется им.
Сравнение релевантности поисковых систем
=Период | =»Апорт» | =»Рамблер» | =»Яндекс» | |
=02.2000 | =0,959 | =0,643 | =0,845 | — |
=11.2000 | =0,992 | =0,903 | =0,960 | — |
=12.2000 | =0,992 | =0,922 | =0,960 | — |
=03.2001 | =0,992 | =0,956 | =0,960 | — |
=05.2001 | =0,992 | =0,957 | =0,998 | =0,992 |
Заинтересованным лицам — еще несколько абзацев о методике исследований (остальные могут перейти к следующей главе).
Тестировалось качество ранжирования с определением точности при 10, 30, 50, 70 и 100 документах из начальной части списка и с учетом градации значений точности (точность при 30 документах важнее точности при 300 документах, иными словами, основной интерес представляет зависимость между полнотой и точностью в области малых значений полноты).
Известно, что отношение суммарной частоты всех запросов, состоящих из одного слова, к суммарной частоте всех запросов равно примерно 0,5. Поэтому отбиралось 50 однословных запросов с максимальной частотой. Отношение суммарной частоты запросов из двух слов к суммарной частоте всех запросов равно 0,3. Поэтому отбиралось 30 двухсловных запросов с максимальной частотой. Дальше действуем аналогичным образом.
По каждому запросу проводился поиск во всех сравниваемых поисковых машинах. Решение о релевантности или нерелевантности документа принимается после просмотра его полного текста, а не аннотации, выдаваемой в результатах поиска по запросу.
На основе полученных оценок релевантности применительно к каждой машине формируется характеристическое множество запроса — значения точности, полученные при разном количестве документов из начальной части списка найденных документов.
Пример. Характеристическое множество содержит 5 элементов — значения точности при 10, 30, 50, 70, 100 документах из начальной части списка найденных документов. При такой структуре характеристического множества эксперт должен принять решение о релевантности первых 100 из найденных документов.
Предположим, что для одной из сравниваемых поисковых машин число документов — 10, из них релевантных 8, точность 8/10, первый член характеристического множества запроса — 0,8. Релевантность поиска по запросу вычисляется с учетом весовых коэффициентов. Задан следующий набор весов элементов характеристического множества запроса: (5, 4, 3, 2, 1). И пусть запрос имеет характеристическое множество (0,8; 0,5; 0,46; 0,43; 0,4). Тогда средняя релевантность равна: 0,8*5/15 + 0,5*4/15 + 0,46*3/15 + 0,43*2/15 + 0,4*1/15 = 0,267 + 0,133 + 0,092 + 0,057 + 0,027 = 0,576. Далее происходит вычисление средней релевантности поиска по всем запросам, которая и представлена в таблице выше.
Об исследовании других характеристик поисковых машин.
Небезынтересны
Исследования полноты поисковых систем заведомы неточны. Совершенно очевидно, что при том объеме базы, что имеется у «Яндекса», он является самой полной системой, независимо от того, как отслеживаются дубли в разных поисковиках. Определение полноты индексирования путем поиска некоторых образцовых документов в каждой из сравниваемых поисковых машин (еще одна очень сложная методика Харина) привело к следующим результатам.
=»Апорт» | =»Рамблер» | =»Яндекс» | |
=0,40 | =0,53 | =0,60 | =0,47 |
Полнота 0,53 для «Рамблера» означает, что из 15 документов, отобранных «Яндексом», «Апортом» и Google, «Рамблер» находит 8 документов.
Поскольку данная методика выглядит отчасти «от лукавого», предлагаю читателю ориентироваться на методику Сегаловича. Она заключается в том, что наугад берется N редких слов, настолько редких, чтобы было легко проверить весь результат их поиска. Потом сравнивается количество найденных релевантных документов по каждому слову. Усредненные результаты представлены в таблице. Надо отметить, что подобные оценки проводятся с конца прошлого года (первоначально самим Ильей Сегаловичем, главным разработчиком «Яндекса»), однако соотношения получаются практически идентичными.
=»Апорт» | =»Рамблер» | =»Яндекс» | =Fast | |
=50% | =30% | =100% | =31% | =30% |
Google вычисляет ранг матрицы 400 млн x 400 млн, причем последовательно. Российские поисковые машины еще не обладают такими вычислительными мощностями.
Пример. Для оценки корректности вычисления Page Rank можно использовать тест Носика: при запросе «Мастер и Маргарита» первой в выдаче должна получаться начальная страница названного романа в «
Отечественные поисковые машины на пьедестале почета
В нынешнем положении российских поисковиков стоит отметить две оптимистические для них тенденции. Первая — поисковики в Рунете
Вторая (по порядку, а не по значению) — порог выхода на рынок поисковых систем довольно высок, значительно выше, чем на рынок счетчиков, и сравним с порогом выхода на рынок развесистых электроных энциклопедий. Иллюстрацией этого тезиса может служить новичок —
Почему важна вторая тенденция? Любой потенциально массовый рынок осваивают первые компании-лидеры. Предположим, что среди них есть три, которые совместно держат 80 процентов этого рынка. В абсолютных величинах они пока охватывают всего 2-5 процентов населения. Вероятность, что эти три компании удержатся в лидерах, к тому моменту, когда рынок будет размером хотя бы в 30 процентов населения, прямо зависит от базовой характеристики рынка. Если рынок невысокотехнологичный, шансы у первопроходцев задавать тон в своей нише не очень высоки. Если высокотехнологичный, то шансы весомы (пример — Intel). В целом Интернет не является высокотехнологичным рынком и поэтому на нем будет постоянно происходить смена главных игроков. Поисковые системы одна из высокотехнологичных ниш в отрасли. Лидерство поисковых машин определяется сравнительно сложными технологиями, полнотой базы, большим парком компьютеров и привычками пользователей. В настоящее время в России разрабатывается или уже разработано около 10 поисковых машин, некоторые из них (к примеру,
Поскольку колонка эксперта пишется без учета журналистских принципов спортивной справедливости, а только о тех аспектах, что определяют погоду на рынке, перечислять всех крошечных конкурентов трех ведущих поисковиков я не буду: герои настоящего обзора еще продолжительное время побудут на воображаемом пьедестале почета.
Однако важно отметить, что наиболее вероятные перспективы «Апорта» — быть затоптанным слоновьей поступью Golden Telecom, как это случилось с Infoart, Atrus, Emedia и множеством других сайтов.
Релевантность «Рамблера» приблизилась к релевантности трех остальных поисковых машин, но сохраняющееся отставание в релевантности обусловлено отсутствием механизма ссылочного ранжирования и, скорее всего, непреодолимо без изменения ядра системы.
Мнение о подавляющем превосходстве Google над всеми остальными существующими в мире поисковыми машинами несколько преувеличено. Однако именно эта система может отъесть заметную долю русскоязычной аудитории (чуть подробнее об этом — в последней главе).
Возможные перспективы «Рамблера»: приобрести лицензию на какой-либо сторонний каталог — для улучшения собственной поисковой машины, и другую поисковую машину — для улучшения сервиса для своих посетителей. Кстати, один из источников дохода самого «Рамблера» — желающие купить его поисковую машину в Украину и Прибалтику. Rambler.bg входит в тройку ведущих болгарских поисковых машин (о перспективах yandex.pl, rambler.de сказать пока еще ничего нельзя).
Источники дохода всех поисковиков: баннеропоказы по географии и по темам, профили и аналитические отчеты.
Общая проблема всех старых российских поисковиков-лидеров в том, что для того, чтобы обновить замусоренную базу и проиндексировать Рунет заново, требуется полностью обнулить индекс.
Для полного понимания можно отметить, что метапоисковые системы (а их история в России составляет почти такой же промежуток времени, что и история русских поисковых систем) не влияют на рынок существенным образом. С 1999 года на рынке присутствует практически идеальный, на мой взгляд, инструмент метапоиска —
Позиционирование в поисковой системе
Андрей Иванов
По этому поводу можно сказать, что русские искалки сближаются по своим методам борьбы со спамдексингом (спамом индексов поисковых машин).
Прекращены публикации ста самых популярных запросов на «Рамблере» (последние такие данные сохранены в «
Семантический образ спаммера (который обязательно включает набор «Линукс, порно, реферат…») неплохо распознается, и подобные ресурсы «вычесывается» из систем еще на этапе индексирования.
К редиректу «Яндекс» относится категорически отрицательно. На рубеже года он провел чистку своей базы и повыкидывал сайты (причем, с запретом на регистрацию в дальнейшем), на страницах которых стоял редирект (в том числе и в виде Java-скрипта).
«Рамблер» пока идет по редиректу на новую ссылку (II), индексирует документ и заносит ссылку II в список своих адресов для обхода. А старую ссылку с редиректом выбрасывает из своих списков. Таким образом, в следующий раз он пойдет по новой ссылке II. А если она формируется с помощью Java-скрипта, «Рамблер» вообще по ней не пойдет, потому что он не исполняет скрипты. «Яндекс» поступает аналогично, однако его «паук» более «наглый», поэтому выполняет многие скрипты.
Начиная со своей второй версии, «Яндекс», также как и Апорт, начал учитывать основные метатеги. «Рамблер» и Google продолжают их игнорировать.
И, наконец, руководители «Яндекса» и «Рамблера» договорились об обмене информацией о злостных спаммерах поисковых систем с целью вообще выключить их из русского поиска.
Трафикогенерация с поисковых машин (согласно отчету SpyLOG за январь 2001 года) составляла в целом 42 процента от «Яндекса» против 17,5 процентов от «Рамблера» или «Апорта». Согласно тому же отчету, для интернет-магазинов это соотношение принципиально другое: Яндекс — 69%, Rambler- 15,3%, Апорт — 9,8%, Google — 2,6%. Это связано с тем, что поиск по товарам в Яндексе превосходит аналогичную услугу в «Апорте» как технологически, так и с точки зрения гибкости ценовой политики для владельцев магазинов. Последнее исследование SpyLOG
Зарубежные поисковики для русскоязычного пользователя
Среди поисковиков, в которых можно, задав русский запрос, получить на выдаче осмысленный ответ, пока еще остается
ССЫЛКИ ПО ТЕМЕ |
МАТЕРИАЛЫ ПО ТЕМЕ |
Google плюс BMW: голосовой поиск в Сети из автомобиля — 22.06.01
Lycos идет в Россию с поисковиком, знающим русскую морфологию — 09.06.01
Вячеслав Ансимов
Новый русский поисковик Punto придумали футурологи — 06.06.01
41 процент интернетчиков ищет информацию через Yahoo! — 31.05.01
Кубок «Яндекса» взял Антон Носик — 29.05.01
«Рамблер» готовится поменять свою поисковую систему на Google — 25.05.01
«Яндекс» запустил новую версию поиска и телерекламу — 24.05.01
«Яндекс» проводит Кубок России по поиску в Интернете — 12.04.01
Google грузит по-русски — 26.03.01
Lycos приходит в Россию — 16.03.01
РИФ-2001: «Рамблер» рассказывает о своем новом поисковом ядре — 14.03.01
Google внедряет механизм ранжирования на основе peer-to-peer — 01.03.01
«Рамблер» запустил поиск по новостям — 19.02.01
«Рамблер» тестирует новую версию своего поисковика — 04.01.01
«Яндекс» ищет товары сразу с ценами — 30.11.00
Rambler стал искать по ftp-серверам — 27.11.00
«Яндекс» выдает результаты поиска по-новому — 16.10.00