Андрей Травин — маркетолог, который на различных этапах своей карьеры принимал участие в развитии таких ресурсов, как AtRus, Newspepper.ru, Boom.ru, Boomerang.ru и других. В 1999 году он запустил подписной бюллетень «Новости поисковых систем» на платформе e-mail.com.ua.
Поисковые системы находят два типа документов: релевантные, соответствующие запросу, и нерелевантные, не удовлетворяющие ему. Этот базовый принцип лежит в основе современного бизнеса в данной сфере. Самих поисковиков принято делить на категории: одни работают с высоким технологическим уровнем, другие — нет. Однако современные поисковые системы представляют собой сложные структуры, которые трудно оценить с точки зрения простых критериев «хорошо — плохо». В данном обзоре рассматриваются ключевые черты и текущее состояние трёх основных игроков рынка.
Рамблер
Поисковик «Рамблер» стартовал в октябре 1996 года с базы в 100 тысяч документов. Хотя он не был первым российским поисковиком, в первый год работы обрабатывал наибольшее число запросов среди аналогов. Вторая версия «Рамблера» создавалась с середины 2000 года и была завершена в марте нынешнего года. В неё добавлены функции, применявшиеся ранее конкурентами. «Рамблер» учитывает расположение слов, осуществляет как точный, так и приблизительный морфологический анализ, связывает поиск с каталогом через Top100, группирует результаты по сайтам и позволяет осуществлять поиск по числам. Эффективная архитектура даёт возможность работать «Рамблеру» на вдвое меньшем количестве серверов по сравнению с «Яндексом» и втрое — по сравнению с «Апортом».
Важная информация для рекламодателей. Примерно половина показов на «Рамблере» генерируется самим поисковиком. Новый релиз распознаёт тематику через аннотации, облегчающую связывание результатов с другими разделами портала. Создан тезаурус запросов, группирующий их по тематике. Например, запрос вида «лекарство такое-то» и реклама данного медикамента в конкретной аптеке обеспечивают CTR в 10 раз выше среднего. Реализованы ссылки на другие разделы сайта, это около 20% посещаемости подразделов Rambler.ru при среднем CTR около 4%. Существующий статистический сервис, пока закрытый для широкой аудитории, помогает рекламодателям анализировать дополнительные запросы, вводимые вместе с основным.
Информация, полезная для вебмастеров. «Паук» «Рамблера» индексирует новости до пяти раз в сутки, сайты из Top100 — раз в день, остальные ресурсы — не чаще одного раза в две недели. Страницы на зарубежных хостингах, таких как geocities и tripod, не индексируются, в то время как отечественные аналоги просматриваются медленнее. Персональные страницы на иностранных ресурсах «Рамблер» не учитывает. В список Top100 допускаются страницы с аннотациями объемом до 4 Кб. Динамические страницы пока не индексируются, хотя руководство намекало на возможность изменения этой политики; однако новое руководство «Рамблера» выступает против таких изменений.
Специалисты компании считают, что борьба с дубликатами должна проводиться не только с помощью программных средств. Так, обнаружение случаев, когда один и тот же документ присутствует на 40 зеркалах, позволяет трактовать его как один экземпляр и экономить до 10% ресурсов базы данных.
Апорт
Поисковая система «Апорт» впервые была презентована в феврале 1996 года на пресс-конференции фирмы «Агама» и изначально осуществляла поиск только по russia.agama.com. Постепенно количество серверов увеличивалось, а официальная презентация прошла 11 ноября 1997 года, когда база уже насчитывала миллион документов с 10 тысяч серверов. Разработчиком выступила компания «Агама», известная своим Windows-программным обеспечением, включая орфографический корректор «Пропись». Лингвистические технологии «Агамы» применялись при создании поисковика, в отличие от «Рамблера», который изначально игнорировал морфологию и не предлагал проверку орфографии.
Сначала «Апорт» работал на платформе Windows NT, но в XXI веке распространилось понимание необходимости перехода на UNIX. Однако решение не использовать универсальные продукты вроде MS Cluster Server или SQL-серверы ограничивает возможности для полнотекстового поиска. Первая версия «Апорта» включала перевод запросов и результатов на английский язык и обратно, а также предоставляла возможность просмотра страниц из собственной базы, даже если оригинал был недоступен.
В ноябре 1998 года «Агама» была приобретена израильскими инвесторами, при этом бренды «Агама» и «Апорт» сохранились. В марте 1999 года совладельцем стал Авчук, а летом того же года он приобрёл каталог Ау!, который позже стал основой AtRus и был ликвидирован при передаче сайтов «России он-лайн», «Омен» и «Апорт». К концу 1999 года в проекты было вложено первый миллион долларов, что позволило запустить «Апорт 2000» — полностью интегрированный с AtRus поисковик, показывающий результаты по отдельным сайтам.
«Апорт 2000» стал первым российским поисковиком, выдающим результаты по сайтам на основе данных каталога AtRus или информации от владельцев ресурсов. В некоторых случаях применялись алгоритмы, выделяющие сайты по формальным признакам. Он также внедрил технологии Google: учёт ранга страницы (PageRank), показывающего её популярность по количеству внешних ссылок, и анализ структуры HTML с целью отдачи предпочтения страницам, содержащим запрашиваемые слова. Учёт присутствия слов запроса в URL также реализован. Существуют недокументированные особенности, повышающие приоритет площадкам с высоким рейтингом в каталоге.
В период разработки «Апорта 2000» планировались механизмы коррекции приоритетов на основе посещаемости ресурсов по рейтингу Top 1000 и совпадения заголовков с запросами, но эти возможности пока не внедрены. «Апорт» стал пионером и в поиске по новостным лентам.
Кроме того, «Апорт» одним из первых применил платную нулевую строку в выдаче, приобретая её у AltaVista. Возможность покупки более высоких позиций отсутствует — лишь нулевая строка. Пользователи «Апорта» редко обращаются к расширенному поиску: на 8000 посещений главной приходится около 300 переходов на эту функцию.
Архитектура «Апорта 2000» предусматривает деление базы на отдельные сегменты, каждый из которых обслуживается своим сервером. После выполнения поиска результаты объединяются для пользователя. Добавление новых сегментов проходит легко, однако при сбоях возможны отклонения в выдаче.
Во второй половине 2000 года Golden Telecom приобрёл проекты «Агама», включая «Апорт» и AtRus. В мае 2001 года сделка находилась на стадии завершения. Представитель «Альфа-банка» отметил, что управление осуществляется стратегически через совет директоров без активного вмешательства прежних владельцев.
Важное для вебмастеров. «Апорт» индексирует динамические страницы по запросам владельцев, начиная с учета метатегов с первых версий своего поисковика.
Яндекс
В 1996 году на выставке Internetcom был представлен поисковик «Яндекс» компанией CompTek, основанной на полностью американском капитале. Это была морфологическая надстройка над «АлтаВистой», отличавшаяся высокой скоростью и умением формулировать смыслы. Индексация незнакомых слов строилась на аналогиях с имеющимися словарями. В октябре 1997 года «Яндекс» превратился в отдельный интернет-проект. Оценка релевантности документов опиралась на частоту встречаемых слов, их значимость и близость друг к другу. В 1999 году Аркадий Волож заявил, что финансирование «Яндекса» было не меньше, чем у «Апорта». В июне 2000 года появилась новая версия системы, а с мая 2001 года работает актуальная версия, в которой реализовано ранжирование по ссылкам, что значительно повысило качество поиска. Также изменилась обработка запросов: конструкции «что такое предмет» преобразовывались в «предмет — это…», а запросы с «как» приводили к справочным ответам. Новая версия учитывает альтернативную лексику, встречающуюся в 5% запросов. В последних релизах добавлен фактор цитируемости, влияющий на качество ранжирования.
В настоящее время «Яндекс» обладает крупнейшей базой документов среди российских поисковиков и остаётся самым узнаваемым брендом.
Сравнение качества поиска
Качество поиска определяется двумя ключевыми параметрами: точностью и полнотой. Полнота — это отношение числа релевантных документов, найденных системой, к общему количеству релевантных документов в базе. Например, по запросу найдено 50 документов, из них 30 релевантны, а в базе всего 100 релевантных. Тогда полнота равна 30/100=0,3, а точность — 30/50=0,6. Обычно улучшение одного параметра снижает другой.
Также есть общая характеристика — техническая эффективность, включающая скорость поиска, объём базы, удобство отображения результатов и быстроту индексации. Однако именно качество поиска остаётся ведущим показателем.
Российская пресса, занимающаяся тестированием программ для работы с языком, пока не проводила независимых исследований отечественных поисковиков. Научные тесты по четырём типам запросов часто имеют субъективный характер. В качестве примера приводятся исследования точности, выполненные Н. Харином и анализ поисковой системы «Рамблер». Эксперт-лингвист оценивает релевантность по 100 популярным запросам, включающим от одного до четырёх слов, исключая нецензурные выражения. Для каждого запроса приводятся показатели точности по различным числам первых документов. Например, по одному запросу из десяти документов восемь релевантны, что даёт точность 0,8. На основе этих оценок формируется модель характеристического множества, вычисляется средняя релевантность.
Так, характеристический набор может включать показатели точности при 10, 30, 50, 70 и 100 документах и соответствующие весовые коэффициенты. Например: оценки (0,8; 0,5; 0,46; 0,43; 0,4) с весами (5, 4, 3, 2, 1) дают среднюю релевантность как сумму произведений оценок на веса, делённую на сумму весов, что отражает общее качество поиска.
Анализ дополнительных характеристик.
Оценки работы роботизированных систем различных поисковиков имеют свои особенности, особенно при сравнении «локальных систем с выборочной индексацией». Исследования полноты показывают, что несмотря на огромную базу, «Яндекс» остаётся лидером. Например, выборка из 15 документов показывает, что «Рамблер» нашёл 8 релевантных. Методы Харина и Сегаловича применяют уникальные слова для проверки релевантности. Средние показатели таких экспериментов стабильны. Google, к примеру, выполняет ранжирование на более масштабном уровне, что требует значительных вычислительных мощностей.
Пример проверки PageRank: запрос «Мастер и Маргарита» в «Апорте» выдаёт главный сайт книги на первой позиции, тогда как «Яндекс» показывает его лишь на шестой. Аналогично, по запросу «нарцисс» «Апорт» даёт правильный результат, тогда как «Яндекс» ошибается. Это свидетельствует о том, что системы применяют различные методы ранжирования.
Российские поисковые системы на лидерских позициях
Современные тенденции свидетельствуют о росте популярности российских поисковиков в сравнении с каталогами и рейтингами. По статистике, доля поисковых систем у средних и мелких сайтов вдвое превышает вклад каталогов. Вход на рынок требует значительных ресурсов и технологий, поэтому большая часть новых систем не может быстро занять значимое место. В России создано около десятка поисковиков, некоторые из которых уже работают, но их базы остаются относительно небольшими.
При высокой конкуренции крупные игроки укрепляют волевые позиции, тогда как новые проекты сталкиваются с трудностями выхода на рынок. Активное развитие технологий и стандартов является ключом к успеху. В целом интернет в России — отрасль со сложной динамикой, где и технологические ограничения, и пользовательские привычки влияют на развитие. Новые системы, такие как Punto, появляются, но пока обладают ограниченными возможностями.
Значительная часть рынка сосредоточена у ведущих игроков. Тем не менее, аутсайдеры, к примеру «Апорт», могут испытывать угрозу исчезновения под давлением крупнейших корпораций. Аналитики отмечают, что «Рамблер» по уровню релевантности приблизился к конкурентам, однако отсутствие механизмов ссылочного ранжирования остаётся слабым местом. Мнение о превосходстве Google нередко преувеличено, хотя он способен привлечь значительный сегмент русскоязычной аудитории.
В дальнейшем «Рамблер» может расширять поисковик, приобретая внешние каталоги и внедряя новые технологии для повышения качества. Среди источников дохода — продажа поисковой выдачи в Украине и странах Прибалтики. Работа с болгарским рынком и планы развития yandex.pl и rambler.de свидетельствуют о стремлении расшириться. Основные доходы обеспечивают реклама, платные профили и аналитика.
Главная сложность у российских поисковиков — необходимость полной переработки базы данных и реконструкции индексных данных. На сегодняшний день метапоисковые системы, вроде Диско Наблюдатель, практически не влияют на рынок, так как пользователи выбирают бесплатные сервисы, например MetaBot.ru.
Позиционирование и стандарты
Андрей Иванов ввёл термин «позиционирование в поисковой системе» — комплекс мер, повышающих видимость сайта в результатах поиска. Методы борьбы со спамом в российских поисковиках становятся всё более унифицированными. В «Рамблере» прекратили публикации популярных запросов, а «Яндекс» убрал из «Прямого эфира» текущие, сохранив часть в «Регистратуре.ру» и «Нейроне». Семантическое распознавание спама эффективно выявляет ресурсы, использующие нежелательные или некорректные комбинации.
Редиректы на сторонние заблокированы либо исключены из индексации, особенно если выполняются через JavaScript. «Яндекс» и «Апорт» внимательно изучают метатеги и применяют их для оценки релевантности, а также сотрудничают в вопросах обмена информацией о злоупотреблениях.
По отчетным данным, трафик поисковых систем занимает наибольшую долю, при этом «Яндекс» доминирует. В сегменте коммерческих ресурсов, включая интернет-магазины, «Яндекс» сохраняет лидирующие позиции благодаря передовым технологиям поиска и ценовой политике. Удельные показатели долей рынка подтверждают стратегическую важность развития поисковых технологий.
Зарубежные системы для русскоязычных пользователей
Среди иностранных платформ наиболее подходящей для русскоязычного сектора остаётся Altavista (или Raging), однако с 1999 года её база значительно сократилась. В настоящее время полностью соответствуют русскоязычному сегменту поисковики Fast и Google (или Yahoo!), которые привлекают пользователей, ранее пользовавшихся «АльтаВистой». Конкретные рыночные доли этих систем долгое время оставались незначительными. Сравнение эффективности и технологий оправдано, поскольку отечественные системы продолжают развиваться на фоне ограниченных зарубежных ресурсов.