Три поисковика Рунета, не считая Google

Author:

— специалист в сфере маркетинга, принимал участие в развитии платформ AtRus, Newspepper.ru, Boom.ru, Boomerang.ru и других ресурсов, а в 1999 году выпускал подписной бюллетень «Новости поисковых систем» на e-mail.com.ua.

Найденные поисковыми системами документы делятся на две группы: релевантные, соответствующие запросу, и нерелевантные, неудачно подходящие под него…
Именно на этой базовой концепции сегодня строится успешный бизнес. Поисковые системы можно разделить на технически эффективные и менее совершенные. Но современные поисковики настолько сложны, что их сложно оценить просто по критериям «хорошо – плохо». В обзоре представлены ключевые характеристики и текущее состояние трёх ведущих поисковых систем на рынке.

«Рамблер»

Поисковая система «Рамблер» стартовала в октябре 1996 года, изначально индексируя порядка 100 тысяч документов. Хотя и не была первой отечественной системой, но в течение года существования, когда весь русский интернет индексировали «Рамблер», «Апорт», «Русская поисковая система», а также шведская и калифорнийская AltaVista, именно она обрабатывала львиную долю поисковых запросов. Вторая версия «Рамблера» начала разрабатываться летом 2000 года и к марту следующего года получила завершённый вид. Были добавлены функции, уже давно реализованные у конкурентов: учёт координат слов, строгая и нечеткая морфология, связь поиска с каталогом Top100, группировка результатов по сайтам, поиск по числам. Такая архитектура позволила «Рамблеру» использовать вдвое меньше серверов, чем у «Яндекса», и в три раза меньше, чем в «Апорте».

Важное для рекламодателей. Около 50% показов на «Рамблере» образуются по поисковым запросам. Новый «Рамблер» распознаёт тематики с помощью аннотаций, связывая выдачу с другими разделами портала. Был создан тезаурус запросов для выделения тематик. Например, запрос «лекарство такое-то» и реклама этого препарата в аптеке дают CTR в 10 раз выше среднего. Идёт связывание с остальными разделами портала, которые отображаются вместе с результатами, составляя около 20% общей посещаемости Rambler.ru (их средний CTR равен 4%). Существует статистический сервис, пока доступный только сотрудникам «Рамблера» и некоторым рекламодателям: он показывает список дополнительных запросов, которые вводят авторы основного интересующего их запроса.

Важное для вебмастеров. Индексация новостных разделов «Рамблера» происходит до пяти раз в сутки; сайты, включённые в Top100, индексируются ежедневно, остальные — не чаще чем раз в две недели. Личные страницы на зарубежных публичных хостингах (geocities, tripod и подобных) «Рамблер» не индексирует, страницы некоторых отечественных аналогов (narod, boom) обходятся медленнее. Поскольку новостной раздел содержит около 40 сайтов, рекомендуется использовать счётчик Top100 для ускоренного попадания страниц в индекс. В рейтинг Top100 можно добавлять детальные аннотации объёмом до 4 Кб. Динамические страницы пока не индексируются, но по заявлениям руководства компании на выставке «Комтек» ситуация может измениться летом. Исполняющий обязанности президента «Рамблера» Антон Носик выступает против такого нововведения.
Специалисты «Рамблера» отмечают, что борьба с копиями не может ограничиваться только программным контролем. Например, проверка модератором ситуации, когда документ размещён на 40 зеркалах библиотеки Мошкова, а система считает их одним, экономит около 10% ресурсов базы поиска.

«Апорт»

Поисковая система «Апорт» впервые была представлена в феврале 1996 года на пресс-конференции компании «Агама» при запуске «Русского клуба». Вначале поиск работал только по сайту russia.agama.com. База затем расширилась до четырёх, а потом шести серверов. Поэтому дата рождения и фактический старт системы растянулись, а официальная презентация произошла только 11 ноября 1997 года. К этому времени база содержала миллион документов с 10 000 серверов. Создателем системы имела компания «Агама», разрабатывавшая под Windows, в том числе орфографический корректор «Пропись». Именно её лингвистические разработки положены в основу поисковика с учётом морфологии и возможностью проверки орфографии запросов по желанию, в отличие от «Рамблера».

По историческим причинам «Апорт» создавался и работает на платформе Windows NT, хотя с началом XXI века стало понятно – лучше перейти на UNIX. При работе на 40-50 серверах приходится нажимать кнопку Reset несколько раз в день, а не ежемесячно. При этом «Апорт» не применяет универсальные решения типа SQL-серверов или Oracle, которые подходят для разных задач, но не для полнотекстового поиска.

Основные возможности первой версии «Апорта» включали перевод запросов и результатов между английским и русским языками, а также функцию воспроизведения страниц из базы, даже если оригинальные серверы уже недоступны.

В ноябре 1998 года компания «Агама» была куплена израильским инвестором Джозефом Авчуком за 55 тысяч долларов, при сохранении брендов «Апорт» и «Агама». Весной 1999 года Авчук стал соинвестором, а летом окончательно приобрёл каталог Ау!, который несколько раз менял название и был в итоге упразднён при интеграции с проектами сети «Россия он-лайн», «Омен» и «Апорт». К концу 1999 года Авчук вложил в «Апорт» и AtRus первый миллион долларов, что позволило на компьютерных выставках в обеих Америках представить принципиально новый поисковик «Апорт 2000», полностью интегрированный с AtRus (позже переименованным в «Каталог-Апорт»).

«Апорт 2000» стал первым российским поисковиком с выдачей результатов, сгруппированных по сайтам. Для этого используется информация из каталога AtRus или данные, предоставленные владельцами ресурсов. В противном случае применяется алгоритм определения сайтов по формальным признакам.

Кроме того, «Апорт 2000» внедрил две базовые технологии, известные по Google: первый – учёт «ранга страницы» (Page Rank), отражающего популярность сайта на основании количества и качества внешних ссылок; второй – учёт структуры HTML-кода, при котором слова из заголовков h1-h6 получают больший вес. Также учитывается вхождение слов запроса в URL страницы. Среди неофициальных особенностей – приоритет сайтов с высокой позицией в каталоге AtRus.

На этапе разработки «Апорта 2000» были заложены механизмы коррекции приоритетов по посещаемости из счётчика Aport Top 1000 и совпадениям имени сайта с запросом в службах реальных имён. Однако эти функции пока не реализованы.

Следует отметить, что «Апорт» первым из российских систем предложил поиск по новостным лентам, несмотря на распространённые представления о преимущественном лидерстве «Яндекса».

Кроме того, «Апорт» впервые ввёл платную «нулевую» строку в выдаче; в отличие от конкурентов, здесь нельзя купить просто более высокое место, а только «нулевую» позицию.

Пользователи «Апорта» редко обращаются к расширенному поиску (на 8000 просмотров основной страницы приходится 300 вызовов расширенного поиска).

Масштабируемая архитектура «Апорта 2000» позволяет разделять поисковую базу на несколько частей, каждая работает на отдельном компьютере. Поиск проводится параллельно по всем частям и потом объединяется в единый ответ. Добавление новых компонентов системы не создаёт сложностей. При сбоях некоторых серверов результаты могут незначительно изменяться.

В июле 2000 года Golden Telecom приобрёл семейство интернет-проектов «Агама» вместе с «Апорта» и AtRus для интеграции в «Россию-он-лайн» и другие проекты.
В мае 2001 года завершилась смена владельцев Golden Telecom. Первый заместитель председателя правления «Альфа-банка» Андрей Косогов сообщил, что новые собственники будут заниматься только стратегическим управлением через совет директоров без вмешательства в текущую деятельность.

Важное для вебмастеров. «Апорт» индексирует динамические страницы, но не по умолчанию, а по отдельным запросам владельцев. Метатеги принимаются во внимание с самого начала индексации.

«Яндекс»

В 1996 году компания CompTek с участием американских инвесторов представила на выставке Internetcom проект «Яндекс». Это была морфологическая надстройка поверх AltaVista, выделявшаяся высокой скоростью и способностью строить гипотезы. Пословный индекс создаётся даже для незнакомых слов, что отличает «Яндекс» от конкурентов.
23 сентября 1997 года «Яндекс» стал полноценным интернет-проектом. Релевантность документов рассчитывалась с учётом частоты слов, веса слов и фраз, близости слов в тексте и других факторов. В интервью 1999 года Аркадий Волож отметил, что финансирование «Яндекса» всегда соответствовало уровню «Апорта». 6 июня 2000 года вышла вторая версия, а текущая функционирует с 23 мая 2001 года. Основное изменение – ранжирование по ссылкам. Также переработаны формулировки запросов: например, запрос «что такое предмет» преобразуется в «предмет – это…», а если запрос начинается с «как», система отдаёт предпочтение FAQ и справочным документам. «Яндекс» стал распознавать альтернативную лексику, встречающуюся в 5% запросов. В последней версии индекс цитируемости используется полностью.

На сегодняшний день «Яндекс» обладает самой большой базой документов среди русскоязычных поисковиков и узнаваемым брендом.

Сравнение качества поиска

Поисковые системы оцениваются по двум основным параметрам: точности и полноте (полнота — отношение числа релевантных документов в выдаче к общему количеству релевантных в базе).

Пример. Если по запросу найдено 50 документов, из которых пользователь считает релевантными 30, а нерелевантными – 20, а в базе содержатся 100 релевантных, то полнота равна 30/100 = 0,3, а точность — 30/50 = 0,6. Обычно улучшение одного параметра ухудшает другой.

Также учитывается техническая эффективность, включающая скорость поиска, объём базы, удобство представления результатов, скорость индексации и другие параметры. Но основное внимание уделяется качеству поиска – в этом сходятся создатели систем.

Отечественная компьютерная пресса, постоянно тестирующая лингвистические программы, пока не проводила независимого тестирования русских поисковиков, в отличие от зарубежного ZDnet.
Научные тесты тоже не всегда объективны, так как используют ограниченное число типов запросов, не учитывают их реальную частоту. Поэтому рассмотрена методика Н. Харина, применяемая внутри «Рамблера» приглашённой группой лингвистов. Исследования базируются на 100 популярных запросах из одного-трёх-четырёх слов с точными критериями релевантности, исключая частые запросы с нецензурной лексикой.
Ниже приведены результаты, данные для сравнения, чтобы увидеть рост качества «Яндекса» после обновления в июне 2000 года и улучшения «Рамблера» после внедрения новых функций в ноябре 2000 года.
По словам создателя «Апорта» Евгения Киреева, результаты этих исследований достоверны, поскольку за год в технологиях релевантности не было изменений: команда «Апорта» считает, что дальнейшие радикальные улучшения невозможны и ждёт, пока конкуренты догонят их уровень. По исследованиям мая 2001 года, именно «Яндекс» определят стандарт отрасли.

Сравнение релевантности поисковиков

Период «Апорт» «Рамблер» «Яндекс» Google
02.2000 0,959 0,643 0,845
11.2000 0,992 0,903 0,960
12.2000 0,992 0,922 0,960
03.2001 0,992 0,956 0,960
05.2001 0,992 0,957 0,998 0,992

Для желающих – подробности методики (остальные могут перейти к следующему разделу).

Оценка качества ранжирования велась по точности на 10, 30, 50, 70 и 100 документах, с учётом весов, где точность на 30 результатах важнее, чем на многих других.

Примерно половина запросов состоит из одного слова, поэтому было выбрано 50 наиболее частотных однословных запросов. Поскольку двухсловных 30%, взяты 30 таких запросов, и так далее.

Для каждого поисковика выполнялся поиск, а релевантность документов оценивалась по полному тексту, а не по аннотациям в выдаче.
На основе оценок формировалось характеристическое множество запросов – значения точности при разных объёмах первых найденных документов.

Пример. Множество включает пять значений: точность на первых 10, 30, 50, 70 и 100 документах. Эксперт оценивал релевантность первых 100 документов для каждого запроса.
Если из первых 10 документов 8 релевантны, точность 0,8. При весах (5,4,3,2,1) и значениях (0,8;0,5;0,46;0,43;0,4) средняя релевантность будет: 0,8*5/15 + 0,5*4/15 + 0,46*3/15 + 0,43*2/15 + 0,4*1/15 = 0,576. Далее усредняются данные по всем запросам, получаются значения из таблицы выше.

Исследование иных характеристик поисковых систем

Интересны оценки поисковых роботов ведущих систем от разработчиков Metabot.ru, которые определяют «Апорт» и «Рамблер» как «локальные системы с выборочной индексацией».

Исследования полноты поиска сравнительно неточны. Несомненно, база «Яндекса» самая крупная независимо от способа отслеживания дублирующих документов. Оценка полноты с помощью поиска оригинальных документов дала такие показатели:

«Апорт» «Рамблер» «Яндекс» Google
0,40 0,53 0,60 0,47

Показатель 0,53 для «Рамблера» означает, что из 15 документов, которые нашли «Яндекс», «Апорт» и Google, «Рамблер» находит 8.

Поскольку методика имеет погрешности, стоит учитывать методику Сегаловича. Она основана на случайном выборе редких слов для проверки полноты. Указанные методики проводятся с конца прошлого года, результаты совпадают с предыдущими.

«Апорт» «Рамблер» «Яндекс» Google Fast
50% 30% 100% 31% 30%

Google последовательно вычисляет ранг матрицы размером 400 млн на 400 млн, что пока недоступно российским системам.

Пример. Тест Носика для проверки корректности Page Rank: при запросе «Мастер и Маргарита» первой должна показываться начальная страница романа в Библиотеке Мошкова (что делает Google). В «Апорте» тест пройден, в «Яндексе» результат шестой по списку. Нарциссический тест (пустой запрос) даёт почти правильный ответ у «Апорта», а у «Яндекса» – менее точный по сравнению с Google.

Российские поисковики на пьедестале

Наблюдаются две тенденции, обнадёживающие российских поисковиков. Во-первых, поисковые системы в русскоязычном интернете популярнее каталогов: вклад поисковиков для малых и средних сайтов превышает суммарный вклад каталогов и рейтингов вдвое.
Во-вторых, порог входа на рынок поисковиков высок, выше, чем для счётчиков, и сравним с выходом на рынок больших электронных энциклопедий. Примером служит новичок Lupa.ru, который только внешне похож на поисковик.

Важность второй тенденции в том, что массовый рынок осваивают лидеры, удерживающие основную долю (например, три компании контролируют 80%). Вероятность сохранить позиции зависит от технологической сложности рынка. Интернет в целом не слишком высокотехнологичен, в нём часто меняются игроки, а поисковые системы – высокотехнологичная ниша, где решающими являются технологии, база, вычислительная мощь и привычки пользователей. В России разработано около десяти поисковиков, некоторые стартовали (например, Punto), но их базы пока недостаточны для эффективного поиска.
В статье сосредоточено внимание на трёх ведущих, минуя мелких конкурентов.

Перспективы «Апорта» — возможность поглощения Golden Telecom, как это было с Infoart, AtRus, Emedia и другими проектами.
Релевантность «Рамблера» приблизилась к уровню конкурентов, но уступает из-за отсутствия ранжирования по ссылкам, что маловероятно исправится без серьёзного обновления ядра.
Заявления о подавляющем превосходстве Google несколько преувеличены, но эта система способна завоевать значительную часть русскоязычной аудитории (подробнее в заключении).

Перспективы «Рамблера» могут включать приобретение лицензии на сторонний каталог для улучшения собственных продуктов, а также использование поиска от третьих лиц для повышения качества. Среди источников доходов «Рамблера» продажа поисковика на рынках Украины и Прибалтики. Rambler.bg входит в тройку лидеров болгарских поисковиков. Информации о перспективах yandex.pl и rambler.de пока нет.
Основная выручка всех поисковых систем формируется за счёт баннерной и тематической рекламы, профилей и аналитических отчётов.

Общая проблема старых российских лидеров в поиске – необходимость полной переиндексации с обнулением базы.

Отметим, что метапоисковые системы, присутствующие в России почти так же долго, как поисковики, не оказывают заметного влияния. С 1999 года существует довольно хороший инструмент метапоиска «Диско Наблюдатель», но высокая цена (около 20 долларов) отпугивает пользователей. Бесплатный MetaBot.ru имеет определённые перспективы.

Позиционирование в поисковых системах

Андрей Иванов ввёл термин «позиционирование в поисковике» – совокупность мер, направленных на улучшение позиции сайта в результатах поиска.
Сегодня российские поисковики сближаются по методам борьбы со спамдексингом (манипуляциями с индексом).
Был прекращён выпуск списка ста самых популярных запросов на «Рамблере» и публикация всех пользовательских запросов в сервисе «Прямой эфир» «Яндекса».
Семантический профиль спаммера (например, набор слов «Линукс, порно, реферат…» и другие) успешно распознаётся, и такие сайты удаляются из индекса уже на этапе обхода.
«Яндекс» резко негативно относится к редиректам; под Новый год была проведена чистка базы с удалением сайтов с редиректами и запретом на повторную регистрацию. «Рамблер» поступает иначе: по редиректу идёт обход по новой ссылке, старая удаляется. При этом «Рамблер» не исполняет JavaScript, а «Яндекс» выполняет многие скрипты.

Со второй версии «Яндекс» и «Апорт» стали учитывать основные метатеги, тогда как «Рамблер» и Google их по-прежнему игнорируют.

В конце концов руководители «Яндекса» и «Рамблера» договорились о совместном обмене информацией о злостных спаммерах с целью их полного исключения из русскоязычного поиска.

По данным отчёта SpyLOG на январь 2001 года, трафик с поисковиков составил в целом 42% для «Яндекса» против 17,5% у «Рамблера» и «Апорта». В сегменте интернет-магазинов доля «Яндекса» достигала 69%, «Рамблера» – 15,3%, «Апорта» – 9,8%, Google – 2,6%. Это связано с тем, что поиск товаров в «Яндексе» более технологичен и выгоден с точки зрения ценовой политики, чем у «Апорта». Позже данные SpyLOG показали рост долей «Апорта» и «Рамблера» до 18% и 12% соответственно, Google – до 14%, при сохраняющемся лидерстве «Яндекса» с 42%.

Зарубежные поисковые системы для русскоязычного пользователя

Из зарубежных поисковиков, способных адекватно отвечать на русские запросы, сохранился Altavista (или менее развившийся Raging), однако их русскоязычные базы были уничтожены ещё в 1999 году. В настоящее время полноценными зарубежными поисковиками для Рунета считаются Fast и Google (а также Yahoo!), которые приняли часть пользователей от AltaVista. Ранее не имело смысла оценивать долю зарубежных поисковиков в Рунете, но сравнивать технологии и эффективность с отечественными вполне оправданно.