Три альтернативные российские поисковые системы к Google

Author:

Андрей Травин — специалист в области маркетинга, который в разные периоды своего профессионального пути занимался развитием таких ресурсов, как AtRus, Newspepper.ru, Boom.ru, Boomerang.ru и других. В 1999 году он инициировал выпуск подписного бюллетеня под названием «Новости поисковых систем» на e-mail.com.ua.

Документы, которые обнаруживают поисковые системы, подразделяются на две группы: релевантные, соответствующие запросу, и нерелевантные, не соответствующие ему. Именно этот элементарный принцип лежит в основе современного бизнеса в данной сфере. Поисковые машины также можно разделить на две категории: те, которые демонстрируют высокую технологическую эффективность, и те, которые этого не делают. Однако современные поисковики представляют собой сложные системы, которые сложно оценить через обычную шкалу «хорошо-плохо». Этот обзор акцентирует внимание на ключевых характеристиках и текущем состоянии трех ведущих игроков на рынке поисковых систем.

Рамблер

Поисковая система «Рамблер» начала свою деятельность в октябре 1996 года с всего лишь 100 тысяч документов. Хотя «Рамблер» не была первой российской поисковой системой, в первый год своего существования она обрабатывала наибольшее количество запросов. Вторая версия «Рамблера» начала разрабатываться летом 2000 года и была завершена в марте текущего года. В новую версию были интегрированы функции, которые давно использовались конкурентами. Она учитывает координаты слов, обладает четкой и нечеткой морфологией, связывает поиск с каталогом (используя Top100), группирует результаты поиска по сайтам и осуществляет поиск по числам. Эффективная архитектура позволяет «Рамблеру» иметь в два раза меньше серверов, чем «Яндекс», и в три раза меньше, чем «Апорт».

*Важная информация для рекламодателей.* Около 50% показов на «Рамблере» обеспечивается поисковой системой. Новый «Рамблер» распознает темы по аннотациям для связи результатов поиска с другими разделами портала. Создан тезаурус запросов, который позволяет выделять их тематику. К примеру, запрос «лекарство такое-то» и реклама этого лекарства в конкретной аптеке дают CTR в 10 раз выше среднего. Реализованы «перевязки» на прочие разделы портала, которые добавляются к результатам поиска и обеспечивают примерно 20% общей посещаемости подразделов Rambler.ru (средний CTR составляет 4%). Существует статистический сервис, который пока недоступен для широкой публики, но может помочь рекламодателям понять другие запросы, вводимые пользователями, сделавшими основной запрос.

*Важно для вебмастеров.* «Паук» «Рамблера» индексирует новости 5 раз в день, сайты из Top100 – 1 раз в день, а остальные – не чаще одного раза в две недели. Личные страницы на зарубежных серверах (таких как geocities, tripod и других) «Рамблер» не индексирует, в то время как страницы аналогичных отечественных сайтов (например, narod, boom) индексируются медленнее. Поскольку всего около 40 сайтов считаются новостными, будет полезно добавить на свои страницы счетчик Top100 для быстрого индексирования в «Рамблере». Кроме того, в рейтинг Top100 можно добавлять аннотации объемом до 4 Кб. Динамические страницы пока не индексируются, хотя руководство компании на выставке «Комтек» намекало, что это может измениться. Новый и. о. президента «Рамблера» Антон Носик выступает против этой идеи.

Специалисты «Рамблера» пришли к выводу, что борьба с дублированным контентом повинна решаться не только с применением программных алгоритмов. Например, отслеживание ситуации, когда один и тот же документ доступен на 40 зеркалах библиотеки Мошкова, позволяет системе считать его лишь одним экземпляром, что экономит до 10% ресурсов поисковой базы.

Апорт

Поисковая система «Апорт» была впервые представлена в феврале 1996 года на пресс-конференции компании «Агама», тогда она осуществляла поиск только на russia.agama.com. Со временем число серверов возрастало, а официальная презентация «Апорта» состоялась 11 ноября 1997 года. На тот момент в базе уже было проиндексировано 1 миллион документов с 10 тысяч серверов. Разработка системы осуществлялась компанией «Агама», известной своим программным обеспечением для Windows, в том числе корректором орфографии «Пропись». Лингвистические разработки «Агамы» были использованы для создания поисковика, в отличие от «Рамблера», который изначально не учитывал морфологию слов и не предоставлял возможности проверки орфографии.

Исторически «Апорт» функционировал и продолжает работать на Windows NT, но в XXI веке становится очевидным, что поисковая машина должна базироваться на UNIX. Тем не менее, «Апорт» не использует универсальные решения, такие как MS Cluster Server, и избегает SQL-серверов или Oracle, что ограничивает его функциональность для полнотекстового поиска.

Основными характеристиками первой версии «Апорта» были перевод запросов и результатов поиска на английский и обратно, а также восстановление проиндексированных страниц из собственной базы (это значит возможность просмотра страниц, которые уже не существуют в оригинале).

В ноябре 1998 года компания «Агама» была приобретена израильским капиталом, при этом торговые марки «Апорт» и «Агама» сохранились. В марте 1999 года Авчук стал совместным владельцем, а летом того же года он окончательно приобрел каталог Ау!, который позже стал AtRus, а затем был ликвидирован при передаче каталога на сайты «России он-лайн», «Омен» и «Апорт». К концу 1999 года Авчук вложил в «Апорт» и AtRus первый миллион долларов, что позволило представить «Апорт 2000», полностью интегрированный с Atrus, на компьютерных выставках.

«Апорт 2000» стал первым русским поисковиком, который начал выдавать результаты по отдельным сайтам. Для этого использовались данные от каталога AtRus или информация, предоставленная владельцами сайтов. В крайних случаях использовались алгоритмы для выделения отдельных сайтов по формальным признакам.

«Апорт 2000» также стал первым российским поисковиком, реализовавшим две ключевые технологии, заимствованные от Google. Первая — это учет «ранга страницы» (Page Rank), который отражает её популярность, основываясь на количестве ссылок со сторонних ресурсов. Вторая — анализ структуры HTML страницы, что дает предпочтение опциям, содержащим искомые слова. В «Апорт 2000» также учитывается наличие слов запроса в URL. Существуют недокументированные особенности, которые повышают приоритет сайтам с высокой оценкой в каталоге AtRus.

На этапе разработки «Апорта 2000» также планировались механизмы коррекции приоритетов выдачи результатов на основе посещаемости сайтов по Aport Top 1000 и сайтов, чьи названия совпадают с запросами. Эти возможности еще не были реализованы.

Следует отметить, что «Апорт» первым стал организовывать поиск по новостным лентам.

Кроме того, «Апорт» стал пионером в использовании платной нулевой строки в выдаче (приобретая эту услугу у AltaVista за небольшую плату). Однако в «Апорт» нельзя купить более высокое место в результатах поиска, только нулевое.

Пользователи «Апорта», в отличие от почитателей «Яндекса», редко обращаются к расширенному поиску (на 8000 загрузок главной страницы приходится всего 300 переходов на страницу «Расширенный поиск»).

Архитектура «Апорт 2000» позволяет делить базу на несколько небольших, и каждая маленькая версия «Апорт» функционирует на отдельном сервере. После поиска по этим фрагментам пользователю показывается общий результат. Добавление новых малых «апортиков» проходит легко. Во время сбоев выдача может отличаться от стандартной, что иногда наблюдается.

31 июля 2000 года Golden Telecom приобрел интернет-проекты «Агама», включая «Апорт» и AtRus, с целью интеграции в «Россию-он-лайн». В мае 2001 года сделка по смене владельца Golden Telecom завершилась. Андрей Косогов, первый заместитель председателя правления «Альфа-банка», сообщил «Интерфаксу», что новые хозяева будут заниматься лишь стратегическим управлением через совет директоров, в отличие от прежних владельцев, которые активно управляли проектом.

*Важно для вебмастеров.* «Апорт» индексирует динамические страницы, но не по умолчанию, а по индивидуальным запросам владельцев сайтов. С самого начала «Апорт» учитывает метатеги.

Яндекс

В 1996 году на выставке Internetcom была официально представлена поисковая система «Яндекс» от компании CompTek, созданной с полным американским капиталом. Это был морфологический надстройка к «Альтависте», которая отличалась скоростью работы и способностью формулировать идеи. Индексация незнакомых слов была организована аналогично словарным, что выделяло «Яндекс» среди других поисковых систем.

23 сентября 1997 года «Яндекс» стал интернет-проектом. Релевантность документов рассчитывалась на основе частоты искомых слов, их веса, близости и других параметров. В интервью «ИнфоБизнесу» в октябре 1999 года Аркадий Волож отметил, что финансирование «Яндекса» всегда было не ниже, чем у «Апорта». 6 июня 2000 года была представлена новая версия системы, а актуальная версия работает с 23 мая 2001 года. Главное нововведение заключалось в ранжировании по ссылкам. Другие изменения касались формулировки запросов пользователя: например, конструкция «что такое предмет» преобразовывалась в «предмет — это…», а запросы на «как» приводили к выдаче справочной информации. Новый «Яндекс» также научился учитывать альтернативную лексику, которая встречается в 5% запросов. В последние версии индекс цитируемости стал непосредственно влиять на результат выдачи.

На сегодняшний день «Яндекс» обладает самой обширной базой документов среди российских поисковых систем и самым узнаваемым брендом.

Сравнение качества поиска

Поисковая система может быть охарактеризована двумя важными параметрами: точностью и полнотой (полнота — это отношение найденных релевантных документов к общему числу релевантных документов в базе данных).

*Пример.* Пусть по запросу найдено 50 документов, из которых 30 релевантны, а 20 нерелевантны. Общий просмотр базы показывает, что всего 100 документов являются релевантными. Таким образом, полнота составляет 30/100 = 0,3; точность — 30/50 = 0,6. Повышая один параметр, мы обычно ухудшаем другой.

Также существует обобщенная характеристика — техническая эффективность поисковых машин, включая скорость поиска, объем базы, удобство представления результатов и скорость индексирования. Однако показатели качества поиска занимают особое место среди этих параметров — с этим согласны все разработчики поисковых систем.

Российская computer пресса, активно занимающаяся тестированием языковых программ, пока не проводила исследований отечественных поисковиков (в отличие от ZDnet). Научные тесты поисковых систем также не всегда объективны, так как они используют лишь четыре типа запросов (без понимания реальной частоты использования). Поэтому мы сосредоточим внимание на исследованиях по точности, проведенных методом Н. Харина и использованных для анализа поисковых систем «Рамблер». Это тестирование выполняется группой экспертов-лингвистов и считается независимым, так как не используется в маркетинговых целях. Исследования проводились по 100 популярным запросам, состоящим из одного-четырех слов. Важным моментом была четкая формулировка, какие документы считать релевантными, чтобы избежать завышенных оценок точности. Запросы, содержащие ненормативную лексику, не рассматривались.

Результаты исследований представлены ниже. Данные за предыдущий год приведены для демонстрации изменений в эффективности при обновлении «Яндекса» в июне 2000 года и изменений точности «Рамблера», поскольку начиная с ноября 2000 года были внедрены некоторые улучшения в старую версию. Результаты «Апорта», как заверяет Евгений Киреев, остаются стабильными, поскольку за год не произошло изменений в технологиях повышения релевантности. Команда «Апорта» не спешит вносить изменения и ожидала, когда «Яндекс» и «Рамблер» подтянутся до аналогичного уровня, который, по их мнению, определит будущее всей отрасли. Фактически, результаты последнего тестирования от 24 мая 2001 года, проведенного после обновления «Яндекса», показывают, что уровень всего рынка определяется именно им.

Сравнение релевантности поисковых систем

Период «Апорт» «Рамблер» «Яндекс» Google
02.2000 0,959 0,643 0,845
11.2000 0,992 0,903 0,960
12.2000 0,992 0,922 0,960
03.2001 0,992 0,956 0,960
05.2001 0,992 0,957 0,998 0,992

Тем, кто интересуется, предлагаем несколько дополнительных параграфов о методах исследования (остальные могут переходить к следующему разделу).

В процессе тестирования исследовалось качество ранжирования с оценкой точности для 10, 30, 50, 70 и 100 документов из верхней части списка, учитывая диапазон значений точности (точность для 30 документов считается более значимой, чем для 300, что предполагает интерес к соотношению между полнотой и точностью при низком уровне полноты).

Обнаружено, что доля совокупной частоты всех однословных запросов к общей частоте всех запросов составляет примерно 0,5. В связи с этим было выбрано 50 однословных запросов с наибольшей частотой. Доля совокупной частоты двухсловных запросов к общей частоте запросов равна 0,3, поэтому отобрано 30 двухсловных запросов с наибольшей частотой. Далее процесс повторяется аналогичным образом.

По каждому запросу проводился поиск во всех анализируемых поисковых системах. Оценка релевантности документа осуществлялась только после просмотра полного текста, а не аннотации, предоставленной в результатах поиска. На основе полученных оценок релевантности формируется характеристическое множество запроса, включающее значения точности, полученные при различных количествах документов из начальной части списка.

Пример. Характеристическое множество запроса включает 5 элементов – значений точности при 10, 30, 50, 70 и 100 документах из первоначального списка. В данной структуре эксперт обязан оценить релевантность первых 100 из найденных документов. Предположим, для одной из исследуемых поисковых систем количество документов составляет 10, из которых 8 являются релевантными, что дает точность 8/10, и, следовательно, первый элемент характеристического множества запроса равен 0,8. Релевантность поиска по запросу учитывается с помощью весовых коэффициентов. Заданы следующие веса элементов характеристического множества запроса: (5, 4, 3, 2, 1). Пусть запрос имеет характеристическое множество (0,8; 0,5; 0,46; 0,43; 0,4). Тогда средняя релевантность будет равна: 0,8*5/15 + 0,5*4/15 + 0,46*3/15 + 0,43*2/15 + 0,4*1/15 = 0,267 + 0,133 + 0,092 + 0,057 + 0,027 = 0,576. Далее происходит расчет средней релевантности поиска по всем запросам, которая и представлена в предыдущей таблице.

Об исследовании других характеристик поисковых систем.

Не менее любопытны оценки поисковых роботов ведущих систем от разработчиков, особенно в контексте того, как «Апорт» и «Рамблер» классифицируются как «локальные системы с выборочной индексацией».

Исследования полноты поисковых систем обычно имеют свои ограничения по точности. Явно видно, что с таким объемом базы, как у «Яндекс», он выступает как наиболее полная система, независимо от методов выявления дубликатов в различных поисковых системах. Определение полноты индексации посредством поиска определенных образцовых документов в каждой из сравниваемых систем (это еще одна сложная методика Харина) дало следующие результаты. Значение полноты 0,53 для «Рамблера» обозначает, что из 15 документов, отобранных «Яндексом», «Апортом» и Google, «Рамблер» сумел обнаружить 8 документов.

Хотя предложенный метод может вызывать некоторые сомнения, я рекомендую обратить внимание на методику Сегаловича. В её основе лежит выбор N необычных слов, которые достаточно редки, чтобы результаты поиска по ним можно было легко проверить. Далее производится сравнение количества найденных актуальных документов для каждого слова. Средние данные представлены в таблице. Стоит упомянуть, что аналогичные оценки начали проводиться с конца прошлого года (инициатором был сам Илья Сегалович, главный разработчик «Яндекса»), однако соотношения остаются почти неизменными. Google выполняет расчеты рангов в матрице размером 400 миллионов на 400 миллионов, осуществляя это пошагово. На данный момент российские поисковые системы не располагают такими вычислительными мощностями.

Пример. Для проверки корректности вычислений Page Rank можно обратиться к тесту Носика: запрашивая «Мастер и Маргарита», на первом месте в результатах должна отображаться главная страница упомянутого произведения из «Библиотеки Мошкова» (как это происходит в Google). В «Апорте» тест проходит успешно, в то время как в «Яндексе» нужный результат оказывается на шестой позиции (результаты тестирования оставались неизменными с 24.05 по 19.06). Примечательно, что тест с запросом «нарцисс» практически дает правильный ответ в «Апорте» (вторым в выдаче оказывается первый результат из Google, и это незначительное искажение имеет объяснимые причины), тогда как в «Яндексе» он ошибочен по сравнению с Google.

Российские поисковые системы на пьедестале почета

В нынешних реалиях можно выделить две оптимистичные тенденции в контексте российских поисковых систем. Первая из них заключается в том, что в Рунете поисковики становятся более популярными, чем каталоги-классификаторы. Согласно исследованию «SpyLOG — Глобальная статистика», для средних и малых сайтов доля поисковых систем в два раза превышает суммарный вклад каталогов и рейтингов. Вторая тенденция не менее значима: порог входа на рынок поисковых систем достаточно высок и значительно превышает барьеры для вступления на рынок счетчиков, сравним с входом на рынок крупных электронных энциклопедий. Примером может служить новичок — Lupa.ru, который на первый взгляд схож с поисковой машиной.

Почему же эта вторая тенденция так важна? В любом массовом рынке первыми начинают действовать ведущие компании. Предположим, что среди них три компании контролируют 80% рынка. На практике они охватывают лишь 2-5% населения. Вероятность того, что эти три компании сохранят лидирующие позиции, когда рынок достигнет хотя бы 30% населения, зависит от основных характеристик самого рынка. В случае низкотехнологичных рынков первопроходцы чаще всего не добиваются успеха. Напротив, в высоких технологиях успех возможен (пример — Intel). В целом Интернет нельзя назвать высокотехнологичным рынком, поэтому здесь постоянно меняются главные игроки. Поисковые системы занимают одну из наиболее технологически сложных ниш в этой области. Лидерство поисковиков основывается на сравнительно сложных технологиях, полном наборе баз данных, мощных вычислительных ресурсах и привычках пользователей. На сегодняшний день в России разрабатывается или уже создано около 10 поисковых систем, некоторые из которых, как например, Punto, уже функционируют. Однако их база данных такова, что они способны предоставить лишь ограниченные возможности поиска.

Учитывая, что статья эксперта написана без соблюдения норм журналистской этики и сосредоточена исключительно на аспектах, влияющих на рынок, не имеет смысла упоминать всех мелких конкурентов ведущих поисковых систем: выбранные герои данного обзора надолго останутся на воображаемом пьедестале.

Тем не менее, стоит отметить, что «Апорт» вероятно столкнётся с угрозой исчезновения под давлением Golden Telecom, как это уже произошло с Infoart, Atrus, Emedia и многими другими ресурсами.
Релевантность «Рамблера» достигла уровней, сопоставимых с тремя прочими поисковыми системами, однако отставание в этом показателе связано с отсутствием механизма ссылочного ранжирования и, вероятно, может быть устранено только при изменении основной системы.
Мнение о бесконечном превосходстве Google над остальными поисковыми системами несколько преувеличено. Тем не менее, именно эта система имеет возможность привлечь значительную долю русскоязычной аудитории.

Потенциальные направления развития «Рамблера»: приобретение лицензии на сторонний каталог для усовершенствования своей поисковой системы и дополнение другой поисковой системы для повышения качества услуг для пользователей. К слову, одним из источников дохода самого «Рамблера» является намерение продать свою поисковую систему в Украину и Прибалтику. Rambler.bg занимает одну из ведущих позиций среди поисковых сервисов Болгарии (о перспективах yandex.pl и rambler.de пока не представляется возможным сказать что-то определенное).
Основные источники доходов для всех поисковых систем: баннерная реклама по географическому положению и тематике, а также платные профили и аналитические отчеты.

Главная проблема всех устоявшихся российских поисковых гигантов заключается в том, что для обновления устаревшей базы данных и второй индексации Рунета необходимо полностью обнулить индекс.

Чтобы прояснить ситуацию, стоит добавить, что метапоисковые системы (а их история в России практически равнозначна истории русских поисковых систем) не оказывают существенного влияния на рынок. С 1999 года на рынке функционирует практически идеальный инструмент метапоиска — Диско Наблюдатель. Однако россияне не готовы расплатиться за эту программу, стоимость которой составляет двадцать долларов. Поэтому шансы имеет бесплатный метапоисковый сервис MetaBot.ru.

Позиционирование в поисковой системе

Андрей Иванов ввел термин «позиционирование в поисковой системе» для описания комплекса мероприятий, направленных на улучшение видимости ссылок на сайт в результатах поисковых систем.
Следует отметить, что русские поисковые системы все больше схожи в своих методах борьбы со спамом (спам-дексингом).
Были прекращены публикации ста самых популярных запросов на «Рамблере» (последние данные сохранились в «Регистратуре.ру»), а также публикация всех текущих запросов пользователей «Яндекса» в рамках «Прямого эфира» (1700 тысяч запросов к «Яндексу» были сохранены в «Нейроне»).
Семантический образ спамера (включающий комбинации вроде «Линукс, порно, реферат…») распознается достаточно эффективно, и подобные ресурсы «определяются» на этапе индексации.
К редиректу «Яндекс» относится строго отрицательно. В конце года он очистил свою базу данных и исключил сайты с установленным редиректом (включая те, что использовали Java-скрипт, с запретом на повторную регистрацию).
«Рамблер» продолжает осуществлять редирект на новую ссылку (II), индексируя документ и добавляя ссылку II в список для обхода. Старую ссылку с редиректом он исключает из своих списков. Таким образом, при следующем заходе он будет работать с новой ссылкой II. А если та формируется с помощью Java-скрипта, «Рамблер» вообще не перейдет по ней, поскольку не исполняет скрипты. «Яндекс» действует аналогично, но его «паук» менее осторожен и выполняет множество скриптов.

С момента запуска своей второй версии «Яндекс», как и «Апорт», стал принимать во внимание основные метатеги, в то время как «Рамблер» и Google продолжают их игнорировать.

И в завершение, руководство «Яндекса» и «Рамблера» достигло соглашения о взаимном обмене информацией о злоупотребляющих спамерах, чтобы исключить их из русского поиска.

Трафик, генерируемый поисковыми системами (согласно отчету SpyLOG за январь 2001 года), составил в целом 42% для «Яндекса», против 17,5% для «Рамблера» и «Апорта». По данным того же отчета, для интернет-магазинов распределение значительно иное: «Яндекс» — 69%, «Рамблер» — 15,3%, «Апорт» — 9,8%, «Google» — 2,6%. Это связано с тем, что поиск товаров в «Яндексе» значительно превосходит аналогичный сервис в «Апорте» как по технологиям, так и с точки зрения гибкости ценовой политики для владельцев магазинов. Недавние данные исследования SpyLOG показывают, что доли «Апорта» и «Рамблера» теперь составляют 18% и 12% соответственно, а у «Google» — 14%, при этом «Яндекс» сохраняет свои 42%.

Зарубежные поисковые системы для русскоязычных пользователей

Среди зарубежных поисковых систем, которые могут предоставить осмысленный ответ на русский запрос, по-прежнему выделяется Altavista (или недоработанная Raging), однако база русскоязычных ресурсов в ней была значительно повреждена еще в 1999 году. В настоящее время более-менее полноценными зарубежными поисковиками по Рунету можно считать только Fast и Google (или Yahoo!), которые, предположительно, привлекли тех пользователей, что ранее искали русскоязычные ресурсы через «АльтаВисту». Говорить о каких-либо долях рынка зарубежных поисковиков в Рунете долгое время не имело смысла, а сравнивать их эффективность и технологии с нашими более чем уместно.