Новый русский поисковик Punto придумали футурологи

Author:

Вячеслав Ансимов

В мае в Рунете был представлен новый поисковик под названием Punto.ru. Уже существующие три российских поисковых системы, а также недавно начавший индексировать русскоязычный сегмент Google, в целом отвечают потребностям пользователей. Однако команда Futura, создавшая Punto, уверена в возможности занять достойное место среди главных конкурентов.

В мае тихо стартовал новый поисковый сервис Punto (с итальянского «punto» переводится как «точка» или «пункт»). Проект реализован футурологической группой Futura в сотрудничестве с питерской веб-студией ArtLogic.

Группа Futura была основана в 1995 году в Москве и объединяет политиков, ученых и предпринимателей. В её работе участвуют Информационно-аналитическое управление Совета Федерации и Институт прокризисных исследований. Основное направление деятельности Futura — консультирование в области государственного управления и крупного бизнеса.

Идея новой поисковой системы разрабатывалась коллективно в рамках специализированных чатов с помощью мозгового штурма. Разработчики учли множество рекомендаций и пожеланий по улучшению интернет-поиска, пытаясь создать продукт, соответствующий высоким ожиданиям пользователей. Создатели уверены, что их система сможет конкурировать на российском рынке поисковых сервисов.

Авторы Punto выделяют такие ключевые особенности, как «стопроцентный результат поиска», чистота и удобство. Однако подобные характеристики сами по себе не являются принципиально новыми.

«Стопроцентный результат» предполагает устранение ситуаций с отсутствием результатов путем исправления орфографических ошибок и опечаток в запросах, а также постоянного расширения базы данных.

Чистота поиска достигается путем исключения дублирующих документов, которые зачастую отображаются по разным адресам. Для этого применяется идентификация страниц по уникальным признакам их содержимого.

Удобство обеспечивается с помощью довольно простых средств — отсутствием рекламы, новостных блоков и прочих отвлекающих элементов, кроме строки ввода запроса. Такой лаконичный подход давно реализован в одном из популярных поисковиков. К тому же Punto предлагает веб-мастерам упрощенную и быструю регистрацию сайтов (до часа).

В системе есть функция фильтрации словоформ для точного попадания в запрос. Например, при поиске слова «рука» выдача обычно содержит разные падежные варианты: «руке», «рукой», «руками» и другие. В Punto этот режим активируется исключительно по необходимости. Если искать писательницу по фамилии «Толстая», система выдаст только точные совпадения, исключая родственные по звучанию слова «Толстой» или «Толстому».

Punto, как и некоторые другие поисковики (например, Яндекс и Google), использует индекс цитирования для улучшения релевантности выдачи.

Ответы на вопросы дал Сергей Москалев, директор проекта Futura и редактор издательства «Сфера».

— Кто отвечает за создание поисковой системы Punto и кто владеет проектом?

— Концепцию, алгоритмы и семантические разработки создает футурологическая группа Futura. Программированием и техническим строительством системы на начальном этапе занималась питерская студия ArtLogic. В настоящее время работу над программной частью выполняют московские специалисты. Владельцем проекта Punto.ru выступает группа Futura.

— Как осуществляется финансирование Punto?

— Финансирование проекта осуществляется за счет собственных средств участников. Проект полностью строится на аутсорсинге, и команда намерена сохранять эту модель. Опыты показывают, что когда такие проекты переходят к бюрократии, они обретают большой штат и офисы в центре Москвы или Лос-Анджелеса, что часто заканчивается неудачей. Это наблюдается как в России, так и в США. Совет — предпочесть свитера с дырками на локтях строгим костюмам с галстуками, и наоборот. 🙂

— Когда система официально запущена?

— Разработка стартовала 1 декабря 2000 года, а официальное открытие системы состоялось 1 мая 2001 года. Потребовалось пять месяцев напряженной работы и энтузиазма. За техническую часть отвечала питерская студия ArtLogic. Интеллектуальную составляющую обеспечивала группа Futura, в том числе через мозговые штурмы в специализированных чатах. Результаты продолжают использоваться и сейчас.

— Поисковый движок создан самостоятельно?

— На данный момент поисковый комплекс является собственной разработкой. На начальном этапе использовались различные Unix-системы для поиска, включая разработки команды mnogoSearch (бывший УдмСерч). Однако задачам более высокого масштаба пришлось искать собственные решения.

— Есть ли в Punto язык запросов?

— Язык запросов присутствует, но пока подключен только оператор «and» («и»). Это означает, что при нескольких словах в запросе ищутся документы, содержащие все слова. Интерфейс специально минимизирован, чтобы не запутать обычных пользователей, число которых растет по сравнению с профессионалами.

— Индексируются ли только российские ресурсы?

— Индексация охватывает все сайты в зоне .ru вне зависимости от языка. Кроме того, индексируются русскоязычные ресурсы в зонах .com, .net, .org, .de и других.

— Если пользователь вводит запрос с ошибочной раскладкой клавиатуры, система автоматически исправляет его и выдает результаты по правильному слову?

— Да, исправление происходит в обе стороны. Например, запрос «rjvgm.nth Сщьзфй» корректируется как «компьютер Compaq».

— При орфографической ошибке система только предлагает исправления, а запуск поиска по ним должен подтвердить пользователь? И замена возможна, если слово отсутствует в базе?

— Именно так. Например, если пользователь ищет художественный текст с намеренными ошибками, запрос не исправляется, чтобы не искажать поиск. Забавно, что запрос «электрофикация» вместо «электрификация» выдает ресурсы с таким же написанием, что повышает субъективную релевантность. 🙂

— Как реализована проверка орфографии? Не приводит ли она к ошибкам в интерпретации сложных слов, например, «мультиканальный»?

— Слова не разбиваются, поскольку в русском языке такой тип ошибок крайне редок. Проблемы со слипшимися словами встречаются редко благодаря точному использованию пробелов. Для проверки орфографии используются наработки известного специалиста из Сан-Диего Михаила Морозова.

— Как оценивается скорость поиска с учётом таких функций, как исправление орфографии и фильтрация результатов? Можно ли их отключать?

— Дополнительные функции почти не влияют на скорость поиска. Большинство опций активируются исключительно при неудовлетворительных результатах запроса.

— Проводите ли вы конкурс на лучшие предложения по улучшению поисковой системы? Можете привести примеры?

— Да, в мае был определен первый победитель, который получил обещанный приз. Несмотря на скепсис к таким конкурсам, мы выполнили свои обязательства. Лучшие идеи остаются авторскими, а первый победитель решил остаться анонимным вместе со своими предложениями.

— Какие планы на будущее у проекта?

— Можно уверенно сказать, что команда не стремится преобразовать проект в склад или блошиный рынок. Ведутся активные исследования по оценке ценности документов и идеальной веб-страницы с целью предоставления качественных результатов. Цель — не позволить пользователю, выбравшему сервис, искать среди огромного количества некачественной информации. Идеал — сеть магазинов высокого уровня, а не рынок с разнообразным, но сомнительным ассортиментом. Количественные показатели важны при малом числе результатов, но при миллионах страниц на первом месте стоит качество. В разработке находятся несколько интересных решений, которые сейчас активно продвигаются. Планируется учитывать опыт российских поисковых систем, таких как Апорт, Рамблер и Яндекс, учитывая их сильные и слабые стороны.