На главную страницу ЗАО Софткей
 Главная   Новости   Статьи   Пресс-релизы   Обучение new   Форум   Рассылки 
 

Мне бы точно такой документ, но без крыльев

27.05.2005 / Программы / Наталья Сергеева

Поисковые технологии компании ''Софтинформ''

Всем хороши программы для локального поиска - какую ни возьми, практически мгновенно найдет любой документ, затерявшийся где-то на дисках. Достаточно ввести запрос к любой такой системе - и перед вами список файлов, соответствующий вашему запросу. Одна беда: в этом списке зачастую содержится куча мусора - совершенно не относящихся к теме поиска файлов. Хорошо, если поисковая система умеет сортировать результирующий список по релевантности и позволяет выполнять повторный запрос - "поиск в найденном". Изрядное количество мусора при этом отсеивается, но все равно пользователь вынужден тратить время и нервы на просмотр оставшихся ненужных документов. А обнаружив наконец-то подходящий документ, этот пользователь мечтает об одном - найти такие же или хотя бы близкие по смыслу.

Теперь у нашего пользователя появилась возможность осуществить эту мечту с помощью программы полнотекстового поиска SearchInform, основанной на уникальной технологии поиска документов, похожих по своему содержанию на заданный. Об этой технологии мы рассказали в статье "Уникальнейший поиск похожих", здесь же о ней буквально пару слов. SoftInform Search Technology была запатентована два года назад, проанонсирована 10 марта на CeBIT 2005 в Ганновере, а 14 апреля этого года в Санкт-Петербурге состоялась презентация компании "Софтинформ", посвященная этой новой технологии поиска и готовым программам на ее основе. Понятно, что нам, пользователям, хочется не столько прослушать информацию о прелестях новейшей технологии, сколько пощупать эту новинку в виде готовой программы. В марте этого года это стало возможным, после того как была выпущена в свет программа SearchInform, наглядно демонстрирующая возможности этой новой поисковой технологии. Об уникальных возможностях профессиональной версии этой программы и об отличиях поиска похожих документов от всем привычного фразового поиска мы и расскажем в этой статье.

Вот это скорость!

Нужно сказать, что даже без уникальной возможности программы - поиска похожих - SearchInform можно предпочесть другим аналогичным программам по целому ряду параметров. Программа начинает приятно удивлять сразу же после установки и прежде всего поражает своей скоростью обработки данных. Дабы не быть голословными, приведем некоторые цифры. SearchInform индексирует документы со скоростью в 3-5 раз выше, чем другие программы, упомянутые нами в статье "Секреты локального поиска".

Процесс индексирования на хорошем компьютере

Скорость эта сильно зависит от мощности компьютера, но даже на слабых компьютерах остается довольно приличной. Например, на вполне современном компьютере (с процессором Pentium 2 ГГц частотой и 512 Мб оперативной памяти) SearchInform примерно за 8 минут проиндексировала около 50 тысяч документов со скоростью 1500 Кб/с. А на компьютере с процессором Celeron 850 и 250 Мб ОЗУ те же 50 тысяч документов обрабатывались со скоростью в 3 раза ниже (478 Кб/с) и соответственно в 3 раза дольше (25 минут). Кроме прочего, необходимо отметить стабильность этой скорости за весь период обработки даже больших массивов данных (чего не скажешь о некоторых аналогичных программах).

Индексирование на слабом компьютере

Обработка архивов

Нужно отметить любопытнейшую особенность SearchInform при обработке архивов - на быстрых машинах система индексирует документы в архивах с той же скоростью, а иногда и с большей, что и неупакованные документы! Чтобы читатель, не очень знакомый с тонкостями работы локальных поисковиков, смог оценить эту особенность, опять же приведем цифры и факты. Дело в том, что обычно такие программы обрабатывают архивы примерно с той же скоростью, что и средства прямого поиска, встроенные в Windows, то есть очень медленно. А это очень затрудняет (или делает совсем невозможным) индексирование огромных массивов упакованных документов наподобие "Библиотек в кармане".

Обработка архивов на Celeron 850

SearchInform "щелкает" эти архивы, как семечки. К примеру, "Библиоман" из 15 тысяч тяжеловесных электронных книг, упакованных в RAR-архив, был обработан программой со скоростью 500 Кб/с за 1,5 часа! Другим программам на это понадобилось бы около 50 часов. К сожалению, на слабых машинах скорость обработки архивов программой SearchInform падает - примерно в 2-3 раза относительно скорости обработки неархивированных файлов, но тем не менее остается довольно высокой (опять же по сравнению с аналогами). В результате та же библиотека на компьютере Celeron 850 была проиндексирована примерно за 4 часа.

Фразовый поиск

SearchInform обладает стандартным фразовым поиском (phrase search) и предоставляет множество возможностей, чтобы этот вид поиска был комфортным и эффективным. Прежде всего нужно отметить использование морфологического анализа при фразовом поиске (если в подключенном в данный момент индексе задействована эта возможность). В этом случае нет необходимости предугадывать словоформы, в которых могут встречаться ключевые слова в искомых документах, достаточно ввести все слова, например, в начальной форме.

Фразовый поиск

Также при фразовом поиске используется список стоп-слов, которые не несут никакой информационной нагрузки и не учитываются при поиске документов. Непосредственно для настройки поиска служит множество элементов управления, объединенных в блоки: принципы обращения с каждым словом из строки поиска; опции, позволяющие расширить область поиска, использовать синонимы, осуществлять поиск цитаты, ограничить максимальное количество выводимых результатов, искать среди найденных результатов и многое другое.

Допустим, нам понадобилась информация о том, как можно заблокировать интернет-рекламу с помощью Outpost. По запросу "блокировка рекламы в интернете" обычный фразовый поиск выдал нам список из 35 документов. Однако в списке этом содержатся тексты не только об Outpost, но и об AdsCleaner и других блокировщиках рекламы. Конечно же, воспользовавшись богатым арсеналом средств SearchInform, мы смогли бы отсеять ненужное из списка - конкретизировать запрос, выполнить поиск среди найденных документов и так далее. Но в программе имеется другой вид поиска - поиск похожих (similar search). Попробуем воспользоваться им.

Поиск похожих

При поиске похожих в SearchInform задействовано все множество слов, встречающихся в документе, с учетом всех словоформ и словаря синонимов. Происходит все следующим образом: в окно запроса копируется весь текст (или фрагмент) одного из документов, выбирается область поиска, запускается сам процесс и в результате отображается список документов, отсортированный по релевантности - по сути, по степени похожести заданному. 100% совпадения - найден документ-дубль. Документ с меньшим процентом совпадения, соответственно, только похож по содержанию на текст запроса.

Нужно сказать, что такая возможность (в чистом виде) не реализована ни в одной из существующих поисковых систем, будь они хоть для локального поиска, хоть для поиска в Интернете. Приспособить же имеющиеся поисковые сервисы для обработки запроса длиной в документ нет никакой возможности. Во-первых, соорудить такой мудреный запрос будет весьма затруднительно. Во-вторых, система будет обрабатывать такой запрос целую вечность. В третьих, результатом такого запроса, если вы его когда-то дождетесь, будет полный ноль.

Результат поиска похожих

А вот SearchInform с такой задачей справляется, стоит лишь перейти на вкладку Similar search, скопировать в окно запроса текст нужного документа и запустить поиск. Результат этого поиска более чем удовлетворителен: на первых позициях - документы, наиболее похожие на текст запроса, ниже - документы, непосредственно относящиеся к теме запроса. Анализ результатов нескольких выполненных запросов показал, что этот вид поиска идет несколько дальше простого сравнивания слов из строки запроса со словами в заданном документе. Система поиска похожих осуществляет достаточно интеллектуальный поиск, учитывая множество параметров и особенностей заданного текста. Больший приоритет при поиске похожих отдается документам, действительно похожим по смыслу, нежели по физическому набору символов. В нашем примере с блокировкой рекламы на первом месте оказались документы, относящиеся к теме блокировки рекламы именно Outpost. Отдельно стоит сказать о возможности дополнительной конкретизации поискового запроса с помощью использования так называемых "важных слов" - вспомогательных ключевых слов, на которые программа будет обращать внимание в первую очередь, проводя дополнительный анализ похожести. Эта возможность особо полезна, когда из всей кучи похожих документов необходимо выделить какую-то наиболее интересующую подтему.

Подсветка ключевых слов и предыдущие запросы

Поиск похожих, в отличие от фразового поиска, вовсе не стандартен, однако элементов управления этим поиском не столь уж много, так что разобраться с ним совсем не сложно. По умолчанию в программе включена опция использования списка синонимов при поиске похожих документов. Списки эти можно создавать как для каждого из используемых языков, так и для каждого конкретного случая (адаптировать под конкретный поиск). Введение дополнительных синонимов позволяет не только ускорить поиск информации, но и сделать его более точным. Как и при фразовом поиске, пункт Relevance позволяет ограничивать число выводимых в окно результатов записей. Но, в отличие от вкладки Phrase search, ограничение здесь идет не по строго заданному количеству результатов, а по отсеиванию результатов с процентом релевантности ниже значения, установленного с помощью ползунка Relevance. Предыдущие запросы к программе можно быстро повторить, всего лишь выбрав их из выпадающего списка по кнопке Last searches. Не нужно говорить, как это экономит время.

Подведем итог. SearchInform Professional превосходит аналогичные программы по ряду параметров: индексирует документы в 3-5 раз быстрее - это раз; гораздо быстрее обрабатывает архивы - это два; не имеет ограничения ни на размер создаваемого индекса, ни на объем обрабатываемых документов - это три; обрабатывает практически любые типы документов - это четыре; мгновенно выполняет запрос к огромным поисковым областям - это пять. SearchInform включает все стандартные функции, присущие локальным поисковым системам, а возможность поиска документов, похожих по содержанию на заданный, делает программу уникальной. Неограниченные возможности развития, адекватность результатов и скорость обработки любого по объему запроса делают данную программу намного более удобной и востребованной.

Программные продукты на основе SoftInform Search Technology

Исходя из сказанного можно сделать вывод, что программа будет с успехом работать на персональных компьютерах, однако использование SearchInform будет гораздо более эффективным в больших компаниях - с их огромными массивами информации и большими и мощными серверами. Что примечательно, хранение документов в архивах для этих компаний будет даже предпочтительней - это никак не повлияет на скорость обработки документов, а экономия дискового пространства налицо. Нужно сказать, что специально для корпоративных клиентов созданы две версии программы - SoftInform Corporate Edition и SoftInform Corporate Edition Pro, которые различаются ценой и функциональностью. Корпоративные версии SearchInform, кроме рассмотренных в данной статье функций профессиональной версии, обладают и другими серьезными возможностями. Так, например, эти версии программы не сами назначают права пользователям, а "подхватывают" их из Windows - по-умному наследуют аутентификацию пользователей. Другая корпоративная изюминка - масштабируемость системы, позволяющая задействовать в поисковых процессах мощности нескольких серверов.

Итак, можно с уверенностью сказать, что будущее - за технологиями полнотекстового поиска похожих документов как в сфере Интернета, так и в сфере корпоративных систем поиска. SearchInform - только первая ласточка, но уже работающая, стабильная и уникальная.

Trial-версия SearchInform работает без ограничений 30 дней. Free-версия программы позволяет создать только один индекс с размером индексируемой информации до 1 Гб. Приобрести программу можно на Softkey.ru.

Системные требования:

  • платформы: Windows NT/ME/2000/XP;
  • языки интерфейса: русский и английский.

Программы в каталоге Softkey.ru:

Ссылки по теме:

Автор статьи: Наталья Сергеева

Отзывы:


Новый отзыв
Ваше имя: *
Ваш E-Mail:
Тема: *
Текст: *
Введите цифры: *

* - поля, обязательные для заполнения.

Ваш отзыв будет опубликован в течение двух-трех дней. Мы оставляем за собой право не публиковать отзывы, которые будут содержать нелитературные выражения и оскорбительные высказывания.

Рубрики статей
Все статьи
Аналитика
Программы
Игры
Интернет
Авторские права
Интервью
События в мире ПО
Сервисы
 Сеть IT-экспертов
 Мероприятия
Рассылки
Новости мира ПО
Статьи: Интервью
Статьи: Мир ПО
Статьи: Программы
Статьи: Интернет
Статьи: Авторские права
Статьи: Игры
Пресс-релизы
Архив выпусков
  «   Сентябрь 2010   »  
Пн Вт Ср Чт Пт Сб Вс
  12345
6789101112
13141516171819
20212223242526
27282930   
Поиск в архиве

Логин / пароль:
запомнить

Kaspersky

Модель Москвы шароварный мелкий



Написать редактору  | RSSЭкспорт новостей и обзоров


Rambler's
Top100 Rambler's Top100

Разработка компании «Битрикс»
Разработано
«Битрикс»


программы    Copyright © 2001-2010 ЗАО «Софткей»