На главную страницу ЗАО Софткей
 Главная   Новости   Статьи   Пресс-релизы   Обучение new   Форум   Рассылки 
 

Поисковая ласточка. Что на спидометре?

31.08.2006 / Программы / Наталья Сергеева

Все-таки будущее за технологиями полнотекстового поиска похожих документов - как в сфере Интернета, так и в сфере корпоративных систем поиска. К такому выводу мы пришли, опробовав в работе наиболее популярные программы-искалки. Неограниченные возможности развития, адекватность результатов и скорость обработки любого по объему запроса - вот что делает данные технологии особенно привлекательными и востребованными. Программа SearchInform - одна из первых ласточек, не только реально использующая подобную технологию, но и при этом стабильно работающая.

Мы эту ласточку от компании "Софтинформ" держим на диске больше года и не раз подвергали ее различным испытаниям и тестам. Поводом обновить результаты послужило сообщение разработчиков о выпуске новой версии программы - SearchInform 2.3.01. Так что в этой статье мы обратим внимание на появившиеся в программе нововведения, но все же основное внимание уделим двум ее возможностям - качеству поиска и высокой скорости поиска и индексирования на огромных массивах документов. Так ли уникальны эти возможности, как о них говорит "Софтинформ"? В чем проявляется их уникальность? Чем этот поиск похожих, встроенный в программу SearchInform, отличается от привычного всем фразового поиска? Насколько он лучше и лучше ли на самом деле? Вот на какие вопросы мы постараемся найти ответ.

Что там на спидометре?

Создание нового индекса

Любая поисковая программа, использующая индексацию, первым делом анализирует область поиска и создает свою базу данных. SearchInform - не исключение, и мы первым делом проверили скоростные параметры программы при индексировании. Огромных массивов документов, к сожалению, не оказалось под рукой, и программе было предложено создать индекс для документов, содержащихся в определенных папках на разных дисках, в том числе и в локальной сети. Поддерживаемых типов документов оказалось вполне достаточно - были выбраны наиболее распространенные форматы текстовых файлов (TXT, DOC, RTF, PDF, HTML) и отставлены в сторону многие специализированные форматы, поскольку ни информационных CRM-систем, ни СУБД типа Access, MS SQL или Oracle на нашем компьютере не было. (Нужно отметить, что для больших организаций, в которых информация как раз и хранится в подобных базах, будет воистину бесценной возможность SearchInform индексировать поля практически всех существующих на данный момент распространенных систем.) Проверить работу программы с архивами (ZIP и RAR) было решено отдельно, поэтому и они были исключены из данной области поиска.

Выбор дисков и папок для индексации

Тест проводился на далеко не "навороченном" компьютере, но вполне современном - с процессором Pentium 2,7 ГГц частотой и 512 Мб оперативной памяти. Скорость обработки документов SearchInform нас удивила - программа их "шпарила" со скоростью в три раза выше, чем некоторые аналоги. (Чтобы наша статья не стала похожей на рассказ "о других обычных порошках", мы будем по возможности эти другие программы называть поименно.) SearchInform примерно за 8 минут проиндексировала около 50 тысяч документов со средней скоростью 1,5 Мб/с - сравнимой разве что со скоростью, показанной программой "Архивариус 3000" на этом же компьютере. (Ранее при индексировании нашей тестовой базы - структурированного набора различных текстовых документов без архивов - скорость "Архивариуса 3000" была выше, чем у четырех других программ, испытанных в тех же условиях, и составила 1-1,5 Мб/с.)

Необходимо отметить, что скорость индексирования SearchInform сильно зависит от мощности компьютера (впрочем, это справедливо и для других подобных программ). Например, на слабом компьютере с процессором Celeron 850 и 250 Мб ОЗУ те же 50 тысяч документов обрабатывались со скоростью в три раза ниже (478 Кб/с) и, соответственно, в три раза дольше (25 минут). Взгляните на скриншот, отображающий этот процесс для SearchInform - на нем отчетливо видна дата начала индексирования и время (на системных часах), когда оно было практически закончено (на этом, можно сказать, допотопном компьютере). Но и в таких условиях скорость SearchInform превышает показанную некоторыми аналогами примерно в три раза.

На слабом компьютере SearchInform проиндексировала около 50 тысяч документов за 25 минут

С точностью до наоборот все происходит на мощных компьютерах с серверными конфигурациями, большими объемами ОЗУ (более 2 Гб) и процессорами с частотой более 4 ГГц. Скорость обработки программой областей поиска увеличивается, причем значительно. И, так же как и в предыдущих случаях, она намного превосходит скорость многих аналогов, в частности разработок лидера в области обработки информации HummingBird. Кроме прочего необходимо отметить стабильность этой скорости за весь период обработки даже больших массивов данных. Если SearchInform начала работать со скоростью 6 Гб/ч, то и закончит работу примерно с той же скоростью, в то время как у других программ эта скорость часто падает с течением времени.

Обработка архивов

Интересные моменты были подмечены нами при работе SearchInform с архивами. Любопытно, что на быстрых машинах система индексирует документы в архивах с той же скоростью, а иногда и с большей, что и неупакованные документы. На медленных же машинах скорость эта падает примерно в два-три раза (относительно скорости обработки неархивированных файлов).

Отдельно нужно сказать о работе SearchInform с архивами RAR, которая тоже впечатлила, и вот по какой причине. Прежде всего нужно сказать, что индексировать информацию в этих архивах могут далеко не все аналогичные программы. Из числа известных нам эта возможность имеется в упомянутом "Архивариусе 3000", Cros и "Ищейке Проф Deluxe". К сожалению, автору этих строк в свое время пришлось отказаться от затеи проиндексировать с помощью этих трех программ "Библиоман" - подборку книг, упакованных архиватором RAR, общей численностью около 15 тысяч и общим размером более 2 Гб (в архивах). Главная причина - упомянутые программы это делали очень медленно, примерно с той же скоростью, что и средства прямого поиска, встроенные в Windows. Другие причины - ограничение на размер индекса и отсутствие в программах необходимых распаковщиков.

На индексацию 3 тысяч архивов "Архивариус" потратил 9 часов

SearchInform щелкает эти архивы как семечки - индексирует документы в RAR (на хороших машинах) со скоростью 500 Кб/с (27 Мб/мин). Заметим, речь идет о размерах архивов! При этом нет у SearchInform ограничений ни на общий объем индексируемых архивов, ни на размер полученного в результате этого индекса. В итоге на обработку всей огромной библиотеки с помощью SearchInform ушло чуть меньше полутора часов.

На слабых машинах скорость обработки архивов ниже

На слабых машинах, как уже говорилось, скорость обработки архивов у SearchInform падает до 150 Кб/с (9 Мб/мин). Но, обратите внимание, она остается соизмеримой (и даже несколько выше) со скоростью наших других программ при индексации неупакованных документов. В результате та же библиотека "Библиоман" на старом компьютере была проиндексирована примерно за 4 часа.

Демоверсия продукта работает 30 дней. Рекомендованная цена на продукт: 79 долларов. Языки интерфейса: английский и русский. Купить SearchInform можно на Softkey.ru.

Минимальные системные требования:

  • операционная система Windows 95/98/ME/NT/2000/2003/XP/XP 64bit;
  • процессор Intel Pentium 500 МГц;
  • 128 Мб оперативной памяти;
  • 120 Мб свободного места на жестком диске.

Программы в каталоге Softkey.ru:

Ссылки по теме:

Автор статьи: Наталья Сергеева

Отзывы:


Новый отзыв
Ваше имя: *
Ваш E-Mail:
Тема: *
Текст: *
Введите цифры: *

* - поля, обязательные для заполнения.

Ваш отзыв будет опубликован в течение двух-трех дней. Мы оставляем за собой право не публиковать отзывы, которые будут содержать нелитературные выражения и оскорбительные высказывания.

Рубрики статей
Все статьи
Аналитика
Программы
Игры
Интернет
Авторские права
Интервью
События в мире ПО
Сервисы
 Сеть IT-экспертов
 Мероприятия
Рассылки
Новости мира ПО
Статьи: Интервью
Статьи: Мир ПО
Статьи: Программы
Статьи: Интернет
Статьи: Авторские права
Статьи: Игры
Пресс-релизы
Архив выпусков
  «   Сентябрь 2010   »  
Пн Вт Ср Чт Пт Сб Вс
  12345
6789101112
13141516171819
20212223242526
27282930   
Поиск в архиве

Логин / пароль:
запомнить

Снова за парту



Наши партнеры:

 САПР и графика




Написать редактору  | RSSЭкспорт новостей и обзоров


Rambler's
Top100 Rambler's Top100

Разработка компании «Битрикс»
Разработано
«Битрикс»


программы    Copyright © 2001-2010 ЗАО «Софткей»