Все-таки будущее за технологиями полнотекстового поиска похожих документов - как в сфере Интернета, так и в сфере корпоративных систем поиска. К такому выводу мы пришли, опробовав в работе наиболее популярные программы-искалки. Неограниченные возможности развития, адекватность результатов и скорость обработки любого по объему запроса - вот что делает данные технологии особенно привлекательными и востребованными. Программа SearchInform - одна из первых ласточек, не только реально использующая подобную технологию, но и при этом стабильно работающая.
Мы эту ласточку от компании "Софтинформ" держим на диске больше года и не раз подвергали ее различным испытаниям и тестам. Поводом обновить результаты послужило сообщение разработчиков о выпуске новой версии программы - SearchInform 2.3.01. Так что в этой статье мы обратим внимание на появившиеся в программе нововведения, но все же основное внимание уделим двум ее возможностям - качеству поиска и высокой скорости поиска и индексирования на огромных массивах документов. Так ли уникальны эти возможности, как о них говорит "Софтинформ"? В чем проявляется их уникальность? Чем этот поиск похожих, встроенный в программу SearchInform, отличается от привычного всем фразового поиска? Насколько он лучше и лучше ли на самом деле? Вот на какие вопросы мы постараемся найти ответ.
Что там на спидометре?
 |
| Создание нового индекса |
Любая поисковая программа, использующая индексацию, первым делом анализирует область поиска и создает свою базу данных. SearchInform - не исключение, и мы первым делом проверили скоростные параметры программы при индексировании. Огромных массивов документов, к сожалению, не оказалось под рукой, и программе было предложено создать индекс для документов, содержащихся в определенных папках на разных дисках, в том числе и в локальной сети. Поддерживаемых типов документов оказалось вполне достаточно - были выбраны наиболее распространенные форматы текстовых файлов (TXT, DOC, RTF, PDF, HTML) и отставлены в сторону многие специализированные форматы, поскольку ни информационных CRM-систем, ни СУБД типа Access, MS SQL или Oracle на нашем компьютере не было. (Нужно отметить, что для больших организаций, в которых информация как раз и хранится в подобных базах, будет воистину бесценной возможность SearchInform индексировать поля практически всех существующих на данный момент распространенных систем.) Проверить работу программы с архивами (ZIP и RAR) было решено отдельно, поэтому и они были исключены из данной области поиска.
 |
| Выбор дисков и папок для индексации |
Тест проводился на далеко не "навороченном" компьютере, но вполне современном - с процессором Pentium 2,7 ГГц частотой и 512 Мб оперативной памяти. Скорость обработки документов SearchInform нас удивила - программа их "шпарила" со скоростью в три раза выше, чем некоторые аналоги. (Чтобы наша статья не стала похожей на рассказ "о других обычных порошках", мы будем по возможности эти другие программы называть поименно.) SearchInform примерно за 8 минут проиндексировала около 50 тысяч документов со средней скоростью 1,5 Мб/с - сравнимой разве что со скоростью, показанной программой "Архивариус 3000" на этом же компьютере. (Ранее при индексировании нашей тестовой базы - структурированного набора различных текстовых документов без архивов - скорость "Архивариуса 3000" была выше, чем у четырех других программ, испытанных в тех же условиях, и составила 1-1,5 Мб/с.)
Необходимо отметить, что скорость индексирования SearchInform сильно зависит от мощности компьютера (впрочем, это справедливо и для других подобных программ). Например, на слабом компьютере с процессором Celeron 850 и 250 Мб ОЗУ те же 50 тысяч документов обрабатывались со скоростью в три раза ниже (478 Кб/с) и, соответственно, в три раза дольше (25 минут). Взгляните на скриншот, отображающий этот процесс для SearchInform - на нем отчетливо видна дата начала индексирования и время (на системных часах), когда оно было практически закончено (на этом, можно сказать, допотопном компьютере). Но и в таких условиях скорость SearchInform превышает показанную некоторыми аналогами примерно в три раза.
 |
| На слабом компьютере SearchInform проиндексировала около 50 тысяч документов за 25 минут |
С точностью до наоборот все происходит на мощных компьютерах с серверными конфигурациями, большими объемами ОЗУ (более 2 Гб) и процессорами с частотой более 4 ГГц. Скорость обработки программой областей поиска увеличивается, причем значительно. И, так же как и в предыдущих случаях, она намного превосходит скорость многих аналогов, в частности разработок лидера в области обработки информации HummingBird. Кроме прочего необходимо отметить стабильность этой скорости за весь период обработки даже больших массивов данных. Если SearchInform начала работать со скоростью 6 Гб/ч, то и закончит работу примерно с той же скоростью, в то время как у других программ эта скорость часто падает с течением времени.
Обработка архивов
Интересные моменты были подмечены нами при работе SearchInform с архивами. Любопытно, что на быстрых машинах система индексирует документы в архивах с той же скоростью, а иногда и с большей, что и неупакованные документы. На медленных же машинах скорость эта падает примерно в два-три раза (относительно скорости обработки неархивированных файлов).
Отдельно нужно сказать о работе SearchInform с архивами RAR, которая тоже впечатлила, и вот по какой причине. Прежде всего нужно сказать, что индексировать информацию в этих архивах могут далеко не все аналогичные программы. Из числа известных нам эта возможность имеется в упомянутом "Архивариусе 3000", Cros и "Ищейке Проф Deluxe". К сожалению, автору этих строк в свое время пришлось отказаться от затеи проиндексировать с помощью этих трех программ "Библиоман" - подборку книг, упакованных архиватором RAR, общей численностью около 15 тысяч и общим размером более 2 Гб (в архивах). Главная причина - упомянутые программы это делали очень медленно, примерно с той же скоростью, что и средства прямого поиска, встроенные в Windows. Другие причины - ограничение на размер индекса и отсутствие в программах необходимых распаковщиков.
 |
| На индексацию 3 тысяч архивов "Архивариус" потратил 9 часов |
SearchInform щелкает эти архивы как семечки - индексирует документы в RAR (на хороших машинах) со скоростью 500 Кб/с (27 Мб/мин). Заметим, речь идет о размерах архивов! При этом нет у SearchInform ограничений ни на общий объем индексируемых архивов, ни на размер полученного в результате этого индекса. В итоге на обработку всей огромной библиотеки с помощью SearchInform ушло чуть меньше полутора часов.
 |
| На слабых машинах скорость обработки архивов ниже |
На слабых машинах, как уже говорилось, скорость обработки архивов у SearchInform падает до 150 Кб/с (9 Мб/мин). Но, обратите внимание, она остается соизмеримой (и даже несколько выше) со скоростью наших других программ при индексации неупакованных документов. В результате та же библиотека "Библиоман" на старом компьютере была проиндексирована примерно за 4 часа.
Демоверсия продукта работает 30 дней. Рекомендованная цена на продукт: 79 долларов. Языки интерфейса: английский и русский. Купить SearchInform можно на Softkey.ru.
Минимальные системные требования:
- операционная система Windows 95/98/ME/NT/2000/2003/XP/XP 64bit;
- процессор Intel Pentium 500 МГц;
- 128 Мб оперативной памяти;
- 120 Мб свободного места на жестком диске.