Компания "Софтинформ", основанная в 1995 году и работающая в сфере информационных технологий, специализируется на технологиях поиска, хранения и обработки информации. Одним из ярких достижений компании в этой области является создание уникальной системы поиска документов, похожих по своему содержанию на заданный, - SoftInform Search Technology. Отличительными особенностями этой технологии являются высокая скорость обработки запросов и возможность выполнять поиск всего за несколько секунд в любых объемах информации. Технология, защищенная действующим патентом, впервые была проанонсирована 10 марта этого года на CeBIT 2005 в Ганновере. А совсем недавно, 14 апреля этого года, в Санкт-Петербурге в баре-ресторане "Пушкарь" состоялась презентация компании "Софтинформ", посвященная анонсу этой новой технологии поиска и готовых программ на ее основе.
Разработка "Софтинформ", внедренная в систему полнотекстового поиска - поиск документов, похожих по содержанию на заданный, вызвала большой интерес со стороны представителей СМИ и ИТ-компаний. В связи с этим основная часть презентации была посвящена преимуществам новой технологии. Что же это за технология и в чем ее уникальность?
Зачем и кому нужна эта технология?
Большой проблемой для любой организации является наличие неструктурированной информации - файлы, БД, архивы и так далее. Корпоративная документация зачастую содержится в различных форматах и различных системах и может отличаться по уровням доступа к ней. Такой разнообразный и пополняющийся поток данных нуждается в фильтрации и предельно удобной структуризации. Одной из задач работы с информацией и ключевым процессом формирования информационной базы предприятия является быстрый поиск требующихся документов. SoftInform Search Technology призвана решить эти задачи - технология включает в себя все инструменты, необходимые для структуризации информации в рамках предприятия, быстрого поиска документов, а также их дальнейшей обработки. Разработчики технологии доказали это цифрами и фактами скоростей индексирования информации и поиска документов, представленными аудитории на презентации в Санкт-Петербурге. Об этом же свидетельствуют примеры успешного внедрения технологий на предприятиях.
Универсальные источники данных
Основана SoftInform Search Technology на математической модели анализа структуры документа и выбора похожих слов, словосочетаний, предложений и даже массивов текста. Технология прекрасно работает с наиболее распространенными форматами текстовых файлов (txt, doc, rtf, pdf, htm, html), поддерживая и корректно обрабатывая все из них. Но в крупных организациях, где информация обычно содержится в различных информационных системах - CRM, архивах, СУБД и так далее, этого недостаточно. Технология поиска похожих документов справляется и с этой задачей. В ней встроена возможность индексации полей практически из всех существующих на данный момент распространенных систем (например, Access, MS SQL, Oracle, а также любых СУБД, поддерживающих SQL). Также не составляет никакого труда адаптировать технологию (при внесении минимальных корректировок) под любую другую базу данных или информационную систему. Причем источники данных, доступные для индексации программой, построенной на технологии SoftInform Search Technology, могут быть различными и находиться в разных местах.
Типовые проблемы, решаемые технологией
Данная технология уже испытана и с успехом используется в проекте оказания юридических услуг по телефону, где крайне критична скорость поиска информации. И она наверняка будет более чем полезна в любой базе знаний, аналитической службе или службе техподдержки крупной фирмы. Универсальность и эффективность этой технологии позволяют решать широкий спектр проблем, возникающих в процессе работы с информацией.
Размытость информационного наполнения. В базу данных крупного предприятия документы могут вноситься из разных источников и содержать практически одну и ту же информацию с небольшими отличиями. В итоге если к каждому документу привязана какая-либо дополнительная информация (комментарии, ссылки и так далее), может получиться путаница, так как часть информации может быть внесена в один документ, а часть - в другой. С помощью же данной технологии уже при вводе документа в базу можно практически мгновенно определить, новый ли это документ или дублирующий уже содержащийся в базе файл.
Анализ похожести. Еще сложнее дело обстоит с документами, которые уже введены в базу. Для примера: сравнение документов в информационной базе, в которой содержится, скажем, 1 000 000 файлов, займет около месяца. Но данная технология позволяет решить и эту проблему, используя функцию построения отчетов анализа похожести и выполняя все нужные операции всего за пару суток!
Быстрый поиск. Поиск тематически похожих документов дает намного более точные результаты похожести, чем обычный фразовый поиск, и сохраняет время, затрачиваемое на подбор ключевых слов и просмотр ненужных документов.
Перспективы. Упорядоченный поиск в Интернете. Одним из самых перспективных путей развития технологии может быть создание поисковой интернет-машины на базе поиска похожих. Это даст возможность в быстрой и удобной форме находить нужные документы, не тратя время на перебор ключевых фраз и отсеивание результатов, а сразу получая релевантный список похожих текстов.

По словам Льва Матвеева, директора "Софтинформа", компания в настоящее время выходит на российский рынок и ищет потенциальных партнеров из числа тех компаний, которые напрямую работают с клиентами. Сейчас на рынке компания продвигает несколько базовых версий программного обеспечения, созданного на основе SoftInform Search Technology. Это решение для частных пользователей и малого бизнеса SearchInform Desktop Edition, а также две версии для корпоративных клиентов - SearchInform Corporate Edition и SoftInform Corporate Edition Pro. Они различаются ценой и функциональностью. Так, базовая цена на одну лицензию Desktop Edition установлена в 99 долларов (для России назначена цена около 60 долларов), SearchInform Corporate Edition - 3000 долларов на одну серверную лицензию плюс 10 рабочих мест. Кроме того, компания предлагает на основе SoftInform Search Technology и заказные разработки. Живым доказательством уникальности и работоспособности готовой системы поиска стала демонстрация на презентации возможностей программы SearchInform Desktop Edition в реальном времени.
Итак, технология поиска похожих документов "Софтинформа" - это незаменимый инструмент для экономии времени и денег, позволяющий любой компании резко сократить затраты (как материальные, так и временные) на поиск и обработку информации в больших объемах данных. Технология поиска похожих документов "Софтинформа" - это:
- быстрый и точный поиск похожих по содержанию документов в любых объемах данных;
- возможность исключить дублирование информации;
- интеграция в любые базы данных и прикладные системы, а также работа с любыми документами;
- возможность разработки широкого спектра приложений как для локальных внутрикорпоративных сетей, так и для глобальных интернет-решений.
Технология поиска похожих документов "Софтинформа" - это ваша власть над информацией. Это возможность действовать в то время, когда остальные только ищут.