Я ищу - Isearch

Isearch - это программное обеспечение для поиска текста с открытым исходным кодом, впервые разработанное в 1994 году Нассибом Нассаром как часть информационной структуры Isite Z39.50 . Проект стартовал в Центре обмена информацией по обнаружению и извлечению сетевой информации (CNIDR) суперкомпьютерного центра MCNC в Северной Каролине и финансируется Национальным научным фондом, чтобы следовать по пути WAIS и разрабатывать прототипные системы для распределенных информационных сетей, включающих Интернет-приложения и каталоги библиотек. и другие информационные ресурсы.

Основные функции Isearch включают полнотекстовый поиск и поиск по полю, ранжирование по релевантности, логические запросы и поддержку многих типов документов, таких как HTML, почтовые папки, дайджесты списков, MEDLINE, BibTeX, SGML / XML, метаданные FGDC, NASA DIF, метаданные ANZLIC. , Метаданные ISO 19115 и многие другие типы ресурсов и форматы документов.

Это была первая поисковая машина, которая была разработана с нуля для поддержки поиска и извлечения SGML и Z39.50 . Он включал в себя множество нововведений, включая модель «типа документа», которая представляет собой просто (объектно-ориентированный) метод связывания каждого документа с классом функций, обеспечивающих стандартный интерфейс для доступа к документу. Это был один из первых движков (если не первый), когда-либо поддерживающий XML.

Алгоритмы поиска / индексирования текста Isearch были основаны на плодотворной работе Гастона Гоннета по массивам и деревьям PAT для поиска текста - идеям, которые были разработаны для проекта New Oxford English Dictionary Project в Univ. of Waterloo, и предоставил семена для движка PAT SGML Тима Брея, который лег в основу Open Text . Однако одним из ограничивающих факторов дизайна Isearch было то, что он не очень хорошо подходил для обработки чрезвычайно больших наборов данных, которые стали популярными в середине-конце 1990-х годов. Во многих случаях Isearch был адаптирован или изменен для использования различных алгоритмов, но обычно сохранял модель типа документа и архитектурную взаимосвязь с Isite.

Isearch был широко принят и использовался на сотнях общедоступных поисковых сайтов, в том числе во многих крупных проектах, таких как патентный поиск Управления по патентам и товарным знакам США (USPTO), Федеральный центр обмена географическими данными (FGDC), NASA Global Change Master Directory , NASA Система EOS Guide System, проект взаимодействия каталогов НАСА, служба предварительной печати астрономических данных, базирующаяся в Научном институте космического телескопа , Электронный вестник РСТ Всемирной организации интеллектуальной собственности (ВОИС), [[Linsearch (поисковая машина для программного обеспечения с открытым исходным кодом Майлз Эфрон), проект SAGE Департамента специальных коллекций Университета Эмори, Eco Companion Australasia (каталог экологических геопространственных ресурсов), Австралийская национальная служба геномной информации (ANGIS), проект Open Directory и многочисленные правительственные порталы в контексте Правительственная служба поиска информации (GILS) Полномочия GPO (закончились в 2005?).

С 1994 по 1998 гг. Большая часть разработки была сосредоточена на Центре обмена информацией по обнаружению и извлечению сетевой информации (CNIDR) в Северной Каролине (ядро ядра) и BSn в Германии (Doctypes). К 1998 году большая часть разработчиков ядра Isearch с открытым исходным кодом переориентировала разработку на несколько дополнительных. В 1998 году он стал частью эталонной программной платформы Advanced Search Facility, финансируемой Министерством торговли США.

A / WWW Enterprises теперь поддерживает версию с открытым исходным кодом для публичного использования при поддержке платных государственных клиентов, таких как Бюро по патентам и товарным знакам США, НАСА и FGDC, которые предоставили поддержку для повышения функциональности и надежности программного обеспечения. Программный пакет считается эталонной реализацией программного обеспечения службы каталогов.

По состоянию на 2010 год версия Isearch с открытым исходным кодом все еще используется на 250+ узлах FGDC, а также ANZLIC в Австралии и избранными участниками Geospatial OneStop для облегчения сбора данных GOS, включая NOAA, Бюро переписи населения и Полевой офис штата Теннеси. Служба рыбы и дикой природы, среди прочего.

Рекомендации