Я ищу - Isearch
Isearch - это программное обеспечение для поиска текста с открытым исходным кодом, впервые разработанное в 1994 году Нассибом Нассаром как часть информационной структуры Isite Z39.50 . Проект стартовал в Центре обмена информацией по обнаружению и извлечению сетевой информации (CNIDR) суперкомпьютерного центра MCNC в Северной Каролине и финансируется Национальным научным фондом, чтобы следовать по пути WAIS и разрабатывать прототипные системы для распределенных информационных сетей, включающих Интернет-приложения и каталоги библиотек. и другие информационные ресурсы.
Основные функции Isearch включают полнотекстовый поиск и поиск по полю, ранжирование по релевантности, логические запросы и поддержку многих типов документов, таких как HTML, почтовые папки, дайджесты списков, MEDLINE, BibTeX, SGML / XML, метаданные FGDC, NASA DIF, метаданные ANZLIC. , Метаданные ISO 19115 и многие другие типы ресурсов и форматы документов.
Это была первая поисковая машина, которая была разработана с нуля для поддержки поиска и извлечения SGML и Z39.50 . Он включал в себя множество нововведений, включая модель «типа документа», которая представляет собой просто (объектно-ориентированный) метод связывания каждого документа с классом функций, обеспечивающих стандартный интерфейс для доступа к документу. Это был один из первых движков (если не первый), когда-либо поддерживающий XML.
Алгоритмы поиска / индексирования текста Isearch были основаны на плодотворной работе Гастона Гоннета по массивам и деревьям PAT для поиска текста - идеям, которые были разработаны для проекта New Oxford English Dictionary Project в Univ. of Waterloo, и предоставил семена для движка PAT SGML Тима Брея, который лег в основу Open Text . Однако одним из ограничивающих факторов дизайна Isearch было то, что он не очень хорошо подходил для обработки чрезвычайно больших наборов данных, которые стали популярными в середине-конце 1990-х годов. Во многих случаях Isearch был адаптирован или изменен для использования различных алгоритмов, но обычно сохранял модель типа документа и архитектурную взаимосвязь с Isite.
Isearch был широко принят и использовался на сотнях общедоступных поисковых сайтов, в том числе во многих крупных проектах, таких как патентный поиск Управления по патентам и товарным знакам США (USPTO), Федеральный центр обмена географическими данными (FGDC), NASA Global Change Master Directory , NASA Система EOS Guide System, проект взаимодействия каталогов НАСА, служба предварительной печати астрономических данных, базирующаяся в Научном институте космического телескопа , Электронный вестник РСТ Всемирной организации интеллектуальной собственности (ВОИС), [[Linsearch (поисковая машина для программного обеспечения с открытым исходным кодом Майлз Эфрон), проект SAGE Департамента специальных коллекций Университета Эмори, Eco Companion Australasia (каталог экологических геопространственных ресурсов), Австралийская национальная служба геномной информации (ANGIS), проект Open Directory и многочисленные правительственные порталы в контексте Правительственная служба поиска информации (GILS) Полномочия GPO (закончились в 2005?).
С 1994 по 1998 гг. Большая часть разработки была сосредоточена на Центре обмена информацией по обнаружению и извлечению сетевой информации (CNIDR) в Северной Каролине (ядро ядра) и BSn в Германии (Doctypes). К 1998 году большая часть разработчиков ядра Isearch с открытым исходным кодом переориентировала разработку на несколько дополнительных. В 1998 году он стал частью эталонной программной платформы Advanced Search Facility, финансируемой Министерством торговли США.
A / WWW Enterprises теперь поддерживает версию с открытым исходным кодом для публичного использования при поддержке платных государственных клиентов, таких как Бюро по патентам и товарным знакам США, НАСА и FGDC, которые предоставили поддержку для повышения функциональности и надежности программного обеспечения. Программный пакет считается эталонной реализацией программного обеспечения службы каталогов.
По состоянию на 2010 год версия Isearch с открытым исходным кодом все еще используется на 250+ узлах FGDC, а также ANZLIC в Австралии и избранными участниками Geospatial OneStop для облегчения сбора данных GOS, включая NOAA, Бюро переписи населения и Полевой офис штата Теннеси. Служба рыбы и дикой природы, среди прочего.
Рекомендации
- Применение концепций метаданных к открытию интернет-ресурсов
- Платформа операционных метаданных для поиска, индексации и получения распределенных географических информационных служб в Интернете
- Книга о веб-серверах UNIX, второе издание, Р. Дуглас Мэтьюз и др. (Ventana Press, 1997).
- «Поиск с помощью Isearch». Май 1997, Веб-методы
- FIPS-192: ПРОФИЛЬ ЗАЯВКИ НА ПРАВИТЕЛЬСТВЕННУЮ ИНФОРМАЦИОННУЮ СЛУЖБУ (GILS)
- Информационный центр и концепции метаданных, Данел Бехану, Экономическая комиссия ООН для Африки, 2004 г.
- M-98-05 Руководство по службе поиска правительственной информации, опубликованное OMB
- 01/1995 Пресс-релиз: Патентное ведомство открывает Интернет-библиотеку по патентам по СПИДу