CiteSeer X -CiteSeerX


Из Википедии, свободной энциклопедии
CiteSeer х
Тип сайта
Библиографические базы данных
владелец Университет штата Пенсильвания колледж информационных наук и технологий
Веб-сайт CiteSeerX .ist .psu .edu
Постановка на учет Необязательный
запущенный 2007 ; 12 лет назад ( 2007 )
Текущее состояние активный
Содержание лицензии
Creative Commons BY-NC-SA лицензии

CiteSeer х (первоначально назывался CiteSeer ) является общественной поисковой системой и цифровой библиотекой для научных и научных работ, в первую очередь в области компьютерной и информационной науки . CiteSeer держит патент США # 6289342, под названием « Автономная цитата индексация и просмотр литературы с использованием контекста цитат » предоставлен на 11 сентябре 2001 года Стивен Р. Лоуренс, С. Ли Giles, Курт Д. Bollacker являются изобретателями этого патента присвоенных для NEC Laboratories America, Inc. Этот патент был подан 20 мая 1998 года, которая имеет свои корни (приоритет) до 5 января 1998 года патент продолжение также предоставлено тем же изобретателей , а также назначен NEC Labs по данному изобретению , т.е. патент США № 6738780 выдана на 18 мая 2004 года и была подана 16 мая 2001 года CiteSeer рассматривается как предшественник академических инструментов поиска , такие как Google Scholar и Microsoft Academic Search . Citeseer, как двигатели и архивы обычно только уборочные документы из общедоступных веб - сайтов и не ползать издателей веб - сайтов. По этой причине авторы , чьи документы находятся в свободном доступе, более вероятно, будут представлены в индексе.

Цель Citeseer является улучшение распространения и доступа к учебной и научной литературе. В качестве услуги некоммерческой , которые могут свободно использоваться кем - либо, он рассматривались как часть открытого доступа движения , которое пытается изменить академические и научные публикации , чтобы позволить более широкий доступ к научной литературе. CiteSeer свободно при условии , Open Archives Initiative метаданные всех проиндексированных документов и ссылки индексируются документы , если это возможно на другие источники метаданных , таких как DBLP и ACM Portal . Для продвижения открытых данных , CiteSeer х разделяют свои данные в некоммерческих целях , в соответствии с лицензией Creative Commons.

Название может быть истолковано, чтобы иметь по крайней мере два объяснения. Как каламбур, а «турист» является туристом, который смотрит на достопримечательности, поэтому «процитировать провидец» будет исследователем, который смотрит на цитируемых. Другой является «провидцем» является пророком и «процитировать провидец» пророк цитирований. CiteSeer изменила свое название на ResearchIndex в одной точке, а затем изменили его обратно.

история

CiteSeer и CiteSeer.IST

CiteSeer была создана исследователями Ли Giles , Курт Боллакер и Стив Лоуренс в 1997 году , когда они были в научно - исследовательском институте NEC (теперь NEC Labs ), Принстон, Нью - Джерси , США. Целью Citeseer было активно ползать и собирать академические и научные документы в Интернете и использовать автономные индексации цитаты , чтобы разрешить обработку запросов на цитировании или документ, ранжирование их влияния цитируемости . В какой -то момент, она называлась ResearchIndex.

CiteSeer стала достоянием общественности в 1998 году, и было много новых функций, недоступных в академических поисковых системах в то время. К ним относятся:

  • Автономная Citation Indexing автоматически создает индекс цитируемости, который может быть использован для поиска и оценки литературы.
  • статистика Цитирование и связанные с ними документы были вычислены для всех статей, цитируемых в базе данных, а не только индексируемых статей.
  • Ссылка сшивание позволяет просмотр базы данных, используя цитируемость ссылки.
  • контекст Цитирование показал контекст цитат в данной работе, что позволяет исследователю быстро и легко увидеть, что другие исследователи говорят о статье интереса.
  • Соответствующие документы были представлены с использованием цитат и мер на основе слова и активная и постоянно обновляются библиография приведена для каждого документа.

После того, как NEC, в 2004 году она была организована в CiteSeer.IST на World Wide Web в колледже информационных наук и технологий, Университет штата Пенсильвания , и имела более 700 000 документов. Для повышения доступа, производительности и исследования, подобные версии Citeseer были поддержаны в таких университетах , как Массачусетский технологический институт , Университет Цюриха и Национальный университет Сингапура . Однако эти версии Citeseer не оказалось трудно поддерживать и больше не доступны. Поскольку Citeseer только индексы свободно доступные документы в Интернете и не имеют доступ к метаданным издателя, он возвращает меньше цитируемости , чем сайты, такие как Google Scholar , которые имеют метаданные издателя.

CiteSeer не был всесторонне обновлен с 2005 года из - за ограничения в его проектировании архитектуры. Он имел представительную выборку исследовательских документов в области компьютерных и информационных наук , но был ограничен в охвате , поскольку он был ограничен бумаги , которые находятся в открытом доступе, как правило , на домашней странице автора, или тех , которые представлены автором. Для того, чтобы преодолеть некоторые из этих ограничений, модульная и открытая архитектура источника Citeseer была разработана - CiteSeer х .

CiteSeer х

CiteSeer х заменить Citeseer и все запросы к Citeseer были перенаправлены. CiteSeer х является публичной поисковой и цифровая библиотека и хранилище для научных и учебных работ , в первую очередь с акцентом на компьютерной и информационной науки . Однако, в последнее время CiteSeer х расширяется в других научных областях , таких как экономика, физика и другие. Выпущенная в 2008 году, он был свободно на основе предыдущего поиска CiteSeer двигатель и цифровой библиотеку и построен с новой открытым исходным кодом инфраструктурой, SeerSuite и новыми алгоритмами и их реализацией. Он был разработан исследователями доктора Исаак Councill и доктор С. Ли Giles в колледже информационных наук и технологий , Университет штата Пенсильвания . Он продолжает поддерживать цели намеченных Citeseer активно ползать и собирать академические и научные документы на общедоступном Интернете и использовать цитируемости по получению заявки цитат и ранжированию документов под воздействием цитат. В настоящее время Ли Giles, Prasenjit Митра, Сьюзен Gauch, Мин-Yen Кан, Прадипом Teregowda, Хуан Пабло Фернандес Рамирес, Pucktada Treeratpituk, Цзянь Ву, Дуглас Джордан, Стив Карман, Джек Carroll, Джим Jansen и Shuyi Чжэн являются или активно участие в его разработке. В последнее время функция поиска таблица была введена. Он финансировался Национальным научным фондом , NASA и Microsoft Research .

CiteSeer х продолжает быть оценен как один из лучших хранилищ в мире и был оценен номер 1 в июле 2010 года в настоящее время насчитывает более 6 миллионов документов с почти 6 миллионов уникальных авторов и 120 миллионов ссылок.

CiteSeer х также разделяет его программное обеспечение, данные, базы данных и метаданных с другими исследователями, в настоящее время с помощью Amazon S3 и по Rsync . Его новая модульная открытая архитектура источник и программное обеспечение (доступно ранее на SourceForge , но теперь на GitHub ) построена на Apache Solr и других Apache и инструментов с открытым исходным кодом , который позволяет ему быть обкатки новых алгоритмов сбора документов, ранжирование, индексация, и информации экстракция.

CiteSeer х кэширует некоторые PDF - файлы , которые он отсканированные. Таким образом , каждая страница включать DMCA ссылку , которую можно использовать , чтобы сообщить о нарушении авторских прав.

Текущие возможности

Автоматизированное извлечение информации

CiteSeer х использует автоматизированные извлечения информации инструменты, как правило , построена на методах машинного обучения , такая ParsCit, чтобы извлечь академические метаданные документа , такие как название, авторы, аннотация, цитата и т.д. Как таковой, есть где- то ошибки авторов и названий. Другие научные поисковые системы имеют подобные ошибки.

Focused ползать

CiteSeer х ползут общедоступные научные документы , в первую очередь от автора веб - страниц и других открытых ресурсов, и не имеет доступ к метаданным издателя. Таким образом цитируемость в Citeseer х , как правило , меньше , чем в Google Scholar и Microsoft Academic Search , которые имеют доступ к метаданным издателя.

использование

CiteSeer х имеет около 1 миллиона пользователей по всему миру на основе уникальных IP - адресов и имеет миллионы обращений в день. Ежегодные загрузки из файлов PDF документов почти 200 млн к 2015 году.

Данные

CiteSeer х данные регулярно разделенные согласно Creative Commons BY-NC-SA лицензии с учеными во всем мире и были и используются во многих экспериментах и конкурсах.

Другие SeerSuite на основе поисковых систем

Модель CiteSeer была распространена на академические документы в бизнесе с SmealSearch и в области электронного бизнеса с eBizSearch . Однако, они не были сохранены их авторами. Старая версия обоих из них не может быть когда - то нашла на BizSeer.IST , но уже не в обслуживании.

Другие Провидцы, как поиск и хранилище система была построена для химии, Chem X Провидец и археологии, ArchSeer. Другой был построен для поиска файла robots.txt, BotSeer . Все они построены на открытом источнике инструмента SeerSuite , который использует исходный индексатор открытого Lucene .

Смотрите также

Рекомендации

дальнейшее чтение

  • Жиль, С. Ли; Bollacker, Курт Д .; Лоуренс, Стив (1998). «CiteSeer: автоматическая система индексации цитата». Труды Третьей ACM конференции по электронным библиотекам . стр. 89-98. CiteSeerX  10.1.1.30.6847 . DOI : 10,1145 / 276675,276685 . ISBN  978-0-89791-965-4 .

внешняя ссылка