Данные открытой науки - Open science data

Открытые научные данные или открытые исследовательские данные - это тип открытых данных, ориентированных на публикацию наблюдений и результатов научной деятельности, доступных для анализа и повторного использования кем угодно. Основная цель стремления к открытым данным - обеспечить возможность проверки научных заявлений, позволяя другим взглянуть на воспроизводимость результатов и позволяя интегрировать данные из многих источников для получения новых знаний. Хотя идея открытых научных данных активно продвигалась с 1950-х годов, распространение Интернета значительно снизило стоимость и время, необходимое для публикации или получения данных.

История

Концепция открытого доступа к научным данным была институционально закреплена с формированием системы Мирового центра данных (ныне Мировая система данных ) в рамках подготовки к Международному геофизическому году 1957–1958. Международный совет научных союзов (ныне Международный совет по науке ) учредил несколько мировых центров данных, чтобы минимизировать риск потери данных и обеспечить максимальную доступность данных, и в 1955 году рекомендовал сделать данные доступными в машиночитаемой форме.

Первой инициативой по созданию базы данных электронной библиографии данных открытого доступа был Информационный центр образовательных ресурсов (ERIC) в 1966 году. В том же году была создана MEDLINE - онлайн-база данных с бесплатным доступом, управляемая Национальной медицинской библиотекой и Национальным центром Институт здравоохранения (США) с библиографическими цитатами из журналов в области биомедицины, которые позже будут называться PubMed , в настоящее время насчитывает более 14 миллионов полных статей.

В 1995 году GCDIS (США) четко изложил свою позицию в статье « О полном и открытом обмене научными данными» (публикация Комитета по геофизическим и экологическим данным - Национальный исследовательский совет):

"Атмосфера, океаны и биосфера Земли образуют интегрированную систему, выходящую за пределы национальных границ. Чтобы понять элементы системы, то, как они взаимодействуют и как они меняются со временем, необходимо собрать и проанализировать данные об окружающей среде со всех сторон. части мира. Исследования глобальной окружающей среды требуют международного сотрудничества по многим причинам:

  • для решения глобальных проблем важно иметь глобальные наборы данных и продукты, полученные из этих наборов данных;
  • для каждой страны более эффективно и рентабельно делиться своими данными и информацией, чем собирать все необходимое самостоятельно; а также
  • реализация эффективной политики, направленной на решение проблем глобальной окружающей среды, требует участия с самого начала почти всех стран мира.

Международные программы исследования глобальных изменений и мониторинга окружающей среды в решающей степени зависят от принципа полного и открытого обмена данными (т. Е. Данные и информация предоставляются без ограничений, на недискриминационной основе, не более чем за счет воспроизводства и распространения) . "

Последняя фраза подчеркивает традиционную стоимость распространения информации в печати и по почте. Устранение этой стоимости через Интернет значительно упростило распространение данных с технической точки зрения. Соответственно, дешевле создавать, продавать и контролировать многие ресурсы данных, и это привело к нынешней озабоченности по поводу закрытых данных.

Более поздние варианты использования этого термина включают:

  • SAFARI 2000 (Южная Африка, 2001 г.) использовала лицензию, проинформированную ICSU и политиками НАСА.
  • Геном человека (Кент, 2002)
  • Консорциум открытых данных по геопространственным данным (2003 г.)
  • Манифест открытой химии (Мюррей-Раст и Рзепа, 2004 г.) (2004 г.)
  • Презентации для JISC и OAI под названием «открытые данные» (Murray-Rust, 2005)
  • Запуск Science Commons (2004 г.)
  • Первые форумы открытых знаний (Лондон, Великобритания), организованные Фондом открытых знаний (Лондон, Великобритания) по открытым данным в связи с гражданской информацией и геоданными (февраль и апрель 2005 г.)
  • Группа « Голубой обелиск » по химии (мантра: открытые данные, открытый исходный код, открытые стандарты) (2005) doi : 10.1021 / ci050400b
  • Петиция об открытых данных в кристаллографии инициирована Консультативным советом по открытой базе данных по кристаллографии (2005 г.)
  • Конференция и выставка XML 2005 (Коннолли, 2005 г.)
  • Список рассылки SPARC Open Data (2005)
  • Первый проект определения открытых знаний явно ссылается на «открытые данные» (2005 г.)
  • XTech (Дамбилл, 2005), (Брей и О'Рейли, 2006)

В 2004 году министры науки всех стран ОЭСР (Организации экономического сотрудничества и развития), в которую входят наиболее развитые страны мира, подписали декларацию, в которой, по сути, говорится, что все данные архивов, финансируемых государством, должны быть общедоступными. По запросу и после интенсивного обсуждения с организациями, производящими данные в государствах-членах, ОЭСР опубликовала в 2007 году Принципы и рекомендации ОЭСР по доступу к данным исследований за счет государственного финансирования в качестве рекомендации мягкого права .

В 2005 году Эдд Дамбилл представил в XTech тему «Открытые данные», в том числе:

В 2006 г. компания Science Commons провела двухдневную конференцию в Вашингтоне, на которой основная тема могла быть описана как «Открытые данные». Сообщалось, что объем микрозащиты данных (например, по лицензии) в таких областях, как биотехнология, порождает трагедию антиобщества . В связи с этим затраты на получение лицензий от большого числа владельцев сделали нерентабельным проведение исследований в этой области.

В 2007 году SPARC и Science Commons объявили об объединении и расширении своих авторских дополнений.

В 2007 году ОЭСР (Организация экономического сотрудничества и развития) опубликовала Принципы и рекомендации по доступу к данным исследований за счет государственного финансирования. Принципы гласят, что:

Доступ к данным исследований увеличивает отдачу от государственных инвестиций в эту область; усиливает открытое научное исследование; поощряет разнообразие исследований и мнений; продвигает новые области работы и позволяет исследовать темы, не предусмотренные первоначальными исследователями.

В 2010 году были запущены Принципы Пантона , пропагандирующие открытые данные в науке и устанавливающие принципы, которым должны соответствовать поставщики, чтобы их данные были открытыми.

В 2011 году был запущен LinkedScience.org для реализации подхода Linked Open Science к открытому обмену и взаимосвязи научных активов, таких как наборы данных, методы, инструменты и словари.

В 2012 году Королевское общество опубликовало крупный отчет «Наука как открытое предприятие», в котором отстаивались открытые научные данные и рассматривались их преимущества и требования.

В 2013 году министры науки «Большой восьмерки» опубликовали Заявление, подтверждающее набор принципов открытых данных научных исследований.

В 2015 году Всемирная система данных Международного совета по науке приняла новый набор принципов обмена данными, чтобы воплотить дух «открытой науки». Эти Принципы соответствуют политике данных национальных и международных инициатив и выражают основные этические обязательства, воплощенные в Сертификации WDS для надежных репозиториев данных и услуг.

Отношение к открытому доступу

Многие данные доступны через научные публикации, которые в настоящее время вызывают интенсивные дискуссии в рамках « открытого доступа » и семантически открытых форматов - например, предлагать научные статьи в формате JATS . Инициатива открытого доступа в Будапеште (2001) ввел этот термин:

Под «открытым доступом» к этой литературе мы подразумеваем ее бесплатную доступность в общедоступном Интернете, позволяющую любым пользователям читать, загружать, копировать, распространять, распечатывать, искать или ссылаться на полные тексты этих статей, сканировать их для индексации, передавать их в качестве данных в программное обеспечение или использовать их для любых других законных целей без финансовых, юридических или технических препятствий, кроме тех, которые неотделимы от получения доступа к самому Интернету. Единственное ограничение на воспроизведение и распространение, а также единственная роль авторского права в этой области, должно заключаться в том, чтобы дать авторам контроль над целостностью их работы и право на надлежащее признание и цитирование.

Логика декларации допускает повторное использование данных, хотя термин «литература» имеет коннотации к читабельному тексту и может подразумевать процесс научной публикации. В дискурсе открытого доступа часто используется термин «полнотекстовый», который не подчеркивает данные, содержащиеся в публикации или сопровождающие ее.

Некоторые издатели открытого доступа не требуют, чтобы авторы передавали авторские права, и данные, связанные с этими публикациями, обычно могут рассматриваться как открытые данные. Некоторые издатели используют стратегии открытого доступа, когда издатель требует передачи авторских прав и где неясно, могут ли данные в публикациях действительно рассматриваться как открытые данные.

Издатели ALPSP и STM выступили с заявлением о желательности предоставления данных в свободный доступ:

Издатели признают, что во многих дисциплинах сами данные в различных формах теперь являются ключевым результатом исследования. Инструменты поиска и интеллектуального анализа данных позволяют все более изощренно использовать необработанные данные. Конечно, журнальные статьи дают одно «видение» значения и интерпретации этих данных - а презентации на конференциях и неформальный обмен мнениями могут предоставлять другие «взгляды», - но сами данные становятся все более важным ресурсом сообщества. Наука лучше всего продвигается, позволяя как можно большему количеству ученых иметь доступ к как можно большему количеству предшествующих данных; это позволяет избежать дорогостоящего повторения работы и позволяет творчески интегрировать новые и переработать существующие данные.

а также

Мы считаем, что в качестве общего принципа наборы данных, исходные данные исследований, а также наборы или подмножества этих данных, которые отправляются вместе со статьей в журнал, должны, по возможности, быть доступны для других ученых. Мы считаем, что передовой практикой для издателей научных журналов является отделение подтверждающих данных от самой статьи и не требовать какой-либо передачи или владения такими данными или наборами данных в качестве условия публикации рассматриваемой статьи.

Хотя это заявление никак не повлияло на открытую доступность первичных данных, связанных с публикациями в журналах членов ALPSP и STM. Таблицы данных, предоставленные авторами в качестве приложения к статье, пока доступны только подписчикам.

Отношение к экспертной оценке

Пытаясь решить проблемы с воспроизводимостью результатов исследований, некоторые ученые просят авторов согласиться поделиться своими необработанными данными в рамках процесса научного рецензирования . Например, еще в 1962 году ряд психологов пытались получить необработанные наборы данных от других исследователей, с неоднозначными результатами, чтобы повторно проанализировать их. Недавняя попытка привела к получению только семи наборов данных из пятидесяти запросов. Идея получения, не говоря уже о необходимости, открытых данных в качестве условия экспертной оценки остается спорной.

Открытые исследовательские вычисления

Чтобы понять научные данные, их необходимо проанализировать. Во всех случаях, кроме простейших, это делается программно. Широкое использование программного обеспечения создает проблемы для воспроизводимости исследований. Для обеспечения воспроизводимости исследования необходимо публиковать не только все данные, но и исходный код всего используемого программного обеспечения, а также всю параметризацию, используемую при запуске этого программного обеспечения. В настоящее время эти просьбы редко выполняются. Способы приблизиться к воспроизводимым научным вычислениям обсуждаются под лозунгом « открытые исследовательские вычисления ».

Смотрите также

использованная литература

внешние ссылки