GEDCOM - GEDCOM

GEDCOM
Расширение имени файла
.ged
Тип интернет-СМИ приложение / октет-поток
Разработано LDS FHD
Первый выпуск 1984 ; 37 лет назад ( 1984 )
Последний релиз
7.0.2
(15 июня 2021 г . ; 3 месяца назад ) ( 2021-06-15 )
Тип формата Обмен генеалогическими данными
Стандарт Де-факто
Веб-сайт gedcom .io

GEDCOM ( / ɛ д к ɒ м / JED -kom ) (ый акроним стояния в течение Генеалогического Data Communication ) является открытым де - факто спецификацией для обмена генеалогических данных между различным программным обеспечением генеалогией . GEDCOM был разработан Церковью Иисуса Христа Святых последних дней (LDS Church) как помощь в генеалогических исследованиях .

Файл GEDCOM - это простой текст (обычно UTF-8 или ASCII ), содержащий генеалогическую информацию о людях и метаданные, связывающие эти записи вместе. Большинство программ для генеалогии поддерживает импорт и экспорт в формат GEDCOM. Однако некоторые программы генеалогии включают использование проприетарных расширений формата, которые не всегда распознаются другими программами генеалогии, такими как спецификация GEDCOM 5.5 EL (Extended Locations).

Хотя GEDCOM X и несколько других спецификаций были предложены в качестве замены, текущая версия 2019 года, основанная на проекте 1999 года, остается отраслевым стандартом 20 лет спустя.

Модель GEDCOM

GEDCOM использует модель данных, связанных с происхождением. Эта модель данных основана на нуклеарной семье и индивидууме . Это контрастирует с моделями, основанными на фактах, где данные структурированы таким образом, чтобы отражать подтверждающие доказательства. В модели данных, связанной с происхождением GEDCOM, все данные структурированы так, чтобы отражать предполагаемую реальность, то есть фактические (или предполагаемые) нуклеарные семьи и индивидов.

Файловая структура GEDCOM

Файл GEDCOM состоит из раздела заголовка , записей и раздела трейлера . В этих разделах записи представляют людей (запись INDI), семьи (записи FAM), источники информации (записи SOUR) и другие разные записи, включая примечания. Каждая строка файла GEDCOM начинается с номера уровня, где все записи верхнего уровня (HEAD, TRLR, SUBN и каждый INDI, FAM, OBJE, NOTE, REPO, SOUR и SUBM) начинаются со строки с уровнем 0, а другие номера уровней - положительные целые числа .

Хотя теоретически возможно написать файл GEDCOM вручную, этот формат был разработан для использования с программным обеспечением и поэтому не особенно удобен для человека. Валидатор GEDCOM, который можно использовать для проверки структуры файла GEDCOM, включен как часть проекта PhpGedView , хотя он не предназначен для использования в качестве автономного валидатора. Для автономной проверки вы можете использовать «Windows GEDCOM Validator» или более старый неподдерживаемый Gedcheck от Церкви LDS Church.

В течение 2001 года в рамках проекта GEDCOM TestBook с помощью программы Gedcheck оценивалось, насколько хорошо четыре популярные программы генеалогии соответствуют стандарту GEDCOM 5.5. Результаты показали, что существует ряд проблем и что «наиболее часто встречающейся ошибкой, приводящей к потере данных, была невозможность прочитать тег NOTE на всех возможных уровнях, на которых он может появиться». В 2005 году отчетная карта генеалогического программного обеспечения была оценена (Биллом Мамфордом, который участвовал в первоначальном проекте тестовой книги GEDCOM ) и включала тестирование стандарта GEDCOM 5.5 с использованием программы Gedcheck.

Пример

Ниже приведен пример файла GEDCOM.

sample.ged
0 HEAD
1 SOUR PAF
2 NAME Personal Ancestral File
2 VERS 5.0
1 DATE 30 NOV 2000
1 GEDC
2 VERS 5.5
2 FORM LINEAGE-LINKED
1 CHAR ANSEL
1 SUBM @U1@
0 @I1@ INDI
1 NAME John /Smith/
1 SEX M
1 FAMS @F1@
0 @I2@ INDI
1 NAME Elizabeth /Stansfield/
1 SEX F
1 FAMS @F1@
0 @I3@ INDI
1 NAME James /Smith/
1 SEX M
1 FAMC @F1@
0 @F1@ FAM
1 HUSB @I1@
1 WIFE @I2@
1 MARR
1 CHIL @I3@
0 @U1@ SUBM
1 NAME Submitter
0 TRLR

Заголовок (HEAD) включает исходную программу и версию (Personal Ancestral File, 5.0), версию GEDCOM (5.5), кодировку символов (ANSEL) и ссылку на информацию об отправителе файла.

Индивидуальные записи (INDI) определяют Джона Смита (ID I1), Элизабет Стэнсфилд (ID I2) и Джеймса Смита (ID I3).

Семейная запись (FAM) связывает мужа (HUSB), жену (WIFE) и ребенка (CHIL) по их идентификационным номерам.

Версии

Текущая версия спецификации - GEDCOM 5.5.1, которая была выпущена 15 ноября 2019 года. Прежний проект спецификации GEDCOM 5.5.1 был выпущен в 1999 году, в него были добавлены девять новых тегов, включая WWW, EMAIL и FACT, и добавлен UTF-8. как утвержденная кодировка символов . ANSEL по-прежнему определяется как допустимая кодировка символов, но она не очень распространена и больше не нужна. В текущем выпуске внесены лишь незначительные исправления в проект. Проект не был официально одобрен, но его положения были частично приняты рядом генеалогических программ и используются FamilySearch.org. В то время как PAF 5.2 поддерживает GEDCOM 5.5, PAF 5.2 использует UTF-8 в качестве внутреннего набора символов, функцию, которая была представлена ​​в проекте GEDCOM 5.5.1, и может выводить GEDCOM UTF-8.

23 января 2002 года черновая (бета) версия GEDCOM 6.0 была выпущена только для изучения разработчиками, так как это не была полная спецификация, и разработчикам было рекомендовано не начинать внедрение в свое программное обеспечение. Например, не были включены описания значения и ожидаемого содержания тегов. GEDCOM 6.0 должен был стать первой версией для хранения данных в формате XML и должен был изменить предпочтительный набор символов с ANSEL на Unicode .

Связанный с происхождением GEDCOM является преднамеренным де-факто общим знаменателем. Несмотря на то, что версия 5.5 стандарта GEDCOM была впервые опубликована в 1996 году, многие поставщики генеалогического программного обеспечения еще не поддержали функцию многоязычного текста Unicode (вместо набора символов ANSEL), введенную в этой версии спецификации. Единообразное использование Unicode позволит использовать международные наборы символов. Примером может служить хранение восточноазиатских имен в их оригинальных китайских, японских и корейских (CJK) иероглифах, без чего они могли бы быть двусмысленными и мало пригодными для генеалогических или исторических исследований.

История выпуска

Версия GEDCOM Дата выхода Примечания
Старая версия, больше не поддерживается: 1.0 1984 -
Старая версия, больше не поддерживается: 2.0 Декабрь 1985 PAF 2.0
Старая версия, больше не поддерживается: 2.1 Февраль 1987 г. GEDCOM для PAF 2.1
Старая версия, больше не поддерживается: 2.3 Осадка 7 августа 1985 г. с соглашениями о реализации PAF2.0 GEDCOM
Старая версия, больше не поддерживается: 2.4 Осадка 13 декабря 1985 г. с соглашениями о реализации PAF2.0 GEDCOM
Старая версия, больше не поддерживается: 3.0 Стандарт 9 октября 1987 г. PAF 2.0 и 2.1 реализация 3.0
Старая версия, больше не поддерживается: 4.0 Стандарт Август 1989 г. PAF 2.1 - 2.31
Старая версия, больше не поддерживается: 4.1 Осадка - -
Старая версия, больше не поддерживается: 4.2 Осадка 25 января 1990 г. -
Старая версия, больше не поддерживается: 5.0 Осадка 31 декабря 1991 г. были введены структуры, связанные с линией.
Старая версия, больше не поддерживается: 5.1 Осадка 18 сентября 1992 г. -
Старая версия, больше не поддерживается: 5.2 Осадка 22 января 1992 г. -
Старая версия, больше не поддерживается: 5.3 Осадка 4 ноября 1993 г. Стандарт Unicode ( ISO / IEC 10646 ) был введен как дополнительный набор символов.
Старая версия, больше не поддерживается: 5.4 Осадка 21 августа 1995 г. -
Старая версия, больше не поддерживается: 5.5 Стандарт 11 декабря 1995 г. PAF 3, 4 и 5
Старая версия, но все еще поддерживается: 5.5 Стандарт 2 января 1996 г. PAF 3, 4 и 5 / 5.5 Стандарт
Старая версия, больше не поддерживается: Проект GEDCOM (Future Direction) 1 мая 1998 г. "он использовал совершенно новую модель данных"
Старая версия, больше не поддерживается: 5.5.1 Осадка 2 октября 1999 г. Используется FamilySearch.org UTF-8 добавлен в качестве утвержденной кодировки символов.
Старая версия, но все еще поддерживается: 5.5.1 Релиз 15 ноября 2019 г. текущий стандарт, незначительные изменения текста в 5.5.1 Проект.
Старая версия, больше не поддерживается: 5.5.5 Релиз 2 октября 2019 г. Неофициальное обновление Тамуры Джонса
Старая версия, больше не поддерживается: 5.6 Частный проект - "Джед Аллен отправил эти два файла нескольким людям только для своего рода" личных комментариев "
Старая версия, больше не поддерживается: 6.0 Проект XML 28 декабря 2001 г. Не было полной спецификации, и не рекомендуется приступать к программной реализации.
Старая версия, больше не поддерживается: 7.0.0-rc1 Драфт Февраль 2021 г. Обнародован релиз-кандидат для RootsTech 2021, но 25 февраля 2021 года все обсуждения, спецификации и веб-сайт были удалены.
Старая версия, больше не поддерживается: Выпуск 7.0.0 21 мая 2021 г. Перепишите 5.5.1, чтобы устранить двусмысленность.
Старая версия, больше не поддерживается: 7.0.1 Релиз 7 июня 2021 г. Обновите список участников.
Текущая стабильная версия: 7.0.2 Релиз 15 июня 2021 г. Уточнен формат GEDC.VERS, обновлены ссылки RFC и исправлены опечатки.
Легенда:
Старая версия
Старая версия, все еще поддерживается
Последняя версия
Последняя предварительная версия
Будущий выпуск

Ограничения

Поддержка многопользовательских событий и источников

Файл GEDCOM может содержать информацию о таких событиях, как рождения, смерти, записи переписи, судовые записи, браки и т. Д .; эмпирическое правило состоит в том, что событие - это что-то, что произошло в определенное время, в определенном месте (даже если время и место неизвестны). Файлы GEDCOM могут также содержать такие атрибуты, как физическое описание, род занятий и общее количество детей; в отличие от событий, атрибуты обычно не могут быть связаны с определенным временем или местом.

Спецификация GEDCOM требует, чтобы каждое событие или атрибут было связано только с одним человеком или семьей. Это вызывает избыточность таких событий, как записи переписи, где фактическая запись переписи часто содержит информацию о нескольких лицах. В файле GEDCOM для записей переписи необходимо добавить отдельное событие «CENS» переписи для каждого отдельного упоминания. Некоторые программы по генеалогии, такие как Gramps и The Master Genealogist , имеют тщательно продуманные структуры баз данных для источников, которые используются, среди прочего, для представления событий с участием нескольких лиц. Когда базы данных экспортируются из одной из этих программ в GEDCOM, эти структуры базы данных не могут быть представлены в GEDCOM из-за этого ограничения, в результате чего информация о событии или источнике, включая всю соответствующую справочную информацию о цитировании, должна дублироваться в каждом месте, где она использовал. Это дублирование затрудняет для пользователя сохранение информации, относящейся к источникам.

В спецификации GEDCOM события, связанные с семьей, такие как информация о браке, сохраняются в GEDCOM только один раз, как часть семейной записи (FAM), а затем оба супруга связываются с этой единственной семейной записью.

Неопределенность в спецификации

Спецификация GEDCOM была специально сделана гибкой для поддержки множества способов кодирования данных, особенно в области источников. Такая гибкость привела к большой неоднозначности и привела к тому побочному эффекту, что некоторые программы генеалогии, импортирующие GEDCOM, не импортируют все данные из файла.

Поддержка различных определений семьи и отношений

GEDCOM не поддерживает явным образом представление данных о многих типах близких межличностных отношений , таких как однополые браки , домашние партнерские отношения , сожительство , полиамория или полигамия . Такие отношения могут быть представлены только с использованием общего тега ASSO, используемого для любого типа отношений.

Упорядочивание событий без дат

Спецификация GEDCOM не предлагает явной поддержки сохранения известного порядка событий. В частности, порядок отношений (FAMS) для человека и порядок детей в отношениях (FAM) могут быть потеряны. Во многих случаях последовательность событий может быть получена из связанных дат. Но даты не всегда известны, особенно при работе с данными, полученными много веков назад. Например, в случае, если у человека было два отношения, оба с неизвестными датами, но из описаний известно, что второе действительно является вторым. Порядок, в котором эти FAMS записываются в записи INDI GEDCOM, будет зависеть от программы экспорта. Например, в Aldfaer последовательность зависит от порядка данных пользователем (алфавитный, хронологический, справочный и т. Д.). Предлагаемый стандарт XML GEDCOM также не решает эту проблему.

Менее известные особенности

GEDCOM имеет много функций, которые обычно не используются. Некоторые программные пакеты не поддерживают все функции, разрешенные стандартом GEDCOM.

Мультимедиа

Стандарт GEDCOM поддерживает включение мультимедийных объектов (например, фотографий людей). Такие мультимедийные объекты могут быть включены либо в сам файл GEDCOM (так называемая «встроенная форма»), либо во внешний файл, где имя внешнего файла указано в файле GEDCOM (так называемая «связанная форма»). Встраивание мультимедиа непосредственно в файл GEDCOM упрощает передачу данных, поскольку вся информация (включая мультимедийные данные) находится в одном файле, но полученный файл может быть огромным. Связывание мультимедиа позволяет контролировать размер файла GEDCOM, но затем при передаче файла мультимедийные объекты должны либо передаваться отдельно, либо архивироваться вместе с GEDCOM в один файл большего размера. Поддержка прямого встраивания медиа была исключена в проекте стандарта 5.5.1.

Противоречивая информация

Стандарт GEDCOM позволяет указать несколько мнений или противоречивых данных, просто указав несколько записей одного и того же типа. Например, если дата рождения человека была записана как 10 января 1800 года в свидетельстве о рождении, но 11 января 1800 года в свидетельстве о смерти, будут включены две записи BIRT для этого человека, первая с датой 10 января 1800 года и дата рождения. свидетельство в качестве источника, а второе с датой 11 января 1800 года и свидетельством о смерти в качестве источника. Предпочтительная запись обычно указывается первой.

Этот пример, закодированный в GEDCOM, может выглядеть так:

0 @I1@ INDI
1 NAME John /Doe/
1 BIRT
2 DATE 10 JAN 1800
2 SOUR @S1@
3 DATA
4 TEXT Transcription from birth certificate would go here
3 NOTE This birth record is preferred because it comes from the birth certificate
3 QUAY 2
1 BIRT
2 DATE 11 JAN 1800
2 SOUR @S2@
3 DATA
4 TEXT Transcription from death certificate would go here
3 QUAY 2

Конфликтующие данные также могут быть результатом ошибок пользователя. Стандарт никоим образом не указывает, что содержимое должно быть согласованным. Дата рождения, такая как «10 апреля 1819 года», могла ошибочно быть записана как «10 апреля 1918 года» спустя много времени после смерти человека. Единственный способ выявить такие несоответствия - это тщательная проверка данных содержания .

Интернационализация

Стандарт GEDCOM поддерживает интернационализацию несколькими способами. Во-первых, более новые версии стандарта позволяют хранить данные в Unicode (или, в последнее время, UTF-8), поэтому текст на любом языке может быть сохранен. Во-вторых, так же, как вы можете иметь несколько событий для человека, GEDCOM позволяет вам иметь несколько имен для человека, поэтому имена могут храниться на нескольких языках (хотя нет стандартизованного способа указать, какой экземпляр на каком языке ). Наконец, в последней версии (5.5.1, пока не широко используется) поле NAME также поддерживает фонетический вариант (FONE) и латинизированный вариант (ROMN) имени.

GEDCOM X

В феврале 2012 года на конференции RootsTech 2012 компания FamilySearch представила новый крупный проект по генеалогическим стандартам под названием GEDCOM X и пригласила к сотрудничеству. Он будет включать программное обеспечение, разработанное под лицензией Apache с открытым исходным кодом . Он включает в себя форматы данных, которые упрощают построение генеалогических деревьев на основе источников и записей (как физических артефактов, так и цифровых артефактов), поддержку совместного использования и связывания данных в Интернете, а также API.

В августе 2012 года сотрудник FamilySearch и руководитель проекта GEDCOM X Райан Хитон отказался от утверждения, что GEDCOM X является новым отраслевым стандартом, и позиционировал GEDCOM X как еще один проект FamilySearch с открытым исходным кодом .

Альтернативы GEDCOM

Commsoft, авторы серии программного обеспечения для генеалогии Roots и Ultimate Family Tree, определили версию под названием Event-Oriented GEDCOM (также известную как «Event GEDCOM» и первоначально называвшуюся InterGED), которая включала события как элементы первого класса (нулевого уровня). . Хотя она основана на событиях, это все же модель, построенная на предполагаемой реальности, а не на доказательствах. Событие GEDCOM было более гибким, поскольку позволяло разделить предполагаемые события и участников. Однако Event GEDCOM не получил широкого распространения среди других разработчиков из-за его семантических различий. Поскольку Roots и Ultimate Family Tree больше не доступны, очень немногие люди сегодня используют Event GEDCOM.

Gramps XML - это открытый формат на основе XML , созданный генеалогическим проектом с открытым исходным кодом Gramps и также используемый PhpGedView .

Организация по стандартам семейно-исторической информации была создана в 2012 году с целью разработки международных стандартов семейно-исторической и генеалогической информации. Один из их стандартов - это продолжение GEDCOM, называемое расширенным унаследованным форматом (ELF), которое начнется с совместимости с GEDCOM 5.5 (.1), но будет включать механизм расширяемости. Это сделано для того, чтобы помочь программному обеспечению с финансовыми обязательствами перед GEDCOM и предотвратить его отставание по мере развития новых стандартов.

Смотрите также

использованная литература

внешние ссылки

Общий