Викисловарь - Wiktionary

Викисловарь
WiktionaryEn - DP Derivative.svg
Английский логотип Wiktionary
Скриншот
English Wiktionary Main Page.png
Заглавная страница англоязычного викисловаря 14 января 2019 г.
Тип сайта
Онлайн словарь
Доступно в Многоязычный (158 активно)
Владелец Фонд Викимедиа
Создан Джимми Уэльс и сообщество Викимедиа
URL викисловарь .org
Коммерческий Нет
Регистрация По желанию
Запущен 12 декабря 2002 г . ; 18 лет назад (2002-12-12)
Текущий статус активный

Викисловарь - это многоязычный веб- проект по созданию бесплатного словаря терминов (включая слова , фразы , пословицы , лингвистические реконструкции и т. Д.) На всех естественных языках и на ряде искусственных языков . Эти записи могут содержать определения , изображения для иллюстраций, произношения , этимологии , интонации , примеры использования, цитаты , связанные термины и переводы слов на другие языки, среди прочего. Он редактируется совместно через вики . Его имя является контаминация слов вики и словарь . Он доступен на 182 языках и на простом английском . Как и его родственный проект Википедия , Викисловарь находится в ведении Фонда Викимедиа и создается совместно волонтерами , получившими название «Викисловарь». Его вики программное обеспечение , MediaWiki , позволяет практически любому пользователю с доступом к веб - сайту для создания и редактирования записей.

Поскольку Викисловарь не ограничен пространством для печати, большинство языковых редакций Викисловаря предоставляют определения и переводы слов со многих языков, а некоторые редакции предлагают дополнительную информацию, обычно содержащуюся в тезаурусах .

Данные викисловаря часто используются в различных задачах обработки естественного языка .

История и развитие

Викисловарь был запущен 12 декабря 2002 года по предложению Дэниела Алстона и идее Ларри Сэнгера , соучредителя Википедии. 28 марта 2004 года первый не- английский викисловарях были начаты в французском и польском . С тех пор были запущены викисловарь на многих других языках. Викисловарь размещался на временном доменном имени (wiktionary.wikipedia.org) до 1 мая 2004 года, когда он переключился на текущее доменное имя. По состоянию на июль 2021 года в Викисловаре представлено более 30 миллионов статей (и даже больше) во всех своих изданиях. Самым крупным из языковых изданий является английский викисловарь с более чем 6,8 миллионами статей, за ним следуют французский викисловарь с более чем 4,2 миллиона и малагасийский викисловарь с более чем 1,7 миллиона статей. Сорок три языковых редакции Викисловаря содержат более 100 000 статей в каждой.

Использование ботов для создания большого количества статей видно как «всплески роста» на этом графике количества статей в восьми крупнейших редакциях Викисловаря. (Данные на декабрь 2009 г.)

Многие определения в крупнейших языковых редакциях проекта были созданы ботами, которые нашли творческие способы создания статей или (редко) автоматически импортировали тысячи записей из ранее опубликованных словарей. Семь из 18 ботов, зарегистрированных в английском Wiktionary в 2007 году, создали там 163 000 записей.

Другой из этих ботов, «ThirdPersBot», отвечал за добавление ряда конъюгаций от третьего лица , которые не получили бы свои собственные записи в стандартных словарях; например, он определил «тление» как «простую настоящую форму тления в единственном числе от третьего лица». Из 1 269 938 определений, которые предоставляет английский Викисловарь, для 996 450 английских слов 478 068 являются «формой» определений такого рода. Это означает, что даже без таких статей охват английского языка значительно больше, чем у основных одноязычных печатных словарей. Третий новый международный словарь английского языка Merriam-Webster , Несокращенный , например, содержит 475 000 статей (со множеством дополнительных встроенных заглавных слов); Оксфордский словарь английского языка имеет 615,000 заглавных, но включает в себя Среднеанглийский , а также, для которых английский Wiktionary имеет дополнительные 34,234 определения блеска. Существует подробная статистика, показывающая, сколько существует записей различного типа.

Английский Викисловарь не полагается на ботов в такой степени, как некоторые другие редакции. Французские и вьетнамские викисловарь, например, импортировали большие участки словаря проекта Free Вьетнамского (FVDP), который предоставляет бесплатный контент двуязычных словарей и из вьетнамцев. Эти импортированные записи составляют практически все содержимое вьетнамского издания. Подобно английскому изданию, французский Викисловарь импортировал около 20 000 записей из базы данных Unihan о китайских, японских и корейских иероглифах . Французский викисловарь быстро рос в 2006 году во многом благодаря ботам, копирующим многие статьи из старых, свободно лицензируемых словарей, таких как восьмое издание Dictionnaire de l'Académie française (1935 г., около 35000 слов), и использования ботов для добавления слова из других изданий Викисловаря с французским переводом. России издание выросло почти 80 000 записей , как «LXbot» добавлены записи шаблонных (с заголовками, но без определений) для слов на английском и немецком языках .

По состоянию на июля 2021 года , en.wiktionary имеет более 791870 глянца определения и более 1269938 общие определений (включая различные формы) для один английских записей, в общей сложности более 9928056 определений на всех языках.

Логотипы

Викисловарь исторически не имел единого логотипа в его многочисленных языковых версиях. В некоторых изданиях используются логотипы, изображающие словарную статью о термине «Викисловарь», основанную на предыдущем английском логотипе Викисловаря, который был разработан Брионом Виббером, разработчиком MediaWiki . Поскольку чисто текстовый логотип должен значительно отличаться от языка к языку, четырехэтапный конкурс на принятие единого логотипа проводился на Wikimedia Meta-Wiki с сентября по октябрь 2006 года. Некоторые сообщества приняли победившую запись от Smurrayinchester, 3 × 3 сетка из деревянных плиток, каждая из которых имеет символы из другой системы письма. Однако в опросе не было такого большого участия сообщества викисловарь, как надеялись некоторые члены сообщества, и ряд крупных вики в конечном итоге сохранили свои текстовые логотипы.

В апреле 2009 года вопрос был воскрешен новым конкурсом. На этот раз изображение "AAEngelman" открытого словаря в твердом переплете победило в очном голосовании против логотипа 2006 года, но затем процесс доработки и принятия нового логотипа застопорился. В последующие годы некоторые вики заменили свои текстовые логотипы одним из двух более новых логотипов. В 2012 году 55 вики, в которых использовался английский логотип Wiktionary, получили локализованные версии дизайна 2006 года от Smurrayinchester. В июле 2016 года английский Викисловарь принял вариант этого логотипа. По состоянию на 4 июля 2016 г. 135 вики, что составляет 61% записей Викисловаря, используют логотип, основанный на дизайне 2006 г., разработанном «Smurrayinchester», 33 вики (36%) используют текстовый логотип, а три вики (3%) используют логотип 2009 г. дизайн "А.А.Энгельман".

Критерии обеспечения точности

Для обеспечения точности, английский Wiktionary имеет политику , требующее условие быть засвидетельствовано . Термины на основных языках, таких как английский и китайский, должны быть проверены:

  1. явно повсеместное использование, или
  2. использование на постоянно записываемых носителях, передающее значение, по крайней мере, в трех независимых случаях, охватывающих не менее года.

Для менее документированных языков, таких как крик, и вымерших языков, таких как латынь , одно использование на постоянно записанном носителе или одно упоминание в справочнике является достаточной проверкой.

Многоязычный

По состоянию на октябрь 2021 года викисловарь работает на 182 языках, из которых 158 активны, а 24 закрыты. На активных сайтах размещено 30 604 247 статей, а на закрытых сайтах - 339 статей. Зарегистрировано 6 401 039 пользователей, 4 727 из которых недавно активны.

Десять лучших языковых проектов викислова по количеству статей в mainspace:

Язык Вики Хороший Общий Правки Админы Пользователи Активные пользователи Файлы
1 английский en 6 805 664 7 748 050 64 159 832 103 3 865 931 1 804 24
2 французкий язык fr 4 252 066 4,572,906 29 847 394 35 год 313 809 465 6
3 Малагасийский мг 1 709 188 1,792,331 29 121 199 2 9 706 9 3
4 русский RU 1 148 801 2,404,961 12 025 802 14 266 488 258 142
5 китайский язык ж 1 079 226 1 643 278 6 317 646 7 98 920 65 36
6 Немецкий де 1 007 724 1,173,340 8 869 745 17 204 475 215 99
7 Сербо-хорватский ш 911 567 916 410 1,469,307 4 6 515 1 3
8 испанский es 908 462 962 857 5 020 845 8 133 449 89 14
9 Шведский св 810 881 851 493 3 622 458 14 49 527 64 1
10 Греческий эль 798 915 839 603 5 321 529 7 47 661 68 55

Полный список с итогами см. В статистике Викимедиа:

Критический прием

Критическая реакция на Викисловарь была неоднозначной. В 2006 году Джилл Лепор написала в статье «Ноев ковчег» для The New Yorker :

В Викисловарь не поднимают руки . Нет даже редакции. «Будь своим собственным лексикографом!» - мог бы быть девиз Викисловаря . Кому нужны специалисты? Зачем платить хорошие деньги за словарь, написанный лексикографами, если мы могли бы составить его сами?

Викисловарь не столько республиканский или демократический, сколько маоистский. И это настолько хорошо, насколько хороши книги с истекшим сроком действия авторских прав, из которых он ворует.

Отзыв Кейра Граффа о Booklist был менее критичным:

Есть ли место для Викисловаря? Несомненно. Индустрия и энтузиазм ее многочисленных создателей доказывают, что рынок существует. И замечательно иметь еще один надежный источник, который можно использовать при поиске странных терминов, которые появляются в современном быстро меняющемся мире и онлайн-среде. Но, как и в случае с очень многими веб-источниками (включая этот столбец), его лучше всего использовать опытными пользователями в сочетании с более авторитетными источниками.

Ссылки в других публикациях мимолетны и являются частью более широких обсуждений Википедии, не выходящих за рамки определения, хотя Дэвид Брукс в The Nashua Telegraph охарактеризовал это как «дикое и беспорядочное». Одним из препятствий для независимого освещения Викисловаря является продолжающееся заблуждение, что это просто расширение Википедии.

Оценка правильности флексий для подмножества польских слов в английском Wiktionary показала, что эти грамматические данные очень стабильны. Только 131 из 4748 польских слов подверглись исправлению.

С 2016 года Викисловарь стал широко использоваться в академических кругах.

Викисловарь в обработке естественного языка

Викисловарь содержит частично структурированные данные . Лексикографические данные викисловаря можно преобразовать в машиночитаемый формат для использования в задачах обработки естественного языка .

Викисловарь - сложная задача. Есть следующие трудности:

    • (1) постоянные и частые изменения данных и схем
    • (2) неоднородность схем языковых редакций Викисловаря и
    • (3) ориентированность на человека вики .

Для разных языковых редакций Викисловаря существует несколько парсеров :

  • DBpedia Wiktionary: подпроект DBpedia , данные извлекаются из английских, французских, немецких и русских викисловаров; данные включают язык, части речи, определения, семантические отношения и переводы. Для извлечения информации используются декларативное описание схемы страницы, регулярные выражения и преобразователь конечного состояния .
  • JWKTL (библиотека Java Wiktionary): обеспечивает доступ к дампу английских и немецких Wiktionary через API Java Wiktionary . Данные включают язык, части речи, определения, цитаты, семантические отношения, этимологии и переводы. JWKTL распространяется под лицензией Apache .
  • wikokit: синтаксический анализатор английского и русского викисловаря. Анализируемые данные включают язык, части речи, определения, цитаты, семантические отношения и переводы. Это мульти-лицензионное программное обеспечение с открытым исходным кодом.
  • Этимологические записи были проанализированы в проекте Etymological WordNet .

Примеры задач обработки естественного языка, которые были решены с помощью данных Викисловаря, включают:

  • Правило на основе машинного перевода между голландским языком и африкаанс ; данные английского Wiktionary, голландского Wiktionary и Wikipedia были использованы с платформой машинного перевода Apertium .
  • Построение машиночитаемого словаря с помощью парсера NULEX, объединяющего открытые лингвистические ресурсы: английский Wiktionary, WordNet и VerbNet . Синтаксический анализатор NULEX очищает английский Викисловарь на предмет информации о времени (глаголы), множественном числе и частях речи (существительные).
  • Распознавание и синтез речи , где Викисловарь использовался для автоматического создания словарей произношения. Пары слово-произношение были взяты из 6 языковых редакций Викисловаря (чешского, английского, французского, испанского, польского и немецкого). Произношение в терминах международного фонетического алфавита . Система ASR , основанная на английском Wiktionary, имеет самый высокий уровень ошибок в словах, где каждую третью фонему приходится менять.
  • Инжиниринг онтологий и построение семантической сети .
  • Сопоставление онтологий .
  • Упрощение текста . Medero & Остендорф оценивали словарный запас трудности ( уровень чтения обнаружения) с помощью данных Викисловаря. Были исследованы свойства слов, извлеченных из статей Викисловаря (длина определения и количество точек продажи , смысла и перевода). Медеро и Остендорф ожидали, что
    • (1) очень распространенные слова с большей вероятностью будут иметь несколько частей речи,
    • (2) общие слова с большей вероятностью имеют несколько значений,
    • (3) общие слова с большей вероятностью будут переведены на несколько языков. Эти функции, извлеченные из статей Викисловаря, были полезны для различения типов слов, которые появляются в статьях Википедии на простом английском языке, от слов, которые встречаются только в статьях, сопоставимых со стандартным английским языком.
  • Пометка части речи . Ли и др. (2012) построили многоязычные POS-теги для восьми языков с ограниченными ресурсами на основе английского викисловаря и скрытых марковских моделей .
  • Анализ настроений .

«Викиданные: лексикографические данные» были запущены в 2018 году для поддержки структурированных данных для Викитонариев. Он хранит словарные данные всех языков в машиночитаемой модели данных в выделенном пространстве имен «Lexeme» в Викиданных. По состоянию на октябрь 2021 года в проекте накоплено более 600 000 лексем на разных языках.

Смотрите также

Примечания

использованная литература

Цитаты

Источники

  • Крижановский, Андрей (2010). «Преобразование структуры записей Викисловаря в таблицы и отношения в схеме реляционной базы данных». arXiv : 1011.1368 [ cs ].
  • Крижановский, Андрей (2010). «Сравнение тезаурусов Викисловаря в машиночитаемом формате». arXiv : 1006.5040 [ cs ].
  • Ли, Шен; Graça, Joao V .; Таскар, Бен (2012). «Разметка части речи под контролем Wiki» (PDF) . Труды совместной конференции 2012 г. по эмпирическим методам обработки естественного языка и компьютерному изучению естественного языка . Остров Чеджу, Корея: Ассоциация компьютерной лингвистики. С. 1389–1398.
  • Линь, Фэйю; Крижановский, Андрей (2011). «Согласование многоязычных онтологий на основе данных Wiktionary, доступных через конечную точку SPARQL». Proc. 13-й Российской конференции по электронным библиотекам RCDL'2011 . Воронеж, Россия. С. 19–26. arXiv : 1109.0732 . Bibcode : 2011arXiv1109.0732L .
  • Смирнов А., Левашова Т., Карпов А., Кипяткова И., Ронжин А., Крижановский А., Крижановский Н. (2012). «Анализ цитатного корпуса Русского Викисловаря». Исследования в области вычислительной техники . 56 : 101–112. arXiv : 2002.00734 . CiteSeerX  10.1.1.694.9627 . DOI : 10.13053 / RCS-56-1-11 . S2CID  10726045 .
  • «Викисловарь» . Топ 101 веб-сайтов. Журнал ПК . Зифф Дэвис. 6 апреля 2005 года Архивировано из оригинала 21 декабря 2005 года . Проверено 16 декабря 2005 .

внешние ссылки