Проблема Сканторпа - Scunthorpe problem

Пример проблемы Сканторпа в Википедии из-за совпадения регулярного выражения

Проблема Сканторпа заключается в непреднамеренной блокировке веб-сайтов, электронной почты, сообщений на форумах или результатов поиска спам-фильтром или поисковой системой, поскольку их текст содержит строку (или подстроку ) писем, которые имеют непристойное или иным образом неприемлемое значение. Чаще всего проблема затрагивает имена, сокращения и технические термины.

Проблема возникает из-за того, что компьютеры могут легко идентифицировать строки текста в документе, но для интерпретации слов такого рода требуется значительная способность интерпретировать широкий диапазон контекстов, возможно, во многих культурах, что является чрезвычайно сложной задачей. В результате общие правила блокировки могут привести к ложным срабатываниям, затрагивающим невинные фразы.

Происхождение и история

Проблема была названа в честь инцидента в 1996 году, когда фильтр ненормативной лексики AOL не позволил жителям города Сканторп , Северный Линкольншир , Англия, создать учетные записи в AOL, поскольку в названии города содержится подстрока « cunt ». В начале 2000 - х годов, Google «s неавтоматического Безопасного фильтры также влияет на город, предотвращая людей от поиска местных предприятий или URL - адресов , которые включены Сканторп в их именах.

Другие примеры

Ошибочные решения, принятые фильтрами непристойности, включают:

Отказано в регистрации веб-доменных имен и учетных записей

  • В апреле 1998 года Джефф Голд попытался зарегистрировать доменное имя shitakemushrooms.com , но из-за дерьма с подстроками он был заблокирован фильтром InterNIC, запрещающим « семь грязных слов ». ( Шиитаке происходит от японского названия съедобного гриба Lentinula edodes .)
  • В 2000 году в новостном сюжете канадского телевидения о программном обеспечении веб-фильтрации было обнаружено, что веб-сайт Городского сообщества Монреаля (Communauté urbaine de Montréal, на французском языке) был полностью заблокирован, поскольку его доменное имя было его французским сокращением CUM (www.cum.qc.ca ); « cum » (среди других значений) - это англоязычный сленг для обозначения спермы .
  • В феврале 2004 года в Шотландии Крейг Кокберн сообщил, что не может использовать свою фамилию (произносится как «Кобурн») в Hotmail . Кроме того, у него были проблемы с электронной почтой на рабочем месте, потому что его должность, специалист по программному обеспечению , содержала подстроку Cialis , лекарство от эректильной дисфункции, обычно упоминаемое в спаме . Hotmail сначала сказал ему написать свое имя C0ckburn (с нулем вместо буквы «o»), но позже отменил запрет. В 2010 году у него была аналогичная проблема с регистрацией на веб-сайте BBC, где снова первые четыре символа его фамилии вызвали проблему для фильтра содержимого.
  • В феврале 2006 года Линде Каллахан изначально запретили зарегистрировать свое имя в Yahoo! как адрес электронной почты, поскольку он содержит подстроку Аллах . Yahoo! позже отменил запрет.
  • В июле 2008 года доктор Герман И. Либшиц не смог зарегистрировать адрес электронной почты, содержащий его имя, в Verizon, потому что его фамилия содержала подстроку shit , и Verizon изначально отклонил его запрос об исключении. В последующем заявлении пресс-секретарь Verizon извинилась за то, что не утвердила его желаемый адрес электронной почты.
  • В августе 2018 года, Натали Вайнер сообщил о социальных медиа , что она не смогла создать учетную запись для себя на сайте, потому что ее фамилия тоже слово используется как сленг для пениса . Сообщается, что «сотни» людей ответили, что это коснулось и их. Имена тех, кто ответил, включали Бен Шмук (фамилия на идише означает «пенис») и Арун Дикшит (фамилия на санскрите означает того, кто учит или дает знания, содержащие подстроку « дерьмо» ). В статьях, посвященных этому вопросу, говорилось, что это обычная и чрезвычайно сложная техническая проблема, для которой в настоящее время не существует надежного решения.

Заблокированный поиск в Интернете

  • В течение нескольких месяцев, предшествовавших январю 1996 года, некоторые поисковые запросы по Super Bowl XXX были отфильтрованы, поскольку римские цифры, обозначающие игру и сайт (XXX), также используются для определения порнографии .
  • Гарет Рулофсе, веб-дизайнер RomansInSussex.com , отмечал в 2004 году: «Мы обнаружили, что многие станции библиотечной сети, школьные сети и интернет-кафе блокируют сайты со словом« секс »в доменном имени. Это было проблемой для RomansInSussex.co. uk, потому что его целевая аудитория - школьники ".
  • В 2008 годе , фильтр свободной беспроводной службы города Факатан в Новой Зеландии заблокировал поиски с участием собственного названного по имени города , потому что фильтр в фонетическом анализ считается «whak» звучать как трахается ; название города на языке маори, а на языке маори «wh» чаще всего произносится как «f». Впоследствии город поместил название города в белый список фильтра .
  • В июле 2011 года поиск в Интернете по имени Цзян был заблокирован после того, как на сайте микроблогов Sina Weibo появились сообщения о смерти бывшего генерального секретаря коммунистической партии Китая (КПК) Цзян Цзэминя . Поскольку слово «Цзян», означающее «река», написано одним и тем же китайским иероглифом (江), поиски, связанные с реками, включая Янцзы ( Чанг Цзянь ), дали следующее сообщение: «Согласно соответствующим законам, постановлениям и политике, результаты этот поиск не может быть отображен ".
  • В феврале 2018 года веб-поиски на торговой платформе Google были заблокированы для таких предметов, как клеевые пистолеты , Guns N 'Roses и бургундское вино после того, как Google поспешно исправил свою поисковую систему, которая отображала результаты для оружия и аксессуаров, которые нарушали заявленную политику Google.

Заблокированные электронные письма

  • В 2001 году Yahoo! Mail представила фильтр электронной почты, который автоматически заменял связанные с JavaScript строки альтернативными версиями, чтобы предотвратить возможность межсайтового скриптинга в электронной почте HTML . Фильтр будет переносить термины « JavaScript », « JScript », « VBScript » и « LiveScript »; и заменил « eval », « мокко » и « выражение » аналогичными, но не совсем синонимичными терминами « обзор », « эспрессо » и « утверждение » соответственно. При написании фильтров использовались предположения: не было предпринято никаких попыток ограничить эти замены строк anchor scriptразделами и атрибутами или соблюдать границы слов, в случае, если это оставит некоторые лазейки открытыми. В результате таких ошибок , как medireview на месте средневекового .
  • В феврале 2003 года члены парламента в британской палате общин обнаружили, что новый спам-фильтр блокирует им электронные письма. Он заблокировал электронные письма, содержащие ссылки на обсуждаемый в то время законопроект о сексуальных преступлениях, а также некоторые сообщения, относящиеся к консультационному документу либерал-демократов о цензуре. Он также блокировал электронные письма, отправленные на валлийском языке, потому что не распознавал язык.
  • В октябре 2004 года сообщалось, что лондонский музей Хорнимана не смог получить часть своей электронной почты, потому что фильтры ошибочно восприняли его имя как версию слов « возбужденный мужчина» . Возбужденный - это распространенный сленговый термин, означающий «сексуально возбужденный или возбуждающий».
  • Проблемы могут возникнуть со словами социализм , социалист и специалист, потому что они содержат подстроку Сиалис . При блокировке слова « специалист» будут заблокированы отправленные по электронной почте резюме и учебные планы, а также другие материалы, включая описания должностных обязанностей.

Заблокировано для слов с несколькими значениями

  • В октябре 2004 года электронные письма с рекламой пантомимы Дика Уиттингтона, отправленные учителем из Норвича в Великобритании, были заблокированы школьными компьютерами из-за использования имени Дик , которое иногда использовалось как сленг для пениса .
  • В мае 2006 года мужчина из Манчестера, Великобритания, обнаружил, что электронные письма, которые он писал в местный совет с жалобой на приложение для планирования, были заблокированы, так как в них содержалось слово « эрекция» при упоминании конструкции.
  • Заблокированные электронные письма и поиск в Интернете, относящиеся к журналу The Beaver , базирующемуся в Виннипеге , вынудили издателя сменить название на Canada's History в 2010 году, после 89 лет публикации. Издатель Дебора Моррисон прокомментировала: «Еще в 1920 году Бобр был совершенно подходящим названием. И хотя другое его значение [ вульва ] не является чем-то новым, его двусмысленность стала представлять собой совершенно новую проблему с развитием Интернета. препятствие для нашего роста ".
  • В июне 2010 года Twitter заблокировал пользователя из Люксембурга через 29 минут после того, как он открыл свою учетную запись и опубликовал свой первый твит. В твите говорилось: «Наконец-то! В мой скворечник засела пара больших сисек (Parus major)!» Несмотря на включение латинского названия, указывающего на то, что твит был о птицах, любые попытки разблокировать аккаунт были тщетными.
  • В 2011 году член совета в Дадли обнаружил письмо, помеченное программным обеспечением безопасности его совета за ненормативную лексику, после упоминания блюда из Черной страны , педиков (разновидность фрикаделек , но также уничижительный термин для геев ).
  • Жителям Пенистона в Южном Йоркшире заблокировали электронную почту, потому что в названии города есть подстрока « пенис» .
  • Lightwater из Суррея пострадала точно так же, потому что в его названии есть подстрока twat .
  • Жители Clitheroe ( Ланкашир , Англия) неоднократно испытывали неудобства, потому что в названии их города есть подстрока clit , что является сокращением от « клитор ».
  • Резюме, содержащие ссылки на получение диплома с латинскими отличиями, такими как cum laude , summa cum laude и magna cum laude , были заблокированы спам-фильтрами из-за включения слова cum , которое на латыни означает с (в данном случае), но иногда используется как сленг для обозначения спермы или эякуляции в английском языке.

Новостные статьи

  • В июне 2008 года новостной сайт, управляемый Американской семейной ассоциацией против ЛГБТ, отфильтровал статью Associated Press о спринтере Тайсоне Гее , заменив слова «гей» на « гомосексуалист », таким образом сделав его имя «Тайсон гомосексуалист». Эта же функция ранее изменила имя баскетболиста Руди Гея на «Руди-гомосексуалист».
  • Иногда имя бывшего вице-президента Дика Чейни в статьях отфильтровывалось как «Пенис Чейни» или «Вайнер Чейни» из-за использования имени Дик , которое иногда использовалось как сленг для обозначения пениса .
  • Слово или строка «задница» может быть заменена на «задница», в результате чего получается «clbuttic» для «классического», «buttignment» для «присвоения» и «buttbuttinate» для «убийства».

Другой

  • В 2008 году Microsoft подтвердила, что ее политика по предотвращению использования слов, относящихся к сексуальной ориентации, означала, что имя Ричарда Гейвуда считалось оскорбительным и не могло использоваться в его «теге игрока» или в поле «Настоящее имя» его биографии.
  • В 2011 году в видеоиграх Pokémon Black and White Pokémon Cofagrigus нельзя было продавать онлайн другим игрокам без прозвища, потому что его название вида содержало в качестве подстроки уничижительное пидор . С тех пор система была обновлена, чтобы позволить торговать покемонами без ников. Та же проблема возникла с Nosepass и Probopass из-за включения в них подстроки ass .
  • В ноябре 2013 года Facebook временно заблокировал британских пользователей за использование уничижительного пидораса в отношении традиционного одноименного блюда .
  • По сообщениям, в январе 2014 года файлы, используемые в онлайн-игре League of Legends, были заблокированы некоторыми фильтрами британских интернет-провайдеров из-за имен VarusExpirationTimer.luaobj и XerathMageChainsExtended.luaobj, содержащих буквы s , e и x . Позже это было исправлено.
  • В мае 2018 года на сайте продуктового магазина Publix нельзя было заказать торт, содержащий латинскую фразу summa cum laude . Клиент попытался исправить проблему, включив специальные инструкции, но все равно получил торт с надписью «Summa --- Laude».
  • В мае 2020 года, несмотря на тщательную проверку СМИ, некоторые хэштеги, прямо относящиеся к британскому политическому советнику Доминику Каммингсу, не смогли найти тренд в Твиттере, потому что подстрока cum активировала антипорнфильтр.
  • В октябре 2020 года фильтр ненормативной лексики в Твиттере запретил слова «кость», « лобок » и «поток» на палеонтологической конференции.
  • В январе 2021 года Facebook извинился за отключение звука и блокировку пользователей после того, как он ошибочно назвал достопримечательность Девона Плимут-Хоу женоненавистником.
  • В апреле 2021 года официальная страница Французской коммуны Битче в Facebook была закрыта . В ответ официальные лица коммуны создали новую страницу со ссылкой на почтовый индекс Mairie 57230 . Позже Facebook извинился и восстановил исходную страницу. В качестве меры предосторожности официальные лица Рорбах-ле-Битш переименовали свою страницу в Facebook в Ville de Rohrbach .

Смотрите также

использованная литература