Голова / хвост ломаются - Head/tail breaks

1024 города, которые точно следуют закону Ципфа , который подразумевает, что первый по величине город имеет размер 1, второй по величине город имеет размер 1/2, третий по величине город имеет размер 1/3, ... и самый маленький город имеет размер 1 / 1024. Левый узор получается из разрывов голова / хвост, а правый - за счет естественных разрывов, также известный как оптимизация естественных разрывов Дженкса .

Разрывы "голова / хвост" - это схема алгоритма кластеризации для данных с распределением с тяжелыми хвостами, например степенными законами и логнормальными распределениями . Распределение с тяжелым хвостом может быть просто отнесено к схеме масштабирования гораздо большего количества мелких вещей, чем крупных, или, альтернативно, множества самых маленьких, очень немногих самых больших и некоторых между самыми маленькими и самыми большими. Классификация осуществляется путем деления вещей на большие (или называемые головой) и мелкие (или называемые хвостом) вещи вокруг среднего арифметического или среднего, а затем рекурсивно продолжается процесс деления для больших вещей или головы до тех пор, пока понятие о гораздо большем количестве мелких вещей, чем больших, больше не действует, или остались только более или менее похожие вещи. Разделение «голова / хвост» используется не только для классификации, но и для визуализации больших данных путем удержания головы, поскольку голова самоподобна целому. Разрывы "голова / хвост" можно применять не только к векторным данным, таким как точки, линии и многоугольники, но и к растровым данным, таким как цифровая модель рельефа (ЦМР).

Мотивация

Разрывы голова / хвост мотивированы неспособностью традиционных методов классификации, таких как равные интервалы, квантили, геометрические прогрессии, стандартное отклонение и естественные разрывы, обычно известные как оптимизация естественных разрывов Дженкса или кластеризация k-средних, чтобы выявить лежащее в основе масштабирование или живую структуру. с присущей им иерархией (или неоднородностью), характеризующейся повторяющимся представлением о гораздо большем количестве мелких вещей, чем больших. Обратите внимание, что понятие гораздо большего количества мелких вещей, чем больших, относится не только к геометрическим свойствам, но также к топологическим и семантическим свойствам. В этой связи это понятие следует интерпретировать как гораздо более непопулярные (или менее связанные) вещи, чем популярные (или имеющие хорошие связи), или как гораздо более бессмысленные вещи, чем значимые. В разбивке «голова / хвост» используется среднее или среднее значение для разделения набора данных на маленькие и большие значения, а не для характеристики классов средними значениями, в отличие от кластеризации k-средних или естественных разрывов. Через разрывы «голова / хвост» набор данных рассматривается как живая структура с присущей иерархией с гораздо большим количеством мелких, чем крупных, или рекурсивно воспринимается как голова головы и так далее. Это открывает новые возможности для анализа данных с целостной и органичной точки зрения.

Метод

Учитывая некоторую переменную X, которая демонстрирует распределение с тяжелым хвостом, малых x гораздо больше, чем больших. Возьмите среднее значение всех xi и получите первое среднее значение m1. Затем вычислите второе среднее для тех xi больше m1 и получите m2. Таким же рекурсивным способом мы можем получить m3 в зависимости от того, выполняется ли конечное условие, заключающееся в том, что меньшие x уже не намного больше, чем большие. Для простоты мы предполагаем, что есть три средних: m1, m2 и m3. Эта классификация приводит к четырем классам: [минимум, m1], (m1, m2], (m2, m3], (m3, максимум]. В общем, это может быть представлено как рекурсивная функция следующим образом:

Иллюстрация классификации разрыва головы / хвоста с 10 цифрами
    Recursive function Head/tail Breaks:
    Rank the input data values from the biggest to the smallest;
    Compute the mean value of the data
    Break the data (around the mean) into the head and the tail;  
    // the head for data values greater the mean
    // the tail for data values less the mean
    If (length(head)/length(data) <=40%):
        Head/tail Breaks(head);
    End Function

Полученное количество классов называется ht-индексом, альтернативным индексом фрактальной размерности для характеристики сложности фракталов или географических объектов: чем выше ht-индекс, тем сложнее фракталы.

Порог или его чувствительность

Критерием для остановки итеративного процесса классификации с использованием метода разрыва головы / хвоста является то, что оставшиеся данные (т. Е. Головная часть) не имеют тяжелых хвостов, или просто головная часть больше не является меньшинством (т. Е. Доля головная часть не меньше порога, например 40%). Этот порог был предложен Цзян и др. Равным 40%. (2013), как и в приведенных выше кодах (т. Е. (Длина / голова) / длина (данные) ≤ 40%). Этот процесс называется разрывом головы / хвоста 1.0. Но иногда может использоваться больший порог, например 50% или более, как отметили Цзян и Инь (2014) в другой статье: «это условие может быть ослаблено для многих географических объектов, например, 50 процентов или даже больше». Однако процент всех голов в среднем должен быть меньше 40% (или 41, 42%), что означает гораздо больше мелких вещей, чем крупных. Многие реальные данные не могут быть вписаны в идеальное распределение с длинным хвостом, поэтому его пороговое значение может быть структурно ослаблено. В разбивке по голове / хвосту 2.0 порог применяется только к общему проценту голов. Это означает, что процентное отношение всех орлов к хвостам должно составлять в среднем около 40%. Отдельные классы могут иметь любое процентное отклонение от среднего, если это среднее значение в целом. Например, если есть данные, распределенные таким образом, что у них есть четко определенные голова и хвост во время первой и второй итерации (длина (голова) / (длина (данные) <20%), но гораздо менее четко определенный длинный хвост распределение для третьей итерации (60% в голове), разрывы голова / хвост 2.0 позволяет продолжить итерацию до четвертой итерации, которая может быть распределена на 30% голова - снова 70% хвост и т. д. Пока общий порог равен не превзойден классификацией разрыва головы / хвоста.

График размера ранга и индекс RA

Хорошим инструментом для отображения шаблона масштабирования или распределения с тяжелым хвостом является график размера ранга, который представляет собой график разброса для отображения набора значений в соответствии с их рангами. С помощью этого инструмента был определен новый индекс, называемый отношением площадей (RA) на графике размера ранга, чтобы охарактеризовать шаблон масштабирования. Индекс RA успешно использовался при оценке условий дорожного движения. Однако индекс RA может использоваться только как дополнительный метод к ht-индексу, поскольку он неэффективен для определения масштабной структуры географических объектов.

Другие индексы, основанные на разрывах головы / хвоста

В дополнение к ht-index, следующие индексы также выводятся с разрывами головы / хвоста.

  • CRG-индекс. Он разработан как более чувствительный ht-индекс, позволяющий фиксировать незначительные изменения географических объектов. В отличие от ht-index, который является целым числом, CRG-index является действительным числом.
  • Единые метрики. Две унифицированные метрики (UM1 и UM2) были предложены в документе AAAG для характеристики фрактальной природы географических объектов. Один может использоваться, чтобы ответить на вопрос «Я знаю, что мелких вещей гораздо больше, чем больших, но насколько малы (или большие) эти маленькие (или большие) вещи?», А другой - для ответа «Я знаю, что есть». маленьких вещей гораздо больше, чем больших, но сколько еще? »
  • Fht-index: это дробный ht-индекс, который может фиксировать дробную иерархию. Индекс fht может быть полезен для создания промежуточного масштаба между двумя последовательными масштабами карты, что приводит к так называемым непрерывным масштабам карты.

Приложения

Вместо более или менее похожих вещей нас окружает гораздо больше мелких вещей, чем больших. Учитывая повсеместное распространение модели масштабирования, обнаружено, что разрывы головы / хвоста полезны для статистического картирования, обобщения карт, когнитивного картирования и даже для восприятия красоты. Это помогает визуализировать большие данные, поскольку большие данные, вероятно, продемонстрируют свойство масштабирования гораздо большего количества мелких вещей, чем больших. По сути, географические явления могут быть масштабными или немасштабируемыми. Масштабные явления можно объяснить обычными математическими или географическими операциями, но безмасштабные явления - нет. Разделения «голова / хвост» можно использовать для характеристики безмасштабных явлений, которые встречаются в большинстве случаев. Стратегия визуализации заключается в рекурсивном удалении частей хвоста до тех пор, пока части головы не станут достаточно четкими или видимыми. Кроме того, он помогает более точно определять города или природные города на основе различной географической информации, такой как уличные сети, данные геолокации в социальных сетях и изображения в ночное время.

Характеризуя дисбаланс

Поскольку метод разрыва заголовка / хвоста может использоваться итеративно для получения головных частей набора данных, этот метод фактически захватывает базовую иерархию набора данных. Например, если мы разделим массив (19, 8, 7, 6, 2, 1, 1, 1, 0) методом разрыва головы / хвоста, мы можем получить две части головы, то есть первую часть головы (19 , 8, 7, 6) и вторую головную часть (19). Эти две части заголовка, а также исходный массив образуют трехуровневую иерархию:

1 уровень (19),

2-й уровень (19, 8, 7, 6) и

3-й уровень (19, 8, 7, 6, 2, 1, 1, 1, 0).

Количество уровней вышеупомянутой иерархии фактически является характеристикой дисбаланса примерного массива, и это количество уровней было названо ht-индексом. С помощью ht-индекса мы можем сравнивать степень дисбаланса двух наборов данных. Например, ht-индекс примерного массива (19, 8, 7, 6, 2, 1, 1, 1, 0) равен 3, а ht-индекс другого массива (19, 8, 8, 8, 8, 8, 8, 8, 8) равно 2. Следовательно, степень дисбаланса первого массива выше, чем у второго.

Левая панель содержит 50 000 природных городов, которые можно разделить на 7 уровней иерархии. Похоже на клубок для волос. Вместо того, чтобы показывать все 7 иерархических уровней, мы показываем 4 верхних уровня, отбрасывая 3 нижних уровня. Теперь с правой панелью вырисовывается модель масштабирования гораздо большего количества маленьких городов, чем больших. Важно отметить, что правый узор (или оставшаяся часть после выпадения хвостов) самоподобен целому (или левому узору). Таким образом, правый паттерн отражает структуру, лежащую в основе левого, и позволяет нам видеть целое.
Масштабный рисунок поверхности ландшафта США искажен естественными изломами, но проявляется изломами голова / хвост.

Обозначение природных городов

Термин «естественные города» относится к человеческим поселениям или человеческой деятельности в целом на поверхности Земли, которые естественным образом или объективно определены и очерчены на основе массивной географической информации на основе правила деления головы / хвоста, нерекурсивной формы разломов головы / хвоста. Такая географическая информация может поступать из различных источников, таких как массивные перекрестки и концы улиц, огромное количество кварталов, ночные изображения, местоположения пользователей социальных сетей и т. Д. На их основе можно получить различные городские формы и конфигурации, обнаруженные в городах. . В отличие от обычных городов, прилагательное «естественный» можно объяснить не только источниками природных городов, но и подходом к их получению [1] . Естественные города являются производными от значимого отсечения, усредненного по огромному количеству единиц, извлеченных из географической информации. Эти единицы различаются в зависимости от различных видов географической информации, например, единицы могут быть единицами площади для кварталов улиц и значениями пикселей для ночных изображений. Модель естественных городов была создана с помощью построителя моделей ArcGIS, она следует тому же процессу получения естественных городов из социальных сетей на основе местоположения, а именно построению огромной треугольной нерегулярной сети (TIN) на основе точечных объектов (в данном случае узлов улиц). ) и относительно треугольников, которые меньше среднего значения, как естественных городов. Эти естественные города также могут быть созданы из другой информации открытого доступа, такой как OpenStreetMap, и в дальнейшем использоваться в качестве альтернативного определения административных границ. В то же время можно правильно определить закон масштабирования и создать административные границы, соблюдая его, путем разграничения естественных городов. Методология этого типа может помочь городским географам и планировщикам правильно определить эффективный городской территориальный охват районов, в которых они работают.

Естественные города могут различаться в зависимости от масштаба, в котором они очерчены, поэтому в оптимальном варианте они должны основываться на данных со всего мира. Из-за невозможности вычислений в качестве альтернативы предлагается шкала страны или округа. Из-за безмасштабного характера природных городов и данных, на которых они основаны, также есть возможность использовать метод естественных городов для дальнейших измерений. Одним из основных преимуществ естественных городов является то, что они строятся снизу вверх, а не сверху вниз . Это означает, что границы определяются данными чего-то физического, а не административным правительством или администрацией. Например, при рекурсивном вычислении естественных городов естественного города идентифицируются плотные области внутри естественного города. Их можно рассматривать, например, как центры городов. Таким образом, используя метод естественных городов, можно сделать дальнейшее разграничение границ в зависимости от масштаба, из которого были созданы естественные города. Естественные города, полученные из небольших региональных областей, будут давать менее точные, но все же полезные результаты в определенных анализах, таких как, например, определение расширения городов с течением времени. Однако, как упоминалось ранее, оптимально естественные города должны основываться на большом количестве, например, перекрестков улиц для всей страны или даже мира. Это потому, что естественные города основаны на мудрости мышления толпы , которому для достижения наилучших результатов нужен самый большой набор доступных данных. Также отметим, что структуру природных городов можно считать фрактальной по своей природе.

При использовании разбивки «голова / хвост» для создания естественных городов важно, чтобы данные впоследствии не агрегировались. Например, количество созданных естественных городов можно узнать только после того, как они будут созданы. Невозможно использовать заранее определенное количество городов для области или страны и агрегировать результаты естественных городов до административно определенных границ города. Естественно, что естественные города должны соответствовать закону Ципфа , в противном случае территория, скорее всего, слишком мала или данные, вероятно, были обработаны неправильно. Пример этого можно увидеть в исследовании, в котором для извлечения естественных городов использовались разрывы «голова / хвост», но они были объединены с административными границами, в результате чего был сделан вывод о том, что города не соблюдают закон Ципфа . Это чаще случается в науке, где статьи на самом деле дают ложные результаты.

Цветопередача ЦМР

Текущие цветопередачи для ЦМР или карты плотности по существу основаны на традиционных классификациях, таких как естественные изломы или равные интервалы, поэтому они непропорционально преувеличивают высоту или большую плотность. На самом деле возвышенностей и густонаселенных мест не так уж и много. Было обнаружено, что переломы головы / хвоста на основе окраски более благоприятны, чем по другим классификациям. [2]

Дальнейшие приложения

Другие области применения головок / хвостовиков:

  • Служит методом эффективной оценки абсолютной энтропии Больцмана числовых растровых данных
  • Количественная оценка многомасштабного представления полилинии
  • Повышение вычислительной эффективности анализа потоковых данных за счет выделения головной части набора потоковых данных.
  • Временной анализ городской экспансии, связанной с тепловой средой
  • Анализ изображений, при котором анизотропия измеряется в точечных образцах, извлеченных с помощью цифрового импульсного преобразования с использованием разрывов головы / хвоста
  • Визуализация и анализ пространственных закономерностей в двусторонней торговле
  • Для определения графиков функций городских, к сведению , что этот документ относится голова / хвост перерывы на гауссовую оценке плотности ядра , что снижает точность метода головы / хвост брейки. По сути, используется подход естественных городов, но исходные данные, выбранные для выполнения разбивки по голове / хвосту, были заранее сокращены. Для лучшего представления графиков городских функций разрывы головы / хвоста могут быть применены в качестве первого шага в разграничении этих областей.
  • Анализ структур или горячих точек, встречающихся в естественных условиях в данных, для выделения областей интереса (на основе природных городов).
    • (Over) Анализ туризма, основанный на краткосрочной аренде (например, AirBnB ) путем создания точек доступа на основе распределения сданных в аренду квартир.
    • Измерение интенсификации туризма на основе фрактальной размерности, очерченной с помощью естественных городов
    • Выявление городских горячих точек на основе остановок такси, откуда люди с наибольшей вероятностью выберутся из основных достопримечательностей или остановок общественного транспорта. Разрывы "голова / хвост" применяются для отделения менее плотных остановок, на которых выходит мало людей, от основных остановок, на которых выходит наибольшее количество людей.
    • Определение точек движения или зон заторов, которые, в свою очередь, могут использоваться для определения дорожных цен. Естественные города - эффективный подход при поиске этих мест.
    • Использование естественных городов для определения полицентричности китайских городов, т. Е. Определение множества плотных центров активности в городах.
    • Определение того, как рост города влияет на тепловую среду в городах, используя естественные города в качестве инструмента измерения.
    • Определение устойчивых городских территорий или систем.
  • Размыкания « голова / хвост» могут служить основным показателем того, что явления распределены по длиннохвостому принципу и что паретианское мышление должно благоприятствовать гауссовскому мышлению в географических пространствах. Например, в исследованиях биоразнообразия и педоразнообразия, где, кажется, существуют фрактальные отношения, такие как отношения таксонов и ареалов . В дополнение к этому, многоугольники карт почвы и растительности также показывают масштабирование в своих структурах. Это можно определить и выделить с помощью разрывов головы / хвоста.
  • При извлечении элементов изображения и текстуры некоторые алгоритмы, такие как дискретное импульсное преобразование, в котором для извлечения элементов используется сглаживание LULU , можно ускорить, используя в алгоритме разрывы «голова / хвост», более эффективно разделяя крупные элементы и мелкие элементы.
  • Анализируя иерархии в городских моделях (например, улицах, очертаниях зданий), можно определить визуальную значимость, поскольку она следует схожему принципу, а именно, закону масштабирования или длиннохвостому распределению. Разрывы «голова / хвост» помогают в определении иерархии, присутствующей из-за масштабной природы городской морфологии, и могут быть в дальнейшем использованы при изучении приложений городских уличных сетей.
  • Доказано, что городские структуры, такие как уличные сети, фрактальны по своей природе. Важно отметить, что эта структура не состоит только из одного определенного фрактала, она характеризуется мультифрактальной сложной сетью. Это означает, что в разных масштабах определенный фрактал может изменяться. Разделы «голова / хвост» могут использоваться для определения структуры сложной сети в различных масштабах, поскольку она корректируется на основе данных с каждой новой иерархией.
  • Разрыв головы / хвоста в качестве метода классификации может использоваться для визуализации моделей роста или распространения, например, при глобальной пандемии, такой как Covid-19. Используя разрывы «голова / хвост», основные события распространения могут быть эффективно картированы и визуализированы, при этом места с высоким уровнем заражения выделяются, в частности, из-за того, что они относятся к самому высокому классу.
  • Сети трещин в горных породах - это свойства горных пород, которые очень важны в горном деле с применением в горнодобывающей промышленности, разработке сланцевого газа или устойчивости склонов. Из-за характеристик самоподобия этих трещин в сочетании с фрактальной природой, которую они подавляют, разрывы головы / хвоста обеспечивают точные измерения и анализ этих сетей трещин горных пород.

Программная реализация

Следующие реализации доступны по лицензиям на бесплатное программное обеспечение / программное обеспечение с открытым исходным кодом .

  • Калькулятор HT : приложение winform для получения связанных метрик разрывов головы / хвоста, применяемых к одному массиву данных.
  • HT в JavaScript : реализация JavaScript для применения разрывов "голова / хвост" к одному массиву данных.
  • Инструмент HT Mapping : функция в бесплатном плагине Axwoman 6.3 к ArcMap 10.2, которая автоматически выполняет символизацию геоданных на основе классификации разрыва «голова / хвост».
  • HT в Python : код Python и JavaScript для алгоритма разрыва головы / хвоста. Он отлично подходит для раскраски карт хороплетов.
  • pysal.esda.mapclassify : схемы классификации Python для отображения картограмм, включая классификацию карт разрыва головы / хвоста.
  • smoomapy 0.1.9 : переносит сглаженные карты через python.
  • Н-индекс калькулятор : функция А PostgreSQL для вычисления HT-индекса (также см).
  • Калькулятор RA : Программное обеспечение для расчета соотношения площадей (RA) на графике размера ранга (см. Также).
  • Калькулятор HT 2.0 : калькулятор листов Excel, который вычисляет как разрывы головы / хвоста 1.0, так и разрывы головы / хвоста 2.0 с версией для небольших наборов данных и версией для очень больших (сгруппированных) наборов данных.
  • classInt :пакет R , который реализует несколько методов для выбора одномерных интервалов классов для сопоставления или других графических целей, также включает классификацию карты разрыва головы / хвоста.

использованная литература