Сжатие данных - Data reduction

Обработка данных - это преобразование цифровой или буквенной цифровой информации, полученной эмпирическим или экспериментальным путем, в исправленную, упорядоченную и упрощенную форму. Сокращение данных может преследовать две цели: уменьшить количество записей данных за счет исключения недопустимых данных или создать сводные данные и статистику на разных уровнях агрегации для различных приложений.

Когда информация получается из показаний прибора, также может происходить преобразование из аналоговой формы в цифровую . Когда данные уже представлены в цифровой форме, «сокращение» данных обычно включает в себя некоторое редактирование, масштабирование , кодирование , сортировку , сопоставление и создание сводных таблиц. Когда наблюдения дискретны, но лежащее в основе явление является непрерывным , часто требуются сглаживание и интерполяция . Обработка данных часто выполняется при наличии ошибок чтения или измерения . Прежде чем определить наиболее вероятное значение, необходимо некоторое представление о природе этих ошибок.

Примером в астрономии является обработка данных на спутнике Кеплер . Этот спутник записывает 95-мегапиксельные изображения каждые шесть секунд, генерируя десятки мегабайт данных в секунду, что на порядки больше, чем пропускная способность нисходящего канала в 550 Кбит / с. Бортовое сокращение данных включает в себя совместное добавление необработанных кадров в течение тридцати минут, уменьшая полосу пропускания в 300 раз. Кроме того, предварительно выбираются интересные цели, и обрабатываются только соответствующие пиксели, что составляет 6% от общего количества. Эти сокращенные данные затем отправляются на Землю, где они обрабатываются дальше.

Также были проведены исследования по использованию сокращения объема данных в носимых (беспроводных) устройствах для приложений мониторинга и диагностики состояния здоровья. Например, в контексте диагностики эпилепсии сокращение данных использовалось для увеличения срока службы батареи носимого устройства ЭЭГ путем выбора и передачи только данных ЭЭГ, которые важны для диагностики, и исключения фоновой активности.

Типы сокращения данных

Уменьшение размерности

Когда размерность увеличивается, данные становятся все более разреженными, а плотность и расстояние между точками, которые имеют решающее значение для кластеризации и анализа выбросов, становятся менее значимыми. Снижение размерности помогает уменьшить шум в данных и упрощает визуализацию, как, например, в приведенном ниже примере, где трехмерные данные преобразуются в 2 измерения для отображения скрытых частей. Одним из методов уменьшения размерности является вейвлет-преобразование , при котором данные преобразуются в сохраняющее относительное расстояние между объектами на разных уровнях разрешения и часто используется для сжатия изображений .

Пример уменьшения размерности.

Уменьшение численности

Этот метод сокращения данных уменьшает объем данных за счет выбора альтернативных, меньших форм представления данных. Снижение численности можно разделить на 2 группы: параметрические и непараметрические методы. Параметрические методы (например, регрессия) предполагают, что данные соответствуют некоторой модели, оценивают параметры модели, сохраняют только параметры и отбрасывают данные. Один из примеров этого - на изображении ниже, где объем обрабатываемых данных сокращен на основе более конкретных критериев. Другим примером может быть лог-линейная модель , получающая значение в точке в mD-пространстве как произведение на соответствующих маргинальных подпространствах. Непараметрические методы не предполагают моделей, некоторыми примерами являются гистограммы, кластеризация, выборка и т. Д.

Пример сокращения данных за счет уменьшения количества

Статистическое моделирование

Сокращение данных может быть получено путем использования статистической модели для данных. Классические принципы обработки данных включают достаточность , вероятность , условность и эквивалентность .

Лучшие практики

Это общие методы, используемые при сокращении данных.

  • Заказ по размеру.
  • Диагонализация таблиц , при которой строки и столбцы таблиц переупорядочиваются, чтобы их было легче увидеть (см. Диаграмму).
  • Резкое округление до одной или максимум двух эффективных цифр (эффективные цифры - это те, которые различаются в этой части данных).
  • Используйте средние значения для визуального фокуса, а также для сводки.
  • Используйте макет и маркировку, чтобы направлять взгляд.
  • Удалите ненужные диаграммы , например изображения и линии.
  • Сделайте краткое словесное резюме.

Смотрите также

использованная литература

дальнейшее чтение