Сжатие данных - Data reduction
Обработка данных - это преобразование цифровой или буквенной цифровой информации, полученной эмпирическим или экспериментальным путем, в исправленную, упорядоченную и упрощенную форму. Сокращение данных может преследовать две цели: уменьшить количество записей данных за счет исключения недопустимых данных или создать сводные данные и статистику на разных уровнях агрегации для различных приложений.
Когда информация получается из показаний прибора, также может происходить преобразование из аналоговой формы в цифровую . Когда данные уже представлены в цифровой форме, «сокращение» данных обычно включает в себя некоторое редактирование, масштабирование , кодирование , сортировку , сопоставление и создание сводных таблиц. Когда наблюдения дискретны, но лежащее в основе явление является непрерывным , часто требуются сглаживание и интерполяция . Обработка данных часто выполняется при наличии ошибок чтения или измерения . Прежде чем определить наиболее вероятное значение, необходимо некоторое представление о природе этих ошибок.
Примером в астрономии является обработка данных на спутнике Кеплер . Этот спутник записывает 95-мегапиксельные изображения каждые шесть секунд, генерируя десятки мегабайт данных в секунду, что на порядки больше, чем пропускная способность нисходящего канала в 550 Кбит / с. Бортовое сокращение данных включает в себя совместное добавление необработанных кадров в течение тридцати минут, уменьшая полосу пропускания в 300 раз. Кроме того, предварительно выбираются интересные цели, и обрабатываются только соответствующие пиксели, что составляет 6% от общего количества. Эти сокращенные данные затем отправляются на Землю, где они обрабатываются дальше.
Также были проведены исследования по использованию сокращения объема данных в носимых (беспроводных) устройствах для приложений мониторинга и диагностики состояния здоровья. Например, в контексте диагностики эпилепсии сокращение данных использовалось для увеличения срока службы батареи носимого устройства ЭЭГ путем выбора и передачи только данных ЭЭГ, которые важны для диагностики, и исключения фоновой активности.
Типы сокращения данных
Уменьшение размерности
Когда размерность увеличивается, данные становятся все более разреженными, а плотность и расстояние между точками, которые имеют решающее значение для кластеризации и анализа выбросов, становятся менее значимыми. Снижение размерности помогает уменьшить шум в данных и упрощает визуализацию, как, например, в приведенном ниже примере, где трехмерные данные преобразуются в 2 измерения для отображения скрытых частей. Одним из методов уменьшения размерности является вейвлет-преобразование , при котором данные преобразуются в сохраняющее относительное расстояние между объектами на разных уровнях разрешения и часто используется для сжатия изображений .
Уменьшение численности
Этот метод сокращения данных уменьшает объем данных за счет выбора альтернативных, меньших форм представления данных. Снижение численности можно разделить на 2 группы: параметрические и непараметрические методы. Параметрические методы (например, регрессия) предполагают, что данные соответствуют некоторой модели, оценивают параметры модели, сохраняют только параметры и отбрасывают данные. Один из примеров этого - на изображении ниже, где объем обрабатываемых данных сокращен на основе более конкретных критериев. Другим примером может быть лог-линейная модель , получающая значение в точке в mD-пространстве как произведение на соответствующих маргинальных подпространствах. Непараметрические методы не предполагают моделей, некоторыми примерами являются гистограммы, кластеризация, выборка и т. Д.
Статистическое моделирование
Сокращение данных может быть получено путем использования статистической модели для данных. Классические принципы обработки данных включают достаточность , вероятность , условность и эквивалентность .
Лучшие практики
Это общие методы, используемые при сокращении данных.
- Заказ по размеру.
- Диагонализация таблиц , при которой строки и столбцы таблиц переупорядочиваются, чтобы их было легче увидеть (см. Диаграмму).
- Резкое округление до одной или максимум двух эффективных цифр (эффективные цифры - это те, которые различаются в этой части данных).
- Используйте средние значения для визуального фокуса, а также для сводки.
- Используйте макет и маркировку, чтобы направлять взгляд.
- Удалите ненужные диаграммы , например изображения и линии.
- Сделайте краткое словесное резюме.
Смотрите также
использованная литература
дальнейшее чтение
- Эренберг, Эндрю SC (1982). Учебник по сокращению данных: Вводный учебник по статистике . Нью-Йорк: Вили. ISBN 0-471-10134-6.