Увеличение данных - Data augmentation

Увеличение данных при анализе данных - это методы, используемые для увеличения объема данных путем добавления слегка измененных копий уже существующих данных или вновь созданных синтетических данных из существующих данных. Он действует как регуляризатор и помогает уменьшить переобучение при обучении модели машинного обучения. Это тесно связано с передискретизацией при анализе данных.

Синтетические методы передискретизации для традиционного машинного обучения

Увеличение данных для классификации изображений

Преобразования изображений

Библиотека Augmentor представляет эластичные преобразования для создания новых синтетических изображений из набора данных, чтобы уменьшить проблемы дефицита.

Геометрические преобразования, переворачивание, изменение цвета, обрезка, поворот, добавление шума и случайное стирание используются для увеличения изображения в глубоком обучении.

Представляем новые синтетические изображения

Если возникает проблема нехватки данных, простые, но эффективные методы, такие как преобразования, могут оказаться ограниченным решением. Если набор данных слишком мал, то преобразованное изображение, установленное с помощью вращения, зеркального отражения и т. Д., Может быть слишком маленьким для данной проблемы. Другое решение - получение совершенно новых и синтетических изображений с помощью различных методов, например, использование генеративных состязательных сетей для создания новых синтетических изображений для увеличения данных. Кроме того, алгоритмы распознавания изображений демонстрируют улучшение при передаче из синтетических изображений, созданных Unity Game Engine, то есть для улучшения изучения реальных данных за счет дополнения процесса обучения визуализированными изображениями из виртуальных сред.

Увеличение данных для обработки сигналов

Остаточный или блочный бутстрап может использоваться для увеличения временного ряда.

Биологические сигналы

Увеличение синтетических данных имеет первостепенное значение для классификации машинного обучения, особенно для биологических данных, которые, как правило, имеют большие размеры и являются скудными. Применение роботизированного управления и аугментации у людей с ограниченными возможностями и трудоспособного возраста по-прежнему в основном основывается на предметно-ориентированном анализе. Дефицит данных проявляется в проблемах обработки сигналов, таких как сигналы электромиографии при болезни Паркинсона , которые трудно найти - Zanini, et al. отметили, что можно использовать Генеративную состязательную сеть (в частности, DCGAN) для выполнения передачи стиля, чтобы генерировать синтетические электромиографические сигналы, которые соответствуют тем, которые демонстрируют люди, страдающие болезнью Паркинсона.

Подходы также важны в электроэнцефалографии (мозговые волны). Ван и др. исследовали идею использования глубоких сверточных нейронных сетей для распознавания эмоций на основе ЭЭГ, результаты показывают, что распознавание эмоций было улучшено при использовании увеличения данных.

Сравнение сигналов ЭЭГ, генерируемых GPT-2 (слева) и реальных человеческих мозговых волн (справа), в классах психического состояния «Концентрация», «Расслабление» и «Нейтральность».

Также было отмечено, что модель OpenAI GPT-2 способна учиться и генерировать синтетические биологические сигналы, такие как ЭЭГ и ЭМГ. В этом исследовании было отмечено, что распознавание было улучшено за счет увеличения данных. Также было отмечено, что статистические модели машинного обучения, обученные в синтетической области, могут классифицировать человеческие данные, и наоборот. На изображении сравниваются некоторые примеры ЭЭГ, произведенной моделью GPT-2 и человеческим мозгом.

Распространенным подходом является генерация синтетических сигналов путем перегруппировки компонентов реальных данных. Лотте предложила метод «искусственного пробного генерирования на основе аналогии», в котором три примера данных предоставляют примеры, и формируется искусственный объект, который соответствует тому, что должен . Преобразование применяется к, чтобы сделать его более похожим на , затем применяется то же преобразование, к которому генерируется . Было показано, что этот подход улучшает производительность классификатора линейного дискриминантного анализа на трех разных наборах данных.

Текущие исследования показывают, что большое влияние можно получить с помощью относительно простых методов. Например, Фрир заметил, что введение шума в собранные данные для формирования дополнительных точек данных улучшило обучаемость нескольких моделей, которые в остальном работали относительно плохо. Tsinganos et al. изучили подходы масштабной деформации, вейвлет-разложения и модели синтетической поверхностной ЭМГ (генеративные подходы) для распознавания жестов рук, обнаружив повышение эффективности классификации до + 16% при введении расширенных данных во время обучения. В последнее время исследования по увеличению данных начали сосредотачиваться на области глубокого обучения, а точнее на способности генеративных моделей создавать искусственные данные, которые затем вводятся в процессе обучения модели классификации. В 2018 году Луо и др. наблюдали, что полезные данные сигнала ЭЭГ могут быть сгенерированы с помощью условных генерирующих состязательных сетей Вассерштейна (GAN), которые затем были введены в обучающую выборку в классической обучающей среде с обучающими тестами. Авторы обнаружили, что эффективность классификации улучшилась, когда были введены такие методы.

Увеличение данных для распознавания речи

Было отмечено, что создание синтетических данных речевых MFCC может улучшить распознавание говорящего по его высказываниям посредством передачи обучения на основе синтетических данных, которые были сгенерированы через рекуррентную нейронную сеть на уровне символов (RNN).

Смотрите также

использованная литература