Извлечение функций - Feature extraction

В машинном обучении , распознавание образов и обработка изображений , извлечение признаков начинаются с начальным набором измеренных данных и строит полученные значения ( функцию ) предназначено , чтобы быть информативными и без резервирования, что облегчает последующие обучения и обобщение шагов, а в некоторых случаях ведущего к лучшим человеческим интерпретациям. Извлечение признаков связано с уменьшением размерности .

Когда входные данные для алгоритма слишком велики для обработки и предполагается, что они избыточны (например, одно и то же измерение в футах и ​​метрах, или повторяемость изображений, представленных в виде пикселей ), тогда они могут быть преобразованы в сокращенный набор из особенностей (также назван вектор признаков ). Определение подмножества исходных функций называется выбором функций . Ожидается, что выбранные функции будут содержать релевантную информацию из входных данных, так что желаемая задача может быть выполнена с использованием этого сокращенного представления вместо полных исходных данных.

Общий

Извлечение признаков предполагает сокращение количества ресурсов, необходимых для описания большого набора данных. При выполнении анализа сложных данных одна из основных проблем связана с количеством задействованных переменных. Анализ с большим количеством переменных обычно требует большого количества памяти и вычислительной мощности, а также может привести к тому, что алгоритм классификации переоценивается для обучающих выборок и плохо обобщается для новых выборок. Извлечение признаков - это общий термин для методов построения комбинаций переменных, позволяющих обойти эти проблемы, но при этом описывать данные с достаточной точностью. Многие практики машинного обучения считают, что правильно оптимизированное извлечение признаков является ключом к эффективному построению модели.

Результаты могут быть улучшены с помощью сконструированных наборов зависимых от приложения функций, обычно создаваемых экспертом. Один из таких процессов называется функциональной инженерией . В качестве альтернативы используются общие методы уменьшения размерности, такие как:

Обработка изображений

Одной из очень важных областей применения является обработка изображений , в которой алгоритмы используются для обнаружения и выделения различных желаемых частей или форм (характеристик) оцифрованного изображения или видеопотока . Это особенно важно в области оптического распознавания символов .

Реализации

Многие программные пакеты для анализа данных обеспечивают извлечение признаков и уменьшение размеров. Общие среды численного программирования, такие как MATLAB , SciLab , NumPy , Sklearn и язык R, предоставляют некоторые из более простых методов извлечения признаков (например, анализ главных компонентов ) с помощью встроенных команд. Более конкретные алгоритмы часто доступны в виде общедоступных скриптов или сторонних надстроек. Существуют также программные пакеты, предназначенные для конкретных приложений машинного обучения, которые специализируются на извлечении функций.

Смотрите также

Рекомендации