Функция (машинное обучение) - Feature (machine learning)

В машинном обучении и распознавании образов , А функция является индивидуальным измеримым свойством или характеристики феномена. Выбор информативных, различающих и независимых признаков является важным элементом эффективных алгоритмов распознавания , классификации и регрессии . Функции обычно числовые, но при распознавании синтаксических образов используются такие структурные элементы, как строки и графики . Понятие «признак» связано с понятием объясняющей переменной, используемым в статистических методах, таких как линейная регрессия .

Классификация

Числовой признак удобно описывать вектором признаков. Одним из способов достижения двоичной классификации является использование функции линейного предсказания (связанной с перцептроном ) с вектором признаков в качестве входных данных. Метод состоит из вычисления скалярного произведения между вектором признаков и вектором весов, квалифицируя те наблюдения, результат которых превышает пороговое значение.

Алгоритмы классификации по вектору признаков включают классификацию ближайшего соседа , нейронные сети и статистические методы, такие как байесовские подходы .

Примеры

При распознавании символов функции могут включать гистограммы, подсчитывающие количество черных пикселей по горизонтали и вертикали, количество внутренних отверстий, обнаружение штрихов и многие другие.

В распознавании речи функции распознавания фонем могут включать в себя коэффициенты шума, длину звуков, относительную мощность, соответствие фильтрам и многие другие.

В алгоритмах обнаружения спама функции могут включать наличие или отсутствие определенных заголовков электронной почты, структуру электронной почты, язык, частоту использования определенных терминов, грамматическую правильность текста.

В компьютерном зрении существует большое количество возможных функций , таких как края и объекты.

Расширения

В распознавании и машинного обучения , вектор признаков является п-мерный вектор числовых функций , которые представляют какой - либо объект. Многие алгоритмы машинного обучения требуют числового представления объектов, поскольку такие представления облегчают обработку и статистический анализ. При представлении изображений значения признаков могут соответствовать пикселям изображения, тогда как при представлении текстов признаками могут быть частоты встречаемости текстовых терминов. Векторы признаков эквивалентны векторам независимых переменных, используемых в статистических процедурах, таких как линейная регрессия . Векторы признаков часто комбинируются с весами с использованием скалярного произведения , чтобы построить функцию линейного предсказания, которая используется для определения оценки для составления прогноза.

Векторное пространство , связанное с этими векторами часто называют особенность пространством . Чтобы уменьшить размерность пространства признаков, можно использовать ряд методов уменьшения размерности .

Возможности более высокого уровня могут быть получены из уже имеющихся функций и добавлены в вектор признаков; например, для изучения болезней полезен параметр «Возраст», который определяется как Возраст = «Год смерти» минус «Год рождения» . Этот процесс называется конструированием признаков . Построение функций - это применение набора конструктивных операторов к набору существующих функций, в результате чего создаются новые функции. Примеры таких конструктивных операторов включают проверку условий равенства {=, ≠}, арифметических операторов {+, -, ×, /}, операторов массива {max (S), min (S), среднего (S)} как а также другие более сложные операторы, например count (S, C), который подсчитывает количество признаков в векторе признаков S, удовлетворяющих некоторому условию C, или, например, расстояния до других классов распознавания, обобщенные некоторым принимающим устройством. Построение признаков долгое время считалось мощным инструментом для повышения точности и понимания структуры, особенно в задачах большой размерности. Приложения включают исследования распознавания болезней и эмоций по речи.

Выбор и извлечение

Первоначальный набор необработанных функций может быть избыточным и слишком большим для управления. Поэтому предварительный шаг во многих приложениях машинного обучения и распознавания образов состоит из выбора подмножества функций или создания нового сокращенного набора функций для облегчения обучения и улучшения обобщения и интерпретируемости.

Извлечение или выбор функций - это сочетание искусства и науки; разработка систем для этого известна как разработка функций . Это требует экспериментов с множеством возможностей и комбинации автоматизированных методов с интуицией и знаниями специалиста в предметной области . Автоматизация этого процесса - это изучение функций , когда машина не только использует функции для обучения, но и сама изучает функции.

Смотрите также

использованная литература