Искусственные нейронные сети на основе радиально-симметричных (радиально-базисных) функций могут использоваться для решения широкого круга задач, среди которых наиболее частые – аппроксимация, классификация и кластеризация данных.
Основное свойство радиально-симметричных функций – это монотонное и симметричное относительно некоторой вертикальной оси симметрии изменение (убывание или возрастание) их откликов.
В качестве примера такой функции может служить выражение функции Гаусса . Именно эта функция наиболее часто используется в рассматриваемой архитектуре нейронных сетей, однако главным образом, в ее многомерном случае:
, (1)
где вектор центров (координат вертикальных осей симметрии) множества радиально-симметричных функций; норма вектора отклонений входной переменной от центров радиально-симметричных функций. Параметр α связан с радиусом рассеяния входных переменных r и может быть заменен в выражении (1) на соответствующее отношение:
.
Норма разности векторов рассчитывается как евклидово расстояние:
.
На рис. 1 приведена типовая структура искусственной нейронной сети на основе радиально-симметричных функций.
Рис. 1. Структура нейронной сети на основе радиально-симметричных
функций
Данная структура содержит два слоя нейронов. Выходы первого слоя активируются множеством радиально-симметричных функций (1). Фактически они обрабатывают вектор входных значений, определяя степень близости каждого из них к центрам радиально-симметричных функций. Выходы нейронов второго слоя (т. е. выходы всей нейронной сети) – это линейные комбинации выходов первого слоя.
Состав и количество входов и выходов определяются классом решаемой задачи. При аппроксимации данных входы – это аргументы аппроксимирующей зависимости, а выходы – возвращаемые ею значения. При кластеризации или классификации данных входы – это характеристические признаки, по которым различаются объекты, относимые к кластерам или классам, а выходы указывают на соответствующий входам кластер или класс.
Количество скрытых элементов также зависит от решаемой задачи. Если это аппроксимация данных, оно может быть любым. В случае кластеризации или классификации данных должно соответствовать количеству кластеров или эталонных образов классов.
Жизненный цикл искусственных нейронных сетей на основе радиально-симметричных функций, как и для большинства других архитектур, включает две стадии: обучения и практического использования. В свою очередь, на стадии обучения можно выделить также два этапа: настройка нейронной сети и оптимизация синаптических коэффициентов линейного выходного слоя.
На этапе настройки рассматриваемой нейронной сети необходимо определить центры cи радиусы rрадиальных элементов (нейронов скрытого слоя).
1. При наличии небольшого количества эталонных образцов для обучения в качестве центров радиально-симметричных функций следует выбирать соответствующие им вектора. Если объем обучающей выборки достаточно велик, в качестве центров могут быть использованы:
– центры потенциальных кластеров, по которым можно распределить все примеры обучающей выборки вручную или с использованием дополнительных алгоритмов кластеризации, в том числе других архитектур нейронных сетей;
– отдельные случайные примеры обучающей выборки.
Следует заметить, что второй вариант лучше применять при большом количестве нейронов в скрытом слое.
2. Выбор радиусов радиальных элементов определяется требуемым видом радиально-симметричной функции. При больших значениях параметра a график функции слишком острый, а это значит, что сеть не будет корректно интерполировать данные между известными точками на достаточно большом удалении от них, так как теряет способность к обобщению обучающих данных. Наоборот, при чрезмерно малых значениях параметра a сеть становится невосприимчивой к отдельным деталям.
С учетом вышесказанного радиусы могут задаваться следующими способами:
– пользователем нейронной сети в явном виде на основе эвристического подбора;
– рассчитываться автоматически по среднему расстоянию до нескольких (в зависимости от общего объема обучающей выборки и количества скрытых нейронов) ближайших примеров.
На этапе оптимизации весовых коэффициентов линейного выходного слоя последовательно выполняются следующие действия.
1. Рассчитывается характеристическая матрица значений радиально-симметричных элементов всех обучающих примеров:
.
Количество строк данной матрицы равно количеству примеров обучающей выборки. Количество столбцов – количеству радиальных элементов.
2. Методами линейной алгебры рассчитывается матрица весовых коэффициентов выходного слоя нейронов:
, (2)
где матрица выходов обучающих примеров содержит столбцы в количестве, равном числу обучающих примеров, и строки в количестве, соответствующем числу выходов нейронной сети:
.
Среди преимуществ рассматриваемой архитектуры нейронных сетей выделяют:
– наличие единственного скрытого слоя, достаточного для моделирования ярко выраженных нелинейных зависимостей;
– простота алгоритма оптимизации весовых коэффициентов;
– гарантированное нахождение глобального оптимума функции ошибки при нахождении весовых коэффициентов нейронов выходного слоя;
– высокая скорость обучения.
К ограничениям или недостаткам нейронных сетей на основе радиально-симметричных функций можно отнести:
– необходимость специальной настройки параметров радиально-симметричных функций, сложность настройки при большом количестве скрытых радиальных элементов;
– невозможность экстраполирования модели за пределами исходного интервала изменения входных значений обучающей выборки.
Рассмотрим пример решения задачи аппроксимации данных с использованием искусственной нейронной сети на основе радиально-симметричных функций. Дана экспериментальная зависимость в виде набора из 9 пар точек: значений независимой переменной x и соответствующих им значений функции отклика y, представленных в таблице.
Экспериментальная выборка данных
№ примера |
x |
y |
1 |
–2,0 |
–0,48 |
2 |
–1,5 |
–0,78 |
3 |
–1,0 |
–0,83 |
4 |
–0,5 |
–0,67 |
5 |
0,0 |
–0,20 |
6 |
0,5 |
0,70 |
7 |
1,0 |
1,48 |
8 |
1,5 |
1,17 |
9 |
2,0 |
0,20 |
Требуется, используя данную выборку в качестве обучающей, получить аппроксимирующую модель в виде нейронной сети на основе радиально-симметричных функций. Единственный вход данной сети – значение независимой переменной, единственный выход – соответствующее ей значение функции.
Зададимся структурой сети (рис. 2), включающей 5 скрытых нейронов (радиальных элементов). В соответствии с имеющимся алгоритмом требуется указать центры и радиусы скрытых радиальных элементов. Используем в качестве центров радиальных элементов значения независимой переменной в опытах 1, 3, 5, 7 и 9, а для каждого элемента примем r = 1,5, тогда параметр α будет равен 0,22.
Рис. 2. Структура аппроксимирующей нейронной сети
В результате применения принятых настроек нейронов скрытого слоя и соотношения (1) получим характеристическую матрицу:
Используем соотношение (2) для определения синаптических коэффициентов выходного нейрона. В результате получим следующий вектор-столбец:
На рис. 3 показано положение исходных экспериментальных точек относительно графика полученной нейросетевой аппроксимирующей зависимости. Как видно, на всем исследуемом диапазоне точки находятся очень близко к линии графика. При использованных настройках нейронной сети средняя относительная ошибка аппроксимации, рассчитанная для экспериментальных точек, составила 3,9 %.
Рис. 3. График нейросетевой аппроксимирующей зависимости
Повысить точность решения задачи аппроксимации с использованием искусственной нейронной сети на основе радиально-симметричных функций можно за счет добавления новых радиальных элементов или изменения настроек имеющихся скрытых нейронов. В пределе количество радиальных элементов может совпадать с количеством экспериментальных точек. В этом случае задача сводится к интерполированию экспериментальных данных, в результате чего значения, рассчитываемые нейронной сетью, будут в точности повторять результаты эксперимента в соответствующих точках.