Исследователи, занимающиеся нейросетевым моделированием, зачастую сталкиваются с проблемой ограниченного набора обучающих данных. Как решить данную проблему рассмотрим в статье.
Исследователи, занимающиеся нейросетевым моделированием, зачастую сталкиваются с проблемой ограниченного набора обучающих данных. Это может быть связано как с проблемами поиска источника этих данных, так и с большой размерностью входных и выходных переменных решаемой задачи. Возникает дилемма: либо использовать в своей работе нейронную сеть с заведомо более сложной структурой, в результате чего она скорее всего будет просто воспроизводить запомненные данные, но не обобщать их, либо отказаться от нейросетевого моделирования вовсе и искать другие методы решения.
Если всё же принято решения использовать в работе нейронную сеть, современные исследователи предлагают несколько путей решения проблемы и, соответственно, методы, их реализующие:
– уменьшение объёма или отказ от тестовой выборки;
– псевдослучайная генерация новых примеров;
– структурные изменения нейронной сети или нейросетевой модели.
Полный отказ от использования тестовой выборки – наиболее часто используемый, но наименее эффективный метод решения проблемы. Его главное преимущества – простота реализации и экономия времени. Однако, каким может быть эффект от такого решения, сложно предугадать. Если закономерности, связывающие входные и выходные переменные, достаточно просты, полученная нейросетевая модель может оказаться достаточно адекватной, однако возможность проверить это появится уже только на стадии практической эксплуатации, когда цена решения, принятого на основе результатов интерпретации выходных данных, несоизмеримо повышается. В случае же сложных или плохо изученных закономерностей лучше вообще сразу отказаться от такого подхода.
В статье [1] предлагается метод перекрёстной вариации. Суть его в том, что из выборки поочерёдно исключается один пример, без которого нейронная сеть обучается заново на оставшихся примерах. После обучения считается единственное значение ошибки для исключённого примера. Аналогично поступают со всеми остальными примерами, исключая из выборки и возвращая в неё предыдущие. Таким образом, каждый пример может считаться как обучающим, так и тестовым и, зная ошибки всех тестовых примеров, можно их усреднить.
Данный метод даёт гораздо более точную оценку тестирования нейронной сети, чем прямое использование для тестирования, выборки, только что использованной для обучения. Недостатки данного подхода заключаются в необходимости многократного повторения обучающей процедуры и в возможной неточности оценок отдельных ошибок тестовых примеров из-за влияния стохастической составляющей процесса обучения.
В статье [1] также приводится еще один метод оценки качества работы нейронной сети в случае малой выборки, который носит название бутстрэп (bootstrap). Данный метод предусматривает многократное формирование различных обучающих выборок на основе базовой обучающей выборки небольшого объёма. При этом примеры базовой выборки могут быть задействованы различное количество раз, а некоторые не использоваться вовсе. Для каждой из сформированных таким образом выборок осуществляется независимый процесс обучения нейронной сети и оценки её ошибок, после чего полученные данные обобщаются.
В статье [2] в качестве решения поставленной проблемы предлагается использовать теорию и методы нечёткой логики и нечётких множеств для решения проблемы малого объёма обучающих данных в диффузионных нейронных сетях. Данные сети имеют большое количество входных параметров, и, как следствие, очень насыщенную структуру. Подход предполагает составление нечётких «если–то» правил для описания связей между различными параметрами, которые позволяют преодолеть проблему противоречивости и недостатка данных. С использованием этих правил и методов дефаззификации получаются новые примеры, за счёт которых расширяется имеющаяся обучающая выборка.
В работе [3] предложен ещё один подход к решению проблемы малого объёма обучающих данных, заключающийся в разделении входных и выходных переменных на небольшие группы, применении к этим группам структурно гораздо более простых искусственных нейронных сетей – однослойных перцептронов, для обучения которых оказывается достаточно имеющегося объёма данных, и последующем объединении перцептронов в единую структуру перцептронного комплекса. Подробнее данный подход описан в статье: «Перцептронные комплексы для нейросетевого моделирования при малых объёмах обучающих выборок».
Выбор метода решения проблемы недостаточности обучающих данных остаётся за исследователем. У каждого из них есть свои плюсы и минусы. Однако не следует забывать, что всё же самый лучший способ улучшить адекватность нейросетевой модели – получить недостающие данные из первоисточника.
Статья подготовлена по материалам публикаций:
1. Коробкова С. В. Проблемы эффективной аппроксимации многомерных функций с помощью нейронных сетей/ Известия Южного федерального университета. Технические науки. – 2006. – Т. 58, № 3. – С. 121–127.
2. Huang C., Moraga C. A Diffusion-Neural-Network for Learning from Small Samples/ International Journal of Approximate Reasoning. – 2004. – V. 35 P. 137–161.
3. Дударов С. П. Нейросетевое моделирование на основе перцептронных комплексов при малых объемах обучающих выборок/ С. П. Дударов, А. Н. Диев. – Математические методы в технике и технологиях – ММТТ-26: сб. трудов XXVI Междунар. науч. конф. Секции 6, 7, 8, 9. – Нижний Новгород: Нижегород. гос. техн. ун-т, 2013. – с. 114–116.