Методы обработки выборки исходных данных


Для использования в нейросетевом моделировании выборка исходных данных должна удовлетворять ряду требований, а именно соответствовать используемой структуре нейронной сети, содержать уникальные (неповторяющиеся) примеры, быть непротиворечивой и репрезентативной. Рассмотрим методы выборки данных согласно этим критериям.

Для использования в нейросетевом моделировании выборка исходных данных должна удовлетворять ряду требований, а именно соответствовать используемой структуре нейронной сети, содержать уникальные (неповторяющиеся) примеры, быть непротиворечивой и репрезентативной.

Соответствие используемой структуре сети, как правило, определяется имеющимся составом входных и выходных переменных, а также соотношением объема обучающей выборки и количества рассчитываемых весовых коэффициентов.

Обеспечение уникальности примеров исходной выборки позволяет исключить ситуацию, при которой по сути один и тот же пример участвует в настройке весовых коэффициентов в несколько раз чаще, чем все остальные.

Непротиворечивость выборки достигается за счет того, что в ней исключается присутствие примеров с одинаковыми (или очень близкими по величине) наборами значений входных переменных и серьезно различающимися значениями выходных переменных.

Анализ обучающей выборки на наличие повторяющихся и противоречивых примеров проводится следующим образом.

1. При настройке нейронной сети задается предельное значение параметра сходства входных переменных двух примеров dxпр.

2. Для каждой возможной пары примеров рассчитывается расстояние между входными векторами dxij:

.

3. Если найденное расстояние dxij меньше предельного значения dxпр, считается, что два данных примера имеют практически идентичный набор входных значений. При наличии хотя бы у одного из таких примеров аналогичной близости с третьим считается, что практически идентичный набор входных значений имеется у группы из трех примеров. Аналогичным образом может быть выделена группа из любого другого количества практически идентичных примеров.

4. Если в результате проведенного анализа была выделена группа из практически идентичных примеров, у них оценивается близость выходных векторов. Для этого задается предельное значение параметра сходства выходных переменных двух примеров dyпр и для каждой возможной пары примеров рассчитывается расстояние между выходными векторами dyij :

.

5. Аналогично принципу, изложенному в п. 3 данного алгоритма, анализируется близость между всеми выходными векторами группы примеров. Если все примеры оказались близки по выходному набору значений переменных, данные примеры считаются повторяющимися. Если хотя бы для одного примера все рассчитанные расстояния до остальных примеров группы превысили предельное значение, считается, что вся группа содержит противоречивые примеры.

6. Группа повторяющихся примеров заменяется одним единственным примером, в котором значения элементов входного и выходного векторов представляют собой средние арифметические соответствующих значений переменных примеров этой группы. При обнаружении противоречий в группе выполняется одно из следующих действий:

– исключаются все примеры, имеющие одинаковый вектор входных переменных, если хотя бы у двух из них обнаруживается одно или несколько отличающихся значений выходных переменных (из выборки полностью исключается вся группа);

– оставляется единственный из группы противоречивых примеров, если он встречается наибольшее количество раз по сравнению с остальными (оценивается по количеству раз выполнения условия: dyij dyпр);

– формируется и включается в выборку единственный пример, каждый элемент выходного вектора которого повторяется наибольшее количество раз в исходной группе противоречивых примеров;

– формируется и включается в выборку единственный пример, каждый элемент выходного вектора которого есть среднее арифметическое соответствующих элементов в исходной группе противоречивых элементов.

Репрезентативность выборки характеризуется наличием в ней широкого спектра значений входных переменных и их различных комбинаций, достаточных для получения нейросетевой модели, корректно и с требуемым уровнем погрешности решающей поставленную задачу также при любых комбинациях входных значений.

Практика применения искусственных нейронных сетей показывает, что в отдельных случаях имеющийся набор входных обучающих данных не может быть напрямую использован для обучения даже после обеспечения требований уникальности и непротиворечивости. Природа некоторых входных параметров нейросетевых моделей такова, что соответствующие им значения переменных изменяются в очень широком интервале, границы которого различаются на несколько порядков, причем пик распределения количества примеров оказывается практически полностью смещен к одной из границ интервала изменения переменной: минимальной или максимальной. Таким образом, в силу вполне объективных причин оказывается нарушенным требование репрезентативности.

Сделать выборку репрезентативной в этом случае можно, применив масштабирование одной или нескольких переменных. Применив его, мы добиваемся более равномерного распределения примеров в области допустимых значений переменных. В качестве метода масштабирования входных данных в данном случае может быть использовано их логарифмирование натуральным или десятичным логарифмом. При логарифмировании и последующем возвращении к исходному масштабу следует учитывать поправку значения переменной, выводящее ее из отрицательного интервала исходных значений.

Рассмотрим еще один способ предварительного масштабирования данных. Пусть одной из входных переменных нейросетевой модели является угловая градусная мера, которая может принимать целое значение в пределах от 0 до 359°. В данном случае значения переменной 0 и 359° по сути идентичны, однако разница между числами настолько высока, что при дальнейшей обработке они окажутся на противоположных границах пределов нормализации. Масштабирование градусной меры предусматривает замену одной входной переменной (угловой градусной меры) двумя другими (ее синусом и косинусом). Тогда между парами соответствующих значений, выраженных тригонометрическими функциями, будут иметь место минимальные отличия, что отвечает физическому смыслу исходной переменной и выразится в более корректной работе нейросетевой модели.

При оценке репрезентативности выборки анализируется распределение ее примеров по диапазонам внутри используемых пределов нормализации.

1. Задается количество диапазонов nд по каждой переменной, определяются длина и границы каждого диапазона, рассчитывается количество примеров выборки, попавших в каждый диапазон.

2. Для каждого отдельно взятого диапазона:

– задается уровень допустимого отклонения от равномерного распределения dр (обычно 10–20 %);

– рассчитывается среднее количество примеров в диапазоне:

;

– рассчитывается показатель репрезентативности (распределения примеров в каждом диапазоне Dd) как отношение их фактического числа в нем Nd, к среднему показателю по всем диапазонам:

.

Характеристики категорий значений показателя репрезентативности и соответствующие им рекомендации по работе с выборками данных представлены в таблице.

Характеристики и рекомендации на основе
показателя репрезентативности

Категория Dd

Характеристика категории и рекомендации

Dd < (1 – dр)

Диапазон описан недостаточно полно по сравнению с другими. Целесообразно дополнить выборку новыми примерами

(1 – dр) ≤ Dd ≤ (1 + dр)

Диапазон описан достаточно полно

Dd > (1 + dр)

Имеется избыток примеров выборки для данного диапазона. Целесообразно исключить часть примеров

 

Для принятия окончательного решения по работе с выборкой делается интегрированная оценка для каждой переменной по всем ее диапазонам.


искусственные нейронные сети
Гость, оставишь комментарий?
Имя:*
E-Mail:


Свежее новое
  • Всё об IoT-технологиях и не только: что ждёт гостей форума «Интернет вещей» в Москве?
  • 25 сентября в Москве состоится уже пятый международный форум «Интернет вещей», посвящённый IoT-рынку в России. Событие пройдёт в формате «конференция
  • Нейронную сеть обучили рассчитывать оптимальную дозировку лекарств для химиотерапии
  • Американские ученые из Массачусетского технологического института использовали искусственный интеллект для оптимизации схем лечения больных раком.
  • Искусственный интеллект вычислит хакеров по исходному коду программ
  • Группа ученых из университетов Вашингтона и Дрекселя разработала интеллектуальную систему, способную распознавать авторство компьютерных программ по
  • Искусственный интеллект будет принимать ЕГЭ у российских школьников
  • Оценка знаний российских школьников в рамках единого государственного экзамена (ЕГЭ) будет вестись системами искусственного интеллекта. Об этом
  • Хакеры используют искусственный интеллект для обхода систем защиты
  • Программисты из компании IBM продемонстрировали, как алгоритмы машинного обучения с открытым исходным кодом могут быть использованы злоумышленниками
Мы в социальных сетях
Статистика
2  
Всего статей 1494
1  
Всего комментариев 44
0  
Пользователей 38