Методы обработки выборки исходных данных

Для использования в нейросетевом моделировании выборка исходных данных должна удовлетворять ряду требований, а именно соответствовать используемой структуре нейронной сети, содержать уникальные (неповторяющиеся) примеры, быть непротиворечивой и репрезентативной. Рассмотрим методы выборки данных согласно этим критериям.

Для использования в нейросетевом моделировании выборка исходных данных должна удовлетворять ряду требований, а именно соответствовать используемой структуре нейронной сети, содержать уникальные (неповторяющиеся) примеры, быть непротиворечивой и репрезентативной.

Соответствие используемой структуре сети, как правило, определяется имеющимся составом входных и выходных переменных, а также соотношением объема обучающей выборки и количества рассчитываемых весовых коэффициентов.

Обеспечение уникальности примеров исходной выборки позволяет исключить ситуацию, при которой по сути один и тот же пример участвует в настройке весовых коэффициентов в несколько раз чаще, чем все остальные.

Непротиворечивость выборки достигается за счет того, что в ней исключается присутствие примеров с одинаковыми (или очень близкими по величине) наборами значений входных переменных и серьезно различающимися значениями выходных переменных.

Анализ обучающей выборки на наличие повторяющихся и противоречивых примеров проводится следующим образом.

1. При настройке нейронной сети задается предельное значение параметра сходства входных переменных двух примеров dxпр.

2. Для каждой возможной пары примеров рассчитывается расстояние между входными векторами dxij:

.

3. Если найденное расстояние dxij меньше предельного значения dxпр, считается, что два данных примера имеют практически идентичный набор входных значений. При наличии хотя бы у одного из таких примеров аналогичной близости с третьим считается, что практически идентичный набор входных значений имеется у группы из трех примеров. Аналогичным образом может быть выделена группа из любого другого количества практически идентичных примеров.

4. Если в результате проведенного анализа была выделена группа из практически идентичных примеров, у них оценивается близость выходных векторов. Для этого задается предельное значение параметра сходства выходных переменных двух примеров dyпр и для каждой возможной пары примеров рассчитывается расстояние между выходными векторами dyij :

.

5. Аналогично принципу, изложенному в п. 3 данного алгоритма, анализируется близость между всеми выходными векторами группы примеров. Если все примеры оказались близки по выходному набору значений переменных, данные примеры считаются повторяющимися. Если хотя бы для одного примера все рассчитанные расстояния до остальных примеров группы превысили предельное значение, считается, что вся группа содержит противоречивые примеры.

6. Группа повторяющихся примеров заменяется одним единственным примером, в котором значения элементов входного и выходного векторов представляют собой средние арифметические соответствующих значений переменных примеров этой группы. При обнаружении противоречий в группе выполняется одно из следующих действий:

– исключаются все примеры, имеющие одинаковый вектор входных переменных, если хотя бы у двух из них обнаруживается одно или несколько отличающихся значений выходных переменных (из выборки полностью исключается вся группа);

– оставляется единственный из группы противоречивых примеров, если он встречается наибольшее количество раз по сравнению с остальными (оценивается по количеству раз выполнения условия: dyij dyпр);

– формируется и включается в выборку единственный пример, каждый элемент выходного вектора которого повторяется наибольшее количество раз в исходной группе противоречивых примеров;

– формируется и включается в выборку единственный пример, каждый элемент выходного вектора которого есть среднее арифметическое соответствующих элементов в исходной группе противоречивых элементов.

Репрезентативность выборки характеризуется наличием в ней широкого спектра значений входных переменных и их различных комбинаций, достаточных для получения нейросетевой модели, корректно и с требуемым уровнем погрешности решающей поставленную задачу также при любых комбинациях входных значений.

Практика применения искусственных нейронных сетей показывает, что в отдельных случаях имеющийся набор входных обучающих данных не может быть напрямую использован для обучения даже после обеспечения требований уникальности и непротиворечивости. Природа некоторых входных параметров нейросетевых моделей такова, что соответствующие им значения переменных изменяются в очень широком интервале, границы которого различаются на несколько порядков, причем пик распределения количества примеров оказывается практически полностью смещен к одной из границ интервала изменения переменной: минимальной или максимальной. Таким образом, в силу вполне объективных причин оказывается нарушенным требование репрезентативности.

Сделать выборку репрезентативной в этом случае можно, применив масштабирование одной или нескольких переменных. Применив его, мы добиваемся более равномерного распределения примеров в области допустимых значений переменных. В качестве метода масштабирования входных данных в данном случае может быть использовано их логарифмирование натуральным или десятичным логарифмом. При логарифмировании и последующем возвращении к исходному масштабу следует учитывать поправку значения переменной, выводящее ее из отрицательного интервала исходных значений.

Рассмотрим еще один способ предварительного масштабирования данных. Пусть одной из входных переменных нейросетевой модели является угловая градусная мера, которая может принимать целое значение в пределах от 0 до 359°. В данном случае значения переменной 0 и 359° по сути идентичны, однако разница между числами настолько высока, что при дальнейшей обработке они окажутся на противоположных границах пределов нормализации. Масштабирование градусной меры предусматривает замену одной входной переменной (угловой градусной меры) двумя другими (ее синусом и косинусом). Тогда между парами соответствующих значений, выраженных тригонометрическими функциями, будут иметь место минимальные отличия, что отвечает физическому смыслу исходной переменной и выразится в более корректной работе нейросетевой модели.

При оценке репрезентативности выборки анализируется распределение ее примеров по диапазонам внутри используемых пределов нормализации.

1. Задается количество диапазонов nд по каждой переменной, определяются длина и границы каждого диапазона, рассчитывается количество примеров выборки, попавших в каждый диапазон.

2. Для каждого отдельно взятого диапазона:

– задается уровень допустимого отклонения от равномерного распределения dр (обычно 10–20 %);

– рассчитывается среднее количество примеров в диапазоне:

;

– рассчитывается показатель репрезентативности (распределения примеров в каждом диапазоне Dd) как отношение их фактического числа в нем Nd, к среднему показателю по всем диапазонам:

.

Характеристики категорий значений показателя репрезентативности и соответствующие им рекомендации по работе с выборками данных представлены в таблице.

Характеристики и рекомендации на основе
показателя репрезентативности

Категория Dd

Характеристика категории и рекомендации

Dd < (1 – dр)

Диапазон описан недостаточно полно по сравнению с другими. Целесообразно дополнить выборку новыми примерами

(1 – dр) ≤ Dd ≤ (1 + dр)

Диапазон описан достаточно полно

Dd > (1 + dр)

Имеется избыток примеров выборки для данного диапазона. Целесообразно исключить часть примеров

 

Для принятия окончательного решения по работе с выборкой делается интегрированная оценка для каждой переменной по всем ее диапазонам.


искусственные нейронные сети
Гость, оставишь комментарий?
Имя:*
E-Mail:


 
Свежее новое
  • В Москве пройдет один из крупнейших хакатонов в мире в сфере искусственного интеллекта
  • PicsArt, ведущая творческая платформа для создания контента и визуализации историй в социальных сетях с более чем 100 миллионами активных
  • Сильный Искусственный Интеллект «Smart-MES» меняет взгляды на Технологическую Сингулярность
  • Учёные полагают, что Технологическая Сингулярность наступит тогда, когда Сильный Искусственный Интеллект будет способен самостоятельно создавать себе
  • Навыки голосовых помощников от Amazon, Google, Microsoft и Яндекс
  • После лекции директора по маркетингу умного помощника Алисы, Даниилы Колесникова, меня посетило вдохновение и любопытство. Так как мы сами сейчас
  • Конкурс идей от лаборатории Касперского - Kaspersky Start Russia
  • Если ты инициативный лидер, у тебя есть знания в области IT и тебе хотелось бы возглавить собственный проект в лаборатории Касперского, то подай
  • Смарт-города, умный транспорт и инновации для ЖКХ: что обсуждали на конференции «Интернет вещей»
  • Интернет вещей для промышленности, транспорта, ЖКХ и торговли: в Москве обсудили развитие и внедрение технологии. Конференция «Интернет вещей»,
Последние комментарии
5 лучших приложений искусственного интеллекта для вашего телефона Android
какой это искусственный разум мне смешно не пудрите людям мозги ,голосовой поисковик- это интелект ха ха ну вы тут и загибаете фантастику
5 лучших приложений искусственного интеллекта для вашего телефона Android
Всё вышеперечисленное назвать интеллектом можно с большущей натяжкой. Так, программки-автоматы с почти хорошим распознаванием несложной речи.
Сильный Искусственный Интеллект «Smart-MES» как основа Технологической Сингулярности России
У нас очень странный народ, если что не понимает, то обязательно надо сунуть в морду. Зачем? А не лучше ли поинтересоваться, почему именно так? У
Сильный Искусственный Интеллект «Smart-MES» как основа Технологической Сингулярности России
Господин Чернов. Поясню. Любой инструмент, даже прозаическая кофемолка, проходят процедуру стендовых испытаний. Сертификат соответствия
Сильный Искусственный Интеллект «Smart-MES» как основа Технологической Сингулярности России
     " И странная картина получается в коридорах власти ". Странная картина  получается, если полагать, что власть эта поставлена для решения задач
Мы в социальных сетях
Статистика
0  
Всего статей 1533
1  
Всего комментариев 65
0  
Пользователей 56