Методы обработки выборки исходных данных

Для использования в нейросетевом моделировании выборка исходных данных должна удовлетворять ряду требований, а именно соответствовать используемой структуре нейронной сети, содержать уникальные (неповторяющиеся) примеры, быть непротиворечивой и репрезентативной. Рассмотрим методы выборки данных согласно этим критериям.

Для использования в нейросетевом моделировании выборка исходных данных должна удовлетворять ряду требований, а именно соответствовать используемой структуре нейронной сети, содержать уникальные (неповторяющиеся) примеры, быть непротиворечивой и репрезентативной.

Соответствие используемой структуре сети, как правило, определяется имеющимся составом входных и выходных переменных, а также соотношением объема обучающей выборки и количества рассчитываемых весовых коэффициентов.

Обеспечение уникальности примеров исходной выборки позволяет исключить ситуацию, при которой по сути один и тот же пример участвует в настройке весовых коэффициентов в несколько раз чаще, чем все остальные.

Непротиворечивость выборки достигается за счет того, что в ней исключается присутствие примеров с одинаковыми (или очень близкими по величине) наборами значений входных переменных и серьезно различающимися значениями выходных переменных.

Анализ обучающей выборки на наличие повторяющихся и противоречивых примеров проводится следующим образом.

1. При настройке нейронной сети задается предельное значение параметра сходства входных переменных двух примеров dxпр.

2. Для каждой возможной пары примеров рассчитывается расстояние между входными векторами dxij:

.

3. Если найденное расстояние dxij меньше предельного значения dxпр, считается, что два данных примера имеют практически идентичный набор входных значений. При наличии хотя бы у одного из таких примеров аналогичной близости с третьим считается, что практически идентичный набор входных значений имеется у группы из трех примеров. Аналогичным образом может быть выделена группа из любого другого количества практически идентичных примеров.

4. Если в результате проведенного анализа была выделена группа из практически идентичных примеров, у них оценивается близость выходных векторов. Для этого задается предельное значение параметра сходства выходных переменных двух примеров dyпр и для каждой возможной пары примеров рассчитывается расстояние между выходными векторами dyij :

.

5. Аналогично принципу, изложенному в п. 3 данного алгоритма, анализируется близость между всеми выходными векторами группы примеров. Если все примеры оказались близки по выходному набору значений переменных, данные примеры считаются повторяющимися. Если хотя бы для одного примера все рассчитанные расстояния до остальных примеров группы превысили предельное значение, считается, что вся группа содержит противоречивые примеры.

6. Группа повторяющихся примеров заменяется одним единственным примером, в котором значения элементов входного и выходного векторов представляют собой средние арифметические соответствующих значений переменных примеров этой группы. При обнаружении противоречий в группе выполняется одно из следующих действий:

– исключаются все примеры, имеющие одинаковый вектор входных переменных, если хотя бы у двух из них обнаруживается одно или несколько отличающихся значений выходных переменных (из выборки полностью исключается вся группа);

– оставляется единственный из группы противоречивых примеров, если он встречается наибольшее количество раз по сравнению с остальными (оценивается по количеству раз выполнения условия: dyij dyпр);

– формируется и включается в выборку единственный пример, каждый элемент выходного вектора которого повторяется наибольшее количество раз в исходной группе противоречивых примеров;

– формируется и включается в выборку единственный пример, каждый элемент выходного вектора которого есть среднее арифметическое соответствующих элементов в исходной группе противоречивых элементов.

Репрезентативность выборки характеризуется наличием в ней широкого спектра значений входных переменных и их различных комбинаций, достаточных для получения нейросетевой модели, корректно и с требуемым уровнем погрешности решающей поставленную задачу также при любых комбинациях входных значений.

Практика применения искусственных нейронных сетей показывает, что в отдельных случаях имеющийся набор входных обучающих данных не может быть напрямую использован для обучения даже после обеспечения требований уникальности и непротиворечивости. Природа некоторых входных параметров нейросетевых моделей такова, что соответствующие им значения переменных изменяются в очень широком интервале, границы которого различаются на несколько порядков, причем пик распределения количества примеров оказывается практически полностью смещен к одной из границ интервала изменения переменной: минимальной или максимальной. Таким образом, в силу вполне объективных причин оказывается нарушенным требование репрезентативности.

Сделать выборку репрезентативной в этом случае можно, применив масштабирование одной или нескольких переменных. Применив его, мы добиваемся более равномерного распределения примеров в области допустимых значений переменных. В качестве метода масштабирования входных данных в данном случае может быть использовано их логарифмирование натуральным или десятичным логарифмом. При логарифмировании и последующем возвращении к исходному масштабу следует учитывать поправку значения переменной, выводящее ее из отрицательного интервала исходных значений.

Рассмотрим еще один способ предварительного масштабирования данных. Пусть одной из входных переменных нейросетевой модели является угловая градусная мера, которая может принимать целое значение в пределах от 0 до 359°. В данном случае значения переменной 0 и 359° по сути идентичны, однако разница между числами настолько высока, что при дальнейшей обработке они окажутся на противоположных границах пределов нормализации. Масштабирование градусной меры предусматривает замену одной входной переменной (угловой градусной меры) двумя другими (ее синусом и косинусом). Тогда между парами соответствующих значений, выраженных тригонометрическими функциями, будут иметь место минимальные отличия, что отвечает физическому смыслу исходной переменной и выразится в более корректной работе нейросетевой модели.

При оценке репрезентативности выборки анализируется распределение ее примеров по диапазонам внутри используемых пределов нормализации.

1. Задается количество диапазонов nд по каждой переменной, определяются длина и границы каждого диапазона, рассчитывается количество примеров выборки, попавших в каждый диапазон.

2. Для каждого отдельно взятого диапазона:

– задается уровень допустимого отклонения от равномерного распределения dр (обычно 10–20 %);

– рассчитывается среднее количество примеров в диапазоне:

;

– рассчитывается показатель репрезентативности (распределения примеров в каждом диапазоне Dd) как отношение их фактического числа в нем Nd, к среднему показателю по всем диапазонам:

.

Характеристики категорий значений показателя репрезентативности и соответствующие им рекомендации по работе с выборками данных представлены в таблице.

Характеристики и рекомендации на основе
показателя репрезентативности

Категория Dd

Характеристика категории и рекомендации

Dd < (1 – dр)

Диапазон описан недостаточно полно по сравнению с другими. Целесообразно дополнить выборку новыми примерами

(1 – dр) ≤ Dd ≤ (1 + dр)

Диапазон описан достаточно полно

Dd > (1 + dр)

Имеется избыток примеров выборки для данного диапазона. Целесообразно исключить часть примеров

 

Для принятия окончательного решения по работе с выборкой делается интегрированная оценка для каждой переменной по всем ее диапазонам.


искусственные нейронные сети
Гость, оставишь комментарий?
Имя:*
E-Mail:


 
Свежее новое
  • Четверть населения Финляндии, будет обучена работе с роботами и нейросетями.
  • Финляндии предстоит расти и расти, перед тем, как она сможет выйти на мировой рынок с технологиями искусственного интеллекта и все же, это не мешает
  • Как искусственный интеллект передает информацию от людей, потерявших способность говорить?
  • Несколько групп ученых смогли преобразовать команды головного мозга в речь с помощью компьютера-синтезатора. Для того, чтобы это сделать, они
  • К 2025 году, роботы строители, могут составить 10 процентов рабочей силы Японии.
  • Япония является одной из стран, в которой автоматизация процесса строительства, происходит очень медленно. Роботы на практике показывают лишь то, что
  • Интуитивный Алгоритм Технологической Сингулярности на основе Сильного Искусственного Интеллекта «Smart-MES»
  • Технологическая Сингулярность означает такое быстрое развитие прогресса, связанное с созданием сообщества Сильных Искусственных Интеллектов, когда
  • Видеокамеры научились различать телефоны в руках автомобилистов
  • Совсем недавно, в Москве, Сергей Собянин сделал официальное заявление, что с 2019 года в Москве заработают камеры, которые будут отслеживать опасных
Последние комментарии
Каким был первый робот в мире? Происхождение слова "Робот"
Восхищения нет предела делу ваших рук и идей. Хочется склонить голову перед вашим трудом, хотя твердо придерживаюсь Библии (не поклоняться идолам)
Как работает Любовь? Квантовая связь нейронной активности Людей
Я думаю, когда начнется квантовое взаимодействие мржду человеком и ИИ это и будет началом конца.
Как работает Любовь? Квантовая связь нейронной активности Людей
Как вы считаете, возможно ли образование квантовых взаимодействий между человеком и ИИ? 
Сильный Искусственный Интеллект «Smart-MES» как основа Технологической Сингулярности России
А почему бы сразу СИИ не запустить в другую галактику, может там нет коррупции, воровства, плебейства и прочей муры, которая не только мешает
Искусственный Интеллект. Концепция развития и внедрения Искусственного Интеллекта (Искусственной Аналитики)
Согласен. проблема ИИ не в наборе задач. Главная проблема - познание процесса мышления как феномена физиологии головного мозга человека.
Мы в социальных сетях
Статистика
0  
Всего статей 1545
0  
Всего комментариев 76
0  
Пользователей 69