Скачать книгу

на невидимых данных.

      – Перекрестная проверка – это еще один метод, при котором набор данных разделяется на несколько подмножеств (складок) для итеративного обучения и тестирования сети, получения более надежной оценки ее производительности.

      Эти методы предварительной обработки данных применяются для обеспечения того, чтобы данные находились в подходящей форме для обучения нейронных сетей. Очищая данные, обрабатывая отсутствующие значения, масштабируя функции и уменьшая размерность, мы можем улучшить производительность сети, повысить ее эффективность и добиться лучшего обобщения невидимых данных.

      Обработка отсутствующих данных

      Отсутствующие данные являются распространенной проблемой в наборах данных и могут существенно повлиять на производительность и надежность нейронных сетей. В этой главе мы рассмотрим различные методы эффективной обработки отсутствующих данных:

      1. Удаление отсутствующих данных:

      – Одним из простых подходов является удаление экземпляров или объектов, содержащих отсутствующие значения.

      – Если только небольшая часть данных имеет отсутствующие значения, удаление этих экземпляров или функций может не оказать существенного влияния на общий набор данных.

      – Однако этот подход следует использовать с осторожностью, так как он может привести к потере ценной информации, особенно если отсутствующие данные не являются случайными.

      2. Среднее/медианное условное исчисление:

      – Среднее или медианное условное исчисление предполагает замену отсутствующих значений средним или медианным значением соответствующего признака.

      – Этот метод предполагает, что отсутствующие значения отсутствуют случайным образом (MAR), а непропущенные значения обладают теми же статистическими свойствами.

      – Условное исчисление помогает сохранить размер выборки и поддерживать распределение признака, но может привести к смещению, если пропуск не является случайным.

      3. Регрессионное вменение:

      – Регрессионное условное исчисление предполагает прогнозирование пропущенных значений с использованием регрессионных моделей.

      – Регрессионная модель обучается на непропущенных значениях, а затем модель используется для прогнозирования отсутствующих значений.

      – Этот метод фиксирует взаимосвязи между отсутствующим признаком и другими признаками, что позволяет более точно вменить.

      – Тем не менее, он предполагает, что отсутствие функции может быть разумно предсказано другими переменными.

      4. Множественное вменение:

      – Множественное условное исчисление – это метод, при котором отсутствующие значения вменяются несколько раз для создания нескольких полных наборов данных.

      – Каждому набору данных присваиваются различные правдоподобные значения, основанные на наблюдаемых данных и их неопределенности.

      – Затем нейронная сеть обучается на каждом

Скачать книгу