Скачать книгу

машинное обучение и его роль в бизнесе

1.1. Основные понятия и термины в машинном обучении

      Обучение с учителем – форма машинного обучения, где системе предоставляется обучающая выборка с входными данными и соответствующими выходными значениями.

      Признаки – характеристики или свойства объектов, которые описывают данные.

      Метки (выходные значения, целевые переменные) – значения, которые система должна предсказывать или классифицировать на основе входных данных.

      Модель – математическая функция, которая принимает входные данные и выдает предсказания или классификации.

      Обучение – процесс, в ходе которого модель настраивается на основе обучающей выборки для минимизации ошибки предсказания.

      Тестирование – процесс оценки производительности модели на новых данных, не участвующих в обучении, с целью оценки ее обобщающей способности.

      Переобучение – состояние модели, когда она становится слишком сложной и настраивается на шум в данных, в результате чего ее способность обобщения страдает.

      Недообучение – состояние модели, когда она слишком проста и не способна выявить сложные закономерности в данных, что приводит к низкой производительности на новых данных.

      Гиперпараметры – параметры модели, которые задаются вручную перед началом обучения и влияют на ее поведение и производительность, например, скорость обучения, количество эпох и размер скрытых слоев в нейронной сети.

      Алгоритмы обучения – методы и процедуры, используемые для обучения моделей на основе обучающих данных, например, линейная регрессия, метод опорных векторов (SVM), деревья решений, нейронные сети и другие.

      Регуляризация – техника, используемая для предотвращения переобучения модели путем добавления штрафов или ограничений на значения параметров модели.

      Кросс-валидация – метод оценки производительности модели, который заключается в разделении обучающей выборки на несколько подмножеств (фолдов) для обучения и тестирования модели, с последующим усреднением результатов.

      Метрики оценки – числовые значения, используемые для измерения качества предсказаний модели, например, точность, полнота, F-мера, среднеквадратическая ошибка (MSE) и другие.

      Разделение выборки – процесс разбиения общего набора данных на обучающую, тестовую и, иногда, валидационную выборки для обучения, тестирования и настройки модели соответственно.

      Размер выборки – количество образцов данных, доступных для обучения модели.

      Препроцессинг данных – этап подготовки данных перед обучением модели, включающий операции, такие как нормализация, масштабирование, заполнение пропущенных значений, кодирование категориальных признаков и другие.

      Распределение данных – статистическая характеристика данных, которая описывает их вероятностные свойства, такие как среднее значение, дисперсия и форма распределения.

      Ансамбли моделей – методы, которые объединяют предсказания нескольких моделей для получения более точного и устойчивого результата, например, бэггинг, случайный лес и градиентный бустинг.

      Большие данные – наборы данных, которые характеризуются объемом, разнообразием и скоростью обновления, требующие специальных подходов и инструментов для их анализа и обработки.

      Параметры модели – внутренние настраиваемые переменные, которые определяют ее поведение и способность предсказывать выходные значения. При обучении модели параметры настраиваются таким образом, чтобы минимизировать ошибку предсказания.

      Функция потерь – математическая функция, которая измеряет расхождение между предсказанными и фактическими значениями модели. Цель обучения заключается в минимизации значения функции потерь.

      Градиентный спуск – метод оптимизации, используемый для настройки параметров модели путем поиска оптимальных значений, исходя из градиента функции потерь. Градиентный спуск позволяет модели постепенно приближаться к минимуму функции потерь.

      Регрессия – задача машинного обучения, которая связана с предсказанием непрерывных выходных значений на основе входных данных. Например, регрессионная модель может прогнозировать цену недвижимости на основе ее характеристик.

      Классификация – задача машинного обучения, которая заключается в присвоении входным данным определенных категорий или классов. Классификационная модель может, например, определять, является ли электронное письмо спамом или не спамом.

      Нейронные сети – модели машинного обучения, которые состоят из искусственных нейронов, объединенных в слои. Нейронные сети способны обрабатывать сложные входные данные и выявлять скрытые закономерности. Они широко используются в различных областях, таких как компьютерное зрение и естественный язык.

      Сверточные нейронные сети – специализированный тип нейронных сетей, которые эффективно работают с входными данными в виде изображений. Они используют операцию свертки для извлечения локальных признаков из изображений

Скачать книгу