Скачать книгу

а в PCA – перпендикулярно главной компоненте (рисунок 2.16).

      Рисунок 2.16. Представление задач линейной регрессии (слева) и PCA (справа)

      Примечание. Полный текст программы расчета главных компонент приведен в MLF_PCA_numpy_001.ipynb – https://www.dropbox.com/s/65y1z7svf7epx1q/MLF_PCA_numpy_001.html?dl=0

      Библиотека scikit-learn имеет в своем составе модуль PCA, с помощью которого можно вычислить главные компоненты и найти количество главных компонент, необходимых для обеспечения заданной вариативности новых параметров z.

      Примечание. Закрепить навыки работы с PCA в составе библиотеки scikit-learn можно, выполнив задания лабораторной работы ML_lab08_Principal Component Analysis – https://www.dropbox.com/sh/xnjiztxoxpqwos3/AADoUPfNeMnEXapbqb3JHHvla?dl=0

      2.14. Контрольные вопросы

      Какие параметры регулируют работу алгоритма k-NN и позволяют улучшить качество классификации?

      Что такое ядро в алгоритме опорных векторов?

      Приведите выражение функции стоимости алгоритма опорных векторов.

      Как обучается алгоритм Naïve Bayes?

      Укажите достоинства алгоритма Naïve Bayes.

      Укажите недостатки алгоритма Naïve Bayes.

      Что дает сглаживание по Лапласу в алгоритме Naïve Bayes?

      Чем помогает применение логарифмов в алгоритме Naïve Bayes?

      Что такое бустинг?

      В чем заключается преимущество бустинга над деревьями решений?

      Что такое PCA?

      Каково минимальное количество главных компонент, получаемых с помощью PCA?

      3. Оценка качества методов ML

      Для решения конкретной задачи с помощью ML необходимо выбрать соответствующий метод, который дает наилучший результат.

      Примечание. Под методом машинного обучения мы понимаем в данном случае реализацию алгоритма или некоторой модели вычислений, которая решает задачу классификации, регрессии или кластеризации.

      Для выбора такого метода требуются некоторые показатели, позволяющие оценить методы ML и сравнить их между собой.

      Примечание. Программу, которая реализует большую часть примеров данного раздела, можно получить по ссылке – https://www.dropbox.com/s/nc1qx6tjw11t5gs/MLF_Evaluation001.ipynb?dl=0

      При этом, как правило, на начальном этапе отбираются методы, удовлетворяющие ограничениям по вычислительной мощности, объему и характеристикам данных, которые есть в распоряжении специалиста по обработке данных. Например, методы глубокого обучения, решающие сложные задачи машинного обучения с высокой точностью, можно использовать, если в распоряжении исследователя имеются большие по объему данные и значительные вычислительные мощности. С другой стороны, если количество примеров меньше числа свойств, то затруднено применение машин опорных векторов (SVM), поскольку они подвержены в таком случае переобучению. Таким образом, отобрав некоторое множество методов для решения задачи и изменяя их параметры (например, коэффициент регуляризации, число слоев нейронных сетей и т.п.), необходимо оценивать результаты их работы, используя один или несколько показателей.

      Примечание. Рекомендуется выбрать одну, возможно, интегральную метрику для оценки качества.

      К

Скачать книгу