ТОП просматриваемых книг сайта:
Введение в машинное обучение. Равиль Ильгизович Мухамедиев
Читать онлайн.Название Введение в машинное обучение
Год выпуска 2023
isbn
Автор произведения Равиль Ильгизович Мухамедиев
Издательство Автор
Рисунок 2.16. Представление задач линейной регрессии (слева) и PCA (справа)
Примечание. Полный текст программы расчета главных компонент приведен в MLF_PCA_numpy_001.ipynb – https://www.dropbox.com/s/65y1z7svf7epx1q/MLF_PCA_numpy_001.html?dl=0
Библиотека scikit-learn имеет в своем составе модуль PCA, с помощью которого можно вычислить главные компоненты и найти количество главных компонент, необходимых для обеспечения заданной вариативности новых параметров z.
Примечание. Закрепить навыки работы с PCA в составе библиотеки scikit-learn можно, выполнив задания лабораторной работы ML_lab08_Principal Component Analysis – https://www.dropbox.com/sh/xnjiztxoxpqwos3/AADoUPfNeMnEXapbqb3JHHvla?dl=0
2.14. Контрольные вопросы
Какие параметры регулируют работу алгоритма k-NN и позволяют улучшить качество классификации?
Что такое ядро в алгоритме опорных векторов?
Приведите выражение функции стоимости алгоритма опорных векторов.
Как обучается алгоритм Naïve Bayes?
Укажите достоинства алгоритма Naïve Bayes.
Укажите недостатки алгоритма Naïve Bayes.
Что дает сглаживание по Лапласу в алгоритме Naïve Bayes?
Чем помогает применение логарифмов в алгоритме Naïve Bayes?
Что такое бустинг?
В чем заключается преимущество бустинга над деревьями решений?
Что такое PCA?
Каково минимальное количество главных компонент, получаемых с помощью PCA?
3. Оценка качества методов ML
Для решения конкретной задачи с помощью ML необходимо выбрать соответствующий метод, который дает наилучший результат.
Примечание. Под методом машинного обучения мы понимаем в данном случае реализацию алгоритма или некоторой модели вычислений, которая решает задачу классификации, регрессии или кластеризации.
Для выбора такого метода требуются некоторые показатели, позволяющие оценить методы ML и сравнить их между собой.
Примечание. Программу, которая реализует большую часть примеров данного раздела, можно получить по ссылке – https://www.dropbox.com/s/nc1qx6tjw11t5gs/MLF_Evaluation001.ipynb?dl=0
При этом, как правило, на начальном этапе отбираются методы, удовлетворяющие ограничениям по вычислительной мощности, объему и характеристикам данных, которые есть в распоряжении специалиста по обработке данных. Например, методы глубокого обучения, решающие сложные задачи машинного обучения с высокой точностью, можно использовать, если в распоряжении исследователя имеются большие по объему данные и значительные вычислительные мощности. С другой стороны, если количество примеров меньше числа свойств, то затруднено применение машин опорных векторов (SVM), поскольку они подвержены в таком случае переобучению. Таким образом, отобрав некоторое множество методов для решения задачи и изменяя их параметры (например, коэффициент регуляризации, число слоев нейронных сетей и т.п.), необходимо оценивать результаты их работы, используя один или несколько показателей.
Примечание. Рекомендуется выбрать одну, возможно, интегральную метрику для оценки качества.
К