Скачать книгу

алгоритмом, который стремится минимизировать сумму квадратов расстояний между точками данных и центроидами. Он обладает простотой реализации и хорошей масштабируемостью, что делает его популярным методом для кластеризации данных в различных областях, включая бизнес, науку, медицину и другие.

      Рассмотрим пример кода сегментации клиентов в банковской сфере с использованием метода K-средних (K-means). Этот метод может помочь выявить группы клиентов с общими характеристиками и поведением, что позволит банку адаптировать свои продукты и услуги под каждую группу более эффективно.

      ```python

      import pandas as pd

      from sklearn.cluster import KMeans

      from sklearn.preprocessing import StandardScaler

      # Загрузка данных о клиентах банка

      data = pd.read_csv('customer_data.csv')

      # Предобработка данных: масштабирование числовых признаков

      scaler = StandardScaler()

      scaled_data = scaler.fit_transform(data[['Age', 'Income', 'Balance']])

      # Определение количества кластеров

      k = 3

      # Создание и обучение модели K-средних

      kmeans = KMeans(n_clusters=k, random_state=42)

      kmeans.fit(scaled_data)

      # Получение меток кластеров для каждого клиента

      cluster_labels = kmeans.labels_

      # Добавление меток кластеров в исходные данные

      data['Cluster'] = cluster_labels

      # Вывод результатов сегментации

      for cluster in range(k):

      cluster_data = data[data['Cluster'] == cluster]

      print(f"Cluster {cluster}:")

      print(cluster_data.describe())

      print('\n')

      # Описание каждого кластера:

      # – Можно проанализировать средний возраст, доход и баланс по каждому кластеру

      # – Определить основные характеристики и поведение клиентов в каждом кластере

      ```

      В данном примере мы используем библиотеки pandas и scikit-learn для загрузки данных о клиентах банка, предобработки данных и применения метода K-средних. Сначала данные подвергаются масштабированию с помощью StandardScaler, чтобы привести числовые признаки к одному масштабу.

      Затем мы задаем количество кластеров (в данном случае k = 3) и создаем экземпляр модели KMeans. Обучение модели происходит методом fit, где модель вычисляет центроиды кластеров, чтобы минимизировать сумму квадратов расстояний до точек данных внутри каждого кластера.

      Полученные метки кластеров добавляются в исходные данные. Мы выводим описание каждого кластера, анализируя средние значения возраста, дохода и баланса для клиентов в каждом кластере. Это позволяет нам понять основные характеристики и поведение клиентов в каждой группе.

      Используя результаты сегментации, банк может адаптировать свою стратегию продаж, маркетинга и обслуживания для каждого кластера клиентов, что поможет улучшить удовлетворенность клиентов и повысить эффективность работы банка.

2.3. Регрессия и прогнозирование

      Регрессия и прогнозирование являются важными инструментами в области машинного обучения и анализа данных. Они позволяют бизнесу строить математические модели, которые могут предсказывать значения зависимой переменной на основе входных данных и обученных параметров модели. Это полезно для прогнозирования будущих событий, трендов и результатов на основе имеющихся данных.

      Одним из

Скачать книгу