Скачать книгу

объяснение, разработка, коммуникация, действие, прогнозирование и исследование. Четыре из них (рассуждение, объяснение, коммуникация и исследование) требуют упрощения, благодаря чему мы можем использовать логику, позволяющую объяснять те или иные явления, распространять свои идеи и исследовать возможности.

      Вспомните теорему Кондорсе о жюри присяжных. С ее помощью мы смогли раскрыть логику, объяснить, почему подход с использованием множества моделей с большой вероятностью обеспечит правильный результат, и сделать выводы. Если бы мы включили в модель жюри присяжных типы личности и представили доказательства в виде одномерного массива слов, мы заблудились бы в лесу деталей. Борхес рассуждает об этом в своем эссе о науке, рассказывая о составителях карт, стремившихся к чрезмерной детализации: «Коллегия картографов создала карту империи, которая была размером с империю и совпадала с ней до единой точки. Потомки, не столь преданные изучению картографии, сочли эту пространную карту бесполезной»[46].

      Модели с высоким уровнем точности будут полезны и для трех оставшихся областей применения моделей, таких как прогнозирование, разработка и действие. При наличии БОЛЬШИХ данных мы должны их использовать. Эмпирическое правило звучит так: чем больше у нас данных, тем детализированнее должна быть модель. Это можно продемонстрировать на примере применения моделей категоризации для структурирования мышления. Допустим, нам нужно построить модель для объяснения вариации во множестве данных. Для создания контекста предположим, что у нас есть огромный массив данных сети продуктовых магазинов, содержащий подробную информацию о ежемесячных расходах нескольких миллионов домохозяйств на продукты питания. По объему расходов они разнятся, что мы измеряем как вариацию – сумму квадратов разности между величиной расходов каждого домохозяйства и средним объемом расходов по всем домохозяйствам. Если средний объем расходов составляет 500 долларов в месяц, а семья тратит 520 долларов, она вносит вклад в общую вариацию, равный 400, или 20 в квадрате[47].

      Если общая вариация составляет 1 миллиард долларов, а модель объясняет 800 миллионов этой вариации, то ее показатель R² составляет 0,8. Величина объясненной вариации соответствует тому, насколько данная модель улучшает оценку среднего значения. Если оценка, полученная с помощью модели, указывает, что домохозяйство потратит 600 долларов, и оно действительно тратит 600 долларов, то данная модель объясняет все 10 000, которые это домохозяйство вносит в общую вариацию. Если семья потратила 800 долларов, а согласно модели должна была потратить 700 долларов, тогда то, что было вкладом в общую вариацию 90 000 ((800 – 500)²), теперь составляет всего 10 000 ((800 – 700)²). Таким образом, данная модель объясняет

вариации.

      : процент объясненной дисперсии (коэффициент детерминации)

      где V(x) – это значение

Скачать книгу


<p>46</p>

Борхес Х. Л. Сочинения в трех томах. Том 3. Полярис, 1997. Прим. ред.

<p>47</p>

Статистики обозначают долю вариации, которую объясняет модель, как R² этой модели. (Этот коэффициент в статистике обычно называют коэффициентом детерминации, вычисляется как отношение межгрупповой вариации всей модели к внутригрупповой вариации (вариации одной модели). Прим. ред.