Скачать книгу

Например, если между адресом, семейным положением и доходом наблюдается корреляция, то модели, в которых эти атрибуты поменяны местами, тоже должны коррелировать[44]. В случае строгой вероятностной модели независимость кажется обоснованной: разные модели порождают разные ошибки. Объяснение этой логики с помощью моделей категоризации позволяет осознать сложность построения множества независимых моделей.

      Попытки формирования совокупности разноплановых, точных моделей сопряжены с аналогичной проблемой. Предположим, нам нужно создать ансамбль моделей категоризации, прогнозирующих уровень безработицы в пятистах городах среднего размера. Точная модель должна разделить города на категории таким образом, чтобы в рамках одной категории в них наблюдался схожий уровень безработицы. Кроме того, модель должна точно прогнозировать безработицу в каждой категории. Для того чтобы две модели обеспечивали разные прогнозы, они должны по-разному делить города на категории, по-разному составлять прогнозы, или и то и другое. Хотя эти два критерия не противоречат друг другу, могут возникнуть трудности с их удовлетворением. Если один вариант категоризации основан на среднем уровне образования, а другой – на среднем уровне дохода, они могут обеспечивать разбиение на аналогичные категории. Тогда обе модели будут точными, но не разнообразными. Формирование двадцати шести категорий с использованием первой буквы названия каждого города обеспечит разноплановую категоризацию, но, по всей вероятности, не позволит создать точную модель. Поэтому здесь снова напрашивается вывод, что на практике количество элементов «множества» обычно ближе к пяти, чем к пятидесяти.

      Результаты эмпирических исследований прогнозирования согласуются с этим выводом. Хотя увеличение числа моделей повышает уровень точности (как и должно быть согласно теоремам), после формирования группы моделей предельный вклад каждой из них снижается. В компании Google обнаружили, что привлечение одного интервьюера для оценки кандидатов на вакантную должность (вместо случайного выбора) повышает вероятность найма высококвалифицированного сотрудника с 50 до 74 процентов, привлечение второго интервьюера повышает эту вероятность до 81 процента, привлечение третьего интервьюера – до 84 процентов, а четвертого – до 86 процентов. Наличие двадцати интервьюеров повышает вероятность всего до 90 процентов с небольшим. Это указывает на ограничение предельного количества значимых способов оценки потенциального сотрудника.

      Аналогичный вывод справедлив и при оценке десятков тысяч прогнозов экономистов в отношении безработицы, экономического роста и инфляции. В этом случае следует рассматривать экономистов как модели. Включение второго экономиста повышает точность прогноза примерно на 8 процентов, еще два экономиста повышают его на 12 процентов, а еще три – более чем на 15 процентов. Десять

Скачать книгу


<p>44</p>

Лу Хонг и Скотт Пейдж показывают в своей статье (Hong and Page, 2009), что независимые модели требуют уникального набора категорий. Другими словами, существует только один способ создания множества независимых прогнозов на основе модели бинарной категоризации.