Скачать книгу

входящих в одну категорию, будет немного отличаться. Мы называем это погрешностью категоризации.

      Увеличивая категории, мы увеличиваем и погрешность категоризации, поскольку возрастает вероятность отнесения к одной категории домохозяйств с разными средними значениями. Впрочем, более крупные категории основаны на большем количестве данных, а значит, оценки среднего в каждой категории будут точнее (см. правило квадратного корня в главе 5). Погрешность, возникающая из-за неправильной оценки среднего, называется погрешностью оценки. По мере увеличения категорий погрешность оценки уменьшается. Включение одного или даже десяти домохозяйств в одну категорию не позволит получить точную оценку среднего, если они будут существенно разниться по ежемесячному объему расходов. Тысяча домохозяйств в одной категории обеспечат такую оценку.

      Итак, мы получили важный интуитивный вывод: увеличение количества категорий влечет за собой погрешность категоризации в связи с отнесением домохозяйств с разными средними значениями к одной категории. Статистики называют это систематической ошибкой модели.

      Конец ознакомительного фрагмента.

      Текст предоставлен ООО «ЛитРес».

      Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес.

      Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

      Сноски

      1

      О распределениях с длинными хвостами см. главу 6. Прим. ред.

      2

      Процесс обработки данных, который преобразует непрерывные данные в дискретные путем замены значений диапазонами. Прим. ред.

      3

      См., например, книгу Кэти О’Нил (O’Neil, 2016), в которой рассказывается о том, как простые модели, основанные на данных, могут не учитывать некоторые слои населения и адаптивную обратную связь, которую мы обсудим в главе 4.

      4

      См. статью Паарша и Ширера (Paarsch and Shearer 1999), в которой анализируется лесная промышленность. Исходные данные о посадке деревьев указывают на наличие отрицательной корреляции между сдельной оплатой труда и количеством высаженных деревьев – другими словами, чем больше человеку платят за посадку дерева, тем меньше деревьев он высаживает. Этот вывод противоречит стандартной экономической логике. Если вы платите работникам больше за каждое посаженное дерево, они должны работать усерднее. Согласно модели Паарша и Ширера, лесозаготовительные компании платят работникам сдельную ставку за каждое дерево так, что почасовая рыночная ставка заработной платы составляет 20 долларов в час. На основании этого допущения можно вывести следующую

Скачать книгу