Скачать книгу

работы. Хотя в нашем распоряжении для большинства областей нет количественных данных, анализ специализированной литературы для некоторых из них позволяет сделать мрачный вывод. В экономике жалкие 0,1 % всех опубликованных статей посвящены попыткам воспроизвести предыдущие исследования; в психологии этот показатель выше, но все равно весьма прискорбный – чуть больше 1 %[98]. Если все неустанно рвутся вперед к новым открытиям, не делая остановок, чтобы проверить, надежны ли уже имеющиеся знания, так ли уж удивителен приведенный выше список провалившихся попыток что-то воспроизвести?

      А вот что вызывает, пожалуй, еще большую озабоченность. Казалось бы, если вы получили точно такой же набор данных, как и в опубликованной ранее статье, вы сможете прийти к абсолютно тем же результатам, что описаны авторами. К сожалению, во многих областях исследователи сталкивались с невероятными трудностями при выполнении этой вроде бы нехитрой задачи. Иногда именно подобную проблему называют проблемой воспроизводимости, в противоположность проблеме сходимости результатов (последний термин обычно используется применительно к исследованиям, в которых ученые задаются теми же вопросами, но работают с другими данными)[99]. Как это возможно, чтобы результаты в таких условиях не воспроизвелись? Иногда причина в ошибках исходного исследования. А бывает и так, что авторы исходной работы недостаточно четко описали свой анализ, например, прибегали ко всяким выкрутасам со статистикой, о которых в статье не доложили, и поэтому их конкретные шаги независимые исследователи воссоздать не могут. Когда другие ученые как-то по-своему проводят статистический анализ данных, результаты выходят иные. Такие статьи – словно кулинарная книга, где полно фотографий блюд, от которых просто слюнки текут, но мало внимания уделено описанию ингредиентов и рецептам, необходимым для создания этих шедевров.

      В макроэкономике (изучающей, например, налоговую политику и ее влияние на экономическое развитие стран) при повторном анализе шестидесяти семи статей ученые, используя точно такие же наборы данных, сумели воспроизвести результаты лишь двадцати двух, и последующее привлечение к работе авторов тех статей помогло несильно[100]. В науках о Земле исследователи испытывали как минимум небольшие трудности при получении тех же результатов в случае тридцати семи из тридцати девяти изучавшихся ими статей[101]. А когда исследователи машинного обучения проанализировали набор статей об “алгоритмах рекомендаций” (это тип компьютерных программ, которые используются сайтами вроде Amazon и Netflix, чтобы на основании того, что люди вроде вас выбирали раньше, предугадывать, какую покупку вам сейчас захотелось бы сделать или какой фильм посмотреть), то смогли воспроизвести только семь из восемнадцати работ на эту тему, незадолго до того представленных на престижных конференциях по компьютерным системам[102]. Те статьи – воплощение классической карикатуры Сидни Харриса.

      Вы

Скачать книгу


<p>98</p>

Поиск нужных статей проводился таким образом, что исследования, которые открыто не объявляли себя попытками воспроизвести предыдущие работы, могли оказаться неучтенными, поэтому итоговый процент, вероятно, на самом деле чуточку больше. Экономика: Mueller-Langer F. et al. Replication Studies in Economics – How Many and Which Papers Are Chosen for Replication and Why? Research Policy. 48, no. 1 (2019): 62–83. Психология: Makel M. C. et al. Replications in Psychology Research: How Often Do They Really Occur? Perspectives on Psychological Science. 7, no. 6 (2012): 537–42. Также обращаю ваше внимание: по поводу того, что считать попыткой воспроизвести исследование, ведутся споры. Некоторые ученые провели множество “содержательных” повторений, в целом похожих на исходное исследование, но в деталях иногда от него отличающихся. Это по-своему интересно, но это не “прямое” повторение, когда именно та же, насколько только возможно, работа проводится сызнова. Вот такого рода исследований-повторений и не хватает. См. Schmidt S. Shall We Really Do It Again? The Powerful Concept of Replication is Neglected in the Social Sciences. Review of General Psychology. 13, no. 2 (2009): 90–100.

<p>99</p>

Во избежание путаницы заметим, что в англоязычной специализированной литературе существуют два разных термина: “проблема сходимости результатов” (replicability или repeatability) и “проблема воспроизводимости результатов” (reproducibility). В русскоязычной же литературе обычно не делается различий между этими случаями и используется единый термин – “проблема воспроизводимости”. Учитывая, что и в английском языке применение двух разных терминов не строгое (на что, в частности, указывает и сам автор в примечании 49 к этой главе), в русском переводе данной книги используется только термин “воспроизводимость”, тем более что необходимые детали соответствующих исследований там, где они важны, поясняются автором отдельно. (Здесь и далее – прим. перев.)

<p>100</p>

Chang A. C., Li P. Is Economics Research Replicable? Sixty Published Papers from Thirteen Journals say “Usually Not”. Finance and Economics Discussion Series. 2015, no. 83 (2015): 1–26. Washington: Board of Governors of the Federal Reserve System. Подробный обзор проблемы воспроизводимости в экономике: Christensen G., Miguel E. Transparency, Reproducibility, and the Credibility of Economics Research. Working Paper no. 22989. National Bureau of Economic Research. 2016.

<p>101</p>

Konkol M. et al. Computational Reproducibility in Geoscientific Papers: Insights from a Series of Studies with Geoscientists and a Reproduction Study. International Journal of Geographical Information Science. 33, no. 2 (2019): 408–29.

<p>102</p>

И даже хуже: из этих семи статей в целых шести методы избыточны по сравнению с гораздо более простыми методами, которые были известны за много лет до того, как создавались эти новые алгоритмы. Dacrema M. F. et al. Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches. RecSys 2019. Copenhagen, Denmark. См. также отчет по компьютерным наукам, который дает понять, что у новых исследователей не получается воспроизвести результаты применения нескольких классических алгоритмов – а это своего рода бомба замедленного действия, поскольку “молодые ученые не хотят выглядеть хулителями старших коллег”, публикуя статьи о провалившихся попытках воспроизвести действие алгоритмов, которые были разработаны старшими коллегами и на которых держится их репутация. Hutson M. Artificial Intelligence Faces Reproducibility Crisis. Science. 359, no. 6377 (2018): 725–6.