ТОП просматриваемых книг сайта:
Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры. Эрец Эйден
Читать онлайн.Год выпуска 2013
isbn 978-5-17-088935-8
Автор произведения Эрец Эйден
Жанр Прочая образовательная литература
Серия Наука XXI век
Издательство "Издательство АСТ"
Это заставило нас предположить, что, изучив через цифровую линзу книги проекта Google, мы сможем создать новый «скоп» для изучения человеческой истории. И мы знали – сколько бы времени ни потребовалось, мы сможем изучить эти данные.
Больше данных – больше проблем
С большими данными появляются не только новые возможности для понимания окружающего мира, но и новые научные проблемы[29].
Первая серьезная проблема заключается в том, что большие данные и данные, которыми оперируют ученые, структурированы совершенно по-разному. Ученые предпочитают отвечать на тщательно сформулированные вопросы с помощью элегантных экспериментов, дающих воспроизводимые и точные результаты. Однако большие данные часто сопровождаются неразберихой. Типичный массив больших данных представляет собой смесь фактов и измерений, сделанных без какой-либо научной цели и с использованием далеко не универсальных процедур. Он изобилует ошибками и огромным количеством пугающих пробелов – например, недостающими элементами информации, важными для любого разумного ученого. Такие ошибки и упущения часто непоследовательны, даже в рамках единого массива данных. Это связано с тем, что большие массивы данных часто создаются путем объединения большого количества более мелких массивов данных. Очевидно, что некоторые из компонентов массивов данных более надежны, чем другие, и у каждого из них есть свои особенности. Хорошим примером может служить социальная сеть Facebook. Добавление людей «в друзья» может означать совершенно разное для разных людей. Кто-то делает это довольно свободно. Кто-то более осторожен. Некоторые добавляют в друзья коллег, другие этого не делают. Отчасти работа с большими данными как раз и требует, чтобы их хорошо понимали и учитывали все подобные особенности. Но настолько хорошо можно быть знакомым с петабайтом данных?
Вторая серьезная сложность заключается в том, что большие данные не всегда вписываются в концепцию того, что мы привыкли понимать под научным методом. Ученые любят подтверждать конкретные гипотезы и постепенно собирать свои выводы сначала в связные, а затем и математически верные теории. Стоит покопаться в любом достаточно интересном большом наборе данных, и вы неминуемо сделаете открытие – к примеру, найдете корреляцию между активизацией морского пиратства и изменением температуры в атмосфере. Такой вид исследований иногда называется «исследованием без гипотез», поскольку вы никогда не знаете в начале работы, что найдете в процессе. Тем не менее большие данные вам помогут куда меньше, если нужно объяснить такую корреляцию с точки зрения причинно-следственной связи. Вызывают ли действия пиратов глобальное потепление? Заставляет ли повышение температуры на улице заниматься пиратством? А если эти два показателя не связаны между собой,
29
Хотя лучшие эмпирические массивы данных малодоступны, социальные сети остаются довольно перспективным полем для исследований. См., к примеру: Watts Duncan J., Strogatz Steven H. Collective Dynamics of «Small-World» Networks // Nature 393, no. 6684 (1998). P. 440–442. Доступно в сети Интернет: http://goo.gl/be3Xmi; Barabаsi Albert-Lаszlу, Albert Reka. Emergence of Scaling in Random Networks // Science 286, no. 5439 (1999). P. 509–512. Доступно в сети Интернет: http://goo.gl/eESUa8; Milo Ron et al. Network Motifs: Simple Building Blocks of Complex Networks // Science 298, no. 5594 (2002). P. 824–827.