Скачать книгу

междисциплинарному подходу к проблеме анализа больших баз данных:

      Обнаружение знаний в базах данных ставит много интересных проблем, особенно когда эти базы огромны. Таким базам данных обычно сопутствуют существенные знания предметной области, которые могут значительно облегчить обнаружение данных. Доступ к большим базам данных недешев – отсюда необходимость выборки и других статистических методов. Наконец, для обнаружения знаний в базах данных могут оказаться полезными многие существующие инструменты и методы из различных областей, таких как экспертные системы, машинное обучение, интеллектуальные базы данных, получение знаний и статистика[2].

      Фактически термины «KDD» и «глубинный анализ данных» описывают одну и ту же концепцию; различие заключается только в том, что термин «глубинный анализ данных» более распространен в бизнес-сообществах, а «KDD» – в академических кругах. Сегодня эти понятия часто взаимозаменяются[3], и многие ведущие академические центры используют как одно, так и другое. И это закономерно, ведь главная научная конференция в этой сфере так и называется – Международная конференция по обнаружению знаний и глубинному анализу данных.

Возникновение и эволюция науки о данных

      Термин «наука о данных» появился в конце 1990-х гг. в дискуссиях, касающихся необходимости объединения статистиков с теоретиками вычислительных систем для обеспечения математической строгости при компьютерном анализе больших данных. В 1997 г. Джефф Ву выступил с публичной лекцией «Статистика = наука о данных?», в которой осветил ряд многообещающих тенденций, в том числе доступность больших и сложных наборов данных в огромных базах и рост использования вычислительных алгоритмов и моделей. В завершение лекции он призвал переименовать статистику в «науку о данных».

      В 2001 г. Уильям Кливленд опубликовал план действий по созданию университетского факультета, сфокусированного на науке о данных[4]. В плане подчеркивалось место науки о данных между математикой и информатикой и предлагалось понимать ее как междисциплинарную сферу. Специалистам по данным предписывалось учиться, работать и взаимодействовать с экспертами из этих областей. В том же году Лео Брейман опубликовал статью «Статистическое моделирование: две культуры»[5]. В ней он охарактеризовал традиционный подход к статистике как культуру моделирования данных, которая предполагает основной целью анализа выявление скрытых стохастических моделей (например, линейной регрессии

      Конец ознакомительного фрагмента.

      Текст предоставлен ООО «ЛитРес».

      Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес.

      Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal,

Скачать книгу


<p>2</p>

Цитата взята из приглашения на семинар «KDD – 1989». – Здесь и далее прим. авт.

<p>3</p>

Некоторые специалисты все же проводят границу между глубинным анализом данных и KDD, рассматривая первый как подраздел второго и определяя его как один из методов обнаружения знаний в базах данных.

<p>4</p>

Shmueli, Galit. 2010. “To Explain or to Predict?” Statistical Science 25 (3): 289–310. doi:10.1214/10-STS330.

<p>5</p>

Breiman, Leo. 2001. “Statistical Modeling: The Two Cultures (with Comments and a Rejoinder by the Author).” Statistical Science 16 (3): 199–231. doi:10.1214/ss/1009213726.