ТОП просматриваемых книг сайта:
Интеллектуальный анализ данных. Учебник. Вадим Николаевич Шмаль
Читать онлайн.Название Интеллектуальный анализ данных. Учебник
Год выпуска 0
isbn 9785005944801
Автор произведения Вадим Николаевич Шмаль
Издательство Издательские решения
Понимание аномалии данных
В контексте оценки аномалий данных важно понимать распределение вероятности и ее вероятность. Также важно знать, распределена ли вероятность приблизительно или нет. Если она приблизительно распределена, то вероятность, скорее всего, будет примерно равна истинной вероятности. Если оно не распределено приблизительно, то есть вероятность, что вероятность отклонения может быть немного больше, чем истинная вероятность. Это позволяет интерпретировать аномалии с возможностью большего отклонения как аномалии большей величины. Вероятность аномалии данных можно оценить с помощью любой меры вероятности, такой как вероятность выборки, правдоподобие или доверительные интервалы. Даже если аномалия не связана с конкретным процессом, все же можно оценить вероятность отклонения.
Эти вероятности необходимо сравнить с естественным распределением. Если вероятность намного больше естественной вероятности, то существует вероятность того, что отклонение не такой же величины. Однако маловероятно, чтобы отклонение намного превышало естественную вероятность, поскольку вероятность очень мала. Следовательно, это не свидетельствует о фактическом отклонении от распределения вероятностей.
Выявление значимости аномалий данных
В контексте оценки аномалий данных полезно определить соответствующие обстоятельства. Например, если есть аномалия в количестве задержанных рейсов, может случиться так, что отклонение будет довольно небольшим. Если задерживается много рейсов, более вероятно, что количество задержек очень близко к естественной вероятности. Если есть несколько рейсов, которые задерживаются, маловероятно, что отклонение намного превышает естественную вероятность. Следовательно, это не будет свидетельствовать о значительно более высоком отклонении. Это говорит о том, что аномалия данных не имеет большого значения.
Если процентное отклонение от нормального распределения значительно выше, то есть вероятность, что аномалии данных связаны с процессом, как в случае с этой аномалией. Это является дополнительным свидетельством того, что аномалия данных является отклонением от нормального распределения.
После анализа значимости аномалии важно узнать, в чем причина аномалии. Связано ли это с процессом, сгенерировавшим данные, или не связано? Возникла ли аномалия данных в ответ на внешнее воздействие или она возникла внутри? Эта информация полезна при определении того, каковы перспективы получения дополнительной информации о процессе.
Причина в том, что не все отклонения связаны с изменчивостью процесса и по-разному влияют на процесс. В отсутствие