s
Доцент Морозов Михаил Владимирович: официальный сайт

Михаил Владимирович Морозов:
персональный сайт

А Г Д К Л М П Р С Т У Х Я

Мат.модели (занятие 2): Проверка гипотезы о нормальном распределении в геохимии


Курс "Математические методы моделирования в геологии"

Занятие 1. Статистическое распределение [здесь теоретическое введение и объяснение терминов]
Занятие 2. Проверка гипотезы о нормальном распределении.
Занятие 3. Знакомство с программой STATISTICA [советы по началу работы]

Оглавление:
Словарик статистических терминов АНГЛ - РУС
Теория
   Проверка соответствия распределения нормальному закону
Порядок выполнения работы
Содержание отчета

ТЕОРИЯ

Как проверить соответствие распределения нормальному закону

Способы бывают визуальные, быстрые, количественные. Простейшее подтверждение нормальности - совпадение робастных оценок с параметрами нормального распределения (среднее арифметическое и медиана, стандартное отклонение и его оценка по межквартильному расстоянию).

* близость медианы среднему арифметическому (для логнормального распределения - среднему геометрическому)

См. раздел "Размах при нормальном распределении - Шаг 1. Поиск моды" в конце занятия 1.

* близость стандартного отклонения его робастной оценке

См. раздел "Размах при нормальном распределении - Шаг 2. Оценка размаха" в конце занятия 1.

* коэффициент вариации - @docentmorozov рекомендует

плюс метода: супербыстрый: можно рассчитать в уме, сразу указывает на РЕЗКО не-нормальные распределения (V >100%)
недостаток: не имеет критерия надежности (вероятности отклонения нулевой гипотезы), нельзя различить логнормальное распределение и распределение с дополнительной модой (модами), при значениях меньше 100% не позволяет делать вывод о характере распределения

Фактически, этот метод работает не в случае собственно нормального распределения, а для "геохимического нормального распределения", т.е. если переменная может изменяться только в относительных пределах - от 0 до 100%. Поэтому же данный показатель неприменим к логарифмам содержаний, - т.к. они могут принимать сколь угодно близкие к нулю и отрицательные значения. Логарифм - это показатель степени, поэтому близость его значения к нулю или отрицательный характер не являются критическими для геохимии. Здесь важна близость значения к пределу обнаружения. Так что в качестве грубой оценки нормальности распределения логарифмов значений вместо коэффициента вариации можно использовать абсолютное значение стандартного отклонения логарифмов: оно не должно быть слишком велико. Обратите внимание: логарифм, равный нескольким десятым, подразумевает изменение самого значения в разы, логарифм единица - изменение на порядок.

* коэффициенты асимметрии и эксцесса

плюс метода: быстро и с требуемой надежностью (95%) позволяют сделать вывод о нормальности или не-нормальности распределения
недостаток: требуют наличия специального ПО, ничего не говорят о характере отличий от нормального распределения (логнормальность, дополнительные моды), поэтому не позволяют сделать вывод о необходимости логарифмирования данных

Коэффициент асимметрии:

Точная формула: в знаменателе
стандартная ошибка асимметрии
(входит в число расчетных
параметров в Statistica).

Коэффициент эксцесса:

Точная формула: в знаменателе
стандартная ошибка эксцесса
(входит в число расчетных
параметров в Statistica).

* робастный ящик с усами - @docentmorozov рекомендует

плюс метода: быстрый и наглядный: может быть построен вручную, является подобием гистограммы - позволяет сделать вывод об асимметрии распределения, позволяет точно определить медиану (!)
недостаток: те же, что и у гистограммы, а также - невозможно понять причину асимметрии (доп. моды или логнормальность), не имеет количественного критерия соответствия нормальному распределению

* гистограмма - @docentmorozov рекомендует

плюс метода: может быть построена вручную или с помощью любой электронной таблицы типа Excel, позволяет моментально определить характер распределение и положение мод "на глаз"
недостаток: в переходных случаях невозможно принять решение о распределении (нормальное или логнормальное)

"Оптимальное" количество карманов гистограммы (а можно просто взять 20 Клёвый):

"Оптимальная" ширина кармана гистограммы:


* график на вероятностной бумаге - @docentmorozov рекомендует

плюс метода: позволяет быстро оценить приемлемость нормальной модели, качественно определить асимметрию и ее знак, численно определить математическое ожидание и стандартное отклонение
недостаток: менее удобен, чем гистограмма, для выявление дополнительных мод и визуальной оценки "логнормальности"

* критерий Колмогорова (Колмогорова-Смирнова) - @docentmorozov рекомендует

плюс метода: лаконичен, показывает степень надежности соответствия распределения нормальному
недостаток:
не позволяет различить полимодальное и логнормальное распределение

* критерии Лиллиефорса и Шапиро-Уилка

плюс метода: лаконичны, показывает степень надежности соответствия распределения нормальному
недостаток: не позволяют различить полимодальное и логнормальное распределение

* критерий хи-квадрат

плюс метода: показывает степень надежности соответствия распределения нормальному
недостаток:
не позволяет различить полимодальное и логнормальное распределение

НУ ВОТ И ВСЕ ДЕЛА! Дальше сами: садимся за компьютер и работаем! ;)

ПОРЯДОК ВЫПОЛНЕНИЯ РАБОТЫ (по Методичке, с исправлениями и добавлениями)

Задание. Проверить гипотезу о соответствии выборочного распределения нормальной модели и рассчитать числовые характеристики случайной переменной.

Порядок выполнения:
1. Определить статистические характеристики распределения [элемент] по содержаниям в [геологический объект, если указан], доказательно описать характер распределения, степень его соответствия нормальному.
2. Изучить распределение логарифмов содержаний теми же способами.
3. Определить наличие аномальных значений и повторить статистику после их удаления для выбранной модели распределения (нормальная или логнормальная).

Запускаем программу Statistica и редактируем таблицу ввода данных. С помощью диалогового окна спецификации переменных (которое отрывается, если дважды щелкнуть левой кнопкой мыши на любом из заголовков столбцов Var1, Var2...) указываем имена переменных. С помощью кнопок панели инструментов Vars (Переменные) и Cases (Случаи) выполняем различные операции со столбцами и строками таблицы. Копируем исходные данные (например, таблицу содержаний химических элементов в гранитах, подготовленную в формате электронных таблиц Excel) в таблицу ввода данных через буфер Windows (в ходе копирования число строк и столбцов задается автоматически). В современной версии программы Statistica можно напрямую импортировать лист Excel вместе с именами столбцов и строк. Как это сделать: занятие 3.

Приступаем к расчетам. C помощью выпадающего меню Statistics/Basic Statistics (Статистики/Основные статистики) открываем одноименный модуль. Выбираем строку Descriptive Statistics (Описательные статистики). В одноименном диалоговом окне с помощью кнопки Variables отмечаем имена интересующих нас переменных.

    

Открываем закладку Normality и с помощью кнопки Histograms строим гистограммы частот статистических распределений признаков. По виду гистограмм судим о степени их скошенности (асимметрии). В зарамочном оформлении гистограмм считываем значение статистики Колмогорова-Смирнова (K-S) d, рассчитанные уровни значимости (при проверке простой гипотезы) и Lilliefors p (при проверке сложной гипотезы)(1). Если значение статистики велико (p<0.05), отвергаем нулевую гипотезу и считаем нормальную модель непригодной для описания изучаемого распределения. В группе Categorization устанавливаем необходимое число карманов гистограммы (Number of intervals).

(1) Простой гипотезой называют предположение о виде распределения, сделанное при условии, что известны параметры этого распределения. Сложной гипотезой - предположение о виде распределения, параметры которого оцениваются по той же самой выборке, по которой проверяют гипотезу о согласии.

Расчет критерия хи-квадрат. Выбираем меню Statistics - Distribution, затем вариант Continous Distribution - Normal и нажимаем - OK. Кнопкой Variable выбираем переменную, а затем нажимаем кнопку Summary: Observed and expected distribution. Для расчета статистики Колмогорова-Смирнова как в Basic Statistics нужно установить опцию "Yes - continuous test" в группе Kolmogorov-Smirnov test на вкладке Options.

 

 

Расчет критерия Шапиро-Уилка. На вкладке Normality можно активировать параметр Shapiro-Wilk's W test. Значение критерия будет отображаться над гистограммой после значения статистик Колмогорова-Смирнова и Лиллиефорса.

Открываем закладку Prob. & Scatterplot и с помощью кнопки Normal Probability Plot строим графики на вероятностной бумаге. В ходе просмотра графиков отмечаем случаи умеренного отклонения от нормального закона и случаи с резко выраженной положительной асимметрией. В отдельную группу выделяем графики с аномальными (резко выделяющимися) значениями переменных.

Открываем закладку Advanced и отмечаем требуемые для вывода описательные статистики: Valid N (Объем выборки), Mean (Среднее арифметическое), Median (Медиана), Mode (Мода), Geom. Mean (Среднее геометрическое), Standard Deviation (Стандартное отклонение), Coefficient of variation (коэффициент вариации), Variance (Дисперсия), Std. err. of mean (Стандартная ошибка среднего), Conf. limits for mean (Доверительный интервал среднего), Scewness (Асимметрия), Std. err. Scewness (Стандартное отклонение асимметрии), Kurtosis (Эксцесс), Std. err. Kurtosis (Стандартное отклонение эксцесса), Minimum & maximum (Минимум и максимум), Lower and upper quartiles (нижний и верхний квартили). С помощью кнопки Summary выводим на экран таблицу числовых характеристик исследуемых переменных. Используем выборочные оценки E*, A*, σA, σE для проверки нулевой гипотезы о соответствии изучаемого распределения нормальной модели.

ПРИМЕЧАНИЕ: НАЗНАЧЕНИЕ ПАРАМЕТРОВ

Valid N универсальный параметр-0; общий размер выборки, наличие исключенных проб
Mean
универсальный параметр-1; ожидаемая мода при нормальном распределении; оценка фона
Median
универсальный параметр-1; оценка фона
Mode
для сравнения с Mean, Median, Geom. Mean
Geom. Mean
универсальный параметр-1; ожидаемая мода при логнормальном распределении; оценка фона; не имеет физического смысла для логарифмов значений!
Standard Deviation
универсальный параметр-2; оценка ожидаемого разброса
Coefficient of variation
универсальный параметр-3; оценка нормальности распределения; не имеет физического смысла для логарифмов значений!
Variance
вспомогательный для вычислений
Std. err. of mean
оценка диапазона точности среднего арифметического; универсальная характеристика среднего арифметического значения, полезная при сравнении средних
Conf. limits for mean
диапазон точности среднего при заданной доверительной вероятности (по умолч. 95%), см. предыдущий пункт
Scewness
оценка нормальности распределения (логнормальное - положительная асимметрия)
Std. err. Scewness
оценка нормальности распределения
Kurtosis
оценка нормальности распределения
Std. err. Kurtosis
оценка нормальности распределения
Minimum & maximum
универсальные параметры-2; РЕАЛЬНО зафиксированный разброс
Lower and upper quartiles
универсальные параметры-2; оценка симметрии распределения и ожидаемого разброса

C учетом результатов проведенного статистического анализа выполняем преобразования исходных данных (удаляем аномальные значения, логарифмируем переменные с положительной асимметрией). Для логарифмирования значений признака: создаем новую переменную, открываем диалоговое окно ее спецификации, указываем имя переменной, затем в нижней части окна, в поле Long name записываем формулу преобразования. Синтаксис записи: знак равенства, символ используемой функции (например, Log10), имя переменной в круглых скобках. Нажимаем кнопку OK. На вопрос программы Expression OK. Recalculate the variable now? Отвечаем: да.

Еще раз проверяем соответствие эмпирических функций распределения преобразованных переменных нормальной модели (например, с помощью графиков на вероятностной бумаге) и рассчитываем их числовые характеристики. Сохраняем результаты расчетов. Внимание: Geom. mean и Coefficient of variation при этом исключаем из перечня параметров.

Строим робастный ящик с усами ("квартильный ящик"). В диалоге Descriptive Statistics на вкладке Options выбираем в разделе Options for Box-Whisker plots вариант Median/Quartiles/Range. На вкладке Quick нажимаем кнопку Box and whisker plot for all variables. По форме ящика с усами  оцениваем реальный разброс значений и степень асимметрии распределения.

 

Робастная оценка стандартного отклонения для выборки и асимметрии распределения. Std.Dev. = 1.4825 * (Median - Lower) для нормального распределения (Median - Lower = Upper - Median).

Строим параметрический ящик с усами ("сигма-ящик"). В меню Statistica выбрать раздел Graphs - 2D Graphs - Box Plots. Перейти на вкладку Advanced и выбрать переменную кнопкой Variables. Выбрать центр ящика: в группе Middle point у параметра Value выбрать Mean. Выбрать границы ящика: в группе Box у параметра Value выбрать Std.dev. и для параметра Coefficient значение 2 (т.е. размах ящика в два стандартных отклонения). В группе Whisker для параметра Value выбрать Std.dev. и для параметра Coefficient значение 3 (т.е. размах усов - три стандартных отклонения). Значения за пределами усов будут обозначены как аномалии (Outliers) - кружочками, либо как выбросы, т.е. резкие аномалии (Extremes) - звездочками. Границу между видами аномалий можно оставить по умолчанию (1.5). Далее нажимаем OK и изучаем наличие аномальных значений. Альтернативно можно выбрать размах ящика в 1 стандартное отклонение и наблюдать новую классификацию аномальных значений, а также варьировать параметры ящика с усами для получения наиболее информативного отображения параметров статистической выборки.

Для сравнения можно здесь же построить квартильный ящик с длиной усов 1,5·МКР, что примерно соответствует 3σ (см. занятие 1).

 

Выявление аномальных значений. Определение минимально-нормального значения Mean - 3 * Std.Dev. и максимально-нормального значения Mean + 3 * Std.Dev. для выборки.

Удаление аномальных значений для получения уточненной статистики. Кнопка Select Cases в диалоге Descriptive Statistics.

 

Краткая характеристика выборки:
параметр-0 (см. таблицу выше) - до и после очистки от аномальных значений
параметр-1 в разных вариантах, приведенный к содержаниям (антилогарифм логарифмических значений)
параметр-2 (аналогично)
параметр-3

Таблица статистических параметров выборки:

Общий объем выборки (Valid N) параметр-0 число проб
Статистические параметры

По содержаниям
C, мас.%
или г/т

По логарифмам содержаний
Логарифмы LgC Антилогарифмы 10LgC (2)
Мода (Mode) параметр-1 + + +
Среднее арифметическое (Mean) параметр-1 + + +
Границы доверительного интервала для среднего арифметического (Conf. limits for mean), -95%, 95% + + +
Стандартная ошибка среднего арифметического (Std. err. of mean) + + + (б/р)
Среднее геометрическое (Geom. Mean) параметр-1 +
Медиана (Median) параметр-1 + + +
Дисперсия (Variance) + +
Стандартное отклонение (Standard Deviation) параметр-2 + + + (б/р)
Минимальное значение (Minimum) + +
Максимальное значение (Maximum) + +
Нижний (25%) квартиль (Lower quartile) + +
Верхний (75%) квартиль (Upper quartile) + +
Межквартильное расстояние (IQR) + +
Робастная оценка стандартного отклонения параметр-2 + + + (б/р)
Коэффициент вариации, % (Coefficient of variation) параметр-3 +
Асимметрия (Scewness) + +
Стандартная ошибка асимметрии (Std. err. Scewness) + +
Эксцесс (Kurtosis) + +
Стандартная ошибка эксцесса (Std. err. Kurtosis) + +
Оценка характера распределения (норм./логнорм.)
Положение моды относительно медианы и среднего
вывод вывод
Сравнение стандартного отклонения и его робастной оценки
вывод вывод
Величина коэффициента вариации (>33.3%, >100%)
вывод , вывод делать по σlg
Коэффициент асимметрии (KA) параметр-3 ><3, вывод
><3, вывод
Коэффициент эксцесса (KE) параметр-3 ><3, вывод ><3, вывод
Критерий Колмогорова-Смирнова
d, p, вывод d, p, вывод
Критерий Лиллиефорса
p, вывод p, вывод
Критерий Шапиро-Уилка
W, p, вывод W, p, вывод
Критерий хи-квадрат
χ2, p, вывод χ2, p, вывод
Наличие аномальных значений
Минимально-нормальное значение
+ +
Максимально-нормальное значение + +
Количество аномальных точек отрицательных аномалий
n, вывод n, вывод
Количество аномальных точек положительных аномалий
n, вывод n, вывод
Иллюстрации
Ящики с усами (квартильный Min-Max, квартильный 1,5МКР, параметрический 3-сигма)
описание, выводы описание, выводы
Гистограмма
описание, выводы описание, выводы
График на вероятностной бумаге
описание, выводы описание, выводы

(2) Единицы содержания или безразмерные (б/р).

Что включать в отчет:
1. Формулировку задания. Элемент, единицы измерения.
2. Статистические параметры исходных данных и их логарифмов в виде таблицы статистических параметров выборки (см. выше).
3. Значения вероятностных критериев степени нормальности распределения для исходных данных и их логарифмов (в той же таблице).
4. Диаграммы: гистограмма, график вероятностной бумаге, ящики с усами ("квартильный" и "сигма") для исходных данных и их логарифмов.
5. Заключение о характере распределения и необходимости его очистки (удаления аномальных значений).
6. Итоговая характеристика выборки (после удаления аномальных значений)  в виде таблицы статистических параметров выборки (но уже только либо по содержаниям, либо по логарифмам содержаний). Обсуждение доли аномальных проб в исходной (неочищенной) выборке.

Как перенести данные из Stsatistica обратно в офисные программы (Word, Excel и пр.).

ШАБЛОН для отчета (*.DOC)

Пример отчета с пояснениями и иллюстрациями (*.PDF)

Общая схема и суть работы в картинках (*.PDF)

НОВОЕ: Отчет по первому часу работы - изучение эмпирического распределения инструментами электронной таблицы (2015)

Copyright © М.В.Морозов, февраль 2014-2015 г. Текст (за исключением основы раздела "Порядок выполнения работы") и иллюстрации. Все права сохранены.





Опубликовать в своем блоге livejournal.com


Error. Page cannot be displayed. Please contact your service provider for more details. (25)






Энциклопедия
Найти