s
Доцент Морозов Михаил Владимирович: официальный сайт

Михаил Владимирович Морозов:
персональный сайт

А Г Д К Л М П Р С Т У Х Я

Мат.модели (занятие 1): Статистическое распределение в геохимии


Курс "Математические методы моделирования в геологии"

Занятие 1. Статистическое распределение.
Занятие 2. Проверка гипотезы о нормальном распределении [здесь методическое описание действий]

Оглавление:
Словарик статистических терминов АНГЛ - РУС
Теория
   Статистическое распределение:
       введение
       виды стат. распределений в геохимии
       проверка нормальности распределения
       приведение распределения к нормальному
Полезные страницы на сайте по этой теме
Интерпретация данных: советы
   Признаки логнормальности
   Размах при нормальном распределении

Лишь правду должен карапуз
Мотать на ус.
х/ф "Мэри Поппинс"

ТЕОРИЯ

Математическое моделирование в геологии - это описание природного объекта в числах. Число, полученное однократно (единичное измерение), не является предметом научного разговора, ведь оно может быть полностью ошибочным (пример: топограф был нетрезв). Это означает, что характеризуя численно любой параметр, мы имеем дело с набором замеров природного объекта. На основе серии замеров мы должны выбрать одно конкретное значение, которое станет для нас искомой характеристикой. Чтобы сделать это наиболее верно, мы вынуждены понять "закон", по которому получаются отдельные значения. Этот закон и называют статистическим распределением.

Графически статистическое распределение удобнее всего передает график плотности вероятности, который в геохимии характеризует вероятность того, что результат анализа геохимической пробы будет соответствовать тому или иному значению концентрации изучаемого химического элемента (в массовых процентах или граммах на тонну). Типичные геохимические ситуации (например, типы пород) характеризуются наиболее ожидаемыми содержаниями, которым на графике соответствуют максимумы кривой функции плотности вероятности (т.н. моды). Задача геохимика - (1) определить моды конкретного эмпирического распределения и (2) их вес, характеризующий общую вероятность соседних статистически несущественно отличных от моды значений, т.е. вероятный разброс значений каждой моды. Характеристики положения мод и их разброса мы будем называть, соответственно, параметром-1 и параметром-2. Проблема в том, чтобы найти корректный математический способ определения данных параметров, т.к. само понятие "мода" в реальном геохимическом распределении, тем более при выборке из ограниченного числа измерений (это лежащий в основе всех расчетов параметр-0), определяется ненадежно. Чтобы увереннее характеризовать разброс значений полезно знать симметрию моды - различие в вероятности отклонения влево или вправо от нее (т.е. в сторону меньших или больших значений). Показатель асимметрии, поскольку он имеет второстепенное значение, обозначим как параметр-3.

На рисунке выше разные моды распределения (если мод несколько оно называется полимодальным, или многомодальным), обозначены стрелками (чем больше стрелок, тем главнее мода Подмигивает).

Какие бывают распределения в геологии (геохимии)

Природные факторы:

* полностью однородные замеры (идеальное)

Если содержание химического элемента во всех пробах горной породы было бы одинаковым, то геохимики имели бы дело с одномодальными распределениями без разброса значений, как на рисунке выше. Но это невозможно по простой причине: горная порода сложена зернами минералов, у которых неправильная непредсказуемая форма. Из-за извилистости границ в стандартный объем геохимической пробы попадет немного разное количество того или иного минерала при каждом последующем отборе пробы. Это значит, средний химический состав проб будет немного отличаться друг от друга. Эта природная неточность связана с неточностью самого соответствия пробы всей горной породе в целом и не имеет отношения к недостаткам методов химического анализа и несовершенству методики работ. Поэтому важно понимать, что такую неточность несправедливо называть "ошибкой" или" погрешностью", т.к. она заложена в самой природе вещей.

Что же касается масштабов несовпадений между пробами, то они обусловлены еще множеством мелких факторов: неидеальной однородностью горной породы, где минералы образуют не вполне регулярные скопления, неоднородностью химического состава каждого отдельного зерна минерала и т.д. Поэтому предметом практического рассмотрения является распределение с разбросом, возникающим в результате сложения множества мелких случайностей.

* замеры со случайными отклонениями

Если результат измерения нельзя предсказать, его называют случайным. Закон распределения (кривая плотности вероятности) при этом бывает разный, т.е. случайных распределений есть множество типов. Не всякое случайное распределение - нормально. Но если на значение величины воздействует много случайных факторов (т.е. оно зависит от множества случайных распределений, не обязательно нормальных!), оно в итоге будет распределено нормально, т.е. по формуле Гаусса:

,

где μ — математическое ожидание (среднее арифметическое значение), σ — стандартное отклонение (σ² — дисперсия) распределения.

Иными словами, нормально распределяется величина, подверженная "случайному шуму". Более строгое определение выглядит так:

Центральная предельная теорема: сумма достаточно большого количества независимых  (слабо зависимых) одинаково распределенных (имеющих примерно одинаковые масштабы, т.е. ни одно из слагаемых не доминирует, не вносит в сумму определяющего вклада) случайных величин с конечной и ненулевой дисперсией имеет нормальное распределение (распределение, близкое к нормальному).

Подробности смотри тут:

Интернет-учебник "теорвер-онайн", раздел 5.2.

Википедия (Центральная предельная теорема)

Н.И.Чернова. Теория вероятностей. Доказательство центральной предельной теоремы.

Модой для нормального распределения является среднее арифметическое значение, а расстояние от него до точки перегиба равно стандартному отклонению ("одна сигма").

Примечание: "сигма" или S. В математической статистике буквой σ ("сигма") принято обозначать среднеквадратическое отклонение генеральной совокупности (бесконечное число случаев), а собственно стандартное отклонение (т.е. оценка разброса значений конечной выборки) обозначается буквой s. Но поскольку оба этих понятия относятся к оценке вероятного разброса случайной величины, в научном лексиконе привились выражения "сигма", "три сигма" и т.п., хотя по сути, как правило, под "сигмой" в реальных случаях подразумевают стандартное отклонение (s). В наших работах, как в реальной геохимической практике, мы будем иметь в виду только выборочное стандартное отклонение и именовать его "сигма" (σ), когда это помогает краткости. Надеюсь, это прегрешение перед математическим формализмом будет нам прощено. Смеётся

* неодинаковая вероятность малых и больших значений (возможность руды, региональный тренд)

Чаще всего асимметрия распределения бывает правосторонняя: вероятность встречи повышенного значения больше, чем пониженного. Это характерно для микроэлементов (они могут концентрироваться в специализированных минералах, формируя особые геологические тела - например, рудные образования). Правосторонняя асимметрия может быть и результатом наложения на основное распределение одной или нескольких слабых мод, которые недостаточно интенсивны для образования локального максимума.

Геохимическое распределение имеет ограничения по значениям переменной: концентрация элемента не может быть ниже 0 и превышать 100%. Поэтому основные (породообразующие) элементы могут быть распределены по нормальному закону, в то время как микроэлементы, имеющие в большинстве проб содержания намного более близкие к нулю, нежели к 100 %, но в редких случаях концентрирующиеся в скоплениях редких минералов, ведут себя иначе. Для них вероятность превысить типичное ожидаемое (модальное) для данных пород значение в несколько раз близка вероятности встретить в несколько раз пониженные относительно моды содержания. То есть, в то время как при нормальном распределении равновероятно отклонение от моды на определенный интервал (т.е. "+ дельта" или "- дельта"), то для микроэлементов равновероятно отклонение в разы (т.е. "в n раз меньше" или "в n раз больше"). С точки зрения математики распределения отличаются заменой операций сложения/вычитания на операции умножения/деления. Графически это выражается в ускоренном падении вероятности слева от моды и замедленном падении - справа. Как известно, операция логарифмирования по сути и предлагает замену умножения на сложение ("логарифм произведения равен сумме логарифмов"). Поэтому, если вместо содержаний микроэлемента использовать логарифмы содержаний, то мы получим симметричное, т.е. нормальное распределение. К нему применимы все необходимые для анализа выборки статистические параметры. А исходное распределение содержаний микроэлемента называют логарифмически нормальным, или логнормальным.

На рисунке изображено логарифмически нормальное распределение: мода красная, медиана зеленая, среднее арифметическое фиолетовое. Формула распределения (x>0):

Модой для логнормального распределения является среднее геометрическое значение, оно соответствует среднему арифметическому логарифмов значений (т.к. логарифм произведения равен сумме логарифмов). Подробнее...

Логарифмирование является нелинейной функцией. Оно переводит логнормальное распределение в нормальное. Для обратного преобразования требуется антилогарифм (10lgx).

* многомодальность

Зачастую природное распределение является полимодальным. Обычно оно образовано одной главной (интенсивной) модой и одной или несколькими второстепенными модами. В этом случае важно понять закон распределения главной моды. Второстепенные моды часто образованы малым числом случаев (проб), поэтому детально разбирать параметры их распределения нет необходимости. Эти моды интересны нам в большей степени как совокупности аномальных значений.

 Аналитические факторы (артефакты):

* наличие пределов обнаружения

НПО - нижний предел обнаружения

ВПО - верхний предел обнаружения

Пределы обнаружения проявляют себя в виде дополнительных мод. Обычно речь идет о НПО, который вызывает появление одной дополнительной моды при малых значениях, причем значения переменной для всех случаев (проб) этой моды одинаковы (на гистограмме это выглядит как отдельный интенсивный крайний слева столбец, оторванный от остального распределения).

Как свести реальное распределение к нормальному

Простая последовательность действий:

1) логарифмирование и проверка распределения логарифмов: гистограмма и вероятностная бумага

Для начала необходимо проанализировать характер распределения основной моды. Сперва визуально сравнить исходное распределение и распределение логарифмов и определить лучшее соответствие. Здесь помогут гистограмма и график на вероятностной бумаге. Затем, выбрав нужный вариант распределения, необходимо изучить наличие дополнительных мод (аномалий), отсечь их и заново проверить распределение очищенной от аномалий выборки.

2) проверка наличия и отсечение аномальных значений: параметрический ящик с усами

При удалении аномалий отсекается несущественная доля распределения, оставшаяся часть должна соответствовать нормальному закону. Здесь важно верно определить разброс моды (параметр-2). Визуальную помощь, помимо гистограммы и графика на вероятностной бумаге, окажет параметрический ящик с усами. Подробнее см. советы по интерпретации в конце страницы.

3) проверка очищенного распределения: вероятностные критерии

На заключительном этапе удобными будут расчетные критерии нормальности распределения, которые показывают доверительную вероятность принятия статистической гипотезы (H0 - распределение нормально).

ПОЛЕЗНЫЕ СТРАНИЦЫ НА САЙТЕ: ГЕОХИМИЯ на ПРАКТИКЕ: 2) подготовка данных

ИНТЕРПРЕТАЦИЯ ДАННЫХ: СОВЕТЫ

Признаки логнормальности при одномодальном геохимическом распределении. Правая (положительная) асимметрия; выпуклая форма графика на вероятностной бумаге; заметное превышение длины верхнего (правого) уса ящика с усами над нижним (левым); высокий коэффициент вариации (формально >33.3%, особенно >100%).

Размах при нормальном распределении. Внимание: этот раздел очень важен для понимания всей текущей задачи. Итак, напоминаю: необходимо определить типичные (характерные, наиболее ожидаемые) содержания химического элемента - моду содержаний. Во-вторых, необходимо оценить точность моды, т.е. ее размах ("плюс-минус"), и дело тут не в ошибке или погрешности, а в избирательности самой моды - насколько содержание элемента в породе стремится к модальному значению. От этого зависит наше понимание аномальности проб: если мода узкая, как ланцет, то даже небольшое на первый взгляд изменение содержания уже может быть аномальным. Если мода широкая - то может вообще не быть места четко выраженным аномалиям. А нам нужен численный критерий аномальности значений - без него доказать перспективность поиска руды нельзя.

Шаг 1. Поиск моды. Как мы видели, если распределение равномерное, идеальное нормальное или логнормальное, то у него одна мода, которую легко найти визуально. Кроме того, есть точные способы ее определения: в симметричном распределении (нормальное распределение) мода соответствует среднему арифметическому, а также медиане - значению, которое разделяет нижние 50% и верхние 50% выборки. Асимметрия распределения сдвигает медиану и особенно среднее арифметическое значение в сторону от моды. Обратим внимание: одно аномальное значение по своему "весу" может быть равно многим ординарным значениям, поэтому среднее арифметическое сильно чувствительно к неидеальности распределения, оно легко сдвигается в сторону от моды. Для медианы же все значения по весу равны, поэтому любая аномалия, сколь угодно сильная, если состоит из одной пробы, сместит медиану на лишь 1 пробу, а поскольку обычно около медианы плотность вероятности высока, этот сдвиг будет скорее всего минимальным и малосущественным. Таким образом, при флуктуациях распределения (т.е. при переходе от идеальной гистограммы к реальной) среднее арифметическое не очень устойчивый показатель положения моды, а медиана - намного более устойчивый. Устойчивые показатели (их называют также "робастными", простите за это страшное слово), которые базируются не на формальных формулах параметров, а на общей логике вероятности (на общей массе значений, размере выборки) предпочтительнее параметрических в случаях отклонения распределения от идеального. Именно поэтому мы должны иметь возможность оценить параметр-1 несколькими способами - через среднее и через медиану.

Для логнормального распределения, таким образом, медиана надежнее среднего арифметического. Но она уступает среднему геометрическому значению, которое при идеальном логнормальном распределении соответствует моде точно (подробности здесь). Впрочем, при переходе от содержаний к их логарифмам мы переходим от логнормального распределения к нормальному, и значит по логарифмам можем пользоваться значением среднего арифметического. Тем не менее, если распределение неровное, гистограмма его "плохая", надежнее использовать робастный параметр - медиану. Полезно сравнить медиану и среднее и увидеть их положение на гистограмме.

Шаг 2. Оценка размаха. Итак, главной оценкой размаха моды при нормальном распределении является стандартное отклонение. При логнормальном распределении стандартное отклонение, рассчитанное по содержаниям, частично теряет свой смысл, поэтому его нужно рассчитывать по логарифмам содержаний, т.е. после приведения распределения к симметричному виду. Но при наличии аномальных значений и прочих неидеальностей, характерных для эмпирического распределения, стандартное отклонение, как среднее значение и другие формульные параметры, перестает характеризовать размах моды, т.к. чрезмерно увеличивается, распространяя моду вширь, покрывая больший диапазон значений, в который могут попасть уже не относящиеся к моде пробы (дополнительные моды, аномалии и т.п.). Т.о. использование стандартного отклонения может помешать заметить аномальность пробы. В этом случае приходится снова обратиться к робастным методам: если мы поделим выборку слева и справа от медианы еще раз пополам, т.е. на отсеки по 25% значений, то получим четыре четверти выборки, границы между которыми называют квартилями. Граница первых 25% процентов - это нижний квартиль, 50% - медиана, 75% - верхний квартиль. Очевидно, в качестве грубой оценки размаха моды можно взять расстояние между нижним и верхним квартилями (т.н. межквартильное расстояние, МКР), которое вмещает в себя 50% выборки, что уже неплохо. Величина межквартильного расстояния хорошо характеризует узость распределения, даже если оно сильно неравномерно, осложнено аномалиями и базируется на малом объеме данных. Положение квартилей можно определить без формул, просто отсортировав в столбце все значения выборки и поделив на 4 равные части. Если под рукой нет компьютера, то в качестве самой грубой оценки пойдет размах выборки - значения минимального и максимального измеренных содержаний, которые, конечно, имеют неизвестный статистический вес, зато являются первичными реальными данными, а не базируются на нашей интерпретации.

Недостаток квартильного метода ровно один: мы хотим определить надежность моды (а) более точно (50%-я вероятность явно недостаточна), (б) с заданной стандартной высокой точностью - обычно это 95% или 99,5%. Для точной работы с распределением необходимо знать параметр его разброса. Если распределение нормальное (идеальный случай), таким параметром является его стандартное отклонение ("сигма"). В этом случае размах в одну сигма от моды (среднее плюс-минус одно стандартное отклонение) покрывает 68,2% случаев, входящих в совокупность. Для покрытия 95% случаев необходимо увеличить размах до 1,96·σ (для ручных расчетов часто 1,96 округляют до 2, что дает несущественно большее покрытие - 95,45% выборки, зато легче запоминается как "два сигма"). Еще более надежную оценку дает увеличение размаха до "трех сигма" (99,73% случаев), иногда используют более аккуратный размер размаха - 2,81·σ (что соответствует искомым 99,5%) или 2,58·σ (99,0%).

На рисунке изображено стандартизованное нормальное распределение, или z-распределение (среднее арифметическое = медиана = 0; стандартное отклонение = 1). Кружок - точка перегиба ("одна сигма"), обозначен ящик с усами (нижний и верхний квартили и 1,5·МКР).

Таким образом, если речь идет об оценке надежности, стандартное отклонение трудно заменить другим параметром. На помощь приходит стандартная форма нормального распределения: для него половина межквартильного расстояния (0,5·МКР), т.е. расстояние между нижним или верхним квартилем и медианой составляет приблизительно σ/1,4825. Таким образом, имея несовершенное распределение, мы получили способ робастной оценки параметра размаха (параметр-2), на основе которого можем делать оценку надежности моды. Чтобы четче выделить аномальные значения, обычно сравнивают стандартное отклонение и значение 0,5·МКР·1,4825 и выбирают наименьшее из них. Далее мы будем называть рассчитанный параметр "робастной оценкой стандартного отклонения" (подобно тому как медиана может быть робастной оценкой моды или среднего).

Кстати говоря, через МКР можно просто и довольно точно выразить интервал "99%": для этого нужно построить квартильный "ящик с усами" (см. занятие 2) с длиной усов 1,5·МКР (край уса будет соответствовать 2,70·σ).

На этом теоретический бэкграунд нашего занятия полностью готов. Спасибо за внимание!

P.S. Задание для самопроверки: приведите примеры нормального распределения в геохимии. Обоснуйте.

Copyright © М.В.Морозов, февраль 2014 г. Текст и иллюстрации. Все права сохранены.





Опубликовать в своем блоге livejournal.com
Энциклопедия
Найти