s
Доцент Морозов Михаил Владимирович: официальный сайт

Михаил Владимирович Морозов:
персональный сайт

А Г Д К Л М П Р С Т У Х Я

Мат.модели (занятие 4): Линейная корреляция и регрессия


Курс "Математические методы моделирования в геологии"

Занятие 3. Знакомство с программой STATISTICA [советы по началу работы]

Оглавление:
Словарик статистических терминов АНГЛ - РУС
Теория
   Корреляция случайных переменных
Порядок выполнения работы
Содержание отчета

ТЕОРИЯ

Что такое корреляция переменных

Выражаясь просто, можно сказать, что корреляция - это согласованность переменных, при которых изменение одной переменной в ту или иную сторону ведет к более-менее синхронному изменению второй переменной. "Более-менее" подразумевает, что согласованность подвержена случайным отклонениям, поэтому между отклонениями нет строгой пропорциональности, которая может быть записана математическим выражением. Это означает, что корреляция - вероятностный процесс, и степень согласованности выражается численным параметром, характеризующим вероятность. Разброс статистических точек, изображающих взаимосвязь двух переменных, сводит на нет тонкие различия между разными формулами зависимости одной переменной от другой. Более того, часто вероятность такой зависимости столь незначительна, что задача-минимум состоит в том, чтобы установить факт наличия или отсутствия зависимости при заданной доверительной вероятности. Поэтому, если отсутствуют явные свидетельства сложной зависимости, в качестве основной гипотезы имеет смысл рассматривать вариант линейной зависимости. Статистический параметр, характеризующий вероятность наличия линейной зависимости между двумя переменными называется линейным коэффициентом парной корреляции Пирсона, потому что предложил его математик Карл Пирсон (Pearson), коэффициент характеризует отдельно взятую пару переменных из предположения наличия линейной связи между ними. Обычно этот коэффициент называют просто коэффициентом корреляции и обозначают буквой R (или r).

В графическом выражении сила корреляции характеризуется формой облака точек в координатах двух переменных. Однако в реальных геологических ситуациях выборки часто неоднородны, что приводит к совмещению на одной диаграмме различных, иногда противоположных, тенденций. В качестве теоретического примера можно предложить выборку магматических горных пород, большая доля которой представлена ультраосновной породой, в которой преобладает минерал с Fe-Mg изоморфизмом, такой как оливин или ортопироксен. В этом случае график в той или иной мере (в зависимости от доли проб какого-либо вида) будет демонстрировать тенденцию положительной корреляции железа и магния (она прослеживается в ряду от кислых до ультраосновных пород) совместно с тенденцией отрицательной корреляции этих элементов в пробах Fe-Mg минерала (т.к. при изоморфизме эти элементы замещают друг друга, следовательно их содержания антикоррелируют). В целом данная выборка может демонстрировать полное отсутствие значимой корреляции между элементами. Но если выделить из нее пробы с низкими содержаниями элементов, т.е. удалить пробы Fe-Mg-минерала, проявится "магматическая" корреляция. Наоборот, если оставить только высокомагнезиальные/высокожелезистые пробы, оставшаяся часть проб покажет отрицательную корреляцию между элементами.

Это пример противоположного статистического поведения элементов в зависимости от их содержания в образце, который может проявляться и в других ситуациях, когда изучаемые элементы могут входить в состав геохимически неродственных минералов, например, рудных и породообразующих.

Поскольку исходные выборки проб часто трудно разделить на явные геологические типы, такого рода тенденции можно пытаться определить эмпирически - включая в выборку все пробы, либо только пробы с малыми (или, наоборот, высокими) содержаниями элемента, который "заподозрен" в различных моделях поведения.

Порядок выполнения работы

Для изучения корреляции случайных переменных нам необходима таблица этих самых переменных. Простейший случай - линейная зависимость переменных, когда изменение одной переменной прямо пропорционально изменению второй, т.е. подчиняется линейному уравнению. Если такая зависимость имеет место, законы статистического распределения значений переменных должны быть одинаковы, в противном случае зависимость примет криволинейный, т.е. нелинейный характер. Более того, линейная связь между переменными может наблюдаться, если их распределения подчиняются нормальному закону.

Поскольку работать с нелинейными зависимостями неудобно, необходимо сначала привести распределения к нормальному виду. Для этого надо сначала проверить закон распределения и, если он логнормальный, заменить исходные значения логарифмами и далее работать с ними. Процедура описана в занятиях 1-2-3.

На учебном занятии: Очищать выборки не надо, пусть аномальные значения останутся. Выберите один элемент (указанный преподавателем) и удалите из его столбца примерно половину меньших значений.

Далее запускаем программу Statistica.

Запускаем из меню Statistics - Basic Statistics/Tables - Correlation Matrices (второй пункт сверху).

В открывшемся диалоговом окне используем кнопку One variable List (слева вверху). Переудите на вкладку Options: обратите внимание, что по умолчанию программа выделяет красным коэффициенты корреляции, значимые при уровне значимости 5% (p-level for highlighting .05). Вы можете изменит уровень значимости, если требуется. Советую также убрать галочку с пункта Options - Include means and std. devs.in square matrices, чтобы в матрицу коэффициентов корреляции не включать значения средних и стандартных отклонений.

В открывшемся окне со списком переменных выделяем нужные нам переменные:

После нажатия OK возвращаемся в диалоговое окно и нажимаем в нем кнопку Summary: Correlations (на вкладке Quick) либо Summary: Corrs (на вкладке Advanced/Plot): в окне выдачи результатов получаем таблицу коэффициентов корреляции с выделенными значимыми коэффициентами.

Теперь копируем ее в Excel: выбираем правой кнопкой мыши Select All:

Кликаем правой кнопкой мыши по таблице значений и выбираем Copy with headers:

Таблица копируется вместе с заголовками строк и столбцов, вставляем ее в Excel.

Если нужно, можем отдельно скопировать общий заголовок таблицы (правая кнопка мыши - Copy header):

Можно также сохранить корреляционную матрицу как файл-матрицу программы Statistica: он может быть использован в дальнейшем для многомерного анализа (кластерный, факторный, метод главных компонент). Для этого надо нажать кнопку Matrix  в первой строке кнопок - справа от кнопки Graphs.

В отдельном окне откроется файл матрицы, в нем уже не будет выделения коэффициентов. Сохраним его (Save As) как файл - корреляционную матрицу: тип файла - STATISTICA Matrix File (*.smx).

Для визуальной оценки качества корреляции можно создать точечную диаграмму. Для этого нужно нажать кнопку Graphs на вкладках Quick или Advanced/plot. Советую для этого выбрать пару элементов, иначе графиков будет ну ООООчень много):

График и уравнение линейной регрессии можно получить и при выводе простой точечной диаграммы в координатах X-Y, выбрав соответствующие переменные. Но в этом случае он не будет сопровождаться гистограммами для независимой и зависимой переменной:

В свойствах графика можно выбрать тип уравнения регрессии:

А также указать вывод доверительной области (confidence) или области предсказания (prediction):

Если требуется, можно вручную рассчитать критическое значение коэффициента корреляции (меню Statistics - Probability calculator - Correlations...):

Обратите внимание: буквой p здесь обозначается уровень значимости, который в литературе обычно обозначают буквой "альфа".

Порядок работы и содержание отчета (2015): ОБРАЗЕЦ (WORD)

Порядок работы (2016)

 

 





Опубликовать в своем блоге livejournal.com
Энциклопедия
Найти

Голос Севастополя

Сайт Сделано у нас

Благотворительный фонд АдВита. Сбор пожертвований на лечение онкологических больных

Элементы       Все о Геологии

Перископ ГК Теллур
РМО Бродячая Камера