s
Доцент Морозов Михаил Владимирович: официальный сайт

Михаил Владимирович Морозов:
персональный сайт

А Г Д К Л М П Р С Т У Х Я

Мат.модели (занятие 3): Знакомство с программой STATISTICA


Курс "Математические методы моделирования в геологии"

Занятие 1. Статистическое распределение [здесь теоретическое введение и объяснение терминов]
Занятие 2. Проверка гипотезы о нормальном распределении [здесь методическое описание действий]
Занятие 3. Знакомство с программой STATISTICA.

Оглавление:
Словарик статистических терминов АНГЛ - РУС
Подготовка исходных данных
   Microsoft Excel
Работа со Statsoft Statistica
   Импорт данных и настройка программы перед работой
   Принципы взаимодействия с программой и данными
  
Экспорт данных для дальнейших расчетов в MS Excel

НАЧАЛО РАБОТЫ В ПРОГРАММЕ STATISTICA

Подготовка таблицы данных в MS Excel

Работа геохимика с данными выглядит так: таблицу с содержаниями химических элементов в изученных образцах геохимик получает либо из химической лаборатории, либо, в случае портативного анализатора, непосредственно с прибора в формате электронной таблицы (или в совместимом с ней "рубрикованном" текстовом формате CSV). Сегодня стандарт работы с электронными таблицами - программа Microsoft Excel, хотя при отсутствии лицензии на Excel приходится пользоваться бесплатной программой, такой как Apache OpenOffice Calc. В любом случае, в реальной жизни формат данных, в котором сохраняется таблица, - это формат Excel. Именно его понимают все, именно он служит для передачи данных между людьми.

В настоящий момент формат Excel представлен двумя вариантами: классическим Excel-2003 *.XLS и новым Excel-2007 *.XLSX. С точки зрения программы Statistica они отличаются тем, что она "понимает" русские имена листов внутри рабочей книги Excel только в старом формате (XLS). Если вы работаете с форматом XLSX, то рекомендую назвать лист Excel, в котором находится таблица с рабочими данными латинскими буквами (можно английскими Клёвый) и цифрами. Русские буквы при импорте в Statistica превратятся в абракадабру, хотя порядок листов сохранится, и если вы помните, который из них содержит данные, то легко найдете его в списке.

Предварительно в таблице Excel необходимо должным образом подготовить данные.

В простейшем случае таблица должна содержать столбец с номерами проб (NN) и столбцы с данными о содержаниях химического элемента в граммах на тонну (ppm, mg/kg) или массовых процентах (часто их обозначают просто знаком % без уточнения мас.%, но вы так не делайте!). Другие столбцы могут содержать дополнительные данные (географические координаты точек отбора и всевозможные прочие характеристики проб). Первая строка таблицы содержит названия столбцов (обозначения параметров, единицы измерения).

Возьмем в качестве основы таблицу из двух столбцов с данными по одному элементу в виде, например (для содержания меди в мас.%):
NN   Cu
1     0.208
2     1.157
3     0.970
...

Этих данных достаточно для всей последующей работы в программе Statistica, но, поскольку после расчета статистических параметров мы будем их использовать для дальнейшей обработки данных, а это удобнее делать снова в MS Excel, добавим в таблицу еще один столбец - с десятичными логарифмами значений. Одна из задач работы - определить вид распределения (нормальное оно или логнормальное). Т.к. результат заранее не известен (а чаще распределение бывает именно логнормальным), то все равно проверять придется оба варианта и удобнее их сразу оба иметь под рукой. Теперь таблица имеет вид (сразу приведем столбцы в порядок - оставим по три значащих цифры после запятой):

NN   Cu           lgCu
1     0.208      -0.682
2     1.157       0.063
3     0.970      -0.013
...

Для тех, кто забыл как в электронной таблице быстро получить логарифмы. В Excel справа от ячейки с первой концентрацией (0.208, т.е. ячейка B2) пишем формулу =log(B2) и нажимаем Enter. В OpenOffice Calc формула выглядит =log10(B2). После чего выделяем мышью ячейку C2, в которой только что появилось значение логарифма: правый нижний угол рамки ячейки имеет вид черного квадратика. Делаем над ним двойной щелчок мышью, - и весь столбец C под ячейкой C2 до конца значений в столбце B (если в нем нет пустых ячеек) автоматически заполняется значениями логарифмов.

Итак, исходная таблица готова: столбец A - номера проб, столбец B - содержания меди, столбец C - их логарифмы, первая строка содержит заголовки столбцов. Обозначаем лист 1 книги английскими буквами (если это Excel 2007 и выше) и сохраняем файл как XLS или XLSX. Далее мы будем работать уже собственно с программой Statistica.

ПОЯСНЕНИЕ. К моему глубочайшему сожалению, данный текст не является рекламой фирмы Statsoft и ее замечательного продукта Statistica

Работа с программой Statsoft Statistica

Запускаем Statistica, выбираем File - Open, в окне выбора файлов устанавливаем Тип файла: Excel File (*.xls, *xlsx), находим файл, нажимаем кнопку Открыть. Открывается окошко импорта из рабочей книги Excel, так как нам нужен конкретный лист, нажимаем в нем среднюю кнопку - Import selected sheet to a Spreadsheet:

В появившемся списке листов выбираем нужный (русские названия листов читаются из формата .XLS, а из формата .XLSX получается абракадабра) и в следующем окне обязательно устанавливаем галочку напротив пункта Get variable names from first row (Взять названия переменных из первой строки), а также (но не обязательно) напротив пункта Get case names from first column (Взять названия проб из первого столбца). Из формата XLS Statistica умеет читать форматы ячеек, в этом случае можно поставить галочку напротив пункта Import cell formatting, чтобы получить аккуратные округленные значения в ячейках таблицы, какими мы их подготовили в Excel (но при формате XLSX этот пункт будет неактивен).

Уже здесь можно проверить число столбцов (Columns) и строк (Rows) в таблице данных. Нажимаем ОК и открываем всю таблицу. Проверяем названия столбцов и строк.

Если мы решили обозначить строки номерами проб (что не обязательно), то числовые номера строк примут вид 1.00000000, но это не страшно. Если хочется этого избежать, можно в исходной таблице начинать имена проб с буквы. Разрядность номеров можно сократить, щелкнув по заголовку строки правой кнопкой мыши и выбрав Case Name Management... -> Case Name Manager, а в его окне сократить число разрядов в поле Case name length (но это не обязательно). Вот так может выглядеть таблица с данными:

ВНИМАНИЕ: путаница с данными. В программе статистике может быть открыт файл с таблицей данных (*.STA) а также файл с результатами вычислений (*.STW, см. ниже). В списке файлов, открытых в программе (меню Window) и в заголовке окна программы (если активным является файл с таблицей данных) перед названием файла написано Data:. Следите за тем, чтобы при расчетах в Statistica была единовременно открыта только одна таблица с исходными данными, в противном случае, в качестве источника данных для статистических расчетов может по ошибке использоваться "не тот" файл. За источник данных программа принимает таблицу, которая была активной последней (т.е. выводилась на экран позже других таблиц с данными).

Из панелей инструментов главная - панель форматирования, в ней кнопки оформлены по единому стандарту офисных приложений и сразу понятны. Не забывайте использовать кнопку разрядности, чтобы привести числа в удобочитаемый вид с несколькими значащими цифрами.

Если вы забыли сделать столбец логарифмов, то можно рассчитать их прямо здесь. Для этого выбираем пустой столбец (если его нет - добавлем через меню Insert -> Add Variables...), дважды кликаем по его "шапке", в открывшемся окне даем название столбцу, например, lgCu, а затем в нижнем поле пишем формулу =Log10(vN), где N - номер столбца с переменной для логарифмирования. Нажимаем OK - во всех ячейках столбца устанавливаются значения логарифмов чисел из непустых ячеек столбца N. В примере ниже мы логарифмируем данные из 7-го столбца (v7, т.е. variable 7).

Теперь сохраняем файл (File -> Save As...) в формате Statistica (Statistica Spreadsheet file *.sta). Таблица данных готова к работе.

ПОДГОТОВКА КЛАССИФИКАЦИОННЫХ КОДОВ

Если столбец (переменная) таблицы данных содержит код для классификации проб по типам (например, геологический тип), его можно использовать для получения подвыборок или для выделения групп точек на диаграммах. При этом обратите внимание: если эта переменная не всегда имеет значения (например, у части проб коды есть. а у другой части - отсутствуют), для того, чтобы критерии отбора проб по значению кода работали, пустующие клетки нужно заменить на явное значение (иначе при выборе условий строки с пустыми клетками будут проигнорированы). Самый простой вариант: предусмотреть на этот случай код ноль (0) и с помощью операции замены (Edit - Replace) заменить пустующие ячейки (значение в поле поиска поиска оставить пустым) на нули. Теперь таблица готова для применения выборочных критериев отбора.

Для удобства работы осталось настроить способ сохранения расчетов и диаграмм. Для этого выбираем Tools -> Options и открываем закладку Output Manager. В ее верхней части ставим отметку напротив пункта Single Workbook (Common for all Analyses/graphs), чтобы все результаты сохранялись в один файл формата STW. Окно с результатами автоматически откроется после первого вычисления, все остальные расчеты будут в него добавляться. Сохранять файл результатов удобнее под тем же именем, что и таблицу данных, - у них разные расширения, и они не будут мешать друг другу.

ОБРАТИТЕ ВНИМАНИЕ: Output Manager можно вызвать напрямую из меню Files, если в программе Statistica открыт какой-либо файл.

При выходе из программы Statistica предлагает сохранить все файлы в проект. Файлы надо сохранять заранее - каждый по отдельности (если файл содержит не сохраненные изменения, то в "шапке" окна программы после имени файла стоит звездочка - *). Файлы STA и STW сохраним заранее, а проект при выходе НЕ НАДО СОХРАНЯТЬ, иначе Statistica запутается в папках, где лежат файлы (проверено).

Если мы прервемся, а потом захотим продолжить работу с той же таблицей данных, надо будет после открытия таблицы снова войти в настройки Output Manager и выбрать Existing Workbook, а затем - сохраненный ранее файл STW, чтобы новые результаты дописывались к старым.

Вот мы и полностью готовы к статистическим расчетам!

Процедуры расчетов описываются в разделах, посвященных отдельным задачам статистики. ОСТОРОЖНО: обратите внимание, что перед запуском процедуры статистического анализа в таблице исходных данных не был выделен блок ячеек. В противном случае в качестве входных данных Statistica будет использовать именно выделенные ячейки. Чтобы отменить случайное выделение ячеек, просто ткните мышкой в любую клетку таблицы.

После получения результатов расчетов, нам может понадобиться перенести их в Word, Excel или другую электронную таблицу или графическую программу. Таблицы и графики из рабочей книги STW переносятся по отдельности. Для переноса графика нужно выделить его и скопировать в буфер обмена Windows. Проще всего - кликнуть правой кнопкой мыши и выбрать пункт Copy Graph. График копируется как метафайл, связанный с программой Statistica, но иногда его нельзя вставить как объект в графическом редакторе.

Таблицы устроены по-особенному: они всегда содержат общий заголовок, затем заголовки строк и столбцов и собственно данные в ячейках. По умолчанию копируются только ячейки. Чтобы скопировать таблицу целиком необходимо выделить ее всю (Ctrl+A или кликнуть по пустому левому верхнему уголку таблицы), а затем кликнуть по любой ячейке правой кнопкой мыши и выбрать Copy with headers. В память попадает вся таблица с заголовками, но в текстовом редакторе (Word и пр.) она будет вставлена целиком, а в электронной таблице - только строки и столбцы со своими заголовками.

 

Общий заголовок можно скопировать отдельно, если требуется (правый клик по нему и выбрать Copy header).

Вопросы? Обращайтесь на русскоязычный сайт программы. Им можно доверять: они там тоже думают о золоте: Показывает язык





Опубликовать в своем блоге livejournal.com
Энциклопедия
Найти

Голос Севастополя

Сайт Сделано у нас

Благотворительный фонд АдВита. Сбор пожертвований на лечение онкологических больных

Элементы       Все о Геологии

Перископ ГК Теллур
РМО Бродячая Камера