МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ
БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ОБРАЗОВАНИЯ
«ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ
УНИВЕРСИТЕТ»
ПРАКТИКУМ ПО ИНФОРМАТИКЕ
Статистическая обработка
химического эксперимента
средствами электронных таблиц
Учебно-методическое пособие
Составители:
И.В. Протасова, И.В. Нечаев
Воронеж
Издательский дом ВГУ
2017
Стр.1
СТАТИСТИЧЕСКА ОБРАБОТКА ЭКСПРИМЕНТАЛЬНЫХ ДАННЫХ
Выборочная и интервальная статистика
Когда возможно повторение экспериментальной оценки какой-либо
величины, оценки истинного значения измеряемой величины могут быть
получены с помощью аппарата математической статистики. Обработка результатов
эксперимента в химии, заключается в применении методов математической
статистики для оценки зависимости значений различных физико-химических
величин (свойства соединений, параметры химических и
химико-технологических процессов и др.), характеризующих изучаемые
объекты, процессы от одного или нескольких изменяемых параметров (например,
температуры, давления и др.). Обработка результатов эксперимента
включает определение точности данных, полученных при его проведении,
оценки воспроизводимости опыта.
Результаты измерений обычно содержат случайные ошибки, поэтому
статистические оценки выполняют только при наличии серии измерений –
случайной выборки. Для оценки измеряемого значения какой-либо величины
от изменяемых параметров по данным выборки рассчитывают выборочные
параметры. Значения случайной выборки, как правило, подчиняются
нормальному закону распределения случайных величин, конкретный вид
которого определяют два параметра – выборочное среднее и выборочная
дисперсия.
Точность получаемых оценок устанавливают с помощью статистических
критериев Стьюдента (t-критерий), Фишера (F-критерий) и т. д. При
этом количественными мерами служат вероятность и уровень значимости
статистического критерия р = 1-.
Неотъемлемой частью любого измерения является погрешность. Погрешность
– количественная характеристика неопределенности, или неод3
Стр.3
Gp N
m s )ax(
2j
s
j 1
2j
предельно допустимое, значение критерия Кохрена Gt, определяется из
справочных таблиц по общему числу оценок дисперсий (т.е. числу серий
опытов N) и числу степеней свободы f = k-1, где k - число параллельных
измерений в опыте [4-5]. Если выполняется условие Gp Gt, то опыты считаются
воспроизводимыми.
Таблица 1.
Некоторые статистические функции в Excel и Calc
функция Excel
(рус.)
ДИСП
ДИСПР
ДОВЕРИТ
КВАЛРОТКЛ
КВПИРСОН
КОВАР
КОРРЕЛ
Функция Calc
(англ.)
VAR
VARP
CONFIDENCE
DEVSQ
RSQ
COVAR
CORREL
Назначение
Возвращает дисперсию по выборке
Возвращает дисперсию для генеральной
совокупности
Возвращает доверительный интервал
для среднего генеральной совокупности
Возвращает
сумму квадратов отклонений
точек данных от их среднего
Возвращает квадрат коэффициента
корреляции Пирсона
Возвращает ковариацию, т. е. среднее
произведений отклонений для каждой
пары точек данных
Возвращает коэффициент корреляции
6
есть расчетное значение критерия Кохрена. Критическое,
Стр.6
ЛГРФПРИБЛ
ЛИНЕЙН
МАКС
МЕДИАНА
МИН
МОДА
НАИБОЛЬШИЙ
НАИМЕНЬШИЙ
НАКЛОН
ОТРЕЗОК
ПИРСОН
ПРЕДСКАЗ
РАНГ
LOGEST
LINEST
MAX
Возвращает экспоненциальное уравнение
регрессии
Возвращает линейное уравнение регрессии
Возвращает
максимальное значение
из списка аргументов
MEDIAN Возвращает медиану заданного набора
чисел
MIN
MODE
LARGE
SMALL
SLOPE
Возвращает наименьшее значение в
списке аргументов
Возвращает наиболее часто встречающееся
значение набора данных
Возвращает k-е наибольшее значение
из множества данных
Возвращает k-е наименьшее значение
во множестве данных
Возвращает наклон линии линейной
регрессии
INTERCEPT Возвращает отрезок, отсекаемый на
оси линией линейной регрессии
PEARSON Возвращает коэффициент корреляции
Пирсона
FORECAST
RANK
Возвращает предсказанное значение
функции в данной точке на основе
уравнение линейной регрессии
Возвращает ранг числа в списке чисел
Ранг числа — его величина относительно
других значений в списке
7
Стр.7
РОСТ
СРЗНАЧ
СРОТКЛ
СТАНДОТКЛОН
GROWTH
Возвращает значения в соответствии с
экспоненциальным уравнением регрессии
AVERAGE
Возвращает среднее (арифметическое)
значение
AVEDEV
STDEV
СТАНДОТКЛОНП STDEVP
СТЬЮДРАСПОБР
СЧЁТ
СЧЁТЗ
ТЕНДЕНЦИЯ
ЧАСТОТА
ЭКСЦЕСС
TINV
COUNT
Возвращает среднее абсолютных значений
отклонений точек данных от
среднего
Возвращает стандартное отклонение
по выборке
Возвращает стандартное отклонение
по генеральной совокупности
Возвращает обратное распределение
Стьюдента для заданного числа степеней
свободы
Возвращает количество чисел в списке
аргументов
COUNTA Возвращает количество непустых значений
в списке аргументов
TREND
Возвращает значения в соответствии с
линейным уравнением регрессии
FREQUENCY Возвращает распределение частот в
виде вертикального массива
KURT
Возвращает эксцесс множества данных
Часто
в практических задачах приходится определять интервалы отклонения
оценочных значений случайной величины от ее истинного значения
с разной вероятностью. Т.е. для случайной величины, за истинное зна8
Стр.8
чение которой принято ее среднее значение, найденное из опыта, требуется
найти максимальную погрешность с заданной вероятностью :
x xx
.
Полученный интервал называют доверительным, вероятность – доверительной
вероятностью, а его границы ( x
ницами. На практике величину доверительной вероятности берут 0,90; 0,95;
0,99. Расчет доверительного интервала зависит от объема выборки – k. Если
объем выборки больше 30 (k > 30), то предполагают, что случайная величина
подчиняется нормальному распределению, и расчет доверительного
интервала можно проводить с использованием стандарта среднего
Sср
соотношениям:
x 3Sср
x Sср
x 2Sср
x x 3S ср для = 0,997;
x x 2S ср для = 0,950;
x x S ср для = 0,680;
Если выборка содержит меньше 30 значения, то предполагается, что
случайная величина подчиняется распределению Стьюдента, а доверительный
интервал рассчитывают по соотношению:
S
x t p, f
k
x x t p, f
S
k
,
где tp,f - коэффициент Стьюдента, который зависит от уровня значимости
(p = 1 - ) и числа степеней свободы (f = k - 1).
Статическую оценку выборки средствами электронных таблиц
можно осуществить с помощью сервиса «Описательная стати9
S
2
k
.
По
правилу трех стандартов доверительный интервал определяется по
)– доверительными гра
Стр.9
стика». Набор рассчитываемых параметров для выборки практически
совпадает в Excel и Calc (рис. 1).
Рис. 1. Результаты применения сервиса «Описательная статистика» к
одним и тем же данным в Excel и Calc.
Корреляция
При установлении взаимосвязи между двумя величинами исследователь,
пытаясь визуализировать результат, наносить результаты в виде точек
на диаграмму. Довольно часто полученный результат сразу невозможно
описать линейной или др. зависимостью, т.к. на диаграмме точки занимают
некоторую область плоскости (рис. 2в). Такие диаграммы называют диаграммами
рассеивания (рис. 2). Причинами рассеивания являются неучтенные
факторы, погрешности эксперимента и т.д.
Используя диаграмму рассеивания можно лишь с некоторой вероятностью
оценить наличие взаимосвязи между откликом (yi) и задаваемым
параметром (хi). С помощью диаграммы рассеивания можно лишь качественно
оценить наличие корреляции между yi и xi.
10
Стр.10