МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ
ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ОБРАЗОВАНИЯ
«ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ
УНИВЕРСИТЕТ»
Ю. М. Фетисов, А. Э. Крупко
МНОГОМЕРНЫЙ
КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ
АНАЛИЗ
Учебное пособие
Воронеж
Издательский дом ВГУ
2015
1
Стр.1
ВВЕДЕНИЕ
Использование многомерного регрессионно-корреляционного анализа
находит место во многих аспектах различных исследованиях и является
одним из наиболее употребляемых методов изучения статистических
закономерностей. Поэтому это учебное пособие может с успехом
использоваться в преподавании курсов «Общая и социально-экономическая
статистика», «Математическая статистика», «Математические методы
исследования региона», «Информатика» для студентов факультета
географии,
геоэкологии и туризма Воронежского университета,
обучающихся по специальностям «Экология», «Природопользование»,
«География». Цель пособия – помочь студентам научится осмысленно
применять регрессионно-корреляционный анализ в учебных и научных
исследованиях, что достигается сочетанием обычного математического и
кибернетического подходов (с помощью ЭВМ). Этот анализ подразумевает
выявление основных факторов развития. Большое значение имеет выявление
статистических связей между явлениями и построения на этой основе
моделей. Статистическая связь не проявляется в каждом случае, а как
правило, при большом числе наблюдений, что обусловливает использование
многомерного анализа. Частным случаем статистической связи является
корреляционная связь. Для исследования корреляционной связи необходимо,
чтобы выполнялись три условия: 1) наличие данных по достаточно большой
совокупности; 2) наблюдалась определенная однородность совокупности; 3)
распределение признаков совокупности по нормальному закону
распределения. До построения статистической модели анализируются
средние величины группировок, вариация признаков. Особое значение имеют
среднее квадратическое отклонение и дисперсия. Важным моментом в
исследовании, часто имеющее самостоятельное значение, является
выявление корреляционных связей. В основе теории корреляции лежит
представление о тесноте связи между изучаемыми явлениями. Наиболее
3
Стр.3
у=
где
1 e
2
)
( x
2
логарифмов, х – значение переменной,
= 3,14.
2
2
,
– среднее квадратичное отклонение, е – основание натуральных
– математическое ожидание, или x ,
Кривую нормального распределения можно использовать для описания
большинства распределений, существующих в природе. Вследствие
зависимости от величины стандартного отклонения, которое служит удобной
мерой рассеяния данных относительно среднего значения, нормальное
распределение находит применение в параметрических статистических
методах, являясь фундаментом, на котором строятся корреляционный и
регрессионный анализы. Любое отклонение данных от нормального закона
распределения делает статистические выводы недостоверными. Для
«нормализации» кривой можно осуществить преобразование данных с
помощью некоторой функции (например, взять логарифм или возвести в
квадрат).
что среднее в выборке x
генеральной совокупности (
Критерий t Стьюдента используется для проверки гипотезы о том,
может служить оценкой среднего во всей
). Критерий определяется по формуле:
n
t .
x
/
Вычисленные значения t следует сравнить с табличными
теоретическими значениями при различных уровнях значимости.
1.2. Вычисление средних величин
Средняя арифметическая величина позволяет выявить наиболее
существенные черты, характерные для всей статистической совокупности:
n
X
x
,
где – сумма, x – отдельное значение признака, n – число наблюдений.
6
Стр.6
Пример 1.1. Число элементов n ряда составляет 20 объектов: 2, 15, 6,
24, 13, 18, 7, 63, 51, 12, 9, 15, 43, 26, 23, 17, 11, 8, 21, 44. Сумма этого ряда
равна 428, разделив на 20, получим X 21,4
При большом количестве изучаемых показателей среднюю величину
проще вычислять по формуле средневзвешенной:
X 1
n
xm
n
m
1
где x – центральные значения интервалов, а m– частоты.
Пример 1.2. По данным таблицы 1.1. рассчитаем среднюю величину
Таблица 1.1. Доходы населения с общей численностью 1000 чел.
Середина
Среднедушевой
доход
(тыс. руб)
до 2,0
2,0 – 4,0
4,0 – 6,0
6,0 - 8,0
8,0 - 10,0
свыше 10,0
Итого
Получим х
Число
жителей
f
интервала
x
1 2 3
160
275
240
156
109
60
1000
1000 5 0
4998
,
;
1,5
3,0
5,0
7,0
9,0
11,0
-
1000 25
32568
2,8.
Если при замене индивидуальных величин признака на среднюю
величину необходимо сохранить неизменной сумму квадратов исходных
7
xf
4
240
825
1200
1092
981
660
4998
x f
2
5
360
2475
6000
7644
8829
7260
32568
x m x m x mn n
...
1 1 2 2 ...
m1 m m n
2
,
Стр.7
величин, то средняя будет являться квадратической средней величиной:
x
кв.
=
в 5 км.
Найдем величину стороны квадратного участка среднего по площади для
этих двух участков. Очевидно, что 3 км не подходит, потому что его площадь
будет 9 кв. км., а средняя площадь 13 кв.км. По формуле ср. кв. находим
x кв
.
1 5 = 13 =3,61.
2
2
Пример 1.4. Имеется несколько квадратных участков земли (три из
которых имеют стороны по 1 км, два участка со сторонами по 3 км, один
участок – 6 км, и пять участков по 4 км). Используя средневзвешенную
квадратическую величину, надо найти размер стороны среднего для них по
площади
находим x кв
.
1 3 3 2 6 4 5 = 12 45,
участка.
2
2
2
11
По
2
формуле
=3,53.
Соответственно, если при замене индивидуальных величин признака на
среднюю величину необходимо сохранить неизменным произведение
индивидуальных величин, то следует применять геометрическую среднюю
величину. Ее формула такова:
x
геом
=
n x x …xn
1 2
Пример 1.5. Выпуск в основных ценах хозяйства страны составил за
2010-2013 годы соответственно 105,0%, 104,3%, 103,7% и 101,5%. Средняя
арифметическая даст 103,625%, что неверно, потому что сравнению
абсолютных показателей
даст другой результат. Поэтому необходимо
использовать геометрическую среднюю величину. Она будет равна:
x
геом=
4 105 *104,3*103,7*101, 5 =103,616
8
ср.
кв.
вз.
2
xi
i1
n
n
Пример 1.3. Имеется два участка земли со сторонами квадрата в 1 км и
2
Стр.8
Если по условиям задачи необходимо, чтобы неизменной оставалась
при осреднении сумма величин, обратных индивидуальным значениям
признака, то средняя величина является гармонической. Формула ее:
n
x
гарм.
=
xi
i 1
1
Пример 1.6. Автомобиль с грузом движется со скоростью 50 км в час,
обратно без груза со скоростью 100 км в час. Расстояние между пунктами
равно s. Время поездки
x
s
1 1 =
x x
1
2
x
гарм=
x x
1 1
50
1
2
1
1
=
2
x
s
. Подставляя x и x
100
1
= 3
2 100
2
x
s
50
1
=66,67 км/час
Все рассмотренные выше виды средних величин принадлежат к
общему типу степенных средних. Различаются они лишь показателем.
Степенная средняя есть корень к-й степени из частного от деления суммы
индивидуальных значений признака в к-й степени на число индивидуальных
значений:
x
степ.= k
xi
i1
n
n
При к = 1 получаем арифметическую среднюю, при к = 2 – квадратическую,
при к = 3 – кубическую, при к = 0 – геометрическую, при к = –1 –
гармоническую среднюю. При этом наблюдается следующее соотношение,
которое называется правилом мажорантности средних:
_
X гарм
≤
_
X геом
≤ x
арифм . ≤ x
кв.
≤ x
куб.
k
x
s
100
1
= x
2 , получим
, сократив на s, получим
1
9
Стр.9
1.3. Вычисление основных показателей вариации
Для оценки колеблемостей значения изучаемого признака вводятся
особыпоказатели – лимиты, которые характеризуют максимальное и
минимальное значение признаков. Разность между лимитами ряда составляет
его размах: lim = max. – min.
В то же время более точно степень развития признака выражается
таким показателем, как среднее абсолютное отклонение:
1
x x
n
n
,
но чаще используется другой показатель степени разнообразия – среднее
квадратическое отклонение:
1
x x
n
n
2
.
При большом числе n можно использовать и более простую формулу:
2 .
n
1
n x
x
2
Вычисление среднего квадратического отклонения при группированных
данных производится по формуле средневзвешенной:
2
где m– вес (частота).
Дисперсия
n
n
1
x x m
1
m
( )D равна
2
и служит мерой рассеяния данных
относительно среднего арифметического. Дисперсия может быть простая и
взвешенная. Общая дисперсия измеряет вариацию признака во всей
совокупности под влиянием всех факторов, обусловливающих эту вариацию
10
,
Стр.10