12.4. Парный регрессионный анализ
В качестве факторов следует выбирать показатели, отвечающие следующим требованиям:
1) наличие логической связи с результативным показателем;
2) количественная измеримость показателя, принятого в качестве фактора;
3) наличие источников информации для расчета факторов;
4) отсутствие функциональной связи между факторами, включенными в модель.
Уравнение парной регрессии линейного характера имеет общий вид:
у = а + Ъх, (12.16)
где х - фактор, влияющий на результативный показатель; у - признак-фактор;
Ь - коэффициент регрессии, характеризующий степень
влияния а: на у; а — постоянная для данной совокупности исходных данных величина, не зависящая от влияния включенного в анализ фактора х.
Линия регрессии —это линия наибольшего соответствия, проходящая через точки разброса фактических значений, расположенных в системе координат.
Группа предметов или явлений, объединенных каким-либо общим признаком, называется статистической совокупностью.
Различают понятия генеральной и выборочной совокупности.
Генеральная совокупность — это бесконечный набор значений изучаемой случайной величины.
Выборочной совокупностью называют часть случайных величин генеральной совокупности, отобранных из генеральной совокупности для получения сведений о ней. Для того чтобы выполнить задачу выявления закономерностей, выборочная совокупность должна быть репрезентативной (выборка должна быть достаточной и отражать все признаки генеральной совокупности).
Рассмотрим пример, построив регрессионную парную линейную модель зависимости стоимости 1 кв. м общей площади жилья от фактора удаленности объекта от центра города. Исходные данные и промежуточные значения для расчетов приведены в таблице 12.13.
Таблица 12.13 Исходные данные и промежуточные расчеты
|
Окончание табл. 12.13
|
Параметры уравнения регрессии определяются по следующим формулам:
ь = пШ-^Щу ,
г&'СЕр:)3 ' {иЛ7>
1у ЬТ>
а = ^------ (12М
где « - объем выборочной совокупности.
Полученное уравнение имеет вид:
У = 253,968 ~ 6, 667X (12.19)
Коэффициент регрессии Ь = — 6,667 имеет отрицательное значение, что свидетельствует об обратной связи между X и У : чем больше удаленность объекта от центра, тем ниже стоимость. Количественное значение 6,667 показывает, что с изменением удаленности объекта на 1 км стоимость снизится на 6,667 долл/м*.
Насколько достоверно уравнение отражает реальную картину линейности полученной зависимости, можно определить С помощью линейного коэффициента корреляции К. Пирсона:
______ п^ху - Т^Т-У____
В нашем примере г = - 0,953. Значение коэффициента корреляции может изменяться в пределах от -1 до +1.
Если связь между показателями прямая г > 0, если обратная г < 0.
Чем ближе абсолютное значение г к 1, тем теснее связь между показателями.
По мере того, как возрастает сила линейной связи, точки на графике будут лежать более близко к прямой линии, а величина т будет ближе к 1, и наоборот.
Вторым показателем, способным характеризовать тесноту связи, является коэффициент детерминации (гг):
Т(уг-у)г
где У " значение переменной У в каждой точке, исчисленное на основе уравнения регрессии; У - среднее значение У; У - фактическое значение У.
Расчет произведен в таблице 12.14.Таблица 12.14 Расчет коэффициента детерминации
л/п | У | X | У = 253,968 - 6,667Х | V-? | У-У" | (У-Ю* | |
1 | 170 | 12 | 174,0 | -26,6 | 709,5 | -30,6 | 936,4 |
2 | 2Ю | 7 | 207,3 | 6,7 | 44,9 | 9,4 | 88,4 |
3 | 220 | 6 | 214,0 , | 13,4 | 178,6 | 19,4 | 376,4 |
4 | 170 | 13 | 167,3 | -33,3 | 1 109,1 | -30,6 | 936,4 |
5 | 210 | 8 | 200,6 | 0 | 0 | 9,4 | 88,4 |
6 | 200 | 7 | 207,3 | 6,7 | 44,9 | -0,6 | 0,4 |
7 | £00 | 7 | 207,3 | 6,7 | 44,9 | -0,6 | 0,4 |
8 | £20 | 6 | 214,0 | 13,4 | 178,6 | 19,4 | 376,4 |
Э | 190 | 10 | 187,3 . | -13,3 | 1 109,1 | -10,6 | 112,4 |
10 | 180 | 11 | 180,6 | -20 | 400 | -20,6 | 424,4 |
11 | Р | 6 | 214,0 | 13,4 | 178,6 | 9,4 | 88,4 |
12 | 220 | 6 | 214,0 | 13,4 | 178.6 | 19,4 | 376,4 |
13 | 180 | 11 | 180,6 | -20 | 400 | -20,6 | 424,4 |
14 | 200 | 7 | 207,3 | 6,7 | 44,9 | -0,6 | 0.4 |
15 | 210 | 6 | 214,0 | 13,4 | 178,6 | 9,4 | 88.4 |
16 | 220 | 5 | 220,0 | ГО | 400 | 19,4 | 376,4 |
Сумма | 3 210 | 128 | 4 267,1 | 4 693.8 | |||
200,Е | 8,0 |
Данный показатель характеризует отношение той части вариации У, которая объясняется влиянием X, к общей вариации. Б нашем случае указанная доля составляет 95,9%.
Для определения значимости коэффициента корреляции между изучаемыми показателями в случае малой выборки исходных статистических данных целесообразно использовать ^критерий Стьюдента.
Его применение основано на проверке двух гипотез: 1- Между У и X не существует линейной связи (Р = 0). 2. Между У и X существует некоторая линейная связь и X помогает в прогнозировании У (РФ 0).
Расчетное значение критерия определяется по формуле:
(12.21)
где (п - 2) - число степеней свободы;
г - линейный коэффициент корреляции. Если расчетное значение ( будет больше, чем табличное, то гипотеза о нулевом значении коэффициента корреляции в генеральной совокупности не подтверждается; если расчетное значение ниже табличного - в генеральной совокупности корреляция может не наблюдаться,
В нашем примере расчетное значение критерия: Табличное значение г (0,025;14) = 2,144
I (- 0.953)'-(16-2) і = (І,- (- О,053)г) =п,820.
Полученное расчетное значение выше, следовательно, установленная закономерность может проявляться в генеральной совокупности.
Достоверность полученных результатов анализа во многом зависит от полноты и достоверности исходных данных.
Чтобы определить требуемую величину объема выборки, следует первоначально определиться, какой уровень доверительной вероятности нам необходим (например, цд 95 или '99%).
Во многих практических ситуациях зависимость между двумя переменными может иметь нелинейный характер.
В частности, параболическая зависимость между показателями имеет вид:
у ^а + Ьх + сх2. (12.22)
Система нормальных уравнений, из которой можно получить неизвестные параметры а, Ъ и с, имеет вид:
па + ЪУх + с^х2 = Ту ; а£х + йре2 + = ; (12.23)
Ь^а,-' + сУ;е4 = У ух2 ;
Теснота связи, характеризующая точность аппроксимации •параболы, характеризуется корреляционным отношением:
I
3 = Г~ 1(У ~ У Г , (12.24)
Корреляционное отношение имеет диапазон от 0 до + 1; если И>г, то парабола точнее характеризует закономерность связи показателей, нежели прямая линия.
У-Vе |
Дополнительной оценкой точности аппроксимации в нелинейных моделях является средняя относительная ошибка аппроксимации:
X 100, (12.25)
У
Рассмотрим пример моделирования параболической зависимости на основе следующих исходных данных (таблица 12.15).
Система уравнений:
12а + 37Ъ+ 129с = 25 200 37 а + 129Ъ + 493с = 7800
129а + 493Ь + 2 025с = 26 220
Таблица 12.15 Выборочные данные и промежуточные расчеты
|
Отсюда методом подстановки получим:
а = 183,37;
Ь = 43,025; с =
Уравнение зависимости стоимости жилой недвижимости от этажа квартиры имеет вид:
У = 183,370 + 43,025 Х - 9,138Х2. (12.26)
Полученное уравнение показывает, что чем выше этаж квартиры, тем выше стоимость, но до определенного предела (таблица 12.16).
Таблица 12.16 Усредненные показатели стоимости 1 кв. м (определены на основе формулы 12.26)
|
Первая производная уравнения (12.23) определится следующим образом:
= 43,025 -2 * 9,138 X.
Приравняв полученное уравнение к нулю, получим оптимальное значение X:
43,025-2 х 9,138 Х=0.
X =2,3, т.е. наиболее высокую стоимость имеют кварти- ры, находящиеся на 2-3 этажах.
Проверим тесноту связи с помощью корреляционного отношения, определив его основные параметры в таблице 12.17.
Таблица 12.17
Параметры для расчета показателя тесноты связи
|
Окончание табл. 12.17
|
з Ггшо V 9266,7
Теснота связи высокая, так как корреляционное отношение близко к единице.
Средняя относительная ошибка аппроксимации
Е = 0,581-100 = 4,8%.
Для определения достаточности объема выборочной совокупности можно воспользоваться методом уточненной выборки.
Еще по теме 12.4. Парный регрессионный анализ:
- Бараз В.Р.. Корреляционно-регрессионный анализ связи показателей коммерческой деятельности с использованием программы Excel, 2005
- 3.3. Ошибки прогнозирования (определение качества регрессионного анализа)
- Глава 4 ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА И ПРОГНОЗИРОВАНИЯ
- 4.3. Исходные предпосылки регрессионного анализа и свойства оценок
- 3. Анализ (обобщение статистического материала на основе средних, индексных, выборочных методов; метода рядов динамики; кор-реляционного анализа и корреляционно-регрессионного анализа)
- Метод корреляционно-регрессионного анализа
- § 16.8. ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ В ЛИНЕЙНОМ РЕГРЕССИОННОМ АНАЛИЗЕ
- 12.4. Парный регрессионный анализ
- 6.2.1. Модель, основанная на методе регрессионного анализа
- 4.4.2. Регрессионный анализ
- § 36.8. ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ В ЛИНЕЙНОМ РЕГРЕССИОННОМ АНАЛИЗЕ
- РЕГРЕССИОННЫЙ АНАЛИЗ
- СТАТИСТИКИ, СВЯЗАННЫЕ С ПАРНЫМ РЕГРЕССИОННЫМ АНАЛИЗОМ
- ВЫПОЛНЕНИЕ ПАРНОГО РЕГРЕССИОННОГО АНАЛИЗА
- ВЫПОЛНЕНИЕ МНОЖЕСТВЕННОГО РЕГРЕССИОННОГО АНАЛИЗА
- 8.3. Корреляционный и регрессионный анализ
- РЕГРЕССИОННЫЙ АНАЛИЗ
- 2.3.7. Асимптотический линейный регрессионный анализ для интервальных данных
- 2. Парный регрессионный анализ