Линейная регрессия
(9.3) |
п (X Уххх )-Х Ух X х1.
Для удобства вычислений используют вспомогательную таблицу (табл. 9.1), в которой рассчитываются необходимые суммы.
Таблица 9.1
Вспомогательная таблица для линейной функции
Заголовки данных | хі | Уі | х2 | хіУі | ур | 1^ 1 Он.- | (Уі - У)2 |
Промежуточные значения | |||||||
п Сумма (^ ) по столбцу і=1 | — |
Задача № 9.01
Некоторая фирма занимается поставками различных грузов на короткие расстояния внутри города.
Перед менеджером стоит задача оценить стоимость таких услуг, зависящую от затрачиваемого на поставку времени. В качестве наиболее важного фактора, влияющего на время поставки, менеджер выбрал пройденное расстояние. Были собраны исходные данные о десяти поставках (табл. 9.2).Таблица 9.2
Исходные данные задачи № 9.01
Расстояние, миль | 3,5 | 2,4 | 4,9 | 4,2 | 3,0 | 1,3 | 1,0 | 3,0 | 1,5 | 4,1 |
Время, мин | 16 | 13 | 19 | 18 | 12 | 11 | 8 | 14 | 9 | 16 |
Постройте график исходных данных, определите по нему характер зависимости между расстоянием и затраченным временем, проанализируйте применимость метода наименьших квадратов, постройте уравнение регрессии, проанализируйте силу регрессионной связи и сделайте прогноз времени поездки на 2 мили.
У, мин.
Рис. 9.4. График исходных данных задачи № 9.01 |
Решение |
На рис. 9.4 построены исходные данные по десяти поездкам. |
Помимо расстояния на время поставки влияют пробки на дорогах, время суток, дорожные работы, погода, квалификация водителя, вид транспорта. Построенные точки не находятся точно на линии, что обусловлено описанными выше факторами. Но эти точки собраны вокруг прямой линии, поэтому можно предположить линейную связь между параметрами.
Все исходные точки равномерно распределены вдоль предполагаемой прямой линии, что позволяет применить метод наименьших квадратов.Вычислим суммы, необходимые для расчета коэффициентов линейной регрессии, коэффициента детерминации с помощью табл. 9.3.
хі | Уі | Хі2 | ХіУі | ур | 1^ 1 Он.- | (Уі - У) |
3,5 | 16 | 12,25 | 56,00 | 15,223 | 2,634129 | 5,76 |
2,4 | 13 | 5,76 | 31,2 | 12,297 | 1,697809 | 0,36 |
4,9 | 19 | 24,01 | 93,1 | 18,947 | 28,59041 | 29,16 |
4,2 | 18 | 17,64 | 75,60 | 17,085 | 12,14523 | 19,36 |
3,0 | 12 | 9,00 | 36,00 | 13,893 | 0,085849 | 2,56 |
1,3 | 11 | 1,69 | 14,30 | 9,371 | 17,88444 | 6,76 |
1,0 | 8 | 1,00 | 8,00 | 8,573 | bgcolor=white>25,2707331,36 | |
3,0 | 14 | 9,00 | 42,00 | 13,893 | 0,085849 | 0,16 |
1,5 | 9 | 2,25 | 13,50 | 9,903 | 13,66781 | 21,16 |
4,1 | 16 | 16,81 | 65,60 | 16,819 | 10,36196 | 5,76 |
Е=28,9 | Е= 136 | Е=99,41 | Е=435,30 | — | 112,4242 | 122,4 |
- Е Уі 16 +13 + 19 + 18 + 12 + 11 + 8 +14 + 9 + 16
У = —— =------------------------------------------------------ = 13,6.
п 10
По формулам (9.3) вычислим коэффициенты линейной регрессии
10 • 435,30-136 • 28,9 а і = = 2,660 ;
1 10 • 99,41 -835,21
а0 = 0,1 • (136-2,660 • 28,9)= 5,913.
Таким образом, искомая регрессионная зависимость имеет вид
ур = 5,913+2,660х. (9.4)
Наклон линии регрессии а1 = 2,66 минут на милю - это количество минут, приходящееся на одну милю расстояния. Координата точки пересечения прямой с осью У а0 = 5,913 минут - это время, которое не зависит от пройденного расстояния, а обуславливается всеми остальными возможными факторами, явно не учтенными при анализе.
По формуле (9.2) вычислим коэффициент детерминации
2 112 424
г2 =----- ------ =-- 0,918 или 91,8%.
122,400
Таким образом, линейная модель объясняет 91,8% вариации времени доставки. Не объясняется 100% - 91,8% = 8,2% вариации времени поездки, которые обусловлены остальными факторами, влияющими на время поставки, но не включенными в линейную модель регрессии.
Поскольку коэффициент детерминации имеет достаточно высокое значение и расстояние 2 мили, для которого надо сделать прогноз, находится в пределах диапазона исходных данных (см. табл. 9.2), то мы можем использовать полученное уравнение линейной регрессии (9.4) для прогнозирования
у (2 мили ) = 5,913 + 2,660 • 2 = 11,2 минут.
При прогнозах на расстояния, не входящие в диапазон исходных данных, нельзя гарантировать справедливость модели (9.4). Это объясняется тем, что связь между временем и расстоянием может изменяться по мере увеличения расстояния. На время дальних перевозок могут влиять новые факторы такие, как использование скоростных шоссе, остановки на отдых, обед и т.п.
Приблизительным, но самым простым и наглядным способом проверки удовлетворительности регрессионной модели является графическое представление отклонений (рис. 9.5).
Отклонения £, мин. |
Отложим отклонения (у? - у^) по оси У, для каждого значения у^. Если
регрессионная модель близка к реальной зависимости, то отклонения будут носить случайный характер и их сумма будет близка к нулю. В рассмотренном
примере у (ур - уі )= 0,004. і=1
9.2.1.
Еще по теме Линейная регрессия:
- 1. Линейная регрессия
- 2. Нелинейная регрессия
- Расширение линейной множественной регрессии.
- Линейная регрессия
- Нелинейная регрессия
- Глава 16. ЛИНЕЙНАЯ РЕГРЕССИЯ
- S 16.4. ПРЕДСКАЗАНИЯ И ПРОГНОЗЫ НА ОСНОВЕ ЛИНЕЙНОЙ МОДЕЛИ РЕГРЕССИИ
- S 16.9. РЕГРЕССИЯ И Excel
- Глава 36. линейная регрессия
- § 36.1. ПРОСТАЯ МОДЕЛЬ ЛИНЕЙНОЙ РЕГРЕССИИ
- § 36.4. ПРЕДСКАЗАНИЯ И ПРОГНОЗЫ НА ОСНОВЕ ЛИНЕЙНОЙ МОДЕЛИ РЕГРЕССИИ
- § 36.7. ИСПЫТАНИЕ ГИПОТЕЗЫ ДЛЯ ОЦЕНКИ ЛИНЕЙНОСТИ СВЯЗИ
- § 36.9. РЕГРЕССИЯ И Excel
- 2.1. Понятие парной регрессии
- 2.3. Оценка параметров линейной парной регрессии
- 3.2. Отбор факторов при построении множественной регрессии
- 3.3. Выбор формы уравнения регрессии