4.4.2. Регрессионный анализ
У =/(хи Х2, ..., Хп),
где у — зависимая переменная (следствие);
Х( — независимая переменная (фактор).
Если зависимая переменная одна, имеет место простой регрессионный анализ. Если же их несколько, т.е. и > 2, такой анализ называется многофакторным.
В ходе регрессионного анализа решаются две основные задачи:
• построение уравнения регрессии, т. е. нахождение вида зависимости между результатным показателем и независимыми факторами
XI, х2... ;
• оценка значимости полученного уравнения, т. е. определение того, насколько выбранные факторные признаки объясняют вариацию признака у.
Применяется регрессионный анализ главным образом для прогнозирования, планирования, а также для разработки нормативной базы.
В отличие от корреляционного анализа, который только отвечает на вопрос, существует ли связь меоду анализируемыми признаками, регрессионный анализ дает и ее формализованное выражение. Кроме того, если корреляционный анализ изучает любую взаимосвязь факторов, то регрессионный — причинно-следственную зависимость, т.е. одностороннюю, показывающую, каким образом изменение факторных признаков влияет на признак результативный.
Регрессионный анализ — один из наиболее разработанных методов математической статистики. Строго говоря, для реализации регрессионного анализа необходимо выполнение ряда специальных требований (в частности, х^,х2,...х№ у должны быть независимыми, нормально распределенными случайными величинами с постоянными дисперсиями). В реальной жизни строгое соответствие требованиям регрессионного и корреляционного анализа встречается очень редко, однако оба эти метода весьма распространены в экономических исследованиях.
Зависимости в экономике могут быть не только прямыми, но и обратными, и нелинейными. Регрессионная модель может быть построена при наличии любой зависимости, однако в многофакторном анализе чаще всего используют линейные модели вида.
у = а0 + аххх + агхг +... + апхп -
- м
Построение уравнения регрессии осуществляется, как правило, методом наименьших квадратов, суть которого состоит в минимизации суммы квадратов отклонений фактических значений результатного признака от его расчетных значений, т.е.:
5 =
где т — число наблюдений,
у^ -а^+йух! +а2х{ +...+апх/, — расчетное значение результатного показателя.
Уравнения регрессии легко строятся с помощью персонального компьютера или специализированного финансового калькулятора. При отсутствии технических средств коэффициенты регрессии для простейшего случая — однофакторного линейного уравнения регрессии вида у = а + Ьх — можно найти по формулам:
т т
X У) - ''X Х і Х*уХ V; - "X xjУj
т |
а=)=] М , Ь=м М М_____________ ■
( п ^
«Х-*,2 - Х-*/
ч'=| /
После построения уравнения регрессии необходимо сделать проверку его значимости: с помощью специальных критериев установить, не является ли полученная зависимость, выраженная уравнением регрессии, случайной, т.е. можно ли ее использовать в прогнозных целях и для факторного анализа. В статистике разработаны методики строгой проверки значимости коэффициентов регрессии с помощью дисперсионного анализа и расчета специальных критериев (например, /'-критерия). Нестрогая проверка может быть выполнена путем расчета среднего относительного линейного отклонения (£), называемого средней ошибкой аппроксимации:
«А=1 Ук
где 14- — А-е фактическое значение результативного показателя;
у( — выравненное, т.е.
рассчитанное по уравнению регрессии, к-е значение результативного показателя.Модель считается адекватной, т.е. пригодной для практического использования, если средняя ошибка аппроксимации не превосходит 15%.
Распространенность линейных моделей объясняется относительной легкостью их интерпретации.
Уравнение регрессии может быть представлено двумя способами:
а) в натуральном масштабе:
У = а0 +а1Л:1 + а2х2 + " + апхп '■> (4.14)
б) в стандартизованном масштабе:
Л,=А-*,+і8г./2+...+ А,./л. (4-15)
В первом случае факторы входят в модель в виде исходных показателей, имеющих собственные единицы измерения; во втором случае они представлены в модели в виде относительных показателей, имеющих одинаковую размерность.
Факторы и коэффициенты регрессии в приведенных представлениях (4.14) и (4.15) связаны между собой с помощью соответствующих средних и дисперсий следующими соотношениями:
хк~х о ° о ~
Коэффициент множественной корреляции можно найти через коэффициенты парной корреляции между факторами и результативным показателем и бета-коэффициенты по формуле
'МГОТ
Интерпретация коэффициентов и статистик:
а0 — как правило, не интерпретируется;
коэффициент регрессии аи выражает средний прирост результативного показателя, обусловленный приростом факторного признака х* на единицу (имеются в виду единицы измерения, в которых измерены показатели в модели);
квадрат коэффициента множественной корреляции (В = Я2) называется коэффициентом детерминации и характеризует долю вариации зависимой переменной у, которая объясняется действием включенных в модель факторных признаков (например, й = 0,64 означает, что 64% вариации объясняется включенными в модель факторами, а 36% — другими причинами, т.е. факторами, не представленными в модели);
бета-коэффициент характеризует степень влияния вариации соответствующего фактора на вариацию результативного показателя; он является относительным показателем, и его абсолютное значение не превосходит единицу.
В анализе активно применяется коэффициент эластичности, показывающий, на сколько процентов изменяется в среднем результативный показатель у при изменении фактора Хк на один процент, и рассчитываемый по формуле
Хк |
Коэффициенты регрессии в (4.14) несопоставимы между собой, а ^-коэффициенты уже сопоставимы. Поэтому для аналитика именно стандартизованное представление уравнения регрессии имеет особую значимость, поскольку позволяет дать сравнительную характеристику значимости факторов: чем больше значение ^-коэффициента, тем более существен фактор с позиции влияния его на результативный показатель. Бета-коэффициенты могут использоваться для установления нормативов, разработки весовых коэффициентов при конструировании различных сложных аналитических показателей (например, уровень научно-технического прогресса).
Для примера приведем последовательность расчетных формул при построении линейной двухфакторной зависимости, если имеется п наблюдений результативного признака у и факторных признаков X] и х^:
а) в натуральном масштабе:
у = а0 + а^, + а2х2; (4.16)
б) в стандартизованном масштабе:
Коэффициенты регрессии для представления (4.16) находятся с помощью системы нормальных уравнений (чтобы не загромождать запись, индекс к , по которому идет суммирование у результативного и факторных признаков, подразумевается, но не приводится; к = 1,2, и).
«■«О + «2X^2 =Ху;
к і к
\ «О X + а\XХ\ + °2 Xх2*1 = X У • Х1 >
к к к к
к к к к
Бета-коэффициенты могут быть найдены из следующей системы:
ГД+г,202=гО1;
ЬгД + 02 = Г02 >
где ґоі — коэффициент парной корреляции между V и .Г| ;
г02 — коэффициент парной корреляции между у и х2;
Г12 — коэффициент парной корреляции между Л| И Х2-
Напомним, что можно ограничиться решением лишь одной из приведенных систем уравнений, поскольку переменные и параметры в (4.16) и (4.17) связаны следующими соотношениями:
, * , -Ь-Ь.
в в -а»о--- . 1]- ~~> Н------- V > Р р2-а2~
°У
где среднее квадратическое и средняя арифметическая, например, для у находятся по формулам:
к п к
В качестве упражнения предлагаем читателю составить условный пример нахождения зависимости между выработкой в целом по предприятию (результативный показатель) и двумя факторными признаками — фондовооруженностью (величина основных средств на одного оперативного работника) и долей оперативных работников в обшей численности, если имеются данные по п предприятиям.
Необходимо отметить, что в экономических исследованиях корреляционный и регрессионный анализы нередко объединяются в один — корреляционно-регрессионный анализ. Подразумевается, что в результате такого анализа будет построена регрессионная зависимость (т.е. проведен регрессионный анализ) и рассчитаны коэффициенты ее тесноты и значимости (т.е. проведен корреляционный анализ). В известном смысле корреляционная связь носит более общий характер, поскольку она не предполагает наличия зависимости «причина — следствие».
Практическая реализация корреляционно-регрессионного анализа включает следующие этапы:
а) качественный анализ (постановка задачи и выбор результативного и факторных признаков);
б) сбор информации и ее первичная обработка (группировки, исключение аномальных наблюдений, проверка нормальности одномерных распределений);
в) определение вида модели (по возможности строятся аналитические группировки и графики; чаще всего предпочтение изначально отдается линейной модели; при наличии персонального компьютера могут быть построены несколько видов моделей);
г) проверка однородности совокупности (наиболее простой вариант действий таков: по каждому признаку рассчитывается коэффициент вариации; совокупность признается однородной по данному признаку, если значение коэффициента вариации не превосходит 33%; если данное условие не выполнено, следует повторить процедуру отсеивания наблюдений с аномальными значениями признака);
д) проверка нормальности распределений признаков (например, путем расчета показателей асимметрии и эксцесса);
е) отбор факторов в модель, имея в виду, что число наблюдений должно, как минимум, в 6—8 раз превосходить число факторов в модели;
ж) устранение мультиколлинеарности (взаимозависимости) факторов и уточнение набора показателей (наиболее простой вариант действий таков: рассчитываются парные коэффициенты корреляции по всем анализируемым признакам; любые два фактора не могут одновременно включаться в модель, если они связаны между собой теснее, чем каждый из них с результативным показателем; иными словами, два фактора включаются в модель, если для абсолютных значений парных коэффициентов корреляции одновременно выполнены неравенства га, > г,у и г0} > гу , где г,у — коэффициент корреляции между факторными признаками, г01 — коэффициент коррелляции между /-м фактором и результативным показателем; в противном случае в модель включается лишь один из этих двух факторов — тот, который более тесно связан с результативным признаком);
з) построение уравнения регрессии с помощью системы нормальных уравнений;
и) проверка значимости полученного уравнения (расчет коэффициента множественной корреляции и других статистик);
к) оценка результатов анализа и подготовка рекомендаций по их практическому использованию.
Мы привели достаточно подробное изложение процедуры действий в том случае, если построение уравнения регрессии осуществляется без применения технических средств. Если имеется в наличии персональный компьютер или специализированный калькулятор, то большая часть приведенных действий возлагается на техническое средство. Следует отметить, что в среде персональных компьютеров имеются специализированные пакеты, которые выполняют большую часть приведенных действий в полном объеме (например, пошаговый регрессионный анализ позволяет автоматически отсеивать незначимые факторы). Что касается специализированных финансовых калькуляторов, то в этом случае происходит лишь «механический» расчет коэффициентов регрессии и статистик в соответствии с заданными алгоритмами; никаких проверок мультиколлинеарности и отсеивания факторов не делается, т.е. эти процедуры возлагаются на исследователя.
Каким бы способом ни строилось уравнение регрессии, исследователь должен понимать логику его построения и те условности, которые сопровождают этот процесс. Нередко условия проведения корреляционно-рег- рессионного анализа в полном объеме не выполняются, поэтому следует помнить, что чем существеннее нарушение формальных требований анализа, тем менее приложима полученная модель на практике. Аналитик не должен вводить в заблуждение пользователей результатами своего анализа, поэтому в случае невозможности более или менее обоснованного применения корреляционно-регрессионного анализа следует отказаться от него и воспользоваться другими методами, даже если они выглядят слишком простыми. Сложность — не всегда гарантия качества. Безусловно, многое зависит от цели и условий анализа; достаточно строгое следование формальным предписаниям должно иметь место, например, при тематическом анализе, выполняемом однократно и/или нерегулярно и предполагающем наличие достаточного ресурса по временному, информационному, техническому и другим параметрам. Что касается использования корреляционно-регрессионного анализа для текущего планирования, то в этом случае требования в отношении формальных предпосылок могут быть менее жесткими.
Еще по теме 4.4.2. Регрессионный анализ:
- Бараз В.Р.. Корреляционно-регрессионный анализ связи показателей коммерческой деятельности с использованием программы Excel, 2005
- 3.3. Ошибки прогнозирования (определение качества регрессионного анализа)
- Глава 4 ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА И ПРОГНОЗИРОВАНИЯ
- 4.3. Исходные предпосылки регрессионного анализа и свойства оценок
- 3. Анализ (обобщение статистического материала на основе средних, индексных, выборочных методов; метода рядов динамики; кор-реляционного анализа и корреляционно-регрессионного анализа)
- Метод корреляционно-регрессионного анализа
- § 16.8. ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ В ЛИНЕЙНОМ РЕГРЕССИОННОМ АНАЛИЗЕ
- 12.4. Парный регрессионный анализ
- 6.2.1. Модель, основанная на методе регрессионного анализа
- 4.4.2. Регрессионный анализ
- § 36.8. ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ В ЛИНЕЙНОМ РЕГРЕССИОННОМ АНАЛИЗЕ
- РЕГРЕССИОННЫЙ АНАЛИЗ
- СТАТИСТИКИ, СВЯЗАННЫЕ С ПАРНЫМ РЕГРЕССИОННЫМ АНАЛИЗОМ
- ВЫПОЛНЕНИЕ ПАРНОГО РЕГРЕССИОННОГО АНАЛИЗА
- ВЫПОЛНЕНИЕ МНОЖЕСТВЕННОГО РЕГРЕССИОННОГО АНАЛИЗА
- 8.3. Корреляционный и регрессионный анализ
- РЕГРЕССИОННЫЙ АНАЛИЗ
- 2.3.7. Асимптотический линейный регрессионный анализ для интервальных данных
- 2. Парный регрессионный анализ
- 3. Множественный регрессионный анализ