Автор: Кириллова Екатерина Владимировна
Аннотация. Произведено построение уравнения множественной линейной регрессии, получены оценки всех параметров данного уравнения. В ходе исследования были также проведены проверки статистических критериев и осуществлена проверка выполнения предпосылок метода наименьших квадратов (МНК).
Ключевые слова: автокорреляция, гетероскедастичность, эконометрика, мультиколлинеарность, метод наименьших квадратов.
Регрессионный анализ является эффективным методом исследования между экономическими показателями. По приведённым ниже экспериментальным данным выработки продукции y (результативного признака) и следующих факторов, играющих роль объясняющих переменных: производительности оборудования х1, основных фондов х2, заработной платы х3 и оборотных средств х4, приведенным в таблице, (см [2]) необходимо построить уравнение множественной линейной регрессии и провести его исследование по следующей схеме:
1. Построить уравнение множественной линейной регрессии.
2. Проверить значимость полученного уравнения с помощью F-критерия Фишера.
3. Проверить значимость всех коэффициентов регрессии.
4. Найти доверительные интервалы для коэффициентов регрессии.
5. Найти прогнозное значение выработки продукции y для прогнозных значений: 𝑥0 = 𝑥1𝑚𝑎𝑥 ; 𝑥2𝑚𝑎𝑥 ; 𝑥3𝑚𝑎𝑥 ; 𝑥4𝑚𝑎𝑥 , для двух случаев: математического ожидания M[y| 𝑥0] и индивидуального значения y0 .
6. Найти среднюю эластичность по каждой объясняющей переменной.
7. Проверить предпосылки Метода наименьших квадратов
Исходные данные в табл. 1
Таблица 1
Х1 |
Х2 |
Х3 |
Х4 |
У |
10 |
12 |
22 |
8 |
35 |
20 |
14 |
25 |
11 |
35 |
10 |
20 |
24 |
10 |
45 |
25 |
10 |
17 |
9 |
45 |
15 |
15 |
20 |
11 |
55 |
20 |
10 |
10 |
12 |
65 |
30 |
20 |
15 |
20 |
60 |
42 |
9 |
20 |
9 |
25 |
40 |
10 |
19 |
11 |
35 |
38 |
11 |
30 |
20 |
45 |
12 |
8 |
27 |
10 |
65 |
15 |
7 |
43 |
12 |
75 |
1. Построение уравнения множественной линейной регрессии. Для построения уравнения множественной линейной регрессии необходимо найти коэффициенты уравнения. (см [1]) Найдем значение коэффициентов b0, b1, b2, b3, b4 матричным способом решения 𝐵 = 𝑋 𝑇𝑋 −1 ∗ 𝑋 𝑇𝑌. Здесь вектор В искомый вектор коэффициентов уравнения регрессии
В=b1b2b3b4b5
Построим матрицу X исходных данных объясняющих переменных
Х=1 10 12
22 81 20 14
25 111 10
20 24 101 25
10 17 91 15
15 20 111 20
10 10 121 30
20 15 201 42
9 20 91 40
10 19 111 38
11 30 201 12
8 27 101 15
7 43 12
Единица в первом столбце соответствует объясняющей переменной в нулевой степени при коэффициенте 𝑏0. Произведение матриц 𝑋𝑇𝑋 –
ХТ=12
277 146 272 143277
7927 3272 6044
3508146 3272
1980 3181 1800272 6044
3181 6938 3259143 3508
1800 3259 1877
Обратная матрица (𝑋𝑇 𝑋)−1 , округлено до третьего знака после запятой. (𝑋 𝑇 ∙ 𝑋)−1
=3,481
-0,035 -0,121 -0,061 0,021-0,035 0,001 0,001 0,001 -0,002-0,121 0,001 0,008 0,002 -0,005-0,061 0,001 0,002 0,002 -0,0020,021 -0,002
-0,005 -0,002 0,010
Находим произведение матриц 𝑋 𝑇𝑌:
ХТ * Y = 585126157050136357165
В завершении, находим коэффициенты уравнения по формуле 𝐵 =( 𝑋 𝑇𝑋 )−1 ∗ 𝑋 𝑇 𝑌.
В=69,375-1,210-2,090-0,3053,328
Получено уравнение множественной линейной регрессии:
𝑦𝑖 = 69,375 − 1,21𝑥𝑖1 − 2,09𝑥𝑖2 − 0,305𝑥𝑖3 + 3,328𝑥𝑖4.
2. Проверка адекватности и значимости полученного уравнения регрессии: 𝑅 2 = ⋯ , 𝑅 2 = ⋯ , 𝐹 = ⋯. Найдем значение коэффициента детерминации 𝑅 2
R2=QRQY
Qy= i=1n(yi—y)2
=2556,25
QR= i=1n(yi—y)2
=1746,737
R2=0,683
Найдем значение скорректированного коэффициента детерминации 𝑅2
𝑅2 = 1 – (1 − 𝑅2) ∗ n-1n-m-1
=1 — (1-0,683)* 12-112-4-1
= 0,502
Проверим значимость уравнения множественной линейной регрессии, для этого проверим гипотезу о статистической значимости коэффициента детерминации 𝑅2 : H0 : R2=0H1 : R2>0
Найдем значение F- статистики:
F набл. = R21-R2
* v2v1
= R21-R2
* n—m-1m
F набл. = 0,6831-0,683
* 12-4-14
= 3,776
Fкр = 4,120
Вывод: Т.к. коэффициент детерминации меньше 0,7 мы не можем говорить об адекватности модели. (см [5])
3. Проверка значимости всех коэффициентов регрессии. Проверим основную гипотезу, которая используется для установления значимости эмпирического коэффициента регрессии bj H0:bj=0, основная гипотезаH1:bj≠0, альтернативная гипотеза
Так как 𝛽𝑗 = 0 то соответствующая t — статистика имеет вид: 𝑡𝑏𝑗 = bj-0Sbj
, средне квадратическое отклонение каждого коэффициента находим по формуле
Sbj = Se(ХТX)kk-1
Здесь 𝑆𝑒 стандартная ошибка; индекс kk означает диагональный элемент обратной матрицы.
Se = i=1nei2m—n-1
= 809,5137
= 10,754
Приведем величины (ХТХ)kk-1
— диагональные элементы обратной матрицы, среднеквадратические отклонения коэффициентов регрессии и наблюдаемые значения статистик этих коэффициентов (см. таблицу 2):
Таблица 2
(ХТХ)00-1 = |
3,481 |
Sb0 = |
20,063 |
tb0 = |
3,458 |
(ХТХ)11-1 = |
0,001 |
Sb1 = |
0,356 |
tb1 = |
-3,395 |
(ХТХ)22-1 = |
0,008 |
Sb2 = |
0,978 |
tb2 = |
-2,136 |
(ХТХ)33-1 = |
0,002 |
Sb3 = |
0,462 |
tb3 = |
-0,662 |
(ХТХ)44-1 = |
0,010 |
Sb4 = |
1,070 |
tb4 = |
3,109 |
Сравним наблюдаемое значение t-статистики с критической точкой
tkp = ta; n – m – 1. tkp = 2,365
Вывод: Для коэффициентов 𝑡𝑏2 и 𝑡𝑏3 /𝑡 набл./ < 𝑡кр. , следовательно они статистически не значимы (статистически близки к нулю).
4. Нахождение доверительных интервалов для коэффициентов регрессии. Доверительные интервалы (таблица 4) для коэффициентов множественной линейной регрессии вычисляются по формулам:
𝑏𝑗 − 𝑡кр𝑆𝑏𝑗 < 𝛽0 < 𝑏𝑗 + 𝑡кр𝑆𝑏j
В таблице 3 приведены результаты промежуточных вычислений
Таблица 3 Таблица 4
𝑡кр ∗ 𝑆𝑏0 = 47,443 |
𝑡кр ∗ 𝑆𝑏1 = 0,843 |
𝑡кр ∗ 𝑆𝑏2 = 2,314 |
𝑡кр ∗ 𝑆𝑏3 = 1,091 |
𝑡кр ∗ 𝑆𝑏4 = 2,531 |
21,933 < 𝛽0 < 116,818 |
-2,053 < 𝛽1 < -0,367 |
-4,404 < 𝛽2 < 0,223 |
-1,397 < 𝛽3 < 0,786 |
0,797 < 𝛽4 < 5,859 |
Вывод: доверительные интервалы коэффициентов 𝛽2 и 𝛽3 содержит ноль, что также говорит об их незначимости.
5. Нахождение прогнозного значения выработки продукции y для набора прогнозных значений объясняющих переменных
𝑥0 = 𝑥1𝑚𝑎𝑥 ; 𝑥2𝑚𝑎𝑥 ; 𝑥3𝑚𝑎𝑥 ; 𝑥4𝑚𝑎𝑥 .
Расчеты производим для двух случаев: математического ожидания M[y|x0] и индивидуального значения y*0. Матрица прогнозных значений объясняющих переменных
Х0 = 1X1 maxX2 maxX3 maxX4 max
= 142204320
Доверительный интервал для математического ожидания M (𝑌/𝑋0) множественной линейной регрессии вычисляем по формулам
Y0 – tkp * Sy0 ≤ M (𝑌/𝑋0) ≤ Y0 + tkp * Sy0
Значение Sy0 = Se * X0t*XTX-1*X0
Интервальная оценка для индивидуальных значений 𝑌 ∗
𝑌0 − 𝑡кр ∗ 𝑆y0 ∗ ≤ 𝑌 ∗ ≤ 𝑌0 + 𝑡кр ∗ 𝑆𝑌0 ∗.
Значение Sy0 = Se * 1+X0T*
(XTX)-1*X0
Приводим транспонированную матрицу прогнозных переменных
X0T
= ( 1 42 20 43 20)
Проводим вычисления произведений матриц
X0T
* XTX-1
= ( −2,584 0,03 0,093 0,051 −0,026 )
X0T
* XTX-1
* X0 = 2,206
Находим средние квадратические отклонения для обоих случаев прогноза
𝑆𝑌0 = 10,754 ∗ 2,206
= 15,971
𝑆𝑌0 ∗ = 10,754 ∗ 1 + 2,206
= 19,254
Рассчитаем прогнозное значение объясняемой переменной
𝑌0 = 𝑦 (40, 25, 43, 20)
= 69,375 − 1,21 ∗ 40 − 2,09 ∗ 25 − 0,305 ∗ 43 + 3,328 ∗ 20 = 30,179
Доверительный интервал прогноза для математического ожидания M (𝑌/𝑋0) равен: −7,587 ≤ M (𝑌/𝑋0) ≤ 67,945.
Интервальная оценка для индивидуальных значений 𝑌 ∗ равна: −15,350 ≤ 𝑌 ∗ ≤ 75,708.
6. Нахождение средней эластичности по каждой объясняющей переменной. Средние частные коэффициента эластичности рассчитываются по формуле:
Эxi = dydxj
*xjy
= bjy
* xj
По исходным данным получено 𝑥1 = 2,083, 𝑥2 = 12,167, 𝑥3 = 22,667, 𝑥4 = 11,917, 𝑦 = 48,750
Приводим результаты вычислений: ЭX1 = −57,3% При увеличении фактора X1 на 1% результат y уменьшится на 57,3% в среднем в выборке при неизменном значении других факторов (X2, X3, X4) , включенных в модель ЭX2 = −52,2% При увеличении фактора X2 на 1% результат y уменьшится на 52,2% в среднем в выборке при неизменном значении других факторов (X2, X3, X4) , включенных в модель ЭX3 = −14,2% При увеличении фактора X3 на 1% результат y уменьшится на 14,2% в среднем в выборке при неизменном значении других факторов (X2, X3, X4) , включенных в модель ЭX4 = 81,4% При увеличении фактора X4 на 1% результат y увеличится на 81,4% в среднем в выборке при неизменном значении других факторов (X2, X3, X4), включенных в модель. (см [4])
Вывод: Наибольшее влияние на результат оказывает фактор X4. Все остальные факторы влияют отрицательно.
7. Проверка предпосылок метода наименьших квадратов.
1). Проверка постоянства дисперсии случайных отклонений — гетероскедастичность.
Для проверки гипотезы об отсутствии в выборочных данных гетероскедастичности воспользуемся тестом Спирмена. Упорядочим выборку по X1, и с помощью МНК построим уравнение регрессии и найдем остатки 𝑒𝑖 . Далее найдем ранги 𝑥𝑖 и /𝑒𝑖/ и определим коэффициент ранговой корреляции Спирмена по формуле:
R=1- 6i=1nDi2n(n2-1)
, где Di2
разность между рангами 𝑥𝑖 и /𝑒𝑖/ . (см [3]) Результаты вычислений представлены в таблице 5.
Таблица 5
x1 |
/ei/ |
Ранг xi |
Ранг /ei/ |
D |
Di2
|
42 |
1,412 |
12 |
1 |
11 |
121 |
12 |
1,832 |
3 |
2 |
1 |
1 |
25 |
2,016 |
8 |
3 |
5 |
25 |
10 |
3,579 |
2 |
4 |
-2 |
4 |
20 |
3,844 |
7 |
5 |
2 |
4 |
40 |
4,121 |
11 |
6 |
5 |
25 |
15 |
4,628 |
4 |
7 |
-3 |
9 |
13 |
6,749 |
9 |
8 |
1 |
1 |
20 |
9,885 |
6 |
9 |
-3 |
9 |
15 |
11,603 |
5 |
10 |
-5 |
25 |
38 |
12,802 |
10 |
11 |
-1 |
1 |
10 |
17,098 |
1 |
12 |
-11 |
121 |
R=1- 6*34612(122-1)
= -0,210
Проверим значимость r по t-тесту:
Tнабл = r(n-21-r2
= -0,255(12-21-(0,255)2
= -0,678
Сравним наблюдаемое значение t-статистики с критической точкой 𝑡кр = 𝑡𝛼; 𝑛−𝑚−1
𝑡кр = 2,365
Так как 𝑡набл. < 𝑡кр. , следовательно в данной выборке гетероскедастичность не обнаружена. Второй тест для проверки отсутствия в выборочных данных гетероскедастичности — тест Глейзера. (Для достоверности результатов проверки необходимо провести не менее двух тестов). Для этого построим новое уравнение регрессии 𝑒𝑖 = 𝑏𝑜 + ∑𝑏𝑗 ∗ 𝑥𝑖𝑗 и проверим значимость коэффициента b1. Новое уравнение регрессии:
𝑦i = −0,646 − 0,110𝑥𝑖1 − 0,040𝑥𝑖2 + 0,223𝑥𝑖3 + 0,441𝑥𝑖4
𝑡𝑏1 = bj-0Sb1
= -0,1100,175
= -0,6283
Сравним наблюдаемое значение t-статистики с критической точкой 𝑡кр = 𝑡𝛼 ;𝑛−𝑚−1
𝑡кр = 2,365
Так как 𝑡набл. < 𝑡кр. , следовательно в данной выборке гетероскедастичность не обнаружена.
Вывод: В данной выборке гетероскедастичность не обнаружена, проверка выполнена по двум тестам.
2). Проверка автокорреляции остатков
Для обнаружения автокорреляции случайных составляющих используем метод рядов и метод Дарбина-Уотсона.
Метод рядов. В таблице 6 представлены остатки случайных составляющих, вычисленные по формуле 𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖 . Подсчитав количество знаков «+», «-» и число рядов, имеем: n(+) = 9, n(-) = 3, k = 4. По таблицам находим граничные точки k1 = 3, k2 = 13. Полученное нами значение k находится в промежутке 𝑘1 < 𝑘 < 𝑘2. автокорреляция по методу рядов не обнаружена
Таблица 6
Наблюдение |
yi |
y i |
Остатки |
1 |
35 |
72,703 |
-17,098 |
2 |
35 |
76,031 |
-9,885 |
3 |
45 |
79,359 |
3,579 |
4 |
45 |
82,687 |
2,016 |
5 |
55 |
86,015 |
4,628 |
6 |
65 |
89,343 |
3,844 |
7 |
60 |
92,671 |
6,749 |
8 |
25 |
95,999 |
1,412 |
9 |
35 |
99,328 |
4,121 |
10 |
45 |
102,656 |
-12,802 |
11 |
65 |
105,984 |
1,832 |
12 |
75 |
109,312 |
11,603 |
Вывод: В данной выборке автокорреляция остатков не обнаружена, необходимы дополнительные исследования.
3). Проверка мультиколлинеарности объясняющих переменных. Проверим парные коэффициенты корреляции объясняющих переменных. Используя соответствующую надстройку Exel находим парные коэффициенты корреляции, приведены в таблице 8.
Таблица 8
|
X1 |
X2 |
X3 |
X4 |
X1 |
1 |
-0,176 |
-0,216 |
0,402 |
X2 |
-0,176 |
1 |
-0,324 |
0,321 |
X3 |
-0,216 |
-0,324 |
1 |
0,0481 |
X4 |
0,402 |
0,321 |
0,048 |
1 |
Вывод: Так как величины всех парных коэффициентов меньше 0,6, считаем, что в выборке мультиколлинеарность не обнаружена.
Заключение. В данной работе проведено полное исследование уравнения множественной регрессии по четырем объясняющим переменным 𝑦 𝑖 = 69,375 − 1,21𝑥𝑖1 − 2,09𝑥𝑖2 − 0,305𝑥𝑖3 + 3,328𝑥𝑖4.По каждому пункту исследования приведен обоснованный вывод. Не все результаты оказались положительными. Причиной может быть недостаточная выборка (n = 12), или неадекватность данных.
Список используемых источников
1. . Костюнин, В. И. Эконометрика: учебник и практикум для прикладного бакалавриата / В. И. Костюнин. — М.: Издательство Юрайт, 2016
2. Галочкин, В.Т. Эконометрика: учебник и практикум для бакалавриата. — М. Издательство Юрайт, 2017
3. Бывшев В.А., Эконометрика, «Финансы и статистика». — М.: 2008.
4. Кремер, Н. Ш. Теория вероятностей и математическая статистика. В 2 ч. Часть 1. Теория вероятностей: учебник и практикум для академического бакалавриата / Н. Ш. Кремер. — 4-е изд., перераб. и доп. — М.: Издательство Юрайт, 2016.
5. Галочкин, В.Т. Эконометрика: учебник и практикум для бакалавриата. — М. Издательство Юрайт, 2017. Бабешко, Л. О. Основы эконометрического моделирования : учеб. пособие / Л. О. Бабешко. — М. КомКнига, 2006.