ПРИМЕНЕНИЕ МНОЖЕСТВЕННОЙ ЛИНЕЙНОЙ РЕГРЕССИИ ПРИ ИЗУЧЕНИИ ВЗАИМОСВЯЗЕЙ МЕЖДУ ПРОИЗВОДСТВЕННЫМИ ПОКАЗАТЕЛЯМИ

Автор: Кириллова Екатерина Владимировна

Аннотация. Произведено построение уравнения множественной линейной регрессии,  получены оценки всех параметров данного уравнения. В ходе исследования были также проведены проверки статистических критериев и осуществлена проверка выполнения предпосылок метода наименьших квадратов (МНК).

 Ключевые слова: автокорреляция, гетероскедастичность, эконометрика, мультиколлинеарность, метод наименьших квадратов.

          Регрессионный анализ является эффективным методом исследования между экономическими показателями. По приведённым ниже экспериментальным данным выработки продукции y (результативного признака) и следующих факторов, играющих роль объясняющих переменных: производительности оборудования х1, основных фондов х2, заработной платы х3 и оборотных средств х4, приведенным в таблице, (см [2]) необходимо построить уравнение множественной линейной регрессии и провести его исследование по следующей схеме:

1. Построить уравнение множественной линейной регрессии.

2. Проверить значимость полученного уравнения с помощью F-критерия Фишера.

3. Проверить значимость всех коэффициентов регрессии.

4. Найти доверительные интервалы для коэффициентов регрессии.

5. Найти прогнозное значение выработки продукции y для прогнозных значений: 𝑥0 = 𝑥1𝑚𝑎𝑥 ; 𝑥2𝑚𝑎𝑥 ; 𝑥3𝑚𝑎𝑥 ; 𝑥4𝑚𝑎𝑥 , для двух случаев: математического ожидания M[y| 𝑥0] и индивидуального значения y0 .  

6. Найти среднюю эластичность по каждой объясняющей переменной.

7. Проверить предпосылки Метода наименьших квадратов

Исходные данные в табл. 1

Таблица 1

Х1

Х2

Х3

Х4

У

10

12

22

8

35

20

14

25

11

35

10

20

24

10

45

25

10

17

9

45

15

15

20

11

55

20

10

10

12

65

30

20

15

20

60

42

9

20

9

25

40

10

19

11

35

38

11

30

20

45

12

8

27

10

65

15

7

43

12

75

 

1. Построение уравнения множественной линейной регрессии. Для построения уравнения множественной линейной регрессии необходимо найти коэффициенты уравнения. (см [1]) Найдем значение коэффициентов b0, b1, b2, b3, b4 матричным способом решения 𝐵 = 𝑋 𝑇𝑋 −1 𝑋 𝑇𝑌. Здесь вектор В искомый вектор коэффициентов уравнения регрессии  

В=b1b2b3b4b5

Построим матрицу X исходных данных объясняющих переменных

Х=1   10   12  
22      81   20   14  
25   111   10  
20   24   101   25  
10   17      91   15  
15   20   111   20  
10   10   121   30  
20   15   201   42    
9   20      91   40  
10   19   111   38  
11   30   201   12     
8   27   101   15     
7   43   12

Единица в первом столбце соответствует объясняющей переменной в нулевой степени при коэффициенте 𝑏0. Произведение матриц 𝑋𝑇𝑋

 

ХТ=12     
277    146     272       143
277  
7927   3272   6044  
3508
146   3272  
1980   3181   1800
272   6044  
3181   6938   3259
143   3508  
1800   3259   1877

Обратная матрица (𝑋𝑇 𝑋)−1 , округлено до третьего знака после запятой. (𝑋 𝑇𝑋)−1

 

=3,481 
-0,035  -0,121   -0,061    0,021
-0,035      0,001         0,001        0,001  -0,002-0,121      0,001         0,008        0,002  -0,005-0,061       0,001         0,002        0,002  -0,0020,021  -0,002  
-0,005  -0,002   0,010

 

Находим произведение матриц 𝑋 𝑇𝑌:

  ХТ * Y = 585126157050136357165

В завершении, находим коэффициенты уравнения по формуле 𝐵 =( 𝑋 𝑇𝑋 )−1 𝑋 𝑇 𝑌.

   В=69,375-1,210-2,090-0,3053,328

                                                       

Получено уравнение множественной линейной регрессии:

𝑦𝑖 = 69,375 − 1,21𝑥𝑖1 − 2,09𝑥𝑖2 − 0,305𝑥𝑖3 + 3,328𝑥𝑖4.

2. Проверка адекватности и значимости полученного уравнения регрессии: 𝑅 2 = , 𝑅 2 = , 𝐹 = . Найдем значение коэффициента детерминации 𝑅 2

R2=QRQY

Qy= i=1n(yiy)2

=2556,25

QR= i=1n(yiy)2

=1746,737

R2=0,683

Найдем значение скорректированного коэффициента детерминации 𝑅2

𝑅2 = 1 – (1 − 𝑅2) n-1n-m-1

 =1 — (1-0,683)* 12-112-4-1

 = 0,502

       Проверим значимость уравнения множественной линейной регрессии, для этого проверим гипотезу о статистической значимости коэффициента детерминации 𝑅2 : H0 : R2=0H1 : R2>0

        Найдем значение F- статистики:

F набл. = R21-R2

 * v2v1

 = R21-R2

 * nm-1m

F набл. = 0,6831-0,683

 * 12-4-14

 = 3,776

Fкр = 4,120

        Вывод: Т.к. коэффициент детерминации меньше 0,7 мы не можем говорить об адекватности модели. (см [5])

        3. Проверка значимости всех коэффициентов регрессии. Проверим основную гипотезу, которая используется для установления значимости эмпирического коэффициента регрессии bj H0:bj=0, основная гипотезаH1:bj≠0, альтернативная гипотеза

          Так как 𝛽𝑗 = 0 то соответствующая t — статистика имеет вид: 𝑡𝑏𝑗 = bj-0Sbj

, средне квадратическое отклонение каждого коэффициента находим по формуле

Sbj = Se(ХТX)kk-1

          Здесь 𝑆𝑒 стандартная ошибка; индекс kk означает диагональный элемент обратной матрицы.

Se = i=1nei2mn-1

 = 809,5137

 = 10,754

          Приведем величины ТХ)kk-1

 — диагональные элементы обратной матрицы, среднеквадратические отклонения коэффициентов регрессии и наблюдаемые значения статистик этих коэффициентов (см. таблицу 2):

Таблица 2

(ХТХ)00-1

=

3,481

Sb0 =

20,063

tb0 =

3,458

(ХТХ)11-1

=

0,001

Sb1 =

0,356

tb1 =

-3,395

(ХТХ)22-1

=

0,008

Sb2 =

0,978

tb2 =

-2,136

(ХТХ)33-1

=

0,002

Sb3 =

0,462

tb3 =

-0,662

(ХТХ)44-1

=

0,010

Sb4 =

1,070

tb4 =

3,109

 

Сравним наблюдаемое значение t-статистики с критической точкой

 tkp = ta; n – m – 1. tkp = 2,365

         Вывод: Для коэффициентов 𝑡𝑏2 и 𝑡𝑏3 /𝑡 набл./ < 𝑡кр. , следовательно они статистически не значимы (статистически близки к нулю).

        4. Нахождение доверительных интервалов для коэффициентов регрессии. Доверительные интервалы (таблица 4) для коэффициентов множественной линейной регрессии вычисляются по формулам:

𝑏𝑗𝑡кр𝑆𝑏𝑗 < 𝛽0 < 𝑏𝑗 + 𝑡кр𝑆𝑏j

В таблице 3 приведены результаты промежуточных вычислений

                 Таблица 3                                                               Таблица 4

𝑡кр 𝑆𝑏0 = 47,443

𝑡кр 𝑆𝑏1 = 0,843

𝑡кр 𝑆𝑏2 = 2,314

𝑡кр 𝑆𝑏3 = 1,091

𝑡кр 𝑆𝑏4 = 2,531

21,933 < 𝛽0 < 116,818

-2,053 < 𝛽1 < -0,367

-4,404 < 𝛽2 < 0,223

-1,397 < 𝛽3 < 0,786

0,797 < 𝛽4 < 5,859

                                  

         Вывод: доверительные интервалы коэффициентов 𝛽2 и 𝛽3 содержит ноль, что также говорит об их незначимости.

          5. Нахождение прогнозного значения выработки продукции y для набора прогнозных значений объясняющих переменных

 𝑥0 = 𝑥1𝑚𝑎𝑥 ; 𝑥2𝑚𝑎𝑥 ; 𝑥3𝑚𝑎𝑥 ; 𝑥4𝑚𝑎𝑥 .

           Расчеты производим для двух случаев: математического ожидания M[y|x0] и индивидуального значения y*0. Матрица прогнозных значений объясняющих переменных

Х0 = 1X1 maxX2 maxX3 maxX4 max

= 142204320

           Доверительный интервал для математического ожидания M (𝑌/𝑋0) множественной линейной регрессии вычисляем по формулам

Y0tkp * Sy0M (𝑌/𝑋0) ≤ Y0 + tkp * Sy0

Значение Sy0 = Se * X0t*XTX-1*X0

          Интервальная оценка для индивидуальных значений 𝑌

𝑌0𝑡кр 𝑆y0 𝑌 𝑌0 + 𝑡кр 𝑆𝑌0 .

Значение Sy0 = Se * 1+X0T*
(XTX)-1*X0

          Приводим транспонированную матрицу прогнозных переменных

X0T

 = ( 1 42 20 43 20)

          Проводим вычисления произведений матриц

X0T

* XTX-1

 = ( −2,584  0,03  0,093  0,051  −0,026 )

X0T

* XTX-1

* X0 = 2,206

          Находим средние квадратические отклонения для обоих случаев прогноза

𝑆𝑌0 = 10,754 2,206

= 15,971

𝑆𝑌0 = 10,754 1 + 2,206

= 19,254

          Рассчитаем прогнозное значение объясняемой переменной

𝑌0 = 𝑦 (40, 25, 43, 20)

 = 69,375 − 1,21 40 − 2,09 25 − 0,305 43 + 3,328 20 = 30,179

          Доверительный интервал прогноза для математического ожидания M (𝑌/𝑋0) равен: −7,587 ≤ M (𝑌/𝑋0) ≤ 67,945.

          Интервальная оценка для индивидуальных значений 𝑌 равна: −15,350 ≤ 𝑌 ≤ 75,708.

         6. Нахождение средней эластичности по каждой объясняющей переменной. Средние частные коэффициента эластичности рассчитываются по формуле:

Эxi = dydxj

*xjy

 = bjy

 * xj

          По исходным данным получено 𝑥1 = 2,083, 𝑥2 = 12,167, 𝑥3 = 22,667, 𝑥4 = 11,917, 𝑦 = 48,750

         Приводим результаты вычислений: ЭX1 = −57,3% При увеличении фактора X1 на 1% результат y уменьшится на 57,3% в среднем в выборке при неизменном значении других факторов (X2, X3, X4) , включенных в модель ЭX2 = −52,2% При увеличении фактора X2 на 1% результат y уменьшится на 52,2% в среднем в выборке при неизменном значении других факторов (X2, X3, X4) , включенных в модель ЭX3 = −14,2% При увеличении фактора X3 на 1% результат y уменьшится на 14,2% в среднем в выборке при неизменном значении других факторов (X2, X3, X4) , включенных в модель ЭX4 = 81,4% При увеличении фактора X4 на 1% результат y увеличится на 81,4% в среднем в выборке при неизменном значении других факторов (X2, X3, X4), включенных в модель. (см [4])

 Вывод: Наибольшее влияние на результат оказывает фактор X4. Все остальные факторы влияют отрицательно.

        7. Проверка предпосылок метода наименьших квадратов.

  1). Проверка постоянства дисперсии случайных отклонений — гетероскедастичность.

Для проверки гипотезы об отсутствии в выборочных данных гетероскедастичности воспользуемся тестом Спирмена. Упорядочим выборку по X1, и с помощью МНК построим уравнение регрессии и найдем остатки 𝑒𝑖 . Далее найдем ранги 𝑥𝑖 и /𝑒𝑖/ и определим коэффициент ранговой корреляции Спирмена по формуле:

R=1- 6i=1nDi2n(n2-1)

, где Di2

 разность между рангами 𝑥𝑖 и /𝑒𝑖/ . (см [3]) Результаты вычислений представлены в таблице 5.

                                                               Таблица 5

x1

/ei/

Ранг xi

Ранг /ei/

D

Di2

42

1,412

12

1

11

121

12

1,832

3

2

1

1

25

2,016

8

3

5

25

10

3,579

2

4

-2

4

20

3,844

7

5

2

4

40

4,121

11

6

5

25

15

4,628

4

7

-3

9

13

6,749

9

8

1

1

20

9,885

6

9

-3

9

15

11,603

5

10

-5

25

38

12,802

10

11

-1

1

10

17,098

1

12

-11

121

 

R=1- 6*34612(122-1)

= -0,210

Проверим значимость r по t-тесту:

Tнабл = r(n-21-r2

 =  -0,255(12-21-(0,255)2

 = -0,678

          Сравним наблюдаемое значение t-статистики с критической точкой 𝑡кр = 𝑡𝛼; 𝑛𝑚−1

𝑡кр = 2,365

          Так как 𝑡набл. < 𝑡кр. , следовательно в данной выборке гетероскедастичность не обнаружена. Второй тест для проверки отсутствия в выборочных данных гетероскедастичности — тест Глейзера. (Для достоверности результатов проверки необходимо провести не менее двух тестов). Для этого построим новое уравнение регрессии 𝑒𝑖 = 𝑏𝑜 + ∑𝑏𝑗 𝑥𝑖𝑗 и проверим значимость коэффициента b1. Новое уравнение регрессии:

 𝑦i = −0,646 − 0,110𝑥𝑖1 − 0,040𝑥𝑖2 + 0,223𝑥𝑖3 + 0,441𝑥𝑖4

 𝑡𝑏1 = bj-0Sb1

 = -0,1100,175

 = -0,6283

         Сравним наблюдаемое значение t-статистики с критической точкой 𝑡кр = 𝑡𝛼 ;𝑛𝑚−1

𝑡кр = 2,365

Так как 𝑡набл. < 𝑡кр. , следовательно в данной выборке гетероскедастичность не обнаружена.

         Вывод: В данной выборке гетероскедастичность не обнаружена, проверка выполнена по двум тестам.

2). Проверка автокорреляции остатков

Для обнаружения автокорреляции случайных составляющих используем метод рядов и метод Дарбина-Уотсона.

Метод рядов. В таблице 6 представлены остатки случайных составляющих, вычисленные по формуле 𝑒𝑖 = 𝑦𝑖𝑦𝑖 . Подсчитав количество знаков «+», «-» и число рядов, имеем: n(+) = 9, n(-) = 3, k = 4. По таблицам находим граничные точки k1 = 3, k2 = 13. Полученное нами значение k находится в промежутке 𝑘1 < 𝑘 < 𝑘2. автокорреляция по методу рядов не обнаружена

Таблица 6

Наблюдение

yi

y

i

Остатки

1

35

72,703

-17,098

2

35

76,031

-9,885

                 3

45

79,359

3,579

4

45

82,687

2,016

5

55

86,015

4,628

6

65

89,343

3,844

7

60

92,671

6,749

8

25

95,999

1,412

9

35

99,328

4,121

10

45

102,656

-12,802

11

65

105,984

1,832

12

75

109,312

11,603

 

         Вывод: В данной выборке автокорреляция остатков не обнаружена, необходимы дополнительные исследования.

3). Проверка мультиколлинеарности объясняющих переменных. Проверим парные коэффициенты корреляции объясняющих переменных. Используя соответствующую надстройку Exel находим парные коэффициенты корреляции, приведены в таблице 8.                       

Таблица 8

 

X1

X2

X3

X4

X1

1

-0,176

-0,216

0,402

X2

-0,176

1

-0,324

0,321

X3

-0,216

-0,324

1

0,0481

X4

0,402

0,321

0,048

1

 

         Вывод: Так как величины всех парных коэффициентов меньше 0,6, считаем, что в выборке мультиколлинеарность не обнаружена.

         Заключение. В данной работе проведено полное исследование уравнения множественной регрессии по четырем объясняющим переменным 𝑦 𝑖 = 69,375 − 1,21𝑥𝑖1 − 2,09𝑥𝑖2 − 0,305𝑥𝑖3 + 3,328𝑥𝑖4.По каждому пункту исследования приведен обоснованный вывод. Не все результаты оказались положительными. Причиной может быть недостаточная выборка (n = 12), или неадекватность данных.

Список используемых источников

1. . Костюнин, В. И. Эконометрика: учебник и практикум для прикладного бакалавриата / В. И. Костюнин. — М.: Издательство Юрайт, 2016

2. Галочкин, В.Т. Эконометрика: учебник и практикум для бакалавриата. — М. Издательство Юрайт, 2017

3. Бывшев В.А., Эконометрика, «Финансы и статистика». — М.: 2008.

4. Кремер, Н. Ш. Теория вероятностей и математическая статистика. В 2 ч. Часть 1. Теория вероятностей: учебник и практикум для академического бакалавриата / Н. Ш. Кремер. — 4-е изд., перераб. и доп. — М.: Издательство Юрайт, 2016.

 5. Галочкин, В.Т. Эконометрика: учебник и практикум для бакалавриата. — М. Издательство Юрайт, 2017. Бабешко, Л. О. Основы эконометрического моделирования : учеб. пособие / Л. О. Бабешко. — М. КомКнига, 2006.

 

 

×
×