<< Предыдущая

стр. 34
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

уравнение регрессии.

191
Поскольку не существует какого-либо единого правила построе-
ния регрессионных моделей, анализ перечисленных свойств позволяет
строить более качественные эконометрические модели.
7.7.2. Виды ошибок спецификации
Одним из базовых предположений построения качественной мо-
дели является правильная (хорошая) спецификация уравнения регрес-
сии. Правильная спецификация уравнения регрессии означает, что оно
в целом правильно отражает соотношение между экономическими по-
казателями, участвующими в модели. Это является необходимой
предпосылкой дальнейшего качественного оценивания.
Неправильный выбор функциональной формы или набора объяс-
няющих переменных называется ошибками спецификации. Рассмот-
рим основные типы ошибок спецификации.
1. Отбрасывание значимой переменной
Суть данной ошибки и ее последствия наглядно иллюстрируются
следующим примером. Пусть теоретическая модель, отражающая рас-
сматриваемую экономическую зависимость, имеет вид:
Y = в 0 + в 1X 1 + в 2 X 2 + е . (7.35)
Данной модели соответствует следующее эмпирическое уравне-
ние регрессии:
Y = b 0 + b1X1 + b 2 X 2 + e . (7.36)
Исследователь по каким-то причинам (недостаток информации,
поверхностное знание о предмете исследования и т. п.) считает, что на
переменную Y реально воздействует лишь переменная Х1. Он ограни-
чивается рассмотрением модели (7.37):
Y = г 0 + г 1X + н . (7.37)
При этом он не рассматривает в качестве объясняющей перемен-
ную Х2, совершая ошибку отбрасывания существенной переменной.
Пусть эмпирическое уравнение регрессии, соответствующее тео-
ретическому уравнению (7.37), имеет вид:
Y = g 0 + g1X 1 + v . (7.38)

Последствия данной ошибки достаточно серьезны. Оценки, полу-
ченные с помощью МНК по уравнению (7.38), являются смещенными
(M(g0) ? ?0, M(g1) ? ?1) и несостоятельными даже при бесконечно
192
большом числе испытаний. Следовательно, возможные интервальные
оценки и результаты проверки соответствующих гипотез будут нена-
дежными.
Покажем, что коэффициент g1 является смещенной оценкой па-
раметра ?1. Действительно, g1 вычисляется по формуле (4.14):
S xy cov(X1 , Y) cov(X1 , в 0 + в 1X1 + в 2 X 2 + е)
? =
g1 = =
S2 D(X1 ) D(X1 )
x
1
[cov(X1 , в 0 ) + cov(X1 , в1X1 ) + cov(X1 , в 2 X 2 ) + cov(X1 , е)] =
=
D(X1 )
1
[0 + в 1D(X1 ) + в 2 cov(X1 , X 2 ) + cov(X1 , е)] =
=
D(X1 )
cov(X1 , X 2 ) cov(X1 , е)
= в1 + в 2 + . (7.39)
D(X1 ) D(X1 )
Исходя из предпосылки 40 МНК (см. параграф 5.1), cov(X1, ?) = 0.
Тогда очевидна справедливость следующего соотношения:
? cov(X1 , X 2 ) ? cov(X1 , X 2 )
M(g1) = M? в 1 + в 2 ? = в1 + в 2 . (7.40)
? ?
D(X1 ) ? D(X1 )
?
Здесь учитывается тот факт, что выражение, стоящее в скобках,
является константой. Это означает, что оценка g1 обладает смещением
относительно истинного значения параметра, выражаемым величиной
cov(X1 , X 2 )
. Этот вывод позволяет определить направление сме-
в2
D(X1 )
щения. Очевидно, оно связано со знаками величин ?2 и cov(X1, X2).
Например, при положительном ?2 и положительной коррелированно-
сти между X1 и X2 оценка g1 будет завышать истинное значение ?1.
Кроме того, соотношение (7.40) позволяет объяснить причину за-
вышения оценки при указанных условиях. В уравнении (7.36) коэф-
фициенты b1 и b2 отражают степень индивидуального воздействия на
Y каждой из объясняющих переменных Х1 и Х2. В уравнении (7.38)
через коэффициент g1 отражается, кроме прямого воздействия пере-
менной Х1, воздействие коррелированной с ней (в нашем случае по-
ложительно) и не учтенной переменной Х2. Таким образом, косвенная



193
роль переменной Х2 в уравнении (7.38) отражается на оценке парамет-
cov(X1 , X 2 )
ра ?1, изменяя ее в среднем на величину в 2 .
D(X1 )
Единственно возможным условием получения несмещенной
оценки для коэффициента ?1 является некоррелированность X1 и X2
(cov(X1, X2) = 0). Но при этом не произойдет и ошибки отбрасывания
значимой переменной в силу реальной незначимости переменной Х2
(почему?).
Отметим, что ошибка данного рода существенно отражается и на
коэффициенте детерминации R2. В нашей ситуации при использова-
нии уравнения (7.38) значение коэффициента детерминации будет за-
вышать роль переменной Х1 в объяснении дисперсии переменной Y.
Это связано с косвенным “присутствием” в уравнении через коэффи-
циент g1 переменной Х2, что повышает объясняющую способность
уравнения в целом.
Другие соотношения между знаками коэффициента регрессии,
направлениями коррелированности объясняющих переменных и на-
правлением смещения оценки рекомендуется рассмотреть в качестве
упражнения.
2. Добавление незначимой переменной
В некоторых случаях в уравнения регрессии включают слишком
много объясняющих переменных, причем не всегда обоснованно. На-
пример, пусть теоретическая модель имеет следующий вид:
Y = в 0 + в 1X 1 + е . (7.41)
Пусть исследователь подменяет ее более сложной моделью:
Y = г 0 + г 1X 1 + г 2 X 2 + е , (7.42)
добавляя при этом не оказывающую реального воздействия на Y объ-
ясняющую переменную Х2. В этом случае совершается ошибка добав-
ления несущественной переменной.
Последствия данной ошибки будут не столь серьезными, как в
предыдущем случае. Оценки g0, g1 коэффициентов, найденные для
модели (7.42), остаются, как правило, несмещенными (M(g0) = ?0,
M(g1) = ?1) и состоятельными. Однако их точность уменьшится, уве-
личивая при этом стандартные ошибки, т. е. оценки становятся неэф-
фективными, что отразится на их устойчивости. Данный вывод логи-


194
чески вытекает из формул (5.12), (6.24) расчета дисперсий оценок ко-
эффициентов регрессии для этих уравнений:
S2 S2
2 2
S b1 = S g1 =
; .
2 2 2
? (x i ? x) ? (x i1 ? x1 ) ?(1? r12 )
Здесь r12 ? коэффициент корреляции между объясняющими перемен-
ными Х1 и Х2. Следовательно, S21 ? Sg1 , причем знак равенства возмо-
2
b
жен лишь при r12 = 0.
Увеличение дисперсии оценок может привести к ошибочным ре-
зультатам проверки гипотез относительно значений коэффициентов
регрессии, расширению интервальных оценок.
3. Выбор неправильной функциональной формы
Суть ошибки проиллюстрируем следующим примером. Пусть
правильная регрессионная модель имеет вид:
Y = в 0 + в 1X 1 + в 2 X 2 + е . (7.43)
Любое эмпирическое уравнение регрессии с теми же переменны-
ми, но имеющее другой функциональный вид, приводит к искажению
истинной зависимости. Например, в следующих уравнениях
lnY = a 0 + a 1X1 + a 2 X 2 + e , (7.44)
Y = c 0 + c1lnX1 + c 2 lnX 2 + u (7.45)
совершена ошибка выбора неправильной функциональной формы
уравнения регрессии. Последствия данной ошибки будут весьма серь-
езными. Обычно такая ошибка приводит либо к получению смещен-
ных оценок, либо к ухудшению статистических свойств оценок коэф-
фициентов регрессии и других показателей качества уравнения. В
первую очередь это вызвано нарушением условий Гаусса–Маркова
для отклонений. Прогнозные качества модели в этом случае очень
низки.
7.7.3. Обнаружение и корректировка ошибок спецификации
При построении уравнений регрессии, особенно на начальных
этапах, ошибки спецификации весьма нередки. Они допускаются
обычно из-за поверхностных знаний об исследуемых экономических
процессах, либо из-за недостаточно глубоко проработанной теории,
или из-за погрешностей при сборе и обработке статистических данных
при построении эмпирического уравнения регрессии. Важно уметь

195
обнаружить и исправить эти ошибки. Сложность процедуры опреде-
ляется типом ошибки и нашими знаниями об исследуемом объекте.
Если в уравнении регрессии имеется одна несущественная пере-
менная, то она обнаружит себя по низкой t-статистике. В дальнейшем
эту переменную исключают из рассмотрения.
Если в уравнении несколько статистически незначимых объяс-
няющих переменных, то следует построить другое уравнение регрес-
сии без этих незначимых переменных. Затем с помощью F-статистики
(6.41) сравниваются коэффициенты детерминации R 1 и R 2 для перво-
2
2
начального и дополнительного уравнений регрессий:
R1 ? R 2 n ? m ? 1
2
F= ?
2
.
2
1 ? R1 k
Здесь n – число наблюдений, m – число объясняющих переменных в
первоначальном уравнении, k – число отбрасываемых из первона-
чального уравнения объясняющих переменных. Возможные рассуж-
дения и выводы для данной ситуации приведены в разделе 6.7.2.
При наличии нескольких несущественных переменных, возмож-
но, имеет место мультиколлинеарность. Рекомендуемые выходы из
этой ситуации подробно рассмотрены в главе 10.
Однако осуществление указанных проверок имеет смысл лишь
при правильном подборе вида (функциональной формы) уравнения
регрессии, что можно осуществить, если согласовывать его с теорией.
Например, при построении кривой Филлипса, указывающей, что зави-
симость между заработной платой Y и безработицей Х является об-
ратной, возможны следующие модели:
Y = б + в ? X + е, в < 0;

ln Y = б + в?lnX + е, в < 0;
1
Y = б + в? + е, в > 0;
X+г
вx
Y=б +a + е, в < 0 и т. п.
Отметим, что выбор модели далеко не всегда осуществляется од-
нозначно, и в дальнейшем требуется сравнивать модель как с теорети-
ческими, так и с эмпирическими данными, совершенствовать ее. На-
196
Последствия данной ошибки достаточно серьезны. Оценки, полу-
ченные с помощью МНК по уравнению (7.38), являются смещенными
(M(g0) ? ?0, M(g1) ? ?1) и несостоятельными даже при бесконечно
большом числе испытаний. Следовательно, возможные интервальные
оценки и результаты проверки соответствующих гипотез будут нена-
дежными.
Покажем, что коэффициент g1 является смещенной оценкой па-
раметра ?1. Действительно, g1 вычисляется по формуле (4.14):
S xy cov(X1 , Y) cov(X1 , в 0 + в 1X1 + в 2 X 2 + е)
? =
g1 = =
S2 D(X1 ) D(X1 )
x
1
[cov(X1 , в 0 ) + cov(X1 , в1X1 ) + cov(X1 , в 2 X 2 ) + cov(X1 , е)] =
=
D(X1 )
1
[0 + в 1D(X1 ) + в 2 cov(X1 , X 2 ) + cov(X1 , е)] =
=
D(X1 )
cov(X1 , X 2 ) cov(X1 , е)
= в1 + в 2 + . (7.39)
D(X1 ) D(X1 )
Исходя из предпосылки 40 МНК (см. параграф 5.1), cov(X1, ?) = 0.
Тогда очевидна справедливость следующего соотношения:
? cov(X1 , X 2 ) ? cov(X1 , X 2 )
M(g1) = M? в 1 + в 2 ? = в1 + в 2 . (7.40)
? ?
D(X1 ) ? D(X1 )
?
Здесь учитывается тот факт, что выражение, стоящее в скобках,
является константой. Это означает, что оценка g1 обладает смещением
относительно истинного значения параметра, выражаемым величиной
cov(X1 , X 2 )
. Этот вывод позволяет определить направление сме-
в2
D(X1 )
щения. Очевидно, оно связано со знаками величин ?2 и cov(X1, X2).
Например, при положительном ?2 и положительной коррелированно-
сти между X1 и X2 оценка g1 будет завышать истинное значение ?1.
Кроме того, соотношение (7.40) позволяет объяснить причину за-
вышения оценки при указанных условиях. В уравнении (7.36) коэф-
фициенты b1 и b2 отражают степень индивидуального воздействия на
Y каждой из объясняющих переменных Х1 и Х2. В уравнении (7.38)
через коэффициент g1 отражается, кроме прямого воздействия пере-
менной Х1, воздействие коррелированной с ней (в нашем случае по-

193
помним, что при определении качества модели обычно анализируются
следующие параметры:
а) скорректированный коэффициент детерминации R 2 (см. пара-
граф 6.7);
б) t-статистики (см. параграф 6.6);
в) статистика Дарбина–Уотсона DW (см. параграф 6.8);
г) согласованность знаков коэффициентов с теорией;
д) прогнозные качества (ошибки) модели (см. раздел 7.7.1).

<< Предыдущая

стр. 34
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>