<< Предыдущая

стр. 43
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>


или Y = (?0 + ?2?0) + (?1+ ?2?1)X1 + ?.
Обозначив ?0 + ?2?0 = a, ?1+ ?2?1 = b, получаем уравнение парной
линейной регрессии:
Y = a + b?X1 + ?. (10.3)
По МНК нетрудно определить коэффициенты a и b. Тогда полу-
чим систему двух уравнений:
? в 0 + в 2 г 0 = a, (10.4)
? в + в г = b.
?1 21

В систему (10.4) входят три неизвестные ?0, ?1, ?2 (коэффициен-
ты ?0 и ?1 определены в (10.2)). Такая система в подавляющем числе
случаев имеет бесконечно много решений. Таким образом, совершен-
245
ная мультиколлинеарность не позволяет однозначно определить ко-
эффициенты регрессии уравнения (10.1) и разделить вклады объяс-
няющих переменных X1 и X2 в их влиянии на зависимую переменную
Y. В этом случае невозможно сделать обоснованные статистические
выводы об этих коэффициентах. Следовательно, в случае мультикол-
линеарности выводы по коэффициентам и по самому уравнению рег-
рессии будут ненадежными.
Совершенная мультиколлинеарность является скорее теоретиче-
ским примером. Реальна же ситуация, когда между объясняющими
переменными существует довольно сильная корреляционная зависи-
мость, а не строгая функциональная. Такая зависимость называется
несовершенной мультиколлинеарностью. Она характеризуется высо-
ким коэффициентом корреляции ? между соответствующими объяс-
няющими переменными. Причем, если значение ? по абсолютной ве-
личине близко к единице, то говорят о почти совершенной мульти-
коллинеарности. В любом случае мультиколлинеарность затрудняет
разделение влияния объясняющих факторов на поведение зависимой
переменной и делает оценки коэффициентов регрессии ненадежными.
Данный вывод наглядно подтверждается с помощью диаграммы Вен-
на (рис. 10.1).

Y Y

X1 X2
X1 X2
а б

Y Y


X1 X2
X1 = X2

в г
Рис. 10.1
На рис. 10.1, а коррелированность между объясняющими пере-
менными Х1 и Х2 отсутствует и влияние каждой из них на Y находит
отражение в наложении кругов Х1 и Х2 на круг Y. По мере усиления
линейной зависимости между Х1 и Х2 соответствующие круги все
больше накладываются друг на друга. Заштрихованная область отра-

246
жает совпадающие части влияния Х1 и Х2 на Y. На рис. 10.1, г при со-
вершенной мультиколлинеарности невозможно разграничить степени
индивидуального влияния объясняющих переменных Х1 и Х2 на зави-
симую переменную Y.

10.2. Последствия мультиколлинеарности
Как известно, при выполнении определенных предпосылок МНК
дает наилучшие линейные несмещенные оценки (BLUE-оценки). При-
чем свойство несмещенности и эффективности оценок остается в силе
даже, если несколько коэффициентов регрессии оказываются стати-
стически незначимыми. Однако несмещенность фактически означает
лишь то, что при многократном повторении наблюдений (при посто-
янных объемах выборок) за исследуемыми величинами средние зна-
чения оценок стремятся к их истинным значениям. К сожалению, по-
вторять наблюдения в одинаковых условиях в экономике практически
невозможно. Поэтому это свойство ничего не гарантирует в каждом
конкретном случае. Наименьшая возможная дисперсия вовсе не озна-
чает, что дисперсия оценок будет мала по сравнению с самими оцен-
ками. В ряде случаев такая дисперсия достаточно велика, чтобы оцен-
ки коэффициентов стали статистически незначимыми.
Обычно выделяются следующие последствия мультиколлинеар-
ности:
1. Большие дисперсии (стандартные ошибки) оценок. Это затрудняет
нахождение истинных значений определяемых величин и расширя-
ет интервальные оценки, ухудшая их точность.
2. Уменьшаются t-статистики коэффициентов, что может привести к
неоправданному выводу о существенности влияния соответствую-
щей объясняющей переменной на зависимую переменную.
3. Оценки коэффициентов по МНК и их стандартные ошибки стано-
вятся очень чувствительными к малейшим изменениям данных, т. е.
они становятся неустойчивыми.
4. Затрудняется определение вклада каждой из объясняющей пере-
менных в объясняемую уравнением регрессии дисперсию зависи-
мой переменной.
5. Возможно получение неверного знака у коэффициента регрессии.
Причину последствий 3, 4 можно наглядно проиллюстрировать
на примере регрессии (10.1). Данную регрессию можно рассматривать

247
как проекцию вектора Y на плоскость векторов X1 и X2. Если между
этими векторами существует тесная линейная зависимость, то угол
между векторами X1 и X2 мал. В силу этого операция проектирования
становится неустойчивой: небольшое изменение в исходных данных
может привести к существенному изменению оценок. На рис. 10.2
векторы Y и Y? различаются незначительно, но в силу малого угла
между X1 и X2 координаты векторов Y и Y? не только значительно
различаются по величине, но и по знаку.

Y?
Y


Х2


0 X1
Рис. 10.2

10.3. Определение мультиколлинеарности
Существует несколько признаков, по которым может быть уста-
новлено наличие мультиколлинеарности.
1. Коэффициент детерминации R2 достаточно высок, но некоторые из
коэффициентов регрессии статистически незначимы, т.е. они имеют
низкие t-статистики.
2. Парная корреляция между малозначимыми объясняющими пере-
менными достаточно высока.
Однако данный признак будет надежным лишь в случае двух
объясняющих переменных. При большем их количестве более целесо-
образным является использование частных коэффициентов корреля-
ции.
3. Высокие частные коэффициенты корреляции.
Частные коэффициенты корреляции определяют силу линейной
зависимости между двумя переменными без учета влияния на них
других переменных. Однако при изучении многомерных связей в ряде
случаев парные коэффициенты корреляции могут давать совершенно
неверные представления о характере связи между двумя переменны-
ми. Например, между двумя переменными Х и Y может быть высокий
положительный коэффициент корреляции не потому, что одна из них
248
стимулирует изменение другой, а оттого, что обе эти переменные из-
меняются в одном направлении под влиянием других переменных, как
учтенных в модели, так и, возможно, неучтенных. Поэтому имеется
необходимость измерять действительную тесноту линейной связи ме-
жду двумя переменными, очищенную от влияния на рассматриваемую
пару переменных других факторов. Коэффициент корреляции между
двумя переменными, очищенными от влияния других переменных, на-
зывается частным коэффициентом корреляции.
Например, при трех объясняющих переменных X1, X2, X3 част-
ный коэффициент корреляции между X1 и X2 рассчитывается по фор-
муле:
r12 ? r13 r23
r12. 3 = . (10.5)
2 2
(1 ? r13 )(1 ? r23 )
Опираясь на данную формулу, нетрудно заметить, что частный
коэффициент корреляции может существенно отличаться от “обычно-
го” коэффициента корреляции r12. Пусть, например, r12 = 0.5; r13 = 0.5;
r23 = ?0.5. Тогда частный коэффициент корреляции r12.3 = 1, т. е. при
относительно невысоком коэффициенте корреляции r12 частный ко-
эффициент корреляции r12.3 указывает на высокую зависимость (кол-
линеарность) между переменными X1 и X2. Нетрудно показать, что
возможна и обратная ситуация. Другими словами, для более обосно-
ванного вывода о корреляции между парами объясняющих перемен-
ных необходимо рассчитывать частные коэффициенты корреляции.
В общем случае выборочный частный коэффициент корреляции
межу переменными Xi и Xj (1 ? i < j ? m), очищенный от влияния ос-
тальных (m ? 2) объясняющих переменных, символически обозначает-
ся
rij.1 2 … (i ?1)(i+1)…(j ?1)(j+1)…m .
Приведем без доказательства формулу расчета данного коэффи-
циента.
Пусть эмпирические парные коэффициенты корреляции между
всевозможными парами объясняющих переменных Х1, Х2, …, Хm
представлены в виде корреляционной матрицы




249
? c11 c12 ... c1m ?
? ? ? ?
? 1 r12 ... r1m ?
r13 c13
? ?
?r ... r2m ? ? c? c? c? ?
... c 2m ?
1 r23
? 21 ? 21 22 23
C* = R ?1 = ? c ? ?
R = ? r31 r32 c? c? ... c ? ? .
... r3m ? .
1
? 31 32 33 3m
? ... ... ... ... ? ? ... ... ... ?
... ... ...
? ? ?? ?
? rm1 rm2 ... 1 ? ?
c? ... c? ?
rm3 ? c m1 c m2
? ? m3 mm
С*? обратная матрица к матрице R. Тогда
? c*
ij
rij.1 2 … (i ?1)(i +1)…(j ?1)(j +1)…m = . (10.6)
c* ? c*
ii jj

Из общей формулы (10.6) легко получаются частные формулы
(10.5) для трех переменных и (10.7) для четырех переменных:
rij. k ? ril . k ? rjl . k
rij.kl = . (10.7)
2 2
(1 ? ril . k )(1 ? r jl . k )

Пусть rj = ryj.1 2 …(j ?1)(j +1)…m ? частный коэффициент корреляции
между зависимой переменной Y и переменной Хj, очищенный от
влияния всех остальных объясняющих переменных. Тогда rj2 ? част-
ный коэффициент детерминации, который определяет процент дис-
персии переменной Y, объясняемый влиянием только переменной Хj.
Другими словами, rj2 , j = 1, 2, …,m позволяет оценить вклад каждой
переменной Xj на рассеивание переменной Y.
4. Сильная вспомогательная (дополнительная) регрессия.
Мультиколлинеарность может иметь место вследствие того, что
какая-либо из объясняющих переменных является линейной (или
близкой к линейной) комбинацией других объясняющих переменных.
Для данного анализа строятся уравнения регрессии каждой из объяс-
няющих переменных Xj, j = 1, 2, … , m на оставшиеся объясняющие
переменные вспомогательные регрессии. Вычисляются соответст-
вующие коэффициенты детерминации Rj2 и рассчитывается их стати-
стическая значимость на основе F-статистики
R2 n?m
j
Fj = ? . (10.8)
m ?1
R2
1? j




250
Здесь n ? число наблюдений, m ? число объясняющих перемен-
ных в первоначальном уравнении регрессии. Статистика F имеет рас-
пределение Фишера с ?1 = m ? 1 и ?2 = n ? m степенями свободы. Дан-
ная формула аналогична формуле (6.36). Если коэффициент Rj2 стати-
стически незначим, то Xj не является линейной комбинацией других
переменных и ее можно оставить в уравнении регрессии. В противном
случае есть основания считать, что Xi существенно зависит от других
объясняющих переменных, и имеет место мультиколлинеарность.
Существует и ряд других методов определения мультиколлине-
арности, описание которых выходит за рамки данной книги.

10.4. Методы устранения мультиколлинеарности
Прежде чем указать основные методы устранения мультиколли-
неарности, отметим, что в ряде случаев мультиколлинеарность не яв-
ляется таким уж серьезным злом, чтобы прилагать серьезные усилия
по ее выявлению и устранению. Ответ на этот вопрос в основном за-
висит от целей исследования.
Если основная задача модели ? прогноз будущих значений зави-
симой переменной, то при достаточно большом коэффициенте детер-
минации R2 (? 0.9) наличие мультиколлинеарности зачастую не ска-
зывается на прогнозных качествах модели. Хотя это утверждение бу-
дет обоснованным лишь в том случае, что и в будущем между корре-
лированными переменными будут сохраняться те же отношения, что
и ранее.
Если же целью исследования является определение степени
влияния каждой из объясняющих переменных на зависимую перемен-
ную, то наличие мультиколлинеарности, приводящее к увеличению
стандартных ошибок, скорее всего, исказит истинные зависимости
между переменными. В этой ситуации мультиколлинеарность пред-
ставляется серьезной проблемой.
Отметим, что единого метода устранения мультиколлинеарности,
годного в любом случае, не существует. Это связано с тем, что причи-

<< Предыдущая

стр. 43
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>