<< Предыдущая

стр. 23
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

2
1 (x ? x p )
,n ?2 ,n ?2
2 2
S? 1+ +
n ? (x i ? x) 2
Таким образом, интервал
2
1 (x ? x p )
b0 + b1xp m t б S? 1 + + (5.35)
n ? (x i ? x) 2
,n ? 2
2

определяет границы, за пределами которых могут оказаться не более
100? % точек наблюдений при X = xp. Заметим, что данный интервал
шире доверительного интервала для условного математического ожи-
дания (на рис. 5.4 границы этого интервала отмечены пунктирной ли-
нией).
Проводя анализ построенных интервалов, несложно заметить, что
наиболее узкими они будут при Хp = x . По мере удаления Хp от сред-
него значения доверительные интервалы расширяются (см. рис. 5.4).
Поэтому необходимо достаточно осторожно экстраполировать полу-
ченные результаты на прогнозные области. С другой стороны, с рос-
том числа наблюдений n эти интервалы сужаются к линии регрессии
при n > ?.
По данным из примера 4.1 рассчитаем 95 %-ный доверительный интервал
для условного математического ожидания M(Y?X = xp) при Х = 160. Воспользо-
вавшись формулой (5.32), рассчитаем границы интервала:
1 (125.25 ? 160) 2
3.699+ 0.9339?160 ± 2.228?1.8788? + .
12 2102.1875
Таким образом, доверительный интервал для среднего значения Y при Х = 160
имеет вид: (149.728; 156.5193). Другими словами, среднее потребление при дохо-
де 160 с вероятностью 95 % будет находиться в интервале (149.728; 156.5193).
Рассчитаем границы интервала, в котором будет сосредоточено не менее
95% возможных объемов потребления при неограниченно большом числе наблю-
дений при уровне дохода Х = 160. Для этого воспользуемся формулой (5.35).
1 (125.25 ? 160) 2
3.699 + 0.9339?160 ± 2.228?1.8788? 1 + + .
12 2102.1875
Тогда интервал, в котором будут находиться, по крайней мере, 95 % индивиду-
альных объемов потребления при доходе Х = 160, имеет вид: (147.4898; 158.7082).
Нетрудно заметить, что он включает в себя доверительный интервал для условно-
го среднего потребления.



129
5.6. Проверка общего качества уравнения регрессии.
Коэффициент детерминации R2
После проверки значимости каждого коэффициента регрессии
обычно проверяется общее качество уравнения регрессии, которое
оценивается по тому, как хорошо эмпирическое уравнение регрессии
согласуется со статистическими данными. Другими словами, насколь-
ко широко рассеяны точки наблюдений относительно линии регрес-
сии. Очевидно, если все точки лежат на построенной прямой, то
регрессия Y на X “идеально” объясняет поведение зависимой пере-
менной. В реальной жизни такая ситуация практически не встречает-
ся. Обычно поведение Y лишь частично объясняется влиянием пере-
менной Х. Возможные соотношения между двумя переменными име-
ют наглядную графическую интерпретацию в виде так называемой
диаграммы Венна (рис. 5.5).

Y X Y X Y X


а б в


Y X Y=X


г д
Рис. 5.5

На рис. 5.5, а Х никак не влияет на Y. На каждом следующем ри-
сунке влияние Х все усиливается. Наконец, на рис. 5.5, д значения Y
целиком определяются значениями Х.
Суммарной мерой общего качества уравнения регрессии (соот-
ветствия уравнения регрессии статистическим данным) является ко-
эффициент детерминации R2. В случае парной регрессии коэффици-
ент детерминации будет совпадать с квадратом коэффициента корре-
ляции. В общем случае коэффициент детерминации рассчитывается
по формуле:
2
? ei
2
R =1? . (5.36)
2
? ( yi ? y )



130
Поясним смысл коэффициента детерминации. Пусть эмпириче-
ское уравнение регрессии имеет вид:
)
Y = b 0 + b1X . (5.37)
Тогда наблюдаемые (реальные) значения уi, i = 1, 2, … , n отли-
)
чаются от модельных y i на величину ei:
)
уi = y i + ei . (5.38)
Соотношение (5.38) можно переписать в следующем виде:
) )
уi ? y = ( y i ? y ) + (уi ? y i ), (5.39)
уi ? y =
т. е. ki + еi,
где (уi ? y ) ? отклонение i-й (наблюдаемой) точки от среднего значе-
ния y зависимой переменной Y; ki ? отклонение i-й точки на линии
)
регрессии от y ; еi ? отклонение i-й точки от модельного значения y i ,
определяемого по линии регрессии. Все отклонения рассчитываются
по оси зависимой переменной (см. рис. 5.6).
Y
.
.
y
ki
ei
yi

X
xi
Рис. 5.6

Возведем обе части равенства (5.39) в квадрат и просуммируем
полученные значения по объему выборки n:
) )
2 2 2
? ( y i ? y ) = ? ( y i ? y ) + 2? (( y i ? y ) ? e i ) + ? e i . (5.40)
)
Можно показать, что ? (( y i ? y ) ? e i ) = 0 (доказательство опускаем
для упражнения). Тогда справедливо следующее соотношение:
2 2 2
? (y i ? y) = ? k i + ? e i . (5.41)

131
Очевидно, ? (y i ? y) 2 ? общая (полная) сумма квадратов может
интерпретироваться как мера общего разброса (рассеивания) пере-
)
менной Y относительно y . ? k i2 = ? ( y i ? y ) 2 ? объясненная сумма
квадратов, интерпретируемая как мера разброса, объяснимого с по-
)
мощью регрессии. ? e i2 = ? (y i ? y i ) 2 ? остаточная (необъясненная)
сумма квадратов, являющаяся мерой остаточного, необъясненного
уравнением регрессии разброса (разброса точек вокруг линии ре-
грессии).
Разделив (5.41) на левую его часть, получим:
2 2 2 2
? ki ? ei ? ki ? ei
1= + ? = 1? . (5.42)
2 2 2 2
? ( yi ? y ) ? ( yi ? y ) ? ( yi ? y ) ? ( yi ? y )
2
? ki
2
Вводя обозначение R = , получаем соотношение
2
? ( yi ? y )
(5.36). При этом очевидно, что коэффициент детерминации R2 опре-
деляет долю разброса зависимой переменной, объяснимую регрессией
Y на X.
2
? ei
определяет долю разброса зависимой переменной,
2
? ( yi ? y )
необъясненную регрессией Y на X.
Из проведенных рассуждений следует, что в общем случае спра-
ведливо соотношение 0 ? R2 ? 1. Возможные условия нарушения не-
равенства R2 ? 0 рассмотрены чуть ниже.
Нетрудно заметить, что если между величинами Х и Y существу-
ет значимая линейная связь, то ? ei2 существенно меньше, чем
2
? ( y i ? y ) . Действительно, МНК позволяет найти прямую, для кото-
рой ? e i2 минимальна, а прямая Y = y является одной из возможных
линий, для которых выполняется условие y = b 0 + b1x . Поэтому зна-
чение числителя вычитаемой из единицы дроби в (5.36) меньше, чем
значение ее знаменателя (иначе, выбираемой по МНК линией регрес-
сии была бы прямая Y = y ). Следовательно, в этом случае коэффици-
ент детерминации R2 близок к единице.
Таким образом, коэффициент детерминации R2 является мерой,
позволяющей определить, в какой степени найденная прямая регрес-

132
сии дает лучший результат для объяснения поведения зависимой пе-
ременной Y, чем горизонтальная прямая Y = y .
Следовательно, чем теснее линейная связь между Х и Y, тем
ближе коэффициент детерминации R2 к единице (рис. 5.5, д). Чем сла-
бее такая связь, тем R2 ближе к нулю (рис. 5.5, а).
Однако не следует абсолютизировать высокое значение R2, т. к.
коэффициент детерминации может быть близким к единице просто в
силу того, что обе исследуемые величины Х и Y имеют выраженный
временной тренд, не связанный с их причинно-следственной зависи-
мостью. В экономике обычно такой тренд имеет объемные показатели
(ВНП, ВВП, доход, потребление). А темповые и относительные пока-
затели (темпы роста, производительность, ставка процента) не всегда
имеют тренд. Поэтому при оценивании регрессий по временным ря-
дам объемных показателей (например, зависимость потребления от
дохода или спроса от цены) величина R2 может быть весьма близкой к
единице. Но это не обязательно свидетельствует о наличии значимой
линейной связи между исследуемыми показателями, а может означать
лишь то, что поведение зависимой переменной нельзя описать урав-
нением Y = y .
Если уравнение регрессии строится по перекрестным данным, а
не по временным рядам, то коэффициент детерминации R2 для него
обычно не превышает 0.6 – 0.7. Аналогичные значения R2 обычно по-
лучаются и для регрессий по временным рядам, если они не имеют
выраженного тренда (темп инфляции от уровня безработицы, темпы
прироста выпуска от темпов прироста затрат ресурсов и т. п.).
Естественно, возникает вопрос, какое значение R2 можно считать
удовлетворительным. Точную границу приемлемости (статистической
значимости) R2 для всех случаев сразу указать невозможно. Нужно
обращать внимание на объем выборки, число объясняющих перемен-
ных, наличие трендов и содержательную интерпретацию. R2 может
оказаться даже отрицательным. Обычно это случается для линейных
уравнений регрессии, в которых отсутствует свободный член
Y = ? b jX j . Оценивая такое уравнение по МНК, мы вынуждены рас-
сматривать лишь те прямые (гиперплоскости), которые проходят че-
рез начало координат (рис. 5.7). Значение R2 получается отрицатель-
ным тогда, когда разброс значений зависимой переменной вокруг ли-
нии Y = y меньше, чем вокруг любой из прямых (гиперплоскостей),
проходящих через начало координат.

133
Y
Y = bX
Y = b0 + b1X
Y= y




X
x
Рис. 5.7

Из рис. 5.7 видно, что разброс наблюдаемых значений перемен-
ной Y относительно прямой Y = y существенно меньше разброса от-
носительно прямой Y = bX . Отрицательное значение R2 свидетельст-
вует о целесообразности добавления в уравнение Y = ? b jX j свобод-
ного члена (Y = b0 + b1X, см. рис. 5.7).
Схему анализа общего качества уравнения регрессии на основе
коэффициента детерминации мы подробно обсудим в разделе 6.7.
Проиллюстрируем связь между коэффициентом детерминации R2
для парного уравнения регрессии и выборочным коэффициентом кор-
реляции rxy.
)
2 2 2
? (y i ? y ) ? (b 0 + b1x i ? (b 0 + b1x))
? ki
2
R= = = =
2 2 2
? ( yi - y ) ? ( yi - y ) ? ( yi - y )
2
? ? (x i ? x)(y i ? y) ? ? (x i - x)) 2
2
? (x i - x))
=?
? ? (x ? x) 2 ? ? (y - y ) 2 =
2
= b1 ?
2
? (y i - y ) ? ?
i i
2
? ?

<< Предыдущая

стр. 23
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>