<< Предыдущая

стр. 19
(из 43 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

численно равен тангенсу угла наклона прямой регрессии к оси х.
Дисперсия оценок параметров линейной регрессии
Так как оценки параметров линейной регрессии получены
по случайной выборке, то сами эти оценки являются случайны-
ми величинами. Оценка дисперсии параметра a выражается
формулой:
2
?e
2
?a = N

? (x ? X )2
k
k =1
2
где величина ? e - это оценка дисперсии случайных отклоне-
ний отклика Y от линии регрессии:
N
1
? ek2
2
?e =
N ? m ? 1 k =1
где m - число факторов (независимых переменных).
В случае парной линейной регрессии
1 N2 1N
? ek = N ? 2 ? ( y k ? a x k ? b ) 2
2
?e =
N ? 2 k =1 k =1

Так как b = Y ? a ? X и так как фактор Х предполагается
нестохастическим, то для оценки дисперсии параметра b
справедливо:
2 2 2 2
? b = ? Y + X ?? a
2
где величина ? Y - это оценка дисперсии среднего значения от-
клика Y:
12
2
?Y = ?e
N
После несложных преобразований для оценки дисперсии
параметра b получаем формулу:

109
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ

N

?x 2
2
?e k
2
?b = ? k =1
N
N
?(x ? X )2
k
k =1
2
Величину ? e называют еще необъясненной дисперсией.
Чем меньше необъясненная дисперсия (то есть чем меньше от-
клонения величины Y от линии регрессии), тем меньше ошибки
в определении параметров регрессии, и, следовательно, тем точ-
нее модель объясняет фактические данные.
Кроме того, из формул для дисперсии параметров следует,
что чем на более широком диапазоне изменения фактора Х оце-
? (x ? X ) 2 , а зна-
нивается регрессия, тем больше величина k

чит меньше дисперсия параметров.
Из тех же самых соображений следует, что чем больше объ-
ем выборки N, тем меньше дисперсия параметров.

8.7. Коэффициент детерминации.
Из того, что связь фактора Х и отклика Y выражается в виде
y k = f k + ek = axk + b + ek
следует, что разброс отклика Y может быть объяснен разбросом
фактора Х и случайной ошибкой е. Необходимо определить ин-
дикатор, который бы показывал, насколько разброс Y
определяется разбросом Х и насколько случайными причинами,
то есть насколько хорошо фактические данные описываются
функцией регрессии.
В качестве общей меры разброса переменной Y естественно
использовать сумму квадратов отклонений этой величины от ее
среднего значения. Тогда в качестве объясняемой регрессией
меры разброса переменной Y будем использовать сумму
квадратов отклонений прогнозируемых линией регрессии
значений от среднего значения величины Y.
Индикатором качества линии регрессии является коэффи-
циент детерминации:


110
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ

N N

?( f ? (ax
?Y) + b ? Y )2
2
k k
R2 = =
k =1 k =1
N N

?(y ?(y
?Y) ? Y )2
2
k k
k =1 k =1
или
N

?e 2
k
R2 = 1? k =1
N

?(y ? Y )2
k
k =1
В случае однофакторной линейной регрессии коэффициент
детерминации равен квадрату коэффициента корреляции
величин Х и Y.
Иногда при расчете коэффициента детерминации для
получения несмещенных оценок дисперсии в числителе и
знаменателе делается поправка на число степеней свободы, то
есть скорректированный коэффициент детерминации
вычисляется по формуле:
N
1
? ek2
N ? m ? 1 k =1
R2 = 1?
1N
? ( yk ? Y ) 2
N ? 1 k =1
где m - число факторов (независимых переменных).
При добавлении в уравнение регрессии дополнительных
объясняющих переменных (факторов) нескорректированный R 2
всегда растет. При этом скорректированный R 2 может умень-
шиться за счет увеличения числа m , если новый фактор приво-
дит к небольшому уменьшению необъясненной дисперсии.
В случае парной линейной регрессии скорректированный
2
R вычисляется как:
1 N2
? ek
N ? 2 k =1
R2 = 1?
1N
? ( yk ? Y ) 2
N ? 1 k =1
111
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


Коэффициент детерминации может принимать значения от
нуля (когда Y не зависит от Х) до единицы (когда Х полностью
определяет Y, то есть между ними существует строгая
функциональная зависимость). Чем больше этот коэффициент,
тем выше качество линии регрессии.
Запишем формулу для R 2 в компактном виде
? e2
R =1? 2
2

?y
Отношение ширины полосы рассеяния данных относитель-
но их среднего значения к ширине полосы рассеяния данных
относительно линии регрессии называется числом различимых
градаций отклика. Если в качестве меры рассеяния принять со-
ответствующие среднеквадратичные отклонения, то формула
для числа различимых градаций отклика будет иметь вид:
N GRAD = ? y ? e
Как и коэффициент детерминации, число различимых градаций
является позитивной оценкой корреляционной связи, то есть
чем больше N GRAD , тем выше качество уравнения регрессии.
R 2 = 1 ? 1 ( N GRAD )
2


Негативной оценкой корреляционной связи является отно-
сительная приведенная погрешность, которая является отноше-
нием половины ширины полосы рассеяния данных относитель-
но линии регрессии к ширине полосы рассеяния данных относи-
тельно их среднего значения и вычисляется по формуле
?e
, то есть R 2 = 1 ? (2? ) .
? = 0 .5 ?
2

?y
Связь между ? и N GRAD задается формулами
1 1
?= N GRAD =
2 ??
2 ? N GRAD

Приведем таблицу, показывающую связь между коэффициентом
детерминации, числом различимых градаций отклика и относи-
тельной приведенной погрешностью.

112
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ



? R
N GRAD R2

1 50.0% 0.00 0.00
1.41 35.4% 0.50 0.71
2 25.0% 0.75 0.87
3 16.7% 0.89 0.94
4 12.5% 0.94 0.97
5 10.0% 0.96 0.98
6 8.3% 0.972 0.986
7 7.1% 0.980 0.990
8 6.3% 0.984 0.992
9 5.6% 0.988 0.994
10 5.0% 0.990 0.995

Отметим следующие важные случаи:
- Коэффициент детерминации R 2 = 0.5 ( R ? 0.71) , то есть
только половина разброса отклика Y объясняется
уравнением регрессии. В этой ситуации говорят, что
влияние сигнала (фактора Х) равно влиянию помехи (слу-
чайной ошибки е). Поэтому при коэффициенте
детерминации меньше чем 0.5, помехи начинают вносить
основной вклад в вариацию переменной Y, и такая модель
регрессии должна быть отвергнута.
- Если с.к.о. ошибки е ровно в два раза меньше, чем с.к.о. от-
клика Y, то есть число различимых градаций отклика равно
2, то R 2 = 0.75 ( R ? 0.87) . Именно это значение
рекомендуется принять в качестве минимально приемлемого
значения коэффициента детерминации.
ПРИМЕЧАНИЕ. При оценке величин ? и N GRAD мы предполага-
ли, что мерой ширины полосы рассеяния данных относительно их
среднего значения и мерой ширины полосы рассеяния данных от-
носительно линии регрессии являются соответствующие средне-
квадратичные отклонения. Если в качестве меры принять довери-
тельные интервалы, то формулы для ? и N GRAD изменятся, так как
отклик Y и ошибка уравнения регрессии е - это случайные вели-
чины с вообще говоря различными законами распределения. Рас
113
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


пределение величины Y , особенно при ярко выраженной линейной
зависимости, близко к равномерному. Распределение величины е в
большинстве случаев близко к нормальному.

8.8. Необратимость решений МНК.
Если отвлечься от причинно-следственной связи и рассматри-
вать переменные Х и Y как равноправные, то по методу
наименьших квадратов можно найти линейную регрессию как Y по
X так и Х по Y.
Пусть линейная регрессия Y по X выражается функцией
Y = a1 X + b1 , а линейная регрессия Х по Y функцией
X = a 2Y + b2 . Оценки параметров a1 и a 2 выражаются через ко-
эффициент корреляции между переменными Х и Y как:

<< Предыдущая

стр. 19
(из 43 стр.)

ОГЛАВЛЕНИЕ

Следующая >>