<< Предыдущая

стр. 20
(из 44 стр.)

ОГЛАВЛЕНИЕ

Следующая >>


?y
Отношение ширины полосы рассеяния данных относитель-
но их среднего значения к ширине полосы рассеяния данных
относительно линии регрессии называется числом различимых
градаций отклика. Если в качестве меры рассеяния принять со-
ответствующие среднеквадратичные отклонения, то формула
для числа различимых градаций отклика будет иметь вид:
N GRAD = ? y ? e
Как и коэффициент детерминации, число различимых градаций
является позитивной оценкой корреляционной связи, то есть
чем больше N GRAD , тем выше качество уравнения регрессии.
R 2 = 1 ? 1 ( N GRAD )
2


Негативной оценкой корреляционной связи является отно-
сительная приведенная погрешность, которая является отноше-
нием половины ширины полосы рассеяния данных относитель-
но линии регрессии к ширине полосы рассеяния данных относи-
тельно их среднего значения и вычисляется по формуле
?e
, то есть R 2 = 1 ? (2? ) .
? = 0 .5 ?
2

?y
Связь между ? и N GRAD задается формулами
1 1
?= N GRAD =
2 ??
2 ? N GRAD

Приведем таблицу, показывающую связь между коэффициентом
детерминации, числом различимых градаций отклика и относи-
тельной приведенной погрешностью.

112
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ



? R2 R
N GRAD

1 50.0% 0.00 0.00
1.41 35.4% 0.50 0.71
2 25.0% 0.75 0.87
3 16.7% 0.89 0.94
4 12.5% 0.94 0.97
5 10.0% 0.96 0.98
6 8.3% 0.972 0.986
7 7.1% 0.980 0.990
8 6.3% 0.984 0.992
9 5.6% 0.988 0.994
10 5.0% 0.990 0.995

Отметим следующие важные случаи:
- Коэффициент детерминации R 2 = 0.5 ( R ? 0.71) , то есть
только половина разброса отклика Y объясняется
уравнением регрессии. В этой ситуации говорят, что
влияние сигнала (фактора Х) равно влиянию помехи (слу-
чайной ошибки е). Поэтому при коэффициенте
детерминации меньше чем 0.5, помехи начинают вносить
основной вклад в вариацию переменной Y, и такая модель
регрессии должна быть отвергнута.
- Если с.к.о. ошибки е ровно в два раза меньше, чем с.к.о. от-
клика Y, то есть число различимых градаций отклика равно
2, то R 2 = 0.75 ( R ? 0.87) . Именно это значение
рекомендуется принять в качестве минимально приемлемого
значения коэффициента детерминации.
ПРИМЕЧАНИЕ. При оценке величин ? и N GRAD мы предполага-
ли, что мерой ширины полосы рассеяния данных относительно их
среднего значения и мерой ширины полосы рассеяния данных от-
носительно линии регрессии являются соответствующие средне-
квадратичные отклонения. Если в качестве меры принять довери-
тельные интервалы, то формулы для ? и N GRAD изменятся, так как
отклик Y и ошибка уравнения регрессии е - это случайные вели-
чины с вообще говоря различными законами распределения. Рас
113
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


пределение величины Y , особенно при ярко выраженной линейной
зависимости, близко к равномерному. Распределение величины е в
большинстве случаев близко к нормальному.

8.8. Необратимость решений МНК.
Если отвлечься от причинно-следственной связи и рассматри-
вать переменные Х и Y как равноправные, то по методу
наименьших квадратов можно найти линейную регрессию как Y по
X так и Х по Y.
Пусть линейная регрессия Y по X выражается функцией
Y = a1 X + b1 , а линейная регрессия Х по Y функцией
X = a 2Y + b2 . Оценки параметров a1 и a 2 выражаются через ко-
эффициент корреляции между переменными Х и Y как:
N

? (x ? X )( yk ? Y )
?y
k
=?
a1 = k =1

?x
N

? (x ? X )2
k
k =1
N

?(x ? X )( y k ? Y )
?x
k
=?
a2 = k =1

?y
N

?(y ? Y )2
k
k =1

Тангенс угла наклона функции Y = a1 X + b1 к оси х равен
a1 = ? ? (? y / ? x ) , а тангенс угла наклона функции X = a 2Y + b2
к оси х равен 1 / a2 = (1 / ? ) ? (? y / ? x ) . Это разные величины, сле-
довательно линии регрессии Y на Х и Х на Y - это разные прямые.
Они совпадают только тогда, когда модуль коэффициента
корреляции | ? |= 1 , то есть когда между переменными Х и Y
существует строгая функциональная зависимость.
В несовпадении линий регрессии Y на Х и Х на Y и состоит
необратимость решений МНК, то есть нельзя использовать
величины ( a 2 , b2 ) для вычисления величин ( a1 , b1 ) и наоборот:
1 b2 1 b1
a1 ? b1 ? ? a2 ? b2 ? ?
a2 a2 a1 a1
114
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


8.9. Статистические выводы о величине параметров одно-
факторной линейной регрессии.
Полученные в этой главе формулы для выборочных
коэффициентов однофакторной линейной регрессии дают лишь
оценки истинных значений этих коэффициентов.
Введем обозначения:
- истинные значения параметров линейной регрессии (a, b) ,
- выборочные значения параметров линейной регрессии
( a, b) ,
2 2
выборочные дисперсии параметров (? a ,? b ) .
-

Выборочное распределение параметров линейной регрессии
При анализе коэффициентов регрессии считают, что
a?a b?b
случайные величины t a = и tb = подчиняются
?a ?b
распределению Стьюдента с ? = ( N ? 2) степенями свободы,
где N - объем выборки. В этих формулах:
N

? (x ? X )( yk ? Y )
k
1N 1N
b = ? y k ? a ? xk
a= k =1
N

? (x
N k =1 N k =1
? X )2
k
k =1
2 2
?e ?e 1N 2
? ? xk
2 2
?a = ?b =
N N

? (x ? (x
N k =1
? X) ? X )2
2
k k
k =1 k =1
N
1
? ( y k ? a xk ? b ) 2
2
?e =
N ? 2 k =1
Доверительный интервал для параметров линейной регрес-
сии
Доверительный интервал возможных значений величины t ,
характеризующийся доверительной вероятностью P или
уровнем значимости q = 1 ? P , это такой интерквантильный
115
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


промежуток t q / 2,? ? t ? t1? q / 2,? , внутри которого лежат 100 P
процентов всех значений случайной величины t , а 100q
процентов лежат вне этого промежутка. При этом 100q / 2
процентов лежит слева от t q / 2,? и 100q / 2 процентов лежит
справа от t1? q / 2,? .
Величины t q / 2,? и t1? q / 2,? - это квантили распределения
Стьюдента с ? = N ? 2 степенями свободы, причем, так как это
распределение симметрично и имеет нулевое математическое
ожидание, то t q / 2,? = ?t1? q / 2,? .
Подставив значения t a = (a ? a ) / ? a и tb = (b ? b) / ? b в
? t1? q / 2,? ? t ? t1? q / 2,?
двойное неравенство получим
доверительные интервалы для истинных значений параметров
линейной регрессии (a, b) :
a ? t1? q / 2, ? ? a ? a ? a + t1? q / 2, ? ? a
b ? t1? q / 2, ? ? b ? b ? b + t1? q / 2, ? ? b
Гипотезы о величине параметров линейной регрессии
Когда речь идет о линейной регрессии, необходимо знать,
насколько значимо отличаются от нуля величины параметров
регрессии. Для проверки этого выдвигаются гипотезы:
H0 : a = 0 H0 : b = 0
или
H1 : a ? 0 H1 : b ? 0
Проверка данных гипотез осуществляется в отдельности для
каждого из параметров по следующей схеме:
1) Априорные предположения
Истинные значения параметров регрессии равны нулю
a=0
b=0
2) Результаты испытания
Выборочные коэффициенты регрессии и их выборочные
с.к.о.
116
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


a, ? a
b, ? b
при объеме выборки N.
3) Гипотеза
H0 : a = 0 H0 : b = 0
или
H1 : a ? 0 H1 : b ? 0
4) Принятая величина уровня значимости
q = 0.05 или q = 0.01
5) Критерий проверки
a?a a
ta = =
?a ?a
b?b b
tb = =
?b ?b
6) Правило принятия решения
Принять Н0 , если ? t1? q / 2,? ? t ? t1? q / 2,?
В противном случае принять Н1 , то есть Н1 принимается,
когда критерий проверки t попадает в критическую область
| t | > t1? q / 2, ? .
Граница критической области вычисляется как
t1? q / 2,? = СТЬЮДРАСПОБР (q, N ? 2)
В качестве критерия проверки t используются t a и t b .
7) Проверка гипотезы

<< Предыдущая

стр. 20
(из 44 стр.)

ОГЛАВЛЕНИЕ

Следующая >>