<< Предыдущая

стр. 19
(из 44 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

?? k= j
Это означает, что ошибка в одной из величин отклика Y не
приводит автоматически к ошибкам в последующих
величинах.
Кроме того, в МНК предполагается что факторы (независимые
переменные) не являются случайными величинами.

8.6. Оценка параметров однофакторной линейной регрессии.
Допустим, что принята гипотеза о том, что связь фактора Х
и отклика Y выражается линейной функцией f ( x) = ax + b . На-
личие отклонений, связанных со случайным характером рас-
сматриваемых переменных и/или с влиянием неучтенных фак-
торов приведет к тому, что связь между рассчитанными по мо-
дели значениями отклика f k и реальными значениями из вы-
борки y k будет выражаться в виде:
y k = f k + ek = ax k + b + ek
где ek - это расхождения между моделью и выборкой.

Оценка параметров линейной регрессии
Вычислим такой набор параметров модели, при котором
сумма квадратов всех расхождений между значениями по вы-
борке и вычисленными по модели значениями будет минималь-
ной, то есть
107
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ

N
S = ? ek2 > min
k =1
N
S = ? [ yk ? axk ? b]2 > min
k =1
Величина S является функцией от 2-х переменных (a, b) . Ми-
нимум этой функции можно найти, приравняв к нулю ее част-
ные производные по каждому из неизвестных параметров и ре-
шив полученную таким образом систему из 2-х уравнений. Так
как вычисление параметров мы будем проводить по конечной
выборке, то в результате мы получим лишь оценку этих пара-
метров (a, b) :
? ?S N

? ?b = ?2? [ yk ? axk ? b] = 0
? k =1
?
? ?S = ?2 [ y ? ax ? b]x = 0
N

?k k
? ?a k
? k =1

Из 1-го уравнения системы получаем:
N N

?y ? a ? xk ? bN = 0 ? b = Y ? a ? X
k
k =1 k =1
Из 2-го уравнения системы получаем:
N N N N N

?y x ? a ? x ? b? xk = 0 ? ? y k xk ? a ? xk2 ? bN X = 0
2
k k k
k =1 k =1 k =1 k =1 k =1
Подставив в это уравнение выражение для оценки параметра b
найдем оценку параметра a :
N N

?x ? (x
yk ? N ? X ? Y ? X )( y k ? Y )
k k
a= ?
k =1 k =1
N N

?x ? (x
2
?N?X ? X )2
2
k k
k =1 k =1
Из последнего равенства следует, что оценку параметра a мож-
но выразить через ковариацию или коэффициент корреляции
переменных Х и Y:


108
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


? xy ?y
a= 2 =?
?x ?x
Параметр a , который еще называют коэффициентом регрессии,
численно равен тангенсу угла наклона прямой регрессии к оси х.
Дисперсия оценок параметров линейной регрессии
Так как оценки параметров линейной регрессии получены
по случайной выборке, то сами эти оценки являются случайны-
ми величинами. Оценка дисперсии параметра a выражается
формулой:
2
?e
2
?a = N

? (x ? X )2
k
k =1
2
где величина ? e - это оценка дисперсии случайных отклоне-
ний отклика Y от линии регрессии:
N
1
? ek2
2
?e =
N ? m ? 1 k =1
где m - число факторов (независимых переменных).
В случае парной линейной регрессии
1 N2 1N
? ek = N ? 2 ? ( y k ? a x k ? b ) 2
2
?e =
N ? 2 k =1 k =1

Так как b = Y ? a ? X и так как фактор Х предполагается
нестохастическим, то для оценки дисперсии параметра b
справедливо:
2 2 2 2
? b = ? Y + X ?? a
2
где величина ? Y - это оценка дисперсии среднего значения от-
клика Y:
12
2
?Y = ?e
N
После несложных преобразований для оценки дисперсии
параметра b получаем формулу:

109
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ

N

?x 2
2
?e k
2
?b = ? k =1
N

?(x
N
? X )2
k
k =1
2
Величину ? e называют еще необъясненной дисперсией.
Чем меньше необъясненная дисперсия (то есть чем меньше от-
клонения величины Y от линии регрессии), тем меньше ошибки
в определении параметров регрессии, и, следовательно, тем точ-
нее модель объясняет фактические данные.
Кроме того, из формул для дисперсии параметров следует,
что чем на более широком диапазоне изменения фактора Х оце-
? (x ? X ) 2 , а зна-
нивается регрессия, тем больше величина k

чит меньше дисперсия параметров.
Из тех же самых соображений следует, что чем больше объ-
ем выборки N, тем меньше дисперсия параметров.

8.7. Коэффициент детерминации.
Из того, что связь фактора Х и отклика Y выражается в виде
y k = f k + ek = axk + b + ek
следует, что разброс отклика Y может быть объяснен разбросом
фактора Х и случайной ошибкой е. Необходимо определить ин-
дикатор, который бы показывал, насколько разброс Y
определяется разбросом Х и насколько случайными причинами,
то есть насколько хорошо фактические данные описываются
функцией регрессии.
В качестве общей меры разброса переменной Y естественно
использовать сумму квадратов отклонений этой величины от ее
среднего значения. Тогда в качестве объясняемой регрессией
меры разброса переменной Y будем использовать сумму
квадратов отклонений прогнозируемых линией регрессии
значений от среднего значения величины Y.
Индикатором качества линии регрессии является коэффи-
циент детерминации:


110
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ

N N

?( f ? (ax
?Y) + b ? Y )2
2
k k
R2 = =
k =1 k =1
N N

?(y ?(y
?Y) ? Y )2
2
k k
k =1 k =1
или
N

?e 2
k
R2 = 1? k =1
N

?(y ? Y )2
k
k =1
В случае однофакторной линейной регрессии коэффициент
детерминации равен квадрату коэффициента корреляции
величин Х и Y.
Иногда при расчете коэффициента детерминации для
получения несмещенных оценок дисперсии в числителе и
знаменателе делается поправка на число степеней свободы, то
есть скорректированный коэффициент детерминации
вычисляется по формуле:
N
1
? ek2
N ? m ? 1 k =1
R2 = 1?
1N
? ( yk ? Y ) 2
N ? 1 k =1
где m - число факторов (независимых переменных).
При добавлении в уравнение регрессии дополнительных
объясняющих переменных (факторов) нескорректированный R 2
всегда растет. При этом скорректированный R 2 может умень-
шиться за счет увеличения числа m , если новый фактор приво-
дит к небольшому уменьшению необъясненной дисперсии.
В случае парной линейной регрессии скорректированный
2
R вычисляется как:
1 N2
? ek
N ? 2 k =1
R2 = 1?
1N
? ( yk ? Y ) 2
N ? 1 k =1
111
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


Коэффициент детерминации может принимать значения от
нуля (когда Y не зависит от Х) до единицы (когда Х полностью
определяет Y, то есть между ними существует строгая
функциональная зависимость). Чем больше этот коэффициент,
тем выше качество линии регрессии.
Запишем формулу для R 2 в компактном виде
? e2
R =1? 2
2

<< Предыдущая

стр. 19
(из 44 стр.)

ОГЛАВЛЕНИЕ

Следующая >>