<< Предыдущая

стр. 17
(из 43 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

величин Х и Y используем средние арифметические значения по
соответствующим выборкам:
1N 1N
X = ? xk Y = ? yk
N k =1 N k =1
Тогда выборочная ковариация случайных величин Х и Y за-
дается формулой:
1N
? ( xk ? X )( yk ? Y )
? xy =
N ? 1 k =1
Оценка коэффициента корреляции
Для оценки коэффициента корреляции между случайными
величинами Х и Y нам понадобятся выборочные
среднеквадратичные отклонения этих величин:
1N 1N
? ( xk ? X ) 2 ? ( yk ? Y ) 2
?x = ?y =
N ? 1 k =1 N ? 1 k =1
Тогда выборочный коэффициент корреляции случайных
величин Х и Y задается формулой:
N

? (x ? X )( y k ? Y )
? xy k
? xy = = k =1

? x ?? y N N

? (x ?(y
? X) ? Y )2
2
k k
k =1 k =1

Дисперсию и с.к.о. выборочного коэффициента корреляции
можно оценить как
(1 ? ? xy ) 2 1 ? ? xy
2 2

?? = ?? =
2

N ?1 N ?1




98
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 7. Корреляция случайных величин


7.7. Оценка коэффициентов линейной регрессии по выборке
случайных величин.
В параграфе 7.3 было получено, что в случае, когда
величины Х и Y представлены своими генеральными совокупно-
стями, уравнение регрессии Y на Х имеет вид:
y ? µ y = ? ? (? y / ? x ) ? ( x ? µ x )
Следовательно, так как ? ? (? y / ? x ) ? ? xy / ? x , то коэффициен-
2


ты (a, b) линейной регрессии y = ax + b можно представить в
виде:
a = ? xy / ? x b = µ y ? aµ x
2


Переходя к выборочным оценкам получаем:
N N

? (x ?x
? X )( y k ? Y ) yk ? N ? X ? Y
? xy k k
a= = =
k =1 k =1
2 N N
?x
? ( xk ? X ) ? xk2 ? N ? X
2
2

k =1 k =1

b =Y ?a? X
Аналогичным образом можно получить оценку коэффициентов
линейной регрессии Х на Y.

7.8. Линейная регрессия как наилучшая оценка по методу
наименьших квадратов.
Докажем, что полученные в предыдущем параграфе оценки
коэффициентов линейной регрессии Y на Х определяют такую
прямую линию, что сумма квадратов отклонений величины Y от
этой прямой имеет минимальное значение, по сравнению с
суммой квадратов отклонений величины Y от любой другой
прямой.
Пусть величины Х и Y представлены своими выборками:
k = 1,..., N
{xk },{ yk }
Предположим, что зависимость величины Y от величины Х
можно аппроксимировать прямой линией y = ?x + ? . Найдем
коэффициенты ? и ?, которые минимизируют сумму квадратов
отклонений величины Y от этой прямой:
99
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 7. Корреляция случайных величин

N
S = ? ( y k ? ?x k ? ? ) 2
k =1
Возьмем частные производные S по ? и по ?, и приравняем их к
нулю:
?S N
= ?2? ( yk ? ?xk ? ? ) = 0
?? k =1

?S N
= ?2? xk ( yk ? ?xk ? ? ) = 0
?? k =1
Следовательно:
N N

?y ? ? ? x k ? ?N = 0
k
k =1 k =1
N N N

?x y k ? ? ? x ? ? ? xk = 0 2
k k
k =1 k =1 k =1
Из первого уравнения этой системы следует, что
1N 1N
? = ? y k ? ? ? xk = Y ? ? ? X
N k =1 N k =1
Подставив это выражение во второе уравнение системы после
несложных преобразований получим:
N

?x yk ? N ? X ? Y
k
?= k =1
N

?x
2
?N?X
2
k
k =1
Использованный метод поиска коэффициентов ? и ? назы-
вается методом наименьших квадратов. Сравнивая
коэффициенты ? и ? с полученными в предыдущем параграфе
выборочными коэффициентами линейной регрессии видим, что
они совпадают. Следовательно, утверждение о том, что
коэффициенты линейной регрессии Y на Х определяют такую
прямую линию, что сумма квадратов отклонений величины Y от
этой прямой имеет минимальное значение, по сравнению с
суммой квадратов отклонений величины Y от любой другой
прямой, доказано.

100
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


8. РЕГРЕССИОННЫЙ АНАЛИЗ

8.1. Введение.
Различные экономические и финансовые переменные связаны
между собой. Если не принимать во внимание случайный характер
этих переменных, то для описания связей между ними можно при-
менить функциональный подход, то есть предположить, что связь
одной из переменных Y с некоторым количеством других перемен-
ных ( X 1 ,..., X M ) можно выразить некоторой функцией (матема-
тической моделью):
Y = f (a1 ,..., a L , X 1 ,..., X M ) , где
( X 1 ,..., X M ) - это набор независимых переменных, которые
-
будем называть факторами,
- Y - это зависимая переменная, которую будем называть
откликом,
(a1 ,..., a L ) - это набор констант, которые будем называть
-
параметрами математической модели.
В случае, когда отклик Y зависит только от единственного фактора
Х, модель называется однофакторной. Если отклик Y зависит от
( X 1 ,..., X M ) , модель называется
нескольких факторов
многофакторной.
Математическая модель, связывающая факторы и отклик,
может быть найдена только на основе реальных выборок этих
величин. Определение модели включает в себя два этапа:
- выбор вида модели, то есть вида функции f,
- расчет параметров выбранной модели ( a1 ,..., a L ) .
Первый этап, то есть выбор вида математической модели, является
не формализуемой задачей. Это решение принимается с учетом
простоты и удобства использования модели, содержательности мо-
дели и других соображений. Второй этап, то есть расчет парамет-
ров выбранной математической модели, является задачей, которая
решается с помощью регрессионного анализа реальных выборок
факторов и отклика.

8.2. Выбор вида математической модели.
Рассмотрим однофакторную зависимость. Этот случай наи-
более прост и может быть изучен графически. Предположим,
101
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


что имеется массив значений фактора Х и соответствующий ему
массив значений отклика Y. Нанесем соответствующие точки
( x k , y k ), k = 1,..., N на график. Если фактор и отклик - это ре-
альные статистические данные, то указанные точки никогда не
лягут на простую линию (прямую, параболу, гиперболу, экспо-
ненту, синусоиду и т.д.). Всегда будут присутствовать отклоне-
ния, связанные со случайным характером рассматриваемых пе-
ременных и/или с влиянием неучтенных факторов.
Кроме того часто оказывается, что один и тот же набор то-
чек можно с примерно одинаковой точностью описать различ-
ными аналитическими функциями. Следовательно, выбор вида
математической модели - это не формализуемая задача. Рацио-
нальный выбор той или иной модели может быть обоснован
лишь с учетом определенных требований, а именно:
- простоты модели,
- содержательности модели.
Простота модели
Наиболее распространенной ошибкой при описании фактиче-
ской зависимости является попытка детерминированного описания
этой зависимости, то есть включение в математическую модель
всех наблюдающихся особенностей конкретной выборки, в том
числе и тех, которые в действительности носят случайный харак-
тер.
Например, любой набор точек ( x k , y k ), k = 1,..., N можно
описать абсолютно точно полиномом (N-1)-й степени, зависящим
от N параметров ( a 0 , a1 ,..., a N ?1 ) :
N ?1
y = ? ak x k
k =0
Но на практике получается, что появляющаяся новая (N+1)-я точка
уже не будет удовлетворять полученной формуле. То же самое
можно сказать обо всех появляющихся далее новых точках. При
этом расхождение между реальными данными и моделью будет на-
растать с увеличением количества новых данных.
В то же время может оказаться, что исходный набор
значений ( x k , y k ) можно приближенно описать какой-либо
простой функцией (прямой, параболой, гиперболой, экспонен
102
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


той, синусоидой и т.д.), и эта модель, зависящая от небольшого
числа параметров, будет устойчива к появлению новых данных.
Следовательно, необходимым требованием к математической
модели является ее простота.
Содержательность модели
Под содержательностью математической модели будем по-
нимать разумную интерпретируемость результатов, которые мо-
гут быть получены при вычислении по этой модели.
Поясним это утверждение на простом примере. Пусть наша
задача состоит в том, чтобы описать кривую зависимости цены
бескупонной облигации от срока до погашения облигации. В
данном случае фактором X является срок до погашения, откли-
ком Y является цена. На эту математическую модель можно на-
ложить очевидные ограничения:
1) функция y = f (x) должна быть неотрицательной,
2) функция y = f (x) должна быть монотонно убывающей,
3) значение функции y = f (x) при x = 0 должно быть равно

<< Предыдущая

стр. 17
(из 43 стр.)

ОГЛАВЛЕНИЕ

Следующая >>