<< Предыдущая

стр. 11
(из 43 стр.)

ОГЛАВЛЕНИЕ

Следующая >>


N ( N ? 1)( N ? 2)( N ? 3) k =1 k =1
Следовательно, оценки коэффициента асимметрии и эксцесса
можно найти по формулам:
N
1 N
? ( xk ? X ) 3
?= 3
? ( N ? 1)( N ? 2) k =1
N 2 ? 2N + 3 3(2 N ? 3)( N ? 1)
N
1
?
?= 4 ( xk ? X ) 4 ?
? ( N ? 1)( N ? 2)( N ? 3) k =1 N ( N ? 2)( N ? 3)
В случае небольших выборок и при наличии промахов вместо
среднего арифметического X следует применять ХЦЕНТР.
Дисперсии оценок коэффициента асимметрии и эксцесса можно
оценить как:
6( N ? 1)
D(? ) =
( N + 1)( N + 3)
24 N ( N ? 2)( N ? 3)
D(? ) =
( N ? 1) 2 ( N + 3)( N + 5)
Считается, что если | ? | / D(? ) > 3 , то распределение несим-

метрично. Если же | ? | / D(? ) < 3 , то асимметрия несущест-
венна и ее наличие может быть объяснено случайностью выбор-
ки.

4.5. Исключение промахов из выборки.
Промахами в выборке случайных величин будем называть
аномально отклоняющиеся от центра распределения значения
по сравнению с основной массой данных.
В применении к ценам активов, эти аномалии могут быть
вызваны сменой президента или правительства, банкротством
крупных компаний, террористическими актами и т.п.


63
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 4. Оценка параметров распределения по выборке случайной вели-
чины

Решение о том, фильтровать промахи или нет, каждый при-
нимает для себя сам. Однако следует учесть, что промахи могут
существенно исказить оценку параметров распределения.
В этом параграфе излагается формализованная процедура
удаления аномальных величин из выборки. Прежде всего, вве-
дем понятие коэффициента цензурирования. Коэффициент цен-
зурирования - это безразмерная величина G, такая, что все зна-
чения из выборки {x k } , лежащие за пределами интервала
X ЦЕНТР ? G ? ? ? x ? X ЦЕНТР + G ? ? , считаются промахами и
подлежат исключению из выборки.
Интуитивно понятно, что коэффициент цензурирования
должен зависеть от объема выборки и рассчитанного по
выборке значения эксцесса. Действительно, такое отклонение от
центра, которое является промахом для средневершинного (а
тем более плосковершинного) распределения, для
островершинного распределения с его длинными "тяжелыми"
спадами может безусловно принадлежать выборке.
Эмпирическая формула для коэффициента цензурирования
как функции от объема выборки N и эксцесса ?, пригодная к
применению для широкого класса распределений следующая:
G = 1.55 + 0.8 ? lg( N / 10) ? ? ? 1 .
Теперь все готово для написания алгоритма удаления
промахов из выборки:
1) Вычислить величину ХЦЕНТР,
2) Вычислить оценку среднеквадратичного отклонения ? , при
этом в качестве центра распределения использовать ХЦЕНТР,
3) Вычислить оценку эксцесса ? , при этом в качестве центра
распределения использовать ХЦЕНТР,
4) Вычислить коэффициент цензурирования G,
5) Исключить из выборки значения, лежащие за пределами
интервала X ЦЕНТР ? G ? ? ? x ? X ЦЕНТР + G ? ?
После удаления промахов нужно пересчитать параметры
распределения. При этом в качестве центра распределения уже
можно использовать среднее арифметическое X , как состоя-
тельную и несмещенную оценку математического ожидания.
64
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 5. Статистические выводы


5. СТАТИСТИЧЕСКИЕ ВЫВОДЫ

5.1. Введение.
Какие выводы о некотором параметре генеральной сово-
купности мы можем сделать, имея выборочное значение этого
параметра? Ответ на этот вопрос зависит от того, имеем ли мы
априорную информацию о величине генерального параметра.
Если априорная информация о величине генерального па-
раметра отсутствует, то мы можем по выборочному значению
оценить этот параметр, задав для него доверительный интер-
вал, то есть границы, в которых его величина лежит с опреде-
ленной доверительной вероятностью.
Если есть априорные соображения о величине генерального
параметра, то мы можем проверить гипотезу о том, соответст-
вует ли выборочная оценка априорному значению генерального
параметра.

5.2. Выборочное распределение выборочной средней.
Пусть случайная величина Х имеет математическое ожидание
µ и генеральную дисперсию ? . Оценками математического
2


ожидания и дисперсии по выборке ( x1 , x 2 ,..., x N ) будут
выборочная средняя и выборочная дисперсия:
1N 1N
X = ? xk ? ( xk ? X ) 2
2
?=
N ? 1 k =1
N k =1
Рассмотрим случайную величину t = ( X ? µ ) /(? / N ) . Так
как M ( X ) = µ и ? ( X ) = ? / N , то эта случайная величина
имеет нулевое математическое ожидание и единичную дисперсию.
Будем считать, что величина t подчиняется распределению
Стьюдента с ? = N ? 1 степенями свободы, хотя в общем случае
это утверждение некорректно. Дело в том, что строго говоря
величина t подчиняется распределению Стьюдента только в
случае когда выборка ( x1 , x 2 ,..., x N ) взята из нормально
распределенной совокупности.


65
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 5. Статистические выводы


5.3. Доверительный интервал для генеральной средней.
Доверительный интервал возможных значений величины t ,
характеризующийся доверительной вероятностью P или
уровнем значимости q = 1 ? P , это такой интерквантильный
промежуток t q / 2,? ? t ? t1? q / 2,? , внутри которого лежат 100 P
процентов всех значений случайной величины t , а 100q
процентов лежат вне этого промежутка. При этом 100q / 2
процентов лежит слева от t q / 2,? и 100q / 2 процентов лежит
справа от t1? q / 2,? .
Величины t q / 2,? и t1? q / 2,? - это квантили распределения
Стьюдента с ? = N ? 1 степенями свободы, причем, так как это
распределение симметрично и имеет нулевое математическое
ожидание, то t q / 2,? = ?t1? q / 2,? . Используя последнее равенство и
подставив значение t = ( X ? µ ) /(? / N ) получаем, что
X ?µ
? t1? q / 2,? ? ? t1? q / 2,?
?/ N
Отсюда следует, что доверительный интервал для
математического ожидания µ через выборочную среднюю и
выборочное с.к.о. задается в виде:
? ?
? µ ? X + t1? q / 2,?
X ? t1? q / 2,?
N N
Ширина доверительного интервала для математического
ожидания очень существенно зависит от объема выборки.
Проиллюстрируем это на простом примере. Пусть в двух
испытаниях получены одинаковые значения выборочной
средней X = 1.2 и выборочного с.к.о. ? = 2.5 . Но в первом
случае эти данные были получены по выборке объемом
N = 100 , а во втором случае по выборке объемом N = 25 .
Зададимся уровнем значимости q = 0.05 .
Вычислим с помощью функций Microsoft Excel
доверительные интервалы для математического ожидания:

66
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 5. Статистические выводы


1) Большая выборка

? = 2.5
X = 1.2 N = 100
t1? q / 2, ? = СТЬЮДРАСПОБР (q, N ? 1) =
= СТЬЮДРАСПОБР (0.05, 99) = 1.984
2.5 2.5
? µ ? 1.2 + 1.984
1.2 ? 1.984
100 100
0.704 ? µ ? 1.696
Ширина доверительного интервала = 1.696 - 0.704 = 0.992

2) Малая выборка

? = 2.5
X = 1.2 N = 25
t1? q / 2,? = СТЬЮДРАСПОБР (q, N ? 1) =
= СТЬЮДРАСПОБР (0.05, 24) = 2.064
2.5 2.5
? µ ? 1.2 + 2.064
1.2 ? 2.064
25 25
0.168 ? µ ? 2.232
Ширина доверительного интервала = 2.232 - 0.168 = 2.064
То есть для данных значений выборочной средней и
выборочного с.к.о. увеличение объема выборки в 100/25=4 раза
привело к уменьшению ширины доверительного интервала для
математического ожидания в 2.064/0.992=2.08 раза.

5.4. Выборочное распределение выборочной дисперсии.
Пусть случайная величина Х имеет математическое
ожидание µ и генеральную дисперсию ? 2 . Оценками
математического ожидания и дисперсии по выборке
( x1 , x 2 ,..., x N ) будут выборочная средняя и выборочная
дисперсия:
1N 1N
X = ? xk ? ( xk ? X ) 2
2
?=
N ? 1 k =1
N k =1
67
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 5. Статистические выводы

2
? 2 = ( N ? 1)? / ? 2 . Эта
Рассмотрим случайную величину
величина подчиняется ?2-распределению с ? = N ? 1 степенями
свободы, если выборочная средняя X нормально распределена.
Для малых выборок это ?2-распределение имеет положительную
асимметрию, но с увеличением объема выборки его асимметрия
стремится к нулю.

5.5. Доверительный интервал для генеральной дисперсии.
?2,
Доверительный интервал возможных значений величины
характеризующийся доверительной вероятностью P или уровнем
значимости q = 1 ? P , это такой интерквантильный промежуток
? q / 2, ? ? ? 2 ? ?12?q / 2, ? , внутри которого лежат 100 P процентов
2


? 2 , а 100q процентов лежат
всех значений случайной величины
вне этого промежутка. При этом 100q / 2 процентов лежит слева
? q / 2, ? и 100q / 2 процентов лежит справа от ? 12? q / 2, ? .
2
от
? q / 2, ? и ? 12? q / 2, ? - это квантили ? 2 -распределения
2
Величины
? = N ? 1 степенями свободы.
с Подставив значение
2
? 2 = ( N ? 1)? / ? 2 получаем, что
2
?
? q / 2, ? ? ( N ? 1) 2 ? ?12? q / 2, ?
2

?
Отсюда следует, что доверительный интервал для генеральной
дисперсии через выборочную дисперсию задается в виде:
2 2
( N ? 1)? ( N ? 1)?
?? 2 ?
? ? q / 2, ?
2 2
1? q / 2 , ?

Пусть в испытании получено значение выборочного с.к.о.
? = 2.5 по выборке объемом N = 25 . Зададимся уровнем
значимости q = 0.05 .
Вычислим с помощью функций Microsoft Excel доверительный
интервалы для генеральной дисперсии:

<< Предыдущая

стр. 11
(из 43 стр.)

ОГЛАВЛЕНИЕ

Следующая >>