<< Предыдущая

стр. 25
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

качестве переменной Х использовать темп прироста показателя Z (%):
xt = (zt ? zt?1) / zt?1.

11. Рассматривается зависимость объема (Y) потребления импортируемых благ
в некоторой стране от персонального располагаемого дохода (Х). По 25-лет-
ним данным построена следующая регрессия:
)
Y = ?250.15 + 0.2941Х
2
se = ( 25.832) ( … ) R = 0.9215.
t = ( … ) (15.275)
а) Заполните скобки.
б) Проинтерпретируйте коэффициенты регрессии.
в) Будет ли отклонена гипотеза о равенстве нулю коэффициентов регрессии?
Какие тесты вы использовали и почему?
г) Можно ли считать, что коэффициент b1 не отличается существенно от 0.3?
д) Можно ли вычислить коэффициент детерминации (при предположении,
что он не известен) по имеющимся данным?




140
6. МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ
6.1. Определение параметров уравнения регрессии
На любой экономический показатель практически всегда оказы-
вает влияние не один, а несколько факторов. Например, спрос на не-
которое благо определяется не только ценой данного блага, но и це-
нами на замещающие и дополняющие блага, доходом потребителей и
многими другими факторами. В этом случае вместо парной регрессии
M(Y?x) = f(x) рассматривается множественная регрессия
М(Y?x1, x2, …, xm) = f(x1, x2, …, xm). (6.1)
Задача оценки статистической взаимосвязи переменных Y и X1,
X2, ..., Xm формулируется аналогично случаю парной регрессии. Урав-
нение множественной регрессии может быть представлено в виде
Y = f(?, X) + ?, (6.2)
где X = (X1, X2, ..., Xm) ? вектор независимых (объясняющих) перемен-
ных; ? ? вектор параметров (подлежащих определению); ? ? случай-
ная ошибка (отклонение); Y – зависимая (объясняемая) переменная.
Предполагается, что для данной генеральной совокупности именно
функция f связывает исследуемую переменную Y с вектором незави-
симых переменных X.
Рассмотрим самую употребляемую и наиболее простую из моде-
лей множественной регрессии – модель множественной линейной ре-
грессии.
Теоретическое линейное уравнение регрессии имеет вид:
Y = ?0 + ?1X1 + ?2X2 + ... + ?mXm + ? (6.3)
или для индивидуальных наблюдений i, i = 1, 2, …, n:
yi = ?0 + ?1xi1 + ?2xi2 + ... + ?mxim + ?i. (6.4)
Здесь ? = (?0, ?1, ..., ?m) – вектор размерности (m + 1) неизвестных
параметров. ?j, j = 1, 2, …, m, называется j-м теоретическим коэффи-
циентом регрессии (частичным коэффициентом регрессии). Он ха-
рактеризует чувствительность величины Y к изменению Xj. Другими
словами, он отражает влияние на условное математическое ожидание
М(Y?x1, x2, …, xm) зависимой переменной Y объясняющей перемен-
ной Хj при условии, что все другие объясняющие переменные модели
остаются постоянными. ?0 – свободный член, определяющий значение
Y, в случае, когда все объясняющие переменные Xj равны нулю.
141
После выбора линейной функции в качестве модели зависимости
необходимо оценить параметры регрессии.
Пусть имеется n наблюдений вектора объясняющих переменных
X = (X1, X2, …, Xm) и зависимой переменной Y:
(xi1, xi2, …, xim, yi), i = 1, 2, …, n.
Для того чтобы однозначно можно было бы решить задачу оты-
скания параметров ?0, ?1, ..., ?m (т. е. найти некоторый наилучший век-
тор ?), должно выполняться неравенство n ? m + 1. Если это неравен-
ство не будет выполняться, то существует бесконечно много различ-
ных векторов параметров, при которых линейная формула связи меж-
ду Х и Y будет абсолютно точно соответствовать имеющимся наблю-
дениям. При этом, если n = m + 1, то оценки коэффициентов вектора ?
рассчитываются единственным образом – путем решения системы
m + 1 линейного уравнения:
yi = ?0 + ?1x i1 + ?2x i2 + ... + ?mx im , i = 1, 2, ..., m + 1. (6.5)
Например, для однозначного определения оценок параметров
уравнения регрессии Y = ?0 + ?1X1 + ?2X2 достаточно иметь выборку
из трех наблюдений (x i1,x i2, xi3, yi), i = 1, 2, 3. Но в этом случае най-
денные значения параметров ?0, ?1, ?2 определяют такую плоскость
Y = ?0 + ?1X1 + ?2X в трехмерном пространстве, которая пройдет
именно через имеющиеся три точки. С другой стороны, добавление в
выборку к имеющимся трем наблюдениям еще одного приведет к то-
му, что четвертая точка (x 41,x 42, x 43, y4) практически наверняка будет
лежать вне построенной плоскости (и, возможно, достаточно далеко).
Это потребует определенной переоценки параметров. Таким образом,
вполне логичен следующий вывод:
если число наблюдений больше минимально необходимого, т. е.
n > m+1, то уже нельзя подобрать линейную форму, в точности удов-
летворяющую всем наблюдениям, и возникает необходимость опти-
мизации, т. е. оценивания параметров ?0, ?1, ..., ?m, при которых фор-
мула дает наилучшее приближение для имеющихся наблюдений.
В данном случае число ? = n – m – 1 называется числом степе-
ней свободы. Нетрудно заметить, что если число степеней свободы
невелико, то статистическая надежность оцениваемой формулы невы-
сока. Например, вероятность верного вывода (получения более точ-
ных оценок) по трем наблюдениям существенно ниже, чем по тридца-
ти. Считается, что при оценивании множественной линейной регрес-

142
сии для обеспечения статистической надежности требуется, чтобы
число наблюдений, по крайней мере, в 3 раза превосходило число
оцениваемых параметров.
Самым распространенным методом оценки параметров уравне-
ния множественной линейной регрессии является метод наименьших
квадратов (МНК). Напомним, что его суть состоит в минимизации
суммы квадратов отклонений наблюдаемых значений зависимой пе-
)
ременной Y от ее значений Y , получаемых по уравнению регрессии.
Прежде чем перейти к описанию алгоритма нахождения оценок
коэффициентов регрессии, напомним о желательности выполнимости
ряда предпосылок МНК, которые позволят проводить анализ в рамках
классической линейной регрессионной модели. Эти предпосылки
подробно обсуждались в разделе 5.1. Напомним ряд из них.

Предпосылки МНК
10. Математическое ожидание случайного отклонения ?i равно нулю:
M(?i) = 0 для всех наблюдений.
20. Гомоскедастичность (постоянство дисперсии отклонений).
Дисперсия случайных отклонений ?i постоянна:
D(?i) = D(?j) = ?2 для любых наблюдений i и j.
30. Отсутствие автокорреляции.
Случайные отклонения ?i и ?j являются независимыми друг от
друга для всех i ? j.
? 0, если i ? j;
у е i е j = cov(еi , е j ) = ? 2
?у , если i = j.
40. Случайное отклонение должно быть независимо от объясняющих
переменных.
у еi x i = 0 .
50. Модель является линейной относительно параметров.
Для случая множественной линейной регрессии существенной яв-
ляется еще одна предпосылка.
60. Отсутствие мультиколлинеарности.
Между объясняющими переменными отсутствует строгая (силь-
ная) линейная зависимость.
70. Ошибки ?i имеют нормальное распределение (?i ? N(0, ?)).

143
Выполнимость данной предпосылки важна для проверки стати-
стических гипотез и построения интервальных оценок.

Как и в случае парной регрессии, истинные значения параметров
?j по выборке получить невозможно. В этом случае вместо теоретиче-
ского уравнения регрессии (6.3) оценивается так называемое эмпири-
ческое уравнение регрессии. Эмпирическое уравнение регрессии пред-
ставим в виде:
Y = b0 + b1X1 + b2X2 + ... + bmXm + е. (6.6)
Здесь b0, b1, ..., bm ? оценки теоретических значений ?1, ?2, ..., ?m
коэффициентов регрессии (эмпирические коэффициенты регрессии);
е ? оценка отклонения ?. Для индивидуальных наблюдений имеем:
yi = b0 + b1xi1 + … + bmxim + ei. (6.7)
Оцененное уравнение в первую очередь должно описывать об-
щий тренд (направление) изменения зависимой переменной Y. При
этом необходимо иметь возможность рассчитать отклонения от этого
тренда.
По данным выборки объема n: (xi1, xi2,… , xim, yi), i = 1, 2, … , n
требуется оценить значения параметров ?j вектора ?, т. е. провести
параметризацию выбранной модели (здесь xij, j = 1, 2, … , m ? значе-
ние переменной Xj в i-м наблюдении).
При выполнении предпосылок МНК относительно ошибок ?i
оценки b0, b1, ..., bm параметров ?1, ?2, ..., ?m множественной линейной
регрессии по МНК являются несмещенными, эффективными и со-
стоятельными (т. е. BLUE-оценками).
На основании (6.7) отклонение еi значения yi зависимой пере-
)
менной Y от модельного значения y i , соответствующего уравнению
регрессии в i-м наблюдении (i = 1, 2, …, n), рассчитывается по форму-
ле:
ei = yi – b0 – b1xi1 ? … ? bmxim. (6.8)
Тогда по МНК для нахождения оценок b0, b1, ..., bm минимизиру-
ется следующая функция:
n n m
2
= ? (y i ? (b 0 + ? b jx ij )) 2 .
Q= ? ei (6.9)
i =1 i =1 j =1
Данная функция является квадратичной относительно неизвест-
ных величин bj, j = 0, 1, ..., m. Она ограничена снизу, следовательно,
имеет минимум. Необходимым условием минимума функции Q явля-

144
ется равенство нулю всех ее частных производных по bj. Частные
производные квадратичной функции (6.9) являются линейными функ-
циями
? ?Q n m

? ?b = ? 2i? (y i ? (b 0 + j?1b jx ij )),
?0 =1 =
(6.10)
? ?Q n m
= ? 2 ? (y i ? (b 0 + ? b jx ij ))x ij , j = 1, 2, ... , m.
?
? ?b j
? i =1 j =1


Приравнивая их к нулю, мы получаем систему (m + 1) линейного
уравнения с (m + 1) неизвестным:
? n (y ? (b + m b x )) = 0,
? i? i ? j ij
0
=1 j =1
(6.11)
?n m
? ? (y i ? (b 0 + ? b jx ij ))x ij = 0, j = 1, 2, ..., m.
? i =1 j =1

Такая система имеет обычно единственное решение. В исключи-
тельных случаях, когда столбцы системы линейных уравнений линей-
но зависимы, она имеет бесконечно много решений или не имеет ре-
шения вовсе. Однако данные реальных статистических наблюдений к
таким исключительным случаям практически никогда не приводят.
Система (6.11) называется системой нормальных уравнений. Ее реше-
ние в явном виде наиболее наглядно представимо в векторно-
матричной форме.

6.2. Расчет коэффициентов множественной
линейной регресcии
Представим данные наблюдений и соответствующие коэффици-
енты в матричной форме.
? 1 x11 x12 ... x1m ? ? b0 ? ? e1 ?
? y1 ?
?1 x x 22 ... x 2m ? ?b ? ?e ?
?y ?
? , B = ? 1 ? , e = ? 2? .
Y = ? 2?, X = ? 21
?... ... ... ... ... ? ? ... ? ? ... ?
? ... ?
? ? ?? ??
?y ? 1 x n1 x n2 ... x nm ? bm ? ?e n ?
? n? ? ?
Здесь Y ? вектор-столбец размерности n наблюдений зависимой
переменной Y; Х ? матрица размерности n ? (m + 1), в которой i-я
строка (i = 1, 2, … , n) представляет наблюдение вектора значений не-
зависимых переменных X1, X2, … , Xm; единица соответствует пере-
менной при свободном члене b0; B ? вектор-столбец размерности (m

145
+ + 1) параметров уравнения регрессии (6.6); e ? вектор-столбец раз-
мерности n отклонений выборочных (реальных) значений yi зависи-
)
мой переменной Y от значений y i , получаемых по уравнению регрес-
сии
)
y i = b0 + b1X1 + b2X2 + ... + bmXm. (6.12)
n
Нетрудно заметить, что функция Q = ? e i2 в матричной форме
i =1
представима как произведение вектор-строки eT = ( e1, e2, ... , en ) на
вектор-столбец e. Вектор-столбец e, в свою очередь, может быть запи-
сан в следующем виде:
e = Y ? XB. (6.13)
Отсюда
Q = eT?e = (Y ? XB)T?( Y ?XB) = YT Y ?BT XT Y ?YT XB +BT XT XB =
= YT Y ? 2BT XT Y + BTXT XB. (6.14)
Здесь eT, BT, XT, YT ? векторы и матрицы, транспонированные к
e, B, X, Y соответственно. При выводе формулы (6.14) мы воспользо-
вались известными соотношениями линейной алгебры:
(Y ? XB)T = YT - (XB)T; (XB)T = BTXT; BT XT Y = YT XB. (6.15)
Эти соотношения легко проверить, записав поэлементно все мат-
рицы и выполнив с ними нужные действия.
Необходимым условием экстремума функции Q является равен-
?Q
ство нулю ее частных производных по всем параметрам bj,
?b j
?Q
j = 0, 1, … , m. Покажем, что вектор-столбец
частных производ-
?B
ных в матричном виде имеет следующий вид:
?Q

<< Предыдущая

стр. 25
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>