<< Предыдущая

стр. 45
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

Например, пусть Y – начальная заработная плата.

257
D=?
0 , если претендент не имеет высшего образования,
? 1 , если претендент имеет высшее образование,
?
Тогда зависимость можно выразить моделью парной регрессии
Y = ?0 + ?D + ?. (11.1)
Очевидно, M(Y | D = 0) = ?0 + ??0 = ?0,
M(Y | D = 1) = ?0 + ??1 = ?0 + ?.
При этом коэффициент ?0 определяет среднюю начальную зара-
ботную плату при отсутствии высшего образования. Коэффициент ?
указывает, на какую величину отличаются средние начальные зара-
ботные платы при наличии или отсутствии высшего образования у
претендента. Проверяя статистическую значимость коэффициента ? с
помощью t-статистики либо значимость коэффициента детерминации
R2 с помощью F-статистики, можно определить, влияет или нет нали-
чие высшего образования на начальную заработную плату.
Нетрудно заметить, что ANOVA-модели представляют собой ку-
сочно-постоянные функции. Однако такие модели в экономике крайне
редки. Гораздо чаще встречаются модели, содержащие как качествен-
ные, так и количественные переменные.

11.2. Модели ANCOVA
Модели, в которых объясняющие переменные носят как количе-
ственный, так и качественный характер, называются ANCOVA-
моделями (моделями ковариационного анализа).
11.2.1. ANCOVA-модель при наличии у фиктивной переменной
двух альтернатив
Вначале рассмотрим простейшую ANCOVA – модель с одной ко-
личественной и одной качественной переменной, имеющей два аль-
тернативных состояния:
Y = ?0 + ?1X + ?D + ?. (11.2)
Пусть, например, Y – заработная плата сотрудника фирмы, X –
стаж сотрудника, D – пол сотрудника, т. е.
? 0, если сотрудник ? женщина,
D=?
? 1, если сотрудник ? мужчина.
Тогда ожидаемое значение заработной платы сотрудников при x
годах трудового стажа будет:
M(Y | x, D = 0) = ?0 + ?1х ? для женщины, (11.3)
258
M(Y | x, D = 1) = ?0 + ?1х + ? = (?0 + ?) + ?1х ? для мужчины. (11.4)
Заработная плата в данном случае является линейной функцией
от стажа работы (рис. 11.1). Причем и для мужчин и для женщин за-
работная плата меняется с одним и тем же коэффициентом пропор-
циональности ?1. А вот свободные члены в моделях (11.3), (11.4) от-
личаются на величину ?. Проверив с помощью t-статистики статисти-
ческие значимости коэффициентов ?0 и (?0 + ?), можно определить,
имеет ли место в фирме дискриминация по половому признаку. Если
эти коэффициенты окажутся статистически значимыми, то, очевидно,
дискриминация есть. Более того, при ? > 0 – она будет в пользу муж-
чин, при ? < 0 – в пользу женщин.
)
Y = (?0 + ?) + ?1х
Y(з/п)
)
Y = ?0 + ?1х


?0+?


?0

0 Х
Рис. 11.1
В данном случае пол сотрудников имеет два альтернативных
значения, и в модели это отражается одной фиктивной переменной.
Возникает вопрос, нельзя ли с помощью большего числа фиктивных
переменных обрисовать более сложные комбинации? Например, пусть
Y = в 0 + в 1X + г 1D 1 + г 2 D 2 + е , (11.5)
? 0, если сотрудник ? мужчина,
где D1 = ?
? 1, если сотрудник ? женщина.
? 0, если сотрудник ? женщина,
D2 = ?
? 1, если сотрудник ? мужчина.
Но в этой ситуации между переменными D1 и D2 существует
строгая линейная зависимость: D2 = 1 ? D1. Мы попадаем в ситуацию
совершенной мультиколлинеарности, при которой коэффициенты b1 и
b2 однозначно определены быть не могут. Простейшим способом пре-

259
одоления данной проблемы является отбрасывание одной из фиктив-
ных переменных и использование для рассматриваемой задачи модели
(11.2). Применяя аналогичные выкладки, можно получить следующее
общее правило:
Если качественная переменная имеет k альтернативных значе-
ний, то при моделировании используются только (k – 1) фиктивных
переменных.
Если не следовать данному правилу, то при моделировании ис-
следователь попадает в ситуацию совершенной мультиколлинеарно-
сти или так называемую ловушку фиктивной переменной.
Значения фиктивной переменной можно изменять на противопо-
ложные. Суть модели от этого не изменится. Например, в модели
(11.2) можно положить, что:
? 0, если сотрудник ? мужчина,
D=?
? 1, если сотрудник ? женщина.
Однако при этом знак коэффициента ? изменится на противопо-
ложный.
Значение качественной переменной, для которого принимается
D = 0, называется базовым или сравнительным. Выбор базового зна-
чения обычно диктуется целями исследования, но может быть и про-
извольным.
Коэффициент ? в модели (11.2) иногда называется дифференци-
альным коэффициентом свободного члена, т. к. он показывает, на ка-
кую величину отличается свободный член модели при значении фик-
тивной переменной, равном единице, от свободного члена модели при
базовом значении фиктивной переменной.
11.2.2. Модели ANCOVA при наличии у качественных
переменных более двух альтернатив
Пусть рассматривается модель с двумя объясняющими перемен-
ными, одна из которых количественная, а другая – качественная. При-
чем качественная переменная имеет три альтернативы. Например, си-
туация, связанная с расходами на содержание ребенка, может быть
связана с доходами домохозяйств и возрастом ребенка: дошкольный,
младший школьный и старший школьный. Так как качественная пере-
менная связана с тремя альтернативами, то по общему правилу моде-


260
лирования необходимо использовать две качественные переменные.
Таким образом, модель может быть представлена в виде:
Y = в 0 + в 1X + г 1D1 + г 2 D 2 + е , (11.6)
где Y – расходы, X – доходы домохозяйств.
? 0, если дошкольник,
D1 = ?
? 1, в противоположном случае.
? 0, если младший школьник,
D2 = ?
? 1, в противоположном случае.
Таким образом, получаются следующие зависимости.
Средний расход на дошкольника:
M(Y | D1 = 0, D 2 = 0) = в 0 + в1X . (11.7)
Средний расход на младшего школьника:
M(Y | D1 = 1, D 2 = 0) = (в 0 + г 1 ) + в1X . (11.8)
Средний расход на старшего школьника:
M(Y | D1 = 1, D 2 = 1) = (в 0 + г 1 + г 2 ) + в1X . (11.9)
Здесь ?1, ?2 ? дифференциальные свободные члены. Базовым зна-
чением качественной переменной является значение “дошкольник”.
Таким образом, получаются три регрессионные прямые (11.7), (11.8),
(11.9), параллельные друг другу (рис. 11.2):
)
Y Y = ( в 0 + г 1 + г 2 ) + в 1X
)
Y = ( в 0 + г 1 ) + в 1X
)
Y = в 0 + в 1X

0 X
?0 + ?1 + ?2
?0 + ?1
?0
Рис. 11.2

После определения коэффициентов уравнений регрессии (11.7) –
(11.9) определяется статистическая значимость коэффициентов ?1 и ?2
на основе обычной t-статистики.

261
Нетрудно понять, что вначале определяется уравнение (11.7). За-
тем по данным для школьников младшего возраста определяется ко-
эффициент ?0 + ?1 для уравнения (11.8) при условии, что ?1 остается
тем же, что и в (11.7). Аналогично определяется коэффициент ?0 + ?1+
+?2. Вычитая второе полученное значение из первого, а третье из вто-
рого, определяем коэффициенты ?1 и ?2 соответственно. Если коэффи-
циенты ?1 и ?2 оказываются статистически незначимыми, то можно
сделать вывод, что возраст ребенка не оказывает существенного влия-
ния на расходы по его содержанию.
11.2.3. Регрессия с одной количественной
и двумя качественными переменными
Естественно, что техника фиктивных переменных может быть
распространена на произвольное число качественных факторов. Для
простоты рассмотрим ситуацию с двумя качественными переменны-
ми.
Пусть Y – заработная плата сотрудников фирмы, X – стаж рабо-
ты, D1– наличие высшего образования, D2 – пол сотрудника,
? 0, если нет высшего образования,
D1 = ?
? 1, в противоположном случае.
? 0, если сотрудник ? мужчина,
D2 = ?
? 1, если сотрудник ? женщина.
Таким образом, получим следующую модель:
Y = в 0 + в 1X + г 1D1 + г 2 D 2 + е . (11.10)
Из этой модели получаются следующие регрессионные зависимости.
Средняя заработная плата женщины без высшего образования:
M(Y | D1 = 0, D 2 = 0) = в 0 + в 1X . (11.11)
Средняя заработная плата женщины с высшим образованием:
M(Y | D1 = 0, D 2 = 1) = (в 0 + г 1 ) + в 1X . (11.12)
Средняя заработная плата мужчины без высшего образования:
M(Y | D1 = 1, D 2 = 0) = (в 0 + г 2 ) + в 1X . (11.13)
Средняя заработная плата мужчины с высшим образованием:
M(Y | D1 = 1, D 2 = 1) = (в 0 + г 1 + г 2 ) + в 1X . (11.14)

262
Мы видим, что все регрессии отличаются лишь свободными чле-
нами. Коэффициенты регрессии определяются так же, как и коэффи-
циенты в разделе 11.2.2. Дальнейшее определение статистической
значимости коэффициентов ?1 и ?2 позволяет убедиться, влияют ли
образование и пол сотрудника на его заработную плату.
Естественно, что предложенные выше схемы могут быть распро-
странены на ситуации с произвольным числом количественных и ка-
чественных факторов. При этом не следует забывать, что если качест-
венный фактор имеет k альтернативных состояний, то для его описа-
ния используется (k ? 1) фиктивных переменных.

11.3. Сравнение двух регрессий
В примерах, рассматриваемых до сих пор, предполагалось, что
изменение значения качественного фактора влияет лишь на изменение
свободного члена. Но это, безусловно, не всегда так. В частности, в
примере из раздела 11.2.1 предполагалось, что заработная плата со-
трудника увеличивается пропорционально стажу с одним и тем же ко-
эффициентом пропорциональности ?1 вне зависимости от пола со-
трудника, хотя зачастую коэффициент ?1 для сотрудников мужского
пола больше аналогичного коэффициента для женщин. Следователь-
но, необходимо представить, что изменение качественного фактора
может привести как к изменению свободного члена уравнения, так и
наклона прямой регрессии.
Обычно это характерно для временных рядов экономических
данных при изменении институциональных условий, введении новых
правовых или налоговых ограничений. Например, можно предполо-
жить, что до некоторого года в стране обменный курс был фиксиро-
ванным, а затем плавающим. Или налог, на ввозимые автомобили был
одним, а затем он существенно изменился. В этом случае зависимость
может быть выражена следующим образом:

Yt = в 0 + в 1X t + г 1D t + г 2 D t X t + е t , (11.15)
? 0, до изменения институциональных условий,
где D t = ?
? 1, после изменения институциональных условий.
В этой ситуации ожидаемое значение зависимой переменной оп-
ределяется следующим образом:
M(Yt | D t = 0) = в 0 + в 1X t , (11.16)

263
M(Yt | D t = 1) = (в 0 + г1 ) + (в1 + г 2 )X t . (11.17)
Коэффициенты ?1 и ?2 в уравнении (11.15) называются диффе-
ренциальным свободным членом и дифференциальным угловым коэф-
фициентом соответственно. Фиктивная переменная Dt в уравнении
(11.15) используется как в аддитивном виде (?1Dt), так и в мультипли-
кативном (?1DtXt), что позволяет фактически разбивать рассматри-
ваемую зависимость на две части, связанные с периодами изменения
некоторого рассматриваемого в модели качественного фактора. Урав-
нение регрессии (11.15) достаточно хорошо моделирует ситуацию,
изображенную на рис. 11.3.
Y Y




0 t T 0 t T
а б
Рис. 11.3
На рис. 11.3, а зависимость отражается обыкновенной линейной
регрессией. На рис. 11.3, б в модели учитываются изменения, произо-
шедшие с некоторого момента t в характере расположения точек на-
блюдений. На данном примере хорошо видно, каким образом можно
проанализировать, имеет ли смысл разбивать выборку на части и
строить для каждой из них уравнение регрессии (т. е. фактически
строить сложную регрессию с фиктивными переменными) (рис.11.3, б)
либо можно ограничиться общей “обыкновенной” регрессией для всех
точек наблюдений (рис. 11.3, а). Для этого можно использовать тест
Чоу, который упоминался в разделе 6.7.3.
Суть теста Чоу состоит в следующем. Пусть выборка имеет объ-
ем n. Через S0 обозначим сумму квадратов отклонений ? e i2 значений
yi от общего уравнения регрессии (рис. 11.3, а). Пусть есть основание

<< Предыдущая

стр. 45
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>