Корреляционное отношение и индекс корреляции. Индекс корреляции



Исторически первым показателем тесноты связи был парный коэффициент корреляции, предложенный К. Пирсоном. Он основан на показателе ковариации, который представляет собой среднее значение произведения отклонений индивидуальных значений результативного и факторного признаков от своих средних значений. Показатель ковариации оценивает совместное изменение двух признаков, результата и фактора:

где - значение признака-результата у i-й единицы совокупности; - значение признака-фактора у i-й единицы совокупности; - среднее значение признака-результата; - среднее значение признака-фактора.

Показатель ковариации содержательно сложно интерпретировать. Нормированное значение показателя ковариации – это и есть показатель парной корреляции Пирсона.

, (53)

или после преобразований:

, (54)

где - стандартное отклонение признака-результата; - стандартное отклонение признака-фактора.

Достоинством коэффициента корреляции является то, что он имеет пределы изменения, следовательно, его величина легко может быть интерпретирована. Значения показателя изменяются от -1 до +1. Близость коэффициента к нулю свидетельствует об отсутствии корреляционной зависимости. Близость к единице – о тесной корреляционной зависимости. Знак коэффициента корреляции указывает на прямую, либо обратную зависимость. Величина конкретных значений интерпретируется следующим образом:

- связь практически отсутствует;

- связь заметная;

- связь умеренная;

- связь тесная.

Парный коэффициент корреляции – симметричный показатель, т.е. . Это означает, что высокое значение коэффициента корреляции не может свидетельствовать о наличии причинно-следственной связи, а говорит лишь о наличии параллельной вариации признаков (показателей). Что есть фактор, а что есть результат, не имеет значения. Наличие причинно-следственной связи обосновывается теоретическим анализом изучаемого объекта на основе положений экономической теории.

Расчет коэффициента корреляции, как и большинства статистических показателей, рассчитываемых по ограниченному объему совокупности, сопровождается оценкой его значимости (существенности). Необходимо подтвердить, что полученное значение коэффициента – не результат действия случайных факторов. Для оценки значимости рассчитывается t-статистика, как отношение оцениваемой характеристики (в данном случае - r) к ее стандартной ошибке (). Иными словами, осуществляется проверка гипотезы об отсутствии корреляционной зависимости между изучаемыми переменными, т.е. предполагается, что коэффициент корреляции в генеральной совокупности равен нулю ():

(55)

При условии справедливости нулевой гипотезы, распределение t-статистики соответствует закону распределения вероятностей Стьюдента с n-2 степенями свободы. Исходя из этого, находится табличное значение t-статистики, соответствующее заданному аналитиком уровню вероятности и полученному числу степеней свободы. Если расчетное значение t окажется больше табличного, то гипотеза об отсутствии связи должна быть отвергнута (с вероятностью ошибки =1- принятый уровень вероятности) и принята альтернативная гипотеза о значимости полученного коэффициента корреляции, т.е. о наличии статистически значимой связи между изучаемыми признаками.

В практике экономических исследований и анализа часто приходится изучать множественную корреляционную зависимость, т.е. оценивать влияние двух и более факторов на признак-результат. Теснота связи между комплексом факторов и зависимой переменной оценивается с помощью множественного коэффициента корреляции (). При двухфакторной зависимости множественный коэффициент корреляции рассчитывается следующим образом:

где - парные коэффициенты корреляции результата и каждого из факторов, - коэффициент корреляции между факторами.

Множественный коэффициент корреляции изменяется от нуля до единицы, не может быть отрицательным. Интерпретация конкретных значений множественного коэффициента корреляции аналогична интерпретации значений парного коэффициента с той только разницей, что оценивается теснота корреляционной зависимости между результативным признаком и всей совокупностью анализируемых факторов.

Квадрат коэффициента корреляции (r 2 ; ) – это показатель, который называется коэффициентом детерминации. Он характеризует долю объясненной (факторной) дисперсии результативного признака в общей дисперсии результативного признака.

При изучении множественной корреляционной зависимости рассчитываются также частные коэффициенты корреляции, характеризующие тесноту связи между результатом и одним признаком-фактором, при условии элиминирования влияния других факторов, включенных в анализ. Элиминирование выполняется путем закрепления значений факторов (кроме оцениваемого) на неизменном уровне (как правило, на среднем).

При двухфакторной корреляционной зависимости рассчитывается два частных коэффициента корреляции:

, (57)

- данный частный коэффициент характеризует степень тесноты корреляционной зависимости между результатом (y) и фактором x 1 при элиминировании фактора x 2.

, (58)

Этот коэффициент характеризует тесноту зависимости признака-результата (y) от признака- фактора x 2 при элиминировании фактора x 1.

Коэффициенты корреляции, в большей степени, пригодны для оценки линейной зависимости между изучаемыми признаками. Если связь нелинейная, то следует отдать предпочтение универсальному показателю, который называется корреляционное отношение() . Оно может быть:

Ø Эмпирическое, рассчитанное по данным аналитической группировки, как отношение межгрупповой дисперсии () к общей ():

. (59)

Ø Теоретическое, рассчитанное по результатам регрессионного анализа, как отношение факторной дисперсии () к общей ():

. (60)

Корреляционное отношение изменяется так же от нуля до единицы и интерпретируется аналогично коэффициенту корреляции. Квадрат корреляционного отношения () - коэффициента детерминации.

Для понимания сути корреляционного отношения и коэффициента детерминации, следует сформулировать правило сложения дисперсий в терминах регрессионного анализа. Оно звучит так: общая дисперсия признака-результата есть сумма факторной и остаточной дисперсий:

. (61)

Факторная дисперсия () – это аналог межгрупповой дисперсии. Показатель характеризует вариацию признака-результата, обусловленную вариацией признаков-факторов, включенных в анализ.

Остаточная дисперсия( ) – аналог внутригрупповой дисперсии. Характеризует вариацию признака-результата, обусловленную вариацией факторов, не включенных в анализ, т.е. оставшихся за пределами внимания аналитика.

Общая дисперсияпризнака-результата () обусловлена вариацией всех факторов, объективно влияющих на результат (зависимую переменную).

Коэффициент детерминации ( , )– это важный аналитический показатель, характеризующий долю факторной дисперсии в общей дисперсии результативного признака, т.е. долю объясненной вариации зависимой переменной, которую удается объяснить вариацией факторов, включенных в анализ.

Величина коэффициента детерминации реагирует на число факторов, включенных в уравнение регрессии. Поэтому для ответа на вопрос, какую часть дисперсии результативного признака удается объяснить в каждом конкретном случае, исходят из величины скорректированного коэффициента детерминации. Корректировка коэффициента осуществляется с учетом числа степеней свободы, т.е. с учетом объема изучаемой совокупности и числа факторов, включенных в анализ:

, (62)

где - коэффициента детерминации, скорректированный с учетом числа степеней свободы; n – объем изучаемой совокупности; k – число факторов, включенных в анализ.

Оценка корреляционной зависимости может быть также дана на основе индекса корреляции ( - «ро»), который рассчитывается с использованием величины остаточной дисперсии по следующей формуле:

. Суть данного показателя также вытекает из правила сложения дисперсий, т.е. - аналог коэффициента корреляции, а - коэффициента детерминации.

Введенный выше коэффициент корреляции, как уже отмечено, является полноценным показателем тесноты связи лишь в случае линейной зависимости между переменными. Однако часто возникает необходимость в достоверном показателе интенсивности связи при любой форме зависимости.

Для получения такого показателя вспомним правило сложения дисперсий:

где - общая дисперсия переменной

Средняя групповых дисперсий, или остаточная дисперсия

Межгрупповая дисперсия

Остаточной дисперсией измеряют ту часть колеблемости Y, которая возникает из-за изменчивости неучтенных факторов, не зависящих от X. Межгрупповая дисперсия выражает ту часть вариации Y, которая обусловлена изменчивостью X. Величина

получила название эмпирического корреляционного отношения Y по X. Чем теснее связь, тем большее влияние на вариацию переменной Y оказывает изменчивость X по сравнению с неучтенными факторами, тем выше. Величина, называемая эмпирическим коэффициентом детерминации, показывает, какая часть общей вариации Y обусловлена вариацией X. Аналогично вводится эмпирическое корреляционное отношение X по Y:

Отметим основные свойства корреляционных отношений (при достаточно большом объеме выборки n).

  • 1. Корреляционное отношение есть неотрицательная величина, не превосходящая единицу: 0
  • 2. Если = 0, то корреляционная связь отсутствует.
  • 3. Если = 1, то между переменными существует функциональная зависимость.

4. ? т.е. в отличие от коэффициента корреляции r (для которого) при вычислении корреляционного отношения существенно, какую переменную считать независимой, а какую - зависимой.

Эмпирическое корреляционное отношение является показателем рассеяния точек корреляционного поля относительно эмпирической линии регрессии, выражаемой ломаной, соединяющей значения. Однако в связи с тем, что закономерное изменение нарушается случайными зигзагами ломаной, возникающими вследствие остаточного действия неучтенных факторов, преувеличивает тесноту связи. Поэтому наряду с рассматривается показатель тесноты связи, характеризующий рассеяние точек корреляционного поля относительно линии регрессии (1.3). Показатель получил название теоретического корреляционного отношения или индекса корреляции Y по X

где дисперсии и определяются по формулам (1.54)--(1.56), в которых групповые средние у заменены условными средними у, вычисленными по уравнению регрессии (1.16).

Подобно вводится и индекс корреляции X по Y:

Достоинством рассмотренных показателей и R является то, что они могут быть вычислены при любой форме связи между переменными. Хотя и завышает тесноту связи по сравнению с R, но для его вычисления не нужно знать уравнение регрессии. Корреляционные отношения и R связаны с коэффициентом корреляции r следующим образом.

Коэфф. (индекс) множественной корреляции

R = –

Свойства R:

R ху = R ух.

1 . До 0,3 связь слабая 2 . 0,3-0,5 связь умеренная

3 . 0,5-0,7 связь заметная 4. 0,7-0,9 связь высокая

5

R 2 скорр =

R 2 скорр всегда больше, чем R 2 факт.


22. Показатели частной корреляции

Корень из R 2 = R = корень из (SS R / SS T)= корень из (1 - SS E / SS T);

R = – чем ближе к 1, тем теснее связь (а в парной = [-1; 1]).

Свойства R:

R - стандартизованный коэффициент регрессии;

Если связи между х и у нет, то R = 0; НО если R = 0, то нет только линейной связи;

R ху = R ух.

Шкала значения коэфф. корреляции:

1 . До 0,3 связь слабая 2 . 0,3-0,5 связь умеренная

3 . 0,5-0,7 связь заметная 4. 0,7-0,9 связь высокая

5 . 0,9-1,0 связь весьма высокая, близкая к функциональной.

Скорректированный (нормированный) коэфф. детерминации R 2 скорр:

По R 2 можно сравнивать модели, НО необходимо пересчитать его на число степеней свободы, т.к. модели м. иметь разный набор факторов и разные числовые наблюдения.

R 2 скорр = 1 – (SS E: (n-m-1) / SS T: (n-1)) = 1 – (1- R 2) * ((n-1) / (n-m-1))

R 2 скорр всегда больше, чем R 2 факт.

Показатели частной корреляции о снованы на соотношении сокращения остаточной вариации за счет дополнительно включенного в модель фактора к остаточной вариации до включения в модель соответствующего фактора.

Частные коэфф. корреляции (рекуррентные формулы - выражающие каждый член последовательности через предыдущих членов):

r yx 2. x 1 = корень из ((SS E yx 1 – SS E yx 1 x 2) / SS E yx 1) = к. из ((1 – SS E yx 1 x 2) / SS E yx 1), х 2 зафиксирован;

r yx 1. x 2 = корень из ((SS E yx 2 – SS E yx 1 x 2) / SS E yx 2) = к. из ((1 – SS E yx 1 x 2) / SS E yx 2), х 1 зафиксирован.

!!! Матрица частных коэфф. корреляции м.б. использована для отбора факторов в модель.


23. Оценка значимости уравнения множественной регрессии и его параметров

Значение коэфф. детерминации R 2 может отражать истинную зависимость, а может – стечение обстоятельств, т.к. при построении уравнения используются выборочные данные. Поэтому необходимо определить, насколько выборочные показатели (оценки) достоверны, значимы. Для этого используют вероятностные оценки стат. гипотез.



Статистическая гипотеза (Н) - предположение о свойстве генеральной совокупности, которое можно проверить, опираясь на данные выборки.

Этапы проверки статистических гипотез :

1. формулируется задача исследования в виде стат. гипотезы;

2 . выбирается статистическая характеристика гипотезы;

3. выдвигаются испытуемая и альтернативная Н 0 и Н 1 ;

4. определяется ОДЗ, критическая область и критическое значение статистического критерия;

5. вычисляется фактическое значение статистического критерия;

6. испытуемая Н 1 проверяется на основе сравнения значений фактического и критического критерия, и в зависимости от результатов проверки Н 1 либо отклоняется, либо принимается.

Критическая область – область, попадание значения статистического критерия в которую приводит к отклонению Н 0 . Вероятность попадания значения критерия в эту область равна уровню значимости (1 минус доверительная вероятность).

ОДЗ - область, попадание значения статистического критерия в которую приводит к принятию Н 0 .

I. Статистическая оценка достоверности регрессионной модели:

А. 1 . выдвигается H 0: r 2 в генеральной совокупности = 0;

2. выдвигается H 1: r 2 в генеральной совокупности не = 0;

3. определяется ОДЗ или уровень значимости;

4. рассчитывается критерий Фишера F (n – число единиц совокупности, m – число факторов):

F = MS R / MS E = (Σ(y с крыш – y ср) 2 / m) / (Σ(y– y с крыш) 2 / (n-m-1))

F = R 2 /(1-R 2) * (n-m-1)/m = R 2 / (1-R 2) * (n-2) ;

5 . определяется табличное значение критерия Фишера F табл;

6 . фактическое значение сравнивается с табличным.

а. Если F>Fтабл.

б. Если F

Вывод:

Число степеней свободы (df) - число свободно варьируемых переменных.

df T = df R + df E ; n-1 = m + (n – m – 1).

При расчете фактической суммы квадратных отклонений ((у – у с крыш) 2 = SS R) используются теоретические значения результативного признака (у с крыш), определенного по линии регрессии (у с крыш = a + bx). Т.к. объясненная (факторная) сумма квадратов зависит только от n констант, то данная модель имеет n степеней свободы.

Если разделить сумму квадратов на число степеней свободы, можно получить дисперсии на 1-у степень свободы (MS):

MS R = SS R /df R = Σ(y с крыш – y ср) 2 / m

MS Е = SS Е /df Е = Σ(y– y с крыш) 2 / (n-m-1)

Все показатели м. оформить в виде таблицы дисперсионного анализа ANOVA.

Источник вариации: df SS MS F
- регрессия m SS R MS R F
- остаток n-m-1 SS E MS E
- итого n-1 SS T

df – кол-во степеней свободы; MS =SS/df SS F = MS R /MS E – критерий Фишера.

Б. Есть частные F-критерии

F табл = 10.

Вывод:

df – кол-во степеней свободы; MS =SS/df – дисперсия на 1 степень свободы; SS x 2 = SS T * r 2 yx 2 - сумма квадратов отклонений (общ., факт., остат.); F = MS R /MS E – критерий Фишера. F = t 2 .

II. Оценка значимости коэффициентов регрессии:

1. Выдвигается Н 0: коэффициент регрессии b в генеральной совокупности равен 0;

2. Выдвигается Н 1: коэффициент регрессии b в генеральной совокупности не равен 0;

3. Определяется уровень значимости α;

4. Определяется критическое значение критерия Стьюдента (S eb – станд. ошибка b; b – коэфф. регрессии,абс. показатель силы связи(в лин. ур-ии), мера зависимости у от х):

t = b/S eb

S eb 1 = δ у / δ х1 * корень из ((1 - R 2 yx 1 x 2) / (1- r 2 x 1 x 2 * (n-m-1))

S eb 2 = δ у / δ х2 * корень из ((1 - R 2 yx 1 x 2) / (1- r 2 x 1 x 2 * (n-m-1))

а. t > t табл. , то Н 0 отклоняется, то есть параметр b не случайно отличается от нуля, сформировался под влиянием систематически действующего фактора.

б. t < t табл. , то Н 0 не отклоняется, и признается случайная природа формирования b.

Можно проверить достоверность а (свободный член уравнения регрессии; экономически не интерпретируется):

S e а = корень из (MS E / Σ(x-x ср) 2) = корень из (Σ(у-у с крыш) 2 /(n-2)) * Σx 2 /n* Σ(х- x ср) 2

III. Оценка качества (достоверности) модели

Ошибка аппроксимации (А) ошибка или остаток.

А = (Σ |(у-у с крыш) / у| * 100%) / n

Расчет м. оформить в таблице:

y x у с крыш у-у с крыш |(у-у с крыш) / у| * 100%
10,57 21,48 -10,91 103,22
17,50 22,29 -4,79 27,37
Итого: - - - - 197,15

Если n = 8, то А = 197,15 / 8 = 24,64 %

Если А<10% - норма.


24. Частные критерии Фишера в оценке результатов множественной регрессии

Есть частные F-критерии , с помощью которых м. оценить дополнительное включение фактора в модель. Необходимость такой оценки связана с тем, что не каждый фактор в модели существенно увеличивает фактическую вариацию – поэтому нужно ли включать этот фактор в модель?

Важно, что из-за различной связи между факторов, значимость одного и того же доп. фактора различна в зависимости от порядка его включения в модель.

Частные F-критерии строятся на сравнении прироста факторов на 1 степень свободы за счет доп. включения в модель фактора к остаточной вариации до модели.

F x1 = ((R 2 yx1x2 – r 2 yx2) / (1-R 2 yx1x2)) * (n-m-1) = 0,96

F x2 = ((R 2 yx1x2 – r 2 yx1) / (1-R 2 yx1x2)) * (n-m-1) = 1,9

F табл = 10.

Вывод: С вероятностью α м. утверждать, что включение фактора х 1 после х 2 не целесообразно, и включение х 2 после х 1 нецелесообразно – нельзя построить двухфакторную модель.

Все показатели м. оформить в виде частной таблицы дисперсионного анализа ANOVA.

df – кол-во степеней свободы; MS =SS/df – дисперсия на 1 степень свободы; SS x 2 = SS T * r 2 yx 2 - сумма квадратов отклонений (общ., факт., остат.); F = MS R /MS E – критерий Фишера. F = t 2 .

а. Если F>Fтабл. , то гипотеза о случайной природе оцениваемых характеристик отклоняется и признается статистическая значимость и надежность.

б. Если F, то гипотеза о случ… не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.

Вывод: с вероятностью α м. утверждать, что коэфф. детерминацииR 2 в генеральной совокупности не значим; модель недостоверна.


25. Использование фиктивных переменных в моделях множественной регрессии

Фиктивная (структурная) переменная переменная, принимающая значение 1 или 0.

Используется при решении следующих задач:

1. при моделировании качественных признаков;

2. для учета структурной неоднородности, к которой приводят качественные признаки;

3. для оценки сезонных колебаний.

Фиктивные (структурны) переменные это сконструированные искусственно переменные, например, пронумерованные атрибутивные признаки (пол, образование, регион).

Рассмотрим пример:

Дано: Z=0, если камина в доме нет; Z=1, если камин в доме есть.

Рассчитаем показатели тесноты (R 2) и силы (b, Э) связи.

Оценим значимость (достоверность) параметров модели (t) и самой модели (F, F частн).

Общий вид уравнения: Y = 50 + 16X + 3Z .

Вывод: Для домов, не имеющих камина: Y = 50 + 16X (поскольку Z =0); для домов, имеющих камин: Y = 5 + 3 + 16X = 53 + 16Х (поскольку Z =1).

Вывод:

1. Увеличение жилой площади на 1000 кв.футов приводит к увеличению предсказанной средней оценочной стоимости на 16 тыс.долл. (это b) при условии, что фиктивная переменная (наличие камина) имеет постоянное значение.

2. Если жилая площадь постоянна, наличие камина увеличивает среднюю оценочную стоимость дома на 3 тыс.долл. (это коэфф. перед Z = c).

!!! Фиктивные переменные м. вводится и в нелинейные модели . При этом они вводятся линейно.

Рассмотрим пример:

ln y = ln a + b 1 ln x 1 + b 2 z; ln y = 4 +0,3 ln x + 0,05z

y c крыш = e 4 x 0,3 e 0,05z e 4 = 65 e 0,05z = 1,05

y = a + b 1 z 1 +b 2 z 2

Параметр a - среднее значение результативного признака при z 1 , z 2 = 0.

Параметр b1 и b2 характеризует разность средних уравнений результативного признака для группы 1 и базовой группы 0.

Параметр b2 характеризует разность средних уравнений результативного признака для группы 2 и базовой группы 0.

Вывод:

1. 0,3 – коэфф. Э: при увеличении площади на 1 %, стоимость увеличивается на 0,3 %.

2. e 0,05 z - оценка стоимости домов с камином в 1,05 раз дороже (на 5 %), чем без него.


26. Предпосылки метода наименьших квадратов

МНК применяется при оценке уравнения регрессии. Делаются предпосылки относительно случайной составляющей ε (ненаблюдаемой величиной): y = a + b 1 х 1 +b 2 х 2 + … + ε.

Основные предпосылки МНК:

1. случайный характер остатков (если на поле корреляции нет направленности в расположении точек ε);

2 . нулевая средняя остатков, не зависящая от фактора x: Σ(у - у х с крыш) = 0 или нелин. модель - Σ(ln у - ln у х с крыш) = 0 и также на поле корреляции … ;

3 . гомоскедастичность (дисперсия каждого

отклонения одинакова для всех значений x );

4 . отсутствие автокорреляции остатков

(распределение остатков независимо друг от друга);

5 . остатки должны подчиняться нормальному распределению.

Если все 5 предпосылок выполнены, то оценки, полученные МНК и методом максимального правдоподобия, совпадают. Если не все – нужно скорректировать модель.
27. Гетероскедастичность - понятие, проявление и меры устранения

Проблемы, возникающие при построении регрессионных моделей:

1. Гетероскедастичность.

2. Мультиколлинеарность.

Гетероскедастичность (неоднородность) - означает ситуацию, когда дисперсия ошибки в уравнении регрессии изменяется от наблюдения к наблюдению. В этом случае приходится подвергать определенной модификации МНК (иначе возможны ошибочные выводы).

Симптомы Г.:

1 . низкий коэффициент детерминации r 2 ;

2 . это м. привести к смещенности оценки.

Меры по устранению гетероскедастичности:

1 . Увеличение числа наблюдений.

2 . Изменение функциональной формы модели.

3. Разделение исходной совокупности на качественно-однородные группы и проведение анализа в каждой группе.

4 . Использование фиктивных переменных, учитывающих неоднородность.

5 . Исключение из совокупности единиц, дающих неоднородность.

Зависимость остатков от выровненного значения результата:

а. дисперсия остатков увеличивается с

увеличением выровненного значения

результата (один из случаев Г.).

б. нет зависимости (гомоскедастичность). а) б)

Тесты, используемые для выявления Г.:

1. Гольдфельда-Квандта

3. Глейзера

5. Ранговой корреляции Спирмена


28. Оценка гетероскедастичности с помощью метода Гольдфельда и Квандта

Гетероскедастичность (неоднородность) - проблема, возникающая при построении регрессионных моделей; означает ситуацию, когда дисперсия ошибки в уравнении регрессии изменяется от наблюдения к наблюдению. В этом случае приходится подвергать определенной модификации МНК (иначе возможны ошибочные выводы).

Г. проявляется, если совокупность неоднородна (изучаются разносторонние области).

Этот метод используется при малом объеме выборки. Рассмотрели однофакторную модель, для кот. дисперсия остатков возрастает пропорционально квадрату фактора. Чтобы оценить нарушение Г., предложили параметрический тест.

1. Все наблюдения упорядочивают по мере возрастания какого-либо фактора, который, как предполагается, оказывает влияние на возрастание дисперсии остатков.

2. Упорядоченную совокупность делят на три группы, причем первая и последняя должны быть равного объема с числом единиц, больших, чем число параметров модели регрессии. Число отобранных единиц обозначим k

Показатель множественной корреляции характеризует тесноту рассматриваемого набора факторов с исследуемым признаком, или, иначе, оценивает тесноту совместного влияния факторов на результат.

Независимо от формы связи показатель множественной корреляции может быть найден как индекс множественной корреляции:

где s 2 y – общая дисперсия результативного признака;

s ост 2 – остаточная дисперсия для уравнения у = ¦(х 1, х 2 ,….,x p).

Методика построения индекса множественной корреляции аналогична построению индекса корреляции для парной зависимости. Границы его изменения те же: от 0 до 1. Чем ближе его значение к 1, тем теснее связь результативного признака со всем набором исследуемых факторов. Величина индекса множественной корреляции должна быть больше или равна максимальному парному индексу корреляции:

При правильном включении факторов в регрессионной анализ величина индекса множественной корреляции будет существенно отличаться от индекса корреляции парной зависимости. Если же дополнительно включенные в уравнение множественной регрессии факторы третьестепенны, то индекс множественной корреляции может практически совпадать с индексом парной корреляции.

При линейной зависимости признаков формула индекса корреляции может быть представлена следующим выражением:

(3.8)

где - стандартизованные коэффициенты регрессии;

Парные коэффициенты корреляции результата с каждым фактором.

Индекс корреляции - нормированный показатель тесноты связи. Коэффициент индекса корреляции показывает долю общей вариации зависимой переменной, обусловленной регрессией или изменчивостью объясняющей переменной.Чем ближе индекс корреляции к 1 , тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии.

Общая дисперсия результативного признака y,

Остаточная дисперсия, определяемая по уравнению нелинейной регрессии.

Тест Бокса – Кокса. При сравнении моделей с использованием в качестве зависимой переменной y и ln y проводится такое преобразование масштаба наблюдений y, при котором можно непосредственно сравнивать СКО в линейной и логарифмической моделях. Выполняются следующие шаги:

Вычисляется среднее геометрическое значений y в выборке. Оно совпадает с экспонентой среднего арифметического логарифмов y.

Все значения y пересчитываются делением на среднее геометрическое, получаем значения y*.



Оцениваются две регрессии:

Для линейной модели с использованием y* в качестве зависимой переменной;

Для логарифмической модели с использованием ln y * вместо ln y .

Во всех других отношениях модели должны оставаться неизменными. Теперь значения СКО для двух регрессий сравнимы, и модель с меньшей остаточной СКО обеспечивает лучшее соответствие исходным данным.

Для проверки, обеспечивает ли одна из моделей значимо лучшее соответствие, можно вычислить величину (n/2)lnz,

где z – отношение значений остаточной СКО в перечисленных регрессиях.

Эта статистика имеет распределение хи – квадрат с одной степенью свободы. Если она превышает критическое значение при выбранном уровне значимости α, то делается вывод о наличии значимой разницы в качестве оценивания. Величина коэффициента эластичности показывает, на сколько процентов изменится результативный признак Y, если факторный признак изменится на 1 %

Выбор редакции
СИТУАЦИЯ: Работник, занятый во вредных условиях труда, был направлен на обязательный периодический медицинский осмотр. Но в назначенное...

Федеральный закон № 402-ФЗ от 06.12.2011 в статье 9 предусматривает для коммерческих предприятий свободный выбор форм первичной...

Продолжительность рабочего времени медицинских работников строго контролируется Трудовым кодексом. Установлены определённые часы, на...

Сведений о семье в биографии политолога Сергея Михеева крайне мало. Зато карьерные достижения помогли снискать, как поклонников...
Президент Института Ближнего Востока Евгений Сатановский в ходе беседы с журналистами во время представления своей книги «Диалоги»,...
В истории Новосибирской области - история нашей страны. Все эпохи здесь… И радующие археологов древние поселения, и первые остроги, и...
ИСТОЧНИК: http://portalus.ru (c) Н.Л. ШЕХОВСКАЯ, (c) Более полувека назад, предвидя суть грядущих преобразований в России,...
30 января опубликован Приказ налоговой службы No ММВ-7-11/19@ от 17 января 2018 г. На основании этого с 10 февраля 2-НДФЛ 2018 заполняют...
В настоящее время страхователи обязаны сдавать в Пенсионный фонд следующую отчетность:Расчет по форме РСВ-1 – ежеквартальный расчет по...