Определить параметры регрессии. Оценка параметров регрессионного уравнения


Оценка значимости параметров уравнения регрессии

Оценка значимости параметров уравнения линейной регрессии производится с помощью критерия Стьюдента:

если t расч. > t кр, то принимается основная гипотеза (H o ), свидетельствующая о статистической значимости параметров регрессии;

если t расч. < t кр, то принимается альтернативная гипотеза (H 1 ), свидетельствующая о статистической незначимости параметров регрессии.

где m a , m b – стандартные ошибки параметров a и b:

(2.19)

(2.20)

Критическое (табличное) значение критерия находится с помощью статистических таблиц распределения Стьюдента (приложение Б) или по таблицам Excel (раздел мастера функций «Статистические»):

t кр = СТЬЮДРАСПОБР(α=1-P; k=n-2 ), (2.21)

где k=n-2 также представляет собой число степенейсвободы.

Оценка статистической значимости может быть применена и к линейному коэффициенту корреляции

где m r – стандартная ошибка определения значений коэффициента корреляции r yx

(2.23)

Ниже представлены варианты заданий для практических и лабораторных работ по тематике второго раздела.

Вопросы для самопроверки по 2 разделу

1. Укажите основные составляющие эконометрической модели и их сущность.

2. Основное содержание этапов эконометрического исследования.

3. Сущность подходов по определению параметров линейной регрессии.

4. Сущность и особенность применения метода наименьших квадратов при определении параметров уравнения регрессии.

5. Какие показатели используются для оценки тесноты взаимосвязи исследуемых факторов?

6. Сущность линейного коэффициента корреляции.

7. Сущность коэффициента детерминации.

8. Сущность и основные особенности процедур оценки адекватности (статистической значимости) регрессионных моделей.

9. Оценка адекватности линейных регрессионных моделей по коэффициенту аппроксимации.

10. Сущность подхода оценки адекватности регрессионных моделей по критерию Фишера. Определение эмпирических и критических значений критерия.

11. Сущность понятия «дисперсионный анализ» применительно к эконометрическим исследованиям.

12. Сущность и основные особенности процедуры оценки значимости параметров линейного уравнения регрессии.

13. Особенности применения распределения Стьюдента при оценке значимости параметров линейного уравнения регрессии.

14. В чем состоит задача прогноза единичных значений исследуемого социально-экономического явления?

1. Построить поле корреляции и сформулировать предположение о форме уравнения взаимосвязи исследуемых факторов;

2. Записать основные уравнения метода наименьших квадратов, произвести необходимые преобразования, составить таблицу для промежуточных расчетов и определить параметры линейного уравнения регрессии;

3. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.

4. Провести анализ результатов, сформулировать выводы и рекомендации.

1. Расчет значения линейного коэффициента корреляции;

2. Построение таблицы дисперсионного анализа;

3. Оценка коэффициента детерминации;

4. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.

5. Провести анализ результатов, сформулировать выводы и рекомендации.

4. Провести общую оценку адекватности выбранного уравнения регрессии;

1. Оценка адекватности уравнения по значениям коэффициента аппроксимации;

2. Оценка адекватности уравнения по значениям коэффициента детерминации;

3. Оценка адекватности уравнения по критерию Фишера;

4. Провести общую оценку адекватности параметров уравнения регрессии;

5. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.

6. Провести анализ результатов, сформулировать выводы и рекомендации.

1. Использование стандартных процедур мастера функций электронных таблиц Excel (из разделов «Математические» и «Статистические»);

2. Подготовка данных и особенности применения функции «ЛИНЕЙН»;

3. Подготовка данных и особенности применения функции «ПРЕДСКАЗ».

1. Использование стандартных процедур пакета анализа данных электронных таблиц Excel;

2. Подготовка данных и особенности применения процедуры «РЕГРЕССИЯ»;

3. Интерпретация и обобщение данных таблицы регрессионного анализа;

4. Интерпретация и обобщение данных таблицы дисперсионного анализа;

5. Интерпретация и обобщение данных таблицы оценки значимости параметров уравнения регрессии;

При выполнении лабораторной работы по данным одного из вариантов необходимо выполнить следующие частные задания:

1. Осуществить выбор формы уравнения взаимосвязи исследуемых факторов;

2. Определить параметры уравнения регрессии;

3. Провести оценку тесноты взаимосвязи исследуемых факторов;

4. Провести оценку адекватности выбранного уравнения регрессии;

5. Провести оценку статистической значимости параметров уравнения регрессии.

6. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.

7. Провести анализ результатов, сформулировать выводы и рекомендации.

Задания для практических и лабораторных работ по теме «Парная линейная регрессия и корреляция в эконометрических исследованиях».

Вариант 1 Вариант 2 Вариант 3 Вариант 4 Вариант 5
x y x y x y x y x y
Вариант 6 Вариант 7 Вариант 8 Вариант 9 Вариант 10
x y x y x y x y x y

Введение

В эконометрике широко используются методы статистики. Ставя цель дать количественное описание взаимосвязей между экономическими переменными, эконометрика, прежде всего, связана с методами регрессии и корреляции.

В зависимости от количества факторов, включенных в уравнение регрессии, принято различать простую (парную) и множественную регрессии.

Простая регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной у рассматривается как функция одной независимой (объясняющей) переменной х, т.е. это модель вида

Множественная регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной у рассматривается как функция нескольких независимых (объясняющих) переменных х 1 , х 2 ,..., т.е. это модель вида

У = ѓ (х 1 , х 2 …, х k).

Методам простой или парной регрессии и корреляции, возможностям их применения в эконометрике посвящена данная работа.

Линейная регрессия и корреляция: смысл и оценка параметров

Линейная регрессия находит широкое применение в эконометрике ввиду четкой экономической интерпретации ее параметров. Линейная регрессия сводится к нахождению уравнения вида

y x = a + b * x или y = a + b * x + е. (1)

Уравнение вида y x = a + b * x позволяет по заданным значениям фактора x иметь теоретические значения результативного признака подстановкой в него фактических значений фактора x (рис 1)

Построение линейной регрессии сводится к оценке ее параметров - a и b. Оценки параметров линейной регрессии могут быть найдены разными методами. Можно обратиться к полю корреляции и, выбрав на графике две точки, провести через них прямую линию (см. рис.1), затем по графику найти значения параметров. Параметр a определим, как точку пересечения линии регрессии с осью oy а параметр b оценим исходя из угла наклона линии регрессии как dy/dx, где dy - приращение результата y, а dx - приращение фактора x т. е.

Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).

Метод наименьших квадратов позволяет получить такие оценки параметров а и b, при которых сумма квадратов отклонений фактических значений результативного признака у от расчетных (теоретических) у х минимальна:

У(yi - yx i) 2 > min (2)

Иными словами, из всего множества линий линия регрессии на графике выбирается так, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальной (рис. 2.):

е i = y i - y x ,

следовательно,

Для того чтобы найти минимум функции (2), надо вычислить частные производные по каждому из параметров a и b и приравнять их к нулю.

Обозначим У е i 2 через S, тогда:

S = У(y i - y x)2 = У(y - a - b *x)2 ;

dS / da = - 2Уy + 2 * n*a + 2 *bУx= 0; (3)

dS / da = - 2Уy * x + 2 *a Уx + 2 * b Уx 2 = 0.

Преобразовывая формулу (3), получим следующую систему нормальных уравнений для оценки параметров a и b:

N *a + bУx = Уy,

aУx + b Уx 2 = Уy * x. (4)

Решая систему нормальных уравнений (4) либо методом последовательного исключения переменных, либо методом определителей, найдем искомые оценки параметров а и Ь. Можно воспользоваться следующими формулами для a и b:

a = y - b * x (5)

Формула (5) получена из первого уравнения системы (4), если всего его члены разделить на n:

b = cov(x,y) / у 2 x

где cov(x,y) - ковариация признаков; у 2 x - дисперсия признака х.

Поскольку cov(x,y) = yx - y * x , а у 2 x = x 2 - x -2 , получим следующую формулу расчета оценки параметра b:

b = yx - y * x / x 2 - x 2 (6)

Формула (6) получается также при решении системы (4) методом определителей, если все элементы расчета разделить на n 2 .

Параметр b называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу. Так, если функция издержек (y, тыс. руб.) выражается как y x = 3000 + 2 * x , (x - количество единиц продукции), то, следовательно, с увеличением объема продукции x на одну единицу издержки производства возрастают в среднем на 2 тыс. руб., т. е. дополнительный прирост продукции на одну единицу потребует увеличения затрат в среднем на 2 тыс. руб.

Знак при коэффициенте регрессии b показывает направление связи: при b > 0 - связь прямая, а при b < 0 - связь обратная.

Возможность четкой экономической интерпретации коэффициента регрессии сделала линейное уравнение регрессии достаточно распространенным в эконометрических исследованиях.

Формально a - значение y при x = 0. Если признак-фактор x не имеет и не может иметь нулевого значения, то трактовка свободного члена a не имеет смысла. Параметр a может не иметь экономического содержания. Попытки экономически интерпретировать параметр a могут привести к абсурду, особенно при a < 0.

Интерпретировать можно лишь знак при параметре a. Если a < 0, то относительное изменение результата происходит медленнее, чем изменение фактора. Иными словами, вариация результата меньше вариации фактора - коэффициент вариации по фактору x выше коэффициента вариации для результата y: Vx > Vy. Для доказательства данного положения сравнимо относительные изменения фактора x и результата y:

Уравнение регрессии всегда дополняется показателем тесноты связи. При использовании линейной регрессии в качестве такого показателя выступает линейный коэффициент корреляции r xy . Имеются разные модификации формулы линейного коэффициента корреляции, например:

к чн = и * у ч. у н = сщм(чбн) . у ч * у н = нч - н * ч. у ч * у н (7)

Как известно, линейный коэффициент корреляции находиться в границах - 1 ? r xy ? 0.

Если коэффициент регрессии b > 0, то 0 ? r xy ? 1, и, наоборот, при b < 0 - 1 ? r xy ? 0.

Следует иметь в виду, что величина линейного коэффициента корреляции оценивает тесноту связи рассматриваемых признаков в ее линейной форме. Поэтому близость абсолютной величины линейного коэффициента корреляции к нулю еще не означает отсутствия связи между признаками. При иной спецификации модели связь между признаками может оказаться достаточно тесной.

Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента корреляции r 2 xy , называемый коэффициентом детерминации. Коэффициент детерминации характеризует долю дисперсии результативного признака у, объясняемую регрессией, в общей дисперсии результативного признака:

r 2 xy = у 2 y объясн. / у 2 y общ (8)

Соответственно величина 1 - r 2 характеризует долю дисперсии у, вызванную влиянием остальных, не учтенных в модели факторов.

Величина коэффициента детерминации является одним из критериев оценки качества линейной модели. Чем больше доля объясненной вариации, тем соответственно меньше роль прочих факторов и, следовательно, линейная модель хорошо аппроксимирует исходные данные, и ею можно воспользоваться для прогноза значений результативного признака. Линейный коэффициент корреляции по содержанию отличается от коэффициента регрессии. Выступая показателем силы связи, коэффициент регрессии b на первый взгляд может быть использован как измеритель ее тесноты. Величина коэффициента регрессии зависит от единиц измерения переменных, от размерности признаков. Кроме того, коэффициенты регрессии - величины именованные, и потому несравнимы для разных признаков.

Сделать коэффициенты регрессии сопоставимыми по разным признакам позволяет определение аналогичного показателя в стандартизованной системе единиц, где в качестве единицы измерения признака используется его среднее квадратическое отклонение (у). Поскольку коэффициент регрессии b имеет единицы измерения дробные (результат/фактор), то умножив, его на среднее квадратическое отклонение фактора х (у x) и разделив на среднее квадратическое отклонение результата (у y), получим показатель, пригодный для сравнения интенсивности изменения результата под влиянием разных факторов. Иными словами, мы придем к формуле линейного коэффициента корреляции:

r xy = b y/x * у x / у y

Его величина выступает в качестве стандартизованного коэффициента регрессии и характеризует среднее в сигмах (у y) изменение результата с изменением фактора на одну у x .

Линейный коэффициент корреляции как измеритель тесноты линейной связи признаков логически связан не только с коэффициентом регрессии b, но и с коэффициентом эластичности, который является показателем силы связи, выраженным в процентах. При линейной связи признаков х и у средний коэффициент эластичности в целом по совокупности определяется как

Э y/x = b y/x * x / y,

т.е. его формула по построению близка к формуле линейного коэффициента корреляции

r xy = b y/x * у x / у y ,

Как и линейный коэффициент корреляции, коэффициент эластичности сравним по разным признакам.

Если Э y/x = 0,8 %, а Э y/z = 0,2 % , то можно заключить, что фактор х в большей мере влияет на результат у, чем фактор z, ибо с ростом х на 1% у возрастает на 0,8 %, а с ростом z на 1 % - только на 0,2 %.

Несмотря на схожесть этих показателей, измерителем тесноты связи выступает линейный коэффициент корреляции (r xy), а коэффициент регрессии (b y/x) и коэффициент эластичности (Э y/x) - показатели силы связи: коэффициент регрессии является абсолютной мерой, ибо имеет единицы измерения, присущие изучаемым признакам у и х, а коэффициент эластичности - относительным показателем силы связи, потому что выражает в процентах.

Для пояснения тесноты связи рассмотрим рисунок 3. Несмотря на всю важность измерения тесноты связи, в эконометрике больший практический интерес приобретает коэффициент детерминации r 2 xy , ибо он дает относительную меру влияния фактора на результат, фиксируя одновременно и роль ошибок, т.е. случайных составляющих в формировании моделируемой переменной. Чем ближе коэффициент детерминации к 1 , тем в большей степени уравнение регрессии пригодно для прогнозирования.

Рис. 3 Типы корреляции

а - полная корреляция: r xy = 1; б - сильная корреляция: r xy ? 0,8: 0,9;

в - слабая корреляция: r xy ? 0,2

корреляция линейный нелинейный регрессия

Для прогнозирования с помощью уравнения регрессии необходимо вычислить коэффициенты и уравнения регрессии. И здесь существует еще одна проблема сказывающаяся на точности прогнозирования. Она заключается в том, что обычно нет всех возможных значений переменных Х и У, т.е. генеральная совокупность совместного распределения в задачах прогнозирования не известна, известна только выборка из этой генеральной совокупности. В результате этого при прогнозировании помимо случайной составляющей возникает еще один источник ошибок – ошибки, вызванные не полным соответствием выборки генеральной совокупности и порождаемыми этим погрешностями в определении коэффициентов уравнения регрессии.

Иными словами вследствие того, что генеральная совокупность не известна, точные значения коэффициентов и уравнения регрессии определить не возможно. Используя выборку из этой неизвестной генеральной совокупности можно лишь получить оценки и истинных коэффициентов и.

Для того чтобы ошибки прогнозирования в результате такой замены были минимальными, оценку необходимо осуществлять методом который гарантирует несмещенность и эффективность полученных значений. Метод обеспечивает несмещенные оценки, если при неоднократном его повторении с новыми выборками из одной и той же генеральной совокупности обеспечивается выполнение условия и . Метод обеспечивает эффективные оценки, если при неоднократном его повторении с новыми выборками из одной и той же генеральной совокупности обеспечивается минимальная дисперсия коэффициентов a и b, т.е. выполняются условия и .

В теории вероятности доказана теорема согласно которой эффективность и несмещенность оценок коэффициентов уравнения линейной регрессии по данным выборки обеспечивается при применении метода наименьших квадратов.

Суть метода наименьших квадратов заключается в следующем. Для каждой из точек выборки записываются уравнение вида . Затем находятся ошибка между расчетным и фактическим значениями . Решение оптимизационной задачи по нахождению таких значений и которые обеспечивают минимальную сумму квадратов ошибок для всех n точек, т.е. решение задачи поиска , дает несмещенные и эффективные оценки коэффициентов и . Для случая парной линейной регрессии это решение имеет вид:

Следует отметить, что полученные таким образом по выборке несмещенные и эффективные оценки истинных значений коэффициентов регрессии для генеральной совокупности вовсе не гарантируют от ошибки при однократном применении. Гарантия заключается в том, что, в итоге многократного повторения этой операции с другими выборками из той же генеральной совокупности, гарантирована меньшая сумма ошибок по сравнению любым другим способом и разброс этих ошибок будет минимален.

Полученные коэффициенты уравнения регрессии определяют положение регрессионной прямой, она является главной осью облака образованного точками исходной выборки. Оба коэффициента имеют вполне определенный смысл. Коэффициент показывает значение при , но в многих случаях не имеет смысла, кроме того часто также не имеет смысла, по этому приведенной трактовкой коэффициента нужно пользоваться осторожно. Более универсальная трактовка смысла заключается в следующем. Если , то относительное изменение независимой переменной (изменение в процентах) всегда меньше чем относительное изменение зависимой переменной.

Коэффициент показывает насколько единиц изменится зависимая переменная при изменении независимой переменной на одну единицу. Коэффициент часто называют коэффициентом регрессии подчеркивая этим, что он важнее чем . В частности, если вместо значений зависимой и независимой переменных взять их отклонения от своих средних значений, то уравнение регрессии преобразуется к виду . Иными словами в системе преобразованных координат любая линия регрессии проходит через начало координат (рис 13) и коэффициент отсутствует.

Рис 13. Положение регрессионной зависимости в системе преобразованных координат.

Параметры уравнения регрессии говорят нам о том, как связаны между собой зависимая и независимая переменная, но ничего не говорят о степени тесноты связи, т.е. показывают положение главной оси облака данных, но не ничего не говорит о степени тесноты связи (насколько узко или широко облако).

По территориям региона приводятся данные за 200Х г.

Номер региона Среднедушевой прожиточный минимум в день одного трудоспособного, руб., х Среднедневная заработная плата, руб., у
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

Задание:

1. Постройте поле корреляции и сформулируйте гипотезу о форме связи.

2. Рассчитайте параметры уравнения линейной регрессии

4. Дайте с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.

7. Рассчитайте прогнозное значение результата, если прогнозное значение фактора увеличится на 10% от его среднего уровня. Определите доверительный интервал прогноза для уровня значимости .

Решение:

Решим данную задачу с помощью Excel.

1. Сопоставив имеющиеся данные х и у, например, ранжировав их в порядке возрастания фактора х, можно наблюдать наличие прямой зависимости между признаками, когда увеличение среднедушевого прожиточного минимума увеличивает среднедневную заработную плату. Исходя из этого, можно сделать предположение, что связь между признаками прямая и её можно описать уравнением прямой. Этот же вывод подтверждается и на основе графического анализа.

Чтобы построить поле корреляции можно воспользоваться ППП Excel. Введите исходные данные в последовательности: сначала х, затем у.

Выделите область ячеек, содержащую данные.

Затем выберете: Вставка / Точечная диаграмма / Точечная с маркерами как показано на рисунке 1.

Рисунок 1 Построение поля корреляции

Анализ поля корреляции показывает наличие близкой к прямолинейной зависимости, так как точки расположены практически по прямой линии.

2. Для расчёта параметров уравнения линейной регрессии
воспользуемся встроенной статистической функцией ЛИНЕЙН .

Для этого:

1) Откройте существующий файл, содержащий анализируемые данные;
2) Выделите область пустых ячеек 5×2 (5 строк, 2 столбца) для вывода результатов регрессионной статистики.
3) Активизируйте Мастер функций : в главном меню выберете Формулы / Вставить функцию .
4) В окне Категория выберете Статистические , в окне функция - ЛИНЕЙН . Щёлкните по кнопке ОК как показано на Рисунке 2;

Рисунок 2 Диалоговое окно «Мастер функций»

5) Заполните аргументы функции:

Известные значения у

Известные значения х

Константа - логическое значение, которое указывает на наличие или на отсутствие свободного члена в уравнении; если Константа = 1, то свободный член рассчитывается обычным образом, если Константа = 0, то свободный член равен 0;

Статистика - логическое значение, которое указывает, выводить дополнительную информацию по регрессионному анализу или нет. Если Статистика = 1, то дополнительная информация выводится, если Статистика = 0, то выводятся только оценки параметров уравнения.

Щёлкните по кнопке ОК ;

Рисунок 3 Диалоговое окно аргументов функции ЛИНЕЙН

6) В левой верхней ячейке выделенной области появится первый элемент итоговой таблицы. Чтобы раскрыть всю таблицу, нажмите на клавишу , а затем на комбинацию клавиш ++ .

Дополнительная регрессионная статистика будет выводиться в порядке, указанном в следующей схеме:

Значение коэффициента b Значение коэффициента a
Стандартная ошибка b Стандартная ошибка a
Стандартная ошибка y
F-статистика
Регрессионная сумма квадратов

Рисунок 4 Результат вычисления функции ЛИНЕЙН

Получили уровнение регрессии:

Делаем вывод: С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб.

Означает, что 52% вариации заработной платы (у) объясняется вариацией фактора х - среднедушевого прожиточного минимума, а 48% - действием других факторов, не включённых в модель.

По вычисленному коэффициенту детерминации можно рассчитать коэффициент корреляции: .

Связь оценивается как тесная.

4. С помощью среднего (общего) коэффициента эластичности определим силу влияния фактора на результат.

Для уравнения прямой средний (общий) коэффициент эластичности определим по формуле:

Средние значения найдём, выделив область ячеек со значениями х, и выберем Формулы / Автосумма / Среднее , и то же самое произведём со значениями у.

Рисунок 5 Расчёт средних значений функции и аргумент

Таким образом, при изменении среднедушевого прожиточного минимума на 1% от своего среднего значения среднедневная заработная плата изменится в среднем на 0,51%.

С помощью инструмента анализа данных Регрессия можно получить:
- результаты регрессионной статистики,
- результаты дисперсионного анализа,
- результаты доверительных интервалов,
- остатки и графики подбора линии регрессии,
- остатки и нормальную вероятность.

Порядок действий следующий:

1) проверьте доступ к Пакету анализа . В главном меню последовательно выберите: Файл/Параметры/Надстройки .

2) В раскрывающемся списке Управление выберите пункт Надстройки Excel и нажмите кнопку Перейти.

3) В окне Надстройки установите флажок Пакет анализа , а затем нажмите кнопку ОК .

Если Пакет анализа отсутствует в списке поля Доступные надстройки , нажмите кнопку Обзор , чтобы выполнить поиск.

Если выводится сообщение о том, что пакет анализа не установлен на компьютере, нажмите кнопку Да , чтобы установить его.

4) В главном меню последовательно выберите: Данные / Анализ данных / Инструменты анализа / Регрессия , а затем нажмите кнопку ОК .

5) Заполните диалоговое окно ввода данных и параметров вывода:

Входной интервал Y - диапазон, содержащий данные результативного признака;

Входной интервал X - диапазон, содержащий данные факторного признака;

Метки - флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Константа - ноль - флажок, указывающий на наличие или отсутствие свободного члена в уравнении;

Выходной интервал - достаточно указать левую верхнюю ячейку будущего диапазона;

6) Новый рабочий лист - можно задать произвольное имя нового листа.

Затем нажмите кнопку ОК .

Рисунок 6 Диалоговое окно ввода параметров инструмента Регрессия

Результаты регрессионного анализа для данных задачи представлены на рисунке 7.

Рисунок 7 Результат применения инструмента регрессия

5. Оценим с помощью средней ошибки аппроксимации качество уравнений. Воспользуемся результатами регрессионного анализа представленного на Рисунке 8.

Рисунок 8 Результат применения инструмента регрессия «Вывод остатка»

Составим новую таблицу как показано на рисунке 9. В графе С рассчитаем относительную ошибку аппроксимации по формуле:

Рисунок 9 Расчёт средней ошибки аппроксимации

Средняя ошибка аппроксимации рассчитывается по формуле:

Качество построенной модели оценивается как хорошее, так как не превышает 8 - 10%.

6. Из таблицы с регрессионной статистикой (Рисунок 4) выпишем фактическое значение F-критерия Фишера:

Поскольку при 5%-ном уровне значимости, то можно сделать вывод о значимости уравнения регрессии (связь доказана).

8. Оценку статистической значимости параметров регрессии проведём с помощью t-статистики Стьюдента и путём расчёта доверительного интервала каждого из показателей.

Выдвигаем гипотезу Н 0 о статистически незначимом отличии показателей от нуля:

.

для числа степеней свободы

На рисунке 7 имеются фактические значения t-статистики:

t-критерий для коэффициента корреляции можно рассчитать двумя способами:

I способ:

где - случайная ошибка коэффициента корреляции.

Данные для расчёта возьмём из таблицы на Рисунке 7.

II способ:

Фактические значения t-статистики превосходят табличные значения:

Поэтому гипотеза Н 0 отклоняется, то есть параметры регрессии и коэффициент корреляции не случайно отличаются от нуля, а статистически значимы.

Доверительный интервал для параметра a определяется как

Для параметра a 95%-ные границы как показано на рисунке 7 составили:

Доверительный интервал для коэффициента регрессии определяется как

Для коэффициента регрессии b 95%-ные границы как показано на рисунке 7 составили:

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры a и b, находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.

7. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит:

Тогда прогнозное значение прожиточного минимума составит:

Ошибку прогноза рассчитаем по формуле:

где

Дисперсию посчитаем также с помощью ППП Excel. Для этого:

1) Активизируйте Мастер функций : в главном меню выберете Формулы / Вставить функцию .

3) Заполните диапазон, содержащий числовые данные факторного признака. Нажмите ОК .

Рисунок 10 Расчёт дисперсии

Получили значение дисперсии

Для подсчёта остаточной дисперсии на одну степень свободы воспользуемся результатами дисперсионного анализа как показано на Рисунке 7.

Доверительные интервалы прогноза индивидуальных значений у при с вероятностью 0,95 определяются выражением:

Интервал достаточно широк, прежде всего, за счёт малого объёма наблюдений. В целом выполненный прогноз среднемесячной заработной платы оказался надёжным.

Условие задачи взято из: Практикум по эконометрике: Учеб. пособие / И.И. Елисеева, С.В. Курышева, Н.М. Гордеенко и др.; Под ред. И.И. Елисеевой. - М.: Финансы и статистика, 2003. - 192 с.: ил.

Что такое регрессия?

Рассмотрим две непрерывные переменные x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Разместим точки на двумерном графике рассеяния и скажем, что мы имеем линейное соотношение , если данные аппроксимируются прямой линией.

Если мы полагаем, что y зависит от x , причём изменения в y вызываются именно изменениями в x , мы можем определить линию регрессии (регрессия y на x ), которая лучше всего описывает прямолинейное соотношение между этими двумя переменными.

Статистическое использование слова "регрессия" исходит из явления, известного как регрессия к среднему, приписываемого сэру Френсису Гальтону (1889).

Он показал, что, хотя высокие отцы имеют тенденцию иметь высоких сыновей, средний рост сыновей меньше, чем у их высоких отцов. Средний рост сыновей "регрессировал" и "двигался вспять" к среднему росту всех отцов в популяции. Таким образом, в среднем высокие отцы имеют более низких (но всё-таки высоких) сыновей, а низкие отцы имеют сыновей более высоких (но всё-таки довольно низких).

Линия регрессии

Математическое уравнение, которое оценивает линию простой (парной) линейной регрессии:

x называется независимой переменной или предиктором.

Y - зависимая переменная или переменная отклика. Это значение, которое мы ожидаем для y (в среднем), если мы знаем величину x , т.е. это «предсказанное значение y »

  • a - свободный член (пересечение) линии оценки; это значение Y , когда x=0 (Рис.1).
  • b - угловой коэффициент или градиент оценённой линии; она представляет собой величину, на которую Y увеличивается в среднем, если мы увеличиваем x на одну единицу.
  • a и b называют коэффициентами регрессии оценённой линии, хотя этот термин часто используют только для b .

Парную линейную регрессию можно расширить, включив в нее более одной независимой переменной; в этом случае она известна как множественная регрессия .

Рис.1. Линия линейной регрессии, показывающая пересечение a и угловой коэффициент b (величину возрастания Y при увеличении x на одну единицу)

Метод наименьших квадратов

Мы выполняем регрессионный анализ, используя выборку наблюдений, где a и b - выборочные оценки истинных (генеральных) параметров, α и β , которые определяют линию линейной регрессии в популяции (генеральной совокупности).

Наиболее простым методом определения коэффициентов a и b является метод наименьших квадратов (МНК).

Подгонка оценивается, рассматривая остатки (вертикальное расстояние каждой точки от линии, например, остаток = наблюдаемому y - предсказанный y , Рис. 2).

Линию лучшей подгонки выбирают так, чтобы сумма квадратов остатков была минимальной.

Рис. 2. Линия линейной регрессии с изображенными остатками (вертикальные пунктирные линии) для каждой точки.

Предположения линейной регрессии

Итак, для каждой наблюдаемой величины остаток равен разнице и соответствующего предсказанного Каждый остаток может быть положительным или отрицательным.

Можно использовать остатки для проверки следующих предположений, лежащих в основе линейной регрессии:

  • Остатки нормально распределены с нулевым средним значением;

Если допущения линейности, нормальности и/или постоянной дисперсии сомнительны, мы можем преобразовать или и рассчитать новую линию регрессии, для которой эти допущения удовлетворяются (например, использовать логарифмическое преобразование или др.).

Аномальные значения (выбросы) и точки влияния

"Влиятельное" наблюдение, если оно опущено, изменяет одну или больше оценок параметров модели (т.е. угловой коэффициент или свободный член).

Выброс (наблюдение, которое противоречит большинству значений в наборе данных) может быть "влиятельным" наблюдением и может хорошо обнаруживаться визуально, при осмотре двумерной диаграммы рассеяния или графика остатков.

И для выбросов, и для "влиятельных" наблюдений (точек) используют модели, как с их включением, так и без них, обращают внимание на изменение оценки (коэффициентов регрессии).

При проведении анализа не стоит отбрасывать выбросы или точки влияния автоматически, поскольку простое игнорирование может повлиять на полученные результаты. Всегда изучайте причины появления этих выбросов и анализируйте их.

Гипотеза линейной регрессии

При построении линейной регрессии проверяется нулевая гипотеза о том, что генеральный угловой коэффициент линии регрессии β равен нулю.

Если угловой коэффициент линии равен нулю, между и нет линейного соотношения: изменение не влияет на

Для тестирования нулевой гипотезы о том, что истинный угловой коэффициент равен нулю можно воспользоваться следующим алгоритмом:

Вычислить статистику критерия, равную отношению , которая подчиняется распределению с степенями свободы, где стандартная ошибка коэффициента


,

- оценка дисперсии остатков.

Обычно если достигнутый уровень значимости нулевая гипотеза отклоняется.


где процентная точка распределения со степенями свободы что дает вероятность двустороннего критерия

Это тот интервал, который содержит генеральный угловой коэффициент с вероятностью 95%.

Для больших выборок, скажем, мы можем аппроксимировать значением 1,96 (то есть статистика критерия будет стремиться к нормальному распределению)

Оценка качества линейной регрессии: коэффициент детерминации R 2

Из-за линейного соотношения и мы ожидаем, что изменяется, по мере того как изменяется , и называем это вариацией, которая обусловлена или объясняется регрессией. Остаточная вариация должна быть как можно меньше.

Если это так, то большая часть вариации будет объясняться регрессией, а точки будут лежать близко к линии регрессии, т.е. линия хорошо соответствует данным.

Долю общей дисперсии , которая объясняется регрессией называют коэффициентом детерминации , обычно выражают через процентное соотношение и обозначают R 2 (в парной линейной регрессии это величина r 2 , квадрат коэффициента корреляции), позволяет субъективно оценить качество уравнения регрессии.

Разность представляет собой процент дисперсии который нельзя объяснить регрессией.

Нет формального теста для оценки мы вынуждены положиться на субъективное суждение, чтобы определить качество подгонки линии регрессии.

Применение линии регрессии для прогноза

Можно применять регрессионную линию для прогнозирования значения по значению в пределе наблюдаемого диапазона (никогда не экстраполируйте вне этих пределов).

Мы предсказываем среднюю величину для наблюдаемых, которые имеют определенное значение путем подстановки этого значения в уравнение линии регрессии.

Итак, если прогнозируем как Используем эту предсказанную величину и ее стандартную ошибку, чтобы оценить доверительный интервал для истинной средней величины в популяции.

Повторение этой процедуры для различных величин позволяет построить доверительные границы для этой линии. Это полоса или область, которая содержит истинную линию, например, с 95% доверительной вероятностью.

Простые регрессионные планы

Простые регрессионные планы содержат один непрерывный предиктор. Если существует 3 наблюдения со значениями предиктора P , например, 7, 4 и 9, а план включает эффект первого порядка P , то матрица плана X будет иметь вид

а регрессионное уравнение с использованием P для X1 выглядит как

Y = b0 + b1 P

Если простой регрессионный план содержит эффект высшего порядка для P , например квадратичный эффект, то значения в столбце X1 в матрице плана будут возведены во вторую степень:

а уравнение примет вид

Y = b0 + b1 P2

Сигма -ограниченные и сверхпараметризованные методы кодирования не применяются по отношению к простым регрессионным планам и другим планам, содержащим только непрерывные предикторы (поскольку, просто не существует категориальных предикторов). Независимо от выбранного метода кодирования, значения непрерывных переменных увеличиваются в соответствующей степени и используются как значения для переменных X . При этом перекодировка не выполняется. Кроме того, при описании регрессионных планов можно опустить рассмотрение матрицы плана X , а работать только с регрессионным уравнением.

Пример: простой регрессионный анализ

Этот пример использует данные, представленные в таблице:

Рис. 3. Таблица исходных данных.

Данные составлены на основе сравнения переписей 1960 и 1970 в произвольно выбранных 30 округах. Названия округов представлены в виде имен наблюдений. Информация относительно каждой переменной представлена ниже:

Рис. 4. Таблица спецификаций переменных.

Задача исследования

Для этого примера будут анализироваться корреляция уровня бедности и степень, которая предсказывает процент семей, которые находятся за чертой бедности. Следовательно мы будем трактовать переменную 3 (Pt_Poor ) как зависимую переменную.

Можно выдвинуть гипотезу: изменение численности населения и процент семей, которые находятся за чертой бедности, связаны между собой. Кажется разумным ожидать, что бедность ведет к оттоку населения, следовательно, здесь будет отрицательная корреляция между процентом людей за чертой бедности и изменением численности населения. Следовательно мы будем трактовать переменную 1 (Pop_Chng ) как переменную-предиктор.

Просмотр результатов

Коэффициенты регрессии

Рис. 5. Коэффициенты регрессии Pt_Poor на Pop_Chng.

На пересечении строки Pop_Chng и столбца Парам. не стандартизованный коэффициент для регрессии Pt_Poor на Pop_Chng равен -0.40374 . Это означает, что для каждого уменьшения численности населения на единицу, имеется увеличение уровня бедности на.40374. Верхний и нижний (по умолчанию) 95% доверительные пределы для этого не стандартизованного коэффициента не включают ноль, так что коэффициент регрессии значим на уровне p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Распределение переменных

Коэффициенты корреляции могут стать существенно завышены или занижены, если в данных присутствуют большие выбросы. Изучим распределение зависимой переменной Pt_Poor по округам. Для этого построим гистограмму переменной Pt_Poor .

Рис. 6. Гистограмма переменной Pt_Poor.

Как вы можете заметить, распределение этой переменной заметно отличается от нормального распределения. Тем не менее, хотя даже два округа (два правых столбца) имеют высокий процент семей, которые находятся за чертой бедности, чем ожидалось в случае нормального распределения, кажется, что они находятся "внутри диапазона."

Рис. 7. Гистограмма переменной Pt_Poor.

Это суждение в некоторой степени субъективно. Эмпирическое правило гласит, что выбросы необходимо учитывать, если наблюдение (или наблюдения) не попадают в интервал (среднее ± 3 умноженное на стандартное отклонение). В этом случае стоит повторить анализ с выбросами и без, чтобы убедиться, что они не оказывают серьезного эффекта на корреляцию между членами совокупности.

Диаграмма рассеяния

Если одна из гипотез априори о взаимосвязи между заданными переменными, то ее полезно проверить на графике соответствующей диаграммы рассеяния.

Рис. 8. Диаграмма рассеяния.

Диаграмма рассеяния показывает явную отрицательную корреляцию (-.65 ) между двумя переменными. На ней также показан 95% доверительный интервал для линии регрессии, т.е., с 95% вероятностью линия регрессии проходит между двумя пунктирными кривыми.

Критерии значимости

Рис. 9. Таблица, содержащая критерии значимости.

Критерий для коэффициента регрессии Pop_Chng подтверждает, что Pop_Chng сильно связано с Pt_Poor , p<.001 .

Итог

На этом примере было показано, как проанализировать простой регрессионный план. Была также представлена интерпретация не стандартизованных и стандартизованных коэффициентов регрессии. Обсуждена важность изучения распределения откликов зависимой переменной, продемонстрирована техника определения направления и силы взаимосвязи между предиктором и зависимой переменной.

Выбор редакции
Солдаты, одетые в костюмы химической защиты, пробираются через туннель в Кэмп Стенли, Южная Корея. В Корее угроза «туннельной войны» со...

Если Вы внезапно захворали и не можете справиться с тяжелой болезнью, обязательно прочитайте молитву Святому Луке об исцелении и...

Самое подробное описание: молитва что бы от любимого отстала соперница - для наших читателей и подписчиков.Любовь - очень сильное...

Данная статья содержит: молитва к пресвятой богородице основная - информация взята со вcех уголков света, электронной сети и духовных...
Очистить карму можно при помощи молитвы «На очищение рода» . Она снимает «кармические» или родовые проблемы нескольких поколений, такие...
Н. С. Хрущёв со своей первой женой Е. И. Писаревой. В первый раз Никита Хрущёв женился ещё в 20-летнем возрасте на красавице Ефросинье...
Черехапа редко балует нас промокодами. В июле наконец-то вышел новый купон на 2019 год. Хотите немного сэкономить на страховке для...
Спор можно открыть не раньше чем через 10 дней, после того как продавец отправит товар и до того как Вы подтвердите получение товара, но...
Рано или поздно, каждый покупатель сайта Алиэкспресс сталкивается с ситуацией, когда заказанный товар не приходит. Это может случится из...