Выполнить регрессионный анализ. Зависимая переменная Y


Регрессионный анализ является одним из самых востребованных методов статистического исследования. С его помощью можно установить степень влияния независимых величин на зависимую переменную. В функционале Microsoft Excel имеются инструменты, предназначенные для проведения подобного вида анализа. Давайте разберем, что они собой представляют и как ими пользоваться.

Но, для того, чтобы использовать функцию, позволяющую провести регрессионный анализ, прежде всего, нужно активировать Пакет анализа. Только тогда необходимые для этой процедуры инструменты появятся на ленте Эксель.


Теперь, когда мы перейдем во вкладку «Данные» , на ленте в блоке инструментов «Анализ» мы увидим новую кнопку – «Анализ данных» .

Виды регрессионного анализа

Существует несколько видов регрессий:

  • параболическая;
  • степенная;
  • логарифмическая;
  • экспоненциальная;
  • показательная;
  • гиперболическая;
  • линейная регрессия.

О выполнении последнего вида регрессионного анализа в Экселе мы подробнее поговорим далее.

Линейная регрессия в программе Excel

Внизу, в качестве примера, представлена таблица, в которой указана среднесуточная температура воздуха на улице, и количество покупателей магазина за соответствующий рабочий день. Давайте выясним при помощи регрессионного анализа, как именно погодные условия в виде температуры воздуха могут повлиять на посещаемость торгового заведения.

Общее уравнение регрессии линейного вида выглядит следующим образом: У = а0 + а1х1 +…+акхк. В этой формуле Y означает переменную, влияние факторов на которую мы пытаемся изучить. В нашем случае, это количество покупателей. Значение x – это различные факторы, влияющие на переменную. Параметры a являются коэффициентами регрессии. То есть, именно они определяют значимость того или иного фактора. Индекс k обозначает общее количество этих самых факторов.


Разбор результатов анализа

Результаты регрессионного анализа выводятся в виде таблицы в том месте, которое указано в настройках.

Одним из основных показателей является R-квадрат . В нем указывается качество модели. В нашем случае данный коэффициент равен 0,705 или около 70,5%. Это приемлемый уровень качества. Зависимость менее 0,5 является плохой.

Ещё один важный показатель расположен в ячейке на пересечении строки «Y-пересечение» и столбца «Коэффициенты» . Тут указывается какое значение будет у Y, а в нашем случае, это количество покупателей, при всех остальных факторах равных нулю. В этой таблице данное значение равно 58,04.

Значение на пересечении граф «Переменная X1» и «Коэффициенты» показывает уровень зависимости Y от X. В нашем случае — это уровень зависимости количества клиентов магазина от температуры. Коэффициент 1,31 считается довольно высоким показателем влияния.

Как видим, с помощью программы Microsoft Excel довольно просто составить таблицу регрессионного анализа. Но, работать с полученными на выходе данными, и понимать их суть, сможет только подготовленный человек.

Лекция 3.

Регрессионный анализ.

1) Числовые характеристики регрессии

2) Линейная регрессия

3) Нелинейная регрессия

4) Множественная регрессия

5) Использование MS EXCEL для выполнения регрессионного анализа

Контрольно-оценочное средство - тестовые задания

1. Числовые характеристики регрессии

Регрессионный анализ — статистический метод исследования влияния одной или нескольких независимых переменных на зависимую переменную. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных, а не причинно-следственные отношения.

Цели регрессионного анализа

  • Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными).
  • Предсказание значения зависимой переменной с помощью независимой(-ых).
  • Определение вклада отдельных независимых переменных в вариацию зависимой.

Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.

Для проведения регрессионного анализа первоначально необходимо познакомиться с базовыми понятиями статистики и теории вероятности.

Основные числовые характеристики дискретных и непрерывных случайных величин: математическое ожидание, дисперсия и среднее квадратическое отклонение.

Случайные величине делят на две разновидности:

  • · дискретные, которые могут принимать только конкретные, заранее оговоренные значения (например, - значения чисел на верхней грани брошенной игральной кости или порядковые значения текущего месяца);
  • · непрерывные (чаще всего - значения некоторых физических величин: веса, расстояния, температуры и т.п.), которые по законам природы могут принимать любые значения, хотя бы и в некотором интервале.

Закон распределения случайной величины - это соответствие между возможными значениями дискретной случайной величины и ее вероятностями, обычно записывается в таблицу:

Статистическое определение вероятности выражается через относительную частоту случайного события, то есть находится как отношение количества случайных величин к общему числу случайных величин.

Математическим ожиданием дискретной случайной величины X называется сумма произведений значений величины X на вероятности этих значений. Математическое ожидание обозначают или M (X ) .

n

= M (X ) = x 1 p 1 + x 2 p 2 +… + x n p n = S x i p i

i =1

Рассеяние случайной величины относительно её математического ожидания определяется с помощью числовой характеристики, называемой дисперсией. Проще говоря, дисперсия - это разброс случайной величины относительно среднего значения. Для понятия сущности дисперсии рассмотрим пример. Средняя заработная плата по стране составляет около 25 тысяч рублей. Откуда берется эта цифра? Скорее всего, складываются все зарплаты и делятся на количество работников. В данном случае очень большая дисперсия (минимальная зарплата около 4 тыс. руб., а максимальная - около 100 тыс. руб.). Если бы зарплата у всех была одинаковой, то дисперсия была бы равна нулю, и разброса бы не было.

Дисперсией дискретной случайной величины X называют математическое ожидание квадрата разности случайной величины и её математического ожидания:

D = M [ ((X - M (X)) 2 ]

Используя определение математического ожидания для вычисления дисперсии, получаем формулу:

D = S (x i - M (X)) 2 · p i

Дисперсия имеет размерность квадрата случайной величины. В тех случаях, когда нужно иметь числовую характеристику рассеяния возможных значений в той же размерности, что и сама случайная величина, используют среднее квадратичное отклонение.

Средним квадратичным отклонением случайной величины называют корень квадратный из её дисперсии.

Среднее квадратичное отклонение есть мера рассеяния значений случайной величины около ее математического ожидания.

Пример.

Закон распределения случайной величины Х задан следующей таблицей:

Найти её математическое ожидание, дисперсию и среднее квадратичное отклонение.

Используем приведенные выше формулы:

М (Х) = 1 · 0,1 + 2 · 0,4 + 4 · 0,4 + 5 · 0,1 = 3

D = (1-3) 2 · 0,1 + (2 - 3) 2 · 0,4 + (4 - 3) 2 · 0,4 + (5 - 3) 2 · 0,1 = 1,6

Пример.

В денежной лотерее разыгрывается 1 выигрыш в 1000 рублей, 10 выигрышей по 100 рублей и 100 выигрышей по 1 рублю при общем числе билетов 10000. Составьте закон распределения случайного выигрыша Х для владельца одного лотерейного билета и определите математическое ожидание, дисперсию и среднее квадратичное отклонение случайной величины.

X 1 = 1000, Х 2 = 100, Х 3 = 1, Х 4 = 0,

Р 1 = 1/10000 = 0,0001, Р 2 = 10/10000 = 0,001, Р 3 = 100/10000 = 0,01, Р 4 = 1 - (Р 1 + Р 2 + Р 3) = 0,9889.

Результаты поместим в таблицу:

Математическое ожидание - сумма парных произведений значения случайной величины на их вероятность. Для данной задачи его целесообразно вычислить по формуле

1000 · 0,0001 + 100 · 0,001 + 1 · 0,01 + 0 · 0,9889 = 0,21 рубля.

Получили настоящую «справедливую» цену билета.

D = S (x i - M (X)) 2 · p i = (1000 - 0,21) 2 0,0001 + (100 - 0,21) 2 0,001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

Функция распределения непрерывных случайных величин

Величину, которая в результате испытания примет одно возможное значение (при этом заранее неизвестно какое), называется случайной величиной. Как говорилось выше, случайные величины бывают дискретные (прерывные) и непрерывные.

Дискретной называют случайную величину, принимающую отдельные друг от друга возможные значения с определенными вероятностями, которые можно пронумеровать.

Непрерывной называют случайную величину, которая может принимать все значения из некоторого конечного или бесконечного интервала.

До этого момента мы ограничивались только одной “разновидностью” случайных величин - дискретных, т.е. принимающих конечные значения.

Но теория и практика статистики требуют использовать понятие непрерывной случайной величины - допускающей любые числовые значения, из какого - либо интервала.

Закон распределения непрерывной случайной величины удобно задавать с помощью так называемой функции плотности вероятности. f (х). Вероятность Р (a < X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

Р (a < X < b) = ∫ f (x ) dx

График функции f (х) называется кривой распределения. Геометрически вероятность попадания случайной величины в промежуток (a; b), равна площади соответствующей криволинейной трапеции, ограниченной кривой распределения, осью Ох и прямыми х = а, х = b.

P(a£X

Если от сложного события вычесть конечное либо счетное множество, вероятность наступления нового события останется неизменной.

Функция f(x) - числовая скалярная функция действительного аргумента x называется плотностью вероятности, и существует в точке x, если в этой точке существует предел:

Свойства плотности вероятности:

  1. Плотность вероятности является неотрицательной функцией, т. е. f(x) ≥ 0

(если все значения случайной величины Х заключены в промежутке (a;b), то последнее

равенство можно записать в виде ∫ f (x) dx = 1).

Рассмотрим теперь функцию F(х) = Р (Х < х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

непрерывной случайной величины Х, то F (х) = ∫ f(x) dx = 1).

Из последнего равенства следует, что f (x) = F" (x)

Иногда функцию f(x) называют дифференциальной функцией распределения вероятности, а функцию F(x) - интегральной функцией распределения вероятности.

Отметим важнейшие свойства функции распределения вероятности:

  1. F (х) - неубывающая функция.
  2. F (- ∞) = 0.
  3. F (+ ∞) = 1.

Понятие функции распределения является центральным в теории вероятностей. Используя это понятие, можно дать другое определение непрерывной случайной величины. Случайная величина называется непрерывной, если ее интегральная функция распределения F(х) непрерывна.

Числовые характеристики непрерывных случайных величин

Математическое ожидание, дисперсия и другие параметры любых случайных величин практически всегда вычисляются по формулам, вытекающим из закона распределения.

Для непрерывной случайной величины математическое ожидание вычисляется по формуле:

М (Х) = ∫ x · f(x ) dx

Дисперсия:

D (X) = ∫ (x - М (Х)) 2 f (x ) dx или D (X) = ∫ x 2 f(x ) dx - (М (Х)) 2

2. Линейная регрессия

Пусть составляющие Х и Y двумерной случайной величины (Х, Y) зависимы. Будем считать, что одну из них можно приближенно представить как линейную функцию другой, например

Y ≈ g(Х) = α + βХ, и определим параметры α и β с помощью метода наименьших квадратов.

Определение. Функция g(Х) = α + βХ называется наилучшим приближением Y в смысле метода наименьших квадратов, если математическое ожидание М(Y - g(Х)) 2 принимает наименьшее возможное значение; функцию g(Х) называют среднеквадратической регрессией Y на Х.

Теорема Линейная средняя квадратическая регрессия Y на Х имеет вид:

где - коэффициент корреляции Х иY.

Коэффициенты уравнения.

Можно проверить, что при этих значениях функция функция F(α, β)

F (α, β ) = M (Y - α - βX )² имеет минимум, что доказывает утверждение теоремы.

Определение. Коэффициент называется коэффициентом регрессии Y на Х , а прямая - - прямой среднеквадратической регрессии Y на Х .

Подставив координаты стационарной точки в равенство, можно найти минимальное значение функции F(α, β), равное Эта величина называется остаточной дисперсией Y относительно Х и характеризует величину ошибки, допускаемой при замене Y на

g(Х) = α+βХ. При остаточная дисперсия равна 0, то есть равенство является не приближенным, а точным. Следовательно, при Y и Х связаны линейной функциональной зависимостью. Аналогично можно получить прямую среднеквадратической регрессии Х на Y:

и остаточную дисперсию Х относительно Y. При обе прямые регрессии совпадают. Сопоставив уравнения регрессии У на Х и Х на У и решив систему из уравнений, можно найти точку пересечения прямых регрессии - точку с координатами (т х, т у), называемую центром совместного распределения величин Х и Y.

Алгоритм составления уравнений регрессии рассмотрим из учебника В. Е. Гмурмана «Теория вероятности и математическая статистика» стр. 256.

1) Составить расчетную таблицу, в которой будут записаны номера элементов выборки, варианты выборки, их квадраты и произведение.

2) Вычислить сумму по всем столбцам, кроме номера.

3) Вычислить средние значения для каждой величины, дисперсии и средне квадратические отклонения.

5) Проверить гипотезу о существовании связи между Х и У.

6) Составить уравнения обеих линий регрессии и изобразить графики этих уравнений.

Угловой коэффициент прямой линии регрессии У на Х - это выборочный коэффициент регрессии

Коэффициент b=

Получим искомое уравнение линии регрессии У на Х:

У = 0,202 Х + 1,024

Аналогично уравнение регрессии Х на У:

Угловой коэффициент прямой линии регрессии У на Х - это выборочный коэффициент регрессии pxy:

Коэффициент b=

Х = 4,119У - 3,714

3. Нелинейная регрессия

Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций.

Различают два класса нелинейных регрессий:

1. Регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, например:

Полиномы разных степеней

Равносторонняя гипербола - ;

Полулогарифмическая функция - .

2. Регрессии, нелинейные по оцениваемым параметрам, например:

Степенная - ;

Показательная - ;

Экспоненциальная - .

Регрессии нелинейные по включенным переменным приводятся к линейному виду простой заменой переменных, а дальнейшая оценка параметров производится с помощью метода наименьших квадратов. Рассмотрим некоторые функции.

Парабола второй степени приводится к линейному виду с помощью замены: . В результате приходим к двухфакторному уравнению, оценка параметров которого при помощи Метода наименьших квадратов приводит к системе уравнений:

Парабола второй степени обычно применяется в случаях, когда для определенного интервала значений фактора меняется характер связи рассматриваемых признаков: прямая связь меняется на обратную или обратная на прямую.

Равносторонняя гипербола может быть использована для характеристики связи удельных расходов сырья, материалов, топлива от объема выпускаемой продукции, времени обращения товаров от величины товарооборота. Классическим ее примером является кривая Филлипса, характеризующая нелинейное соотношение между нормой безработицы x и процентом прироста заработной платы y .

Гипербола приводится к линейному уравнению простой заменой: . Также можно использовать Метод наименьших квадратов для составления системы линейных уравнений.

Аналогичным образом приводятся к линейному виду зависимости: , и другие.

Равносторонняя гипербола и полулогарифмическая кривая используют для описания кривой Энгеля (математическое описание взаимосвязи доли расходов на товары длительного пользования и общих сумм расходов (или доходов)). Уравнения, в которых входят, применяются в исследованиях урожайности, трудоемкости сельскохозяйственного производства.

4. Множественная регрессия

Множественная регрессия - уравнение связи с несколькими независимыми переменными:

где - зависимая переменная (результативный признак);

Независимые переменные (факторы).

Для построения уравнения множественной регрессии чаще используются следующие функции:

линейная -

степенная -

экспонента -

гипербола - .

Можно использовать и другие функции, приводимые к линейному виду.

Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов (МНК). Для линейных уравнений и нелинейных уравнений, приводимых к линейным, строится следующая система нормальных уравнений, решение которой позволяет получить оценки параметров регрессии:

Для ее решения может быть применен метод определителей:

где - определитель системы;

Частные определители; которые получаются путем замены соответствующего столбца матрицы определителя системы данными левой части системы.

Другой вид уравнения множественной регрессии - уравнение регрессии в стандартизированном масштабе, к уравнению множественной регрессии в стандартизированном масштабе применим МНК.

5. Использование MS EXCEL для выполнения регрессионного анализа

Регрессионный анализ устанавливает формы зависимости между случайной величиной Y (зависимой) и значениями одной или нескольких переменных величин (независимых), причем значения последних считаются точно заданными. Такая зависимость обычно определяется некоторой математической моделью (уравнением регрессии), содержащей несколько неизвестных параметров. В ходе регрессионного анализа на основании выборочных данных находят оценки этих параметров, определяются статистические ошибки оценок или границы доверительных интервалов и проверяется соответствие (адекватность) принятой математической модели экспериментальным данным.

В линейном регрессионном анализе связь между случайными величинами предполагается линейной. В самом простом случае в парной линейной регрессионной модели имеются две переменные Х и Y. И требуется по n парам наблюдений (X1, Y1), (X2, Y2), ..., (Xn, Yn) построить (подобрать) прямую линию, называемую линией регрессии, которая «наилучшим образом» приближает наблюдаемые значения. Уравнение этой линии y=аx+b является регрессионным уравнением. С помощью регрессионного уравнения можно предсказать ожидаемое значение зависимой величины y, соответствующее заданному значению независимой переменной x. В случае, когда рассматривается зависимость между одной зависимой переменной Y и несколькими независимыми X1, X2, ..., Xm, говорят о множественной линейной регрессии.

В этом случае регрессионное уравнение имеет вид

y = a 0 +a 1 x 1 +a 2 x 2 +…+a m x m ,

где a0, a1, a2, …, am - требующие определения коэффициенты регрессии.

Коэффициенты уравнения регрессии определяются при помощи метода наименьших квадратов, добиваясь минимально возможной суммы квадратов расхождений реальных значений переменной Y и вычисленных по регрессионному уравнению. Таким образом, например, уравнение линейной регрессии может быть построено даже в том случае, когда линейная корреляционная связь отсутствует.

Мерой эффективности регрессионной модели является коэффициент детерминации R2 (R-квадрат). Коэффициент детерминации может принимать значения между 0 и 1 определяет, с какой степенью точности полученное регрессионное уравнение описывает (аппроксимирует) исходные данные. Исследуется также значимость регрессионной модели с помощью F-критерия (Фишера) и достоверность отличия коэффициентов a0, a1, a2, …, am от нуля проверяется с помощью критерия Стьюдента.

В Excel экспериментальные данные аппроксимируются линейным уравнением до 16 порядка:

y = a0+a1x1+a2x2+…+a16x16

Для получения коэффициентов линейной регрессии может быть использована процедура «Регрессия» из пакета анализа. Также полную информацию об уравнении линейной регрессии дает функция ЛИНЕЙН. Кроме того, могут быть использованы функции НАКЛОН и ОТРЕЗОК для получения параметров регрессионного уравнения и функция ТЕНДЕНЦИЯ и ПРЕДСКАЗ для получения предсказанных значений Y в требуемых точках (для парной регрессии).

Рассмотрим подробно применение функции ЛИНЕЙН (известные_y, [известные_x], [константа], [статистика]): известные_у - диапазон известных значений зависимого параметра Y. В парном регрессионном анализе может иметь любую форму; в множественном должен быть строкой либо столбцом; известные_х - диапазон известных значений одного или нескольких независимых параметров. Должен иметь ту же форму, что и диапазон Y (для нескольких параметров - соответственно несколько столбцов или строк); константа - логический аргумент. Если исходя из практического смысла задачи регрессионного анализа необходимо, чтобы линия регрессии проходила через начало координат, то есть свободный коэффициент был равен 0, значение этого аргумента следует положить равным 0 (или «ложь»). Если значение положено 1 (или «истина») или опущено, то свободный коэффициент вычисляется обычным образом; статистика - логический аргумент. Если значение положено 1 (или «истина»), то дополнительно возвращается регрессионная статистика (см таблицу), используемая для оценки эффективности и значимости модели. В общем случае для парной регрессии y=аx+b результат применения функции ЛИНЕЙН имеет вид:

Таблица. Выводной диапазон функции ЛИНЕЙН для парного регрессионного анализа

В случае множественного регрессионного анализа для уравнения y=a0+a1x1+a2x2+…+amxm в первой строке выводятся коэффициенты am,…,a1,а0, во второй - стандартные ошибки для этих коэффициентов. В 3-5 строках за исключением первых двух столбцов, заполненных регрессионной статистикой, будет получено значение #Н/Д.

Вводить функцию ЛИНЕЙН следует как формулу массива, выделив вначале массив нужного размера для результата (m+1 столбец и 5 строк, если требуется регрессионная статистика) и завершив ввод формулы нажатием CTRL+SHIFT+ENTER.

Результат для нашего примера:

Кроме этого в программе имеется встроенная функция - Анализ данных на вкладке Данные.

С помощью нее можно также выполнять регрессионный анализ:

На слайде - результат регрессионного анализа, выполненного с помощью Анализа данных.

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

R-квадрат

Нормированный R-квадрат

Стандартная ошибка

Наблюдения

Дисперсионный анализ

Значимость F

Регрессия

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Нижние 95,0%

Верхние 95,0%

Y-пересечение

Переменная X 1

Уравнения регрессии, которые мы смотрели ранее также построены в MS Excel. Для их выполнения сначала строится Точечная диаграмма, затем через контекстное меню выбираем - Добавить линию тренда. В новом окне ставим галочки - Показывать уравнение на диаграмме и поместить на диаграмму величину достоверности апроксимации (R^2).

Литература:

  1. Теория вероятностей и математическая статистика. Гмурман В. Е. Учебное пособие для вузов. - Изд. 10-е, стер. - М.: Высш. шк., 2010. - 479с.
  2. Высшая математика в упражнениях и задачах. Учебное пособие для вузов / Данко П. Е., Попов А. Г., Кожевникова Т. Я., Данко С. П. В 2 ч. - Изд. 6-е, стер. - М.: ООО «Издательство Оникс»: ООО «Издательство «Мир и образование» , 2007. - 416 с.
    1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F - некоторые сведения о регрессионном анализе

Во время учебы студенты очень часто сталкиваются с разнообразными уравнениями. Одно из них - уравнение регрессии - рассмотрено в данной статье. Такой тип уравнения применяется специально для описания характеристики связи между математическими параметрами. Данный вид равенств используют в статистике и эконометрике.

Определение понятия регрессии

В математике под регрессией подразумевается некая величина, описывающая зависимость среднего значения совокупности данных от значений другой величины. Уравнение регрессии показывает в качестве функции определенного признака среднее значение другого признака. Функция регрессии имеет вид простого уравнения у = х, в котором у выступает зависимой переменной, а х - независимой (признак-фактор). Фактически регрессия выражаться как у = f (x).

Какие бывают типы связей между переменными

В общем, выделяется два противоположных типа взаимосвязи: корреляционная и регрессионная.

Первая характеризуется равноправностью условных переменных. В данном случае достоверно не известно, какая переменная зависит от другой.

Если же между переменными не наблюдается равноправности и в условиях сказано, какая переменная объясняющая, а какая - зависимая, то можно говорить о наличии связи второго типа. Для того чтобы построить уравнение линейной регрессии, необходимо будет выяснить, какой тип связи наблюдается.

Виды регрессий

На сегодняшний день выделяют 7 разнообразных видов регрессии: гиперболическая, линейная, множественная, нелинейная, парная, обратная, логарифмически линейная.

Гиперболическая, линейная и логарифмическая

Уравнение линейной регрессии применяют в статистике для четкого объяснения параметров уравнения. Оно выглядит как у = с+т*х+Е. Гиперболическое уравнение имеет вид правильной гиперболы у = с + т / х + Е. Логарифмически линейное уравнение выражает взаимосвязь с помощью логарифмической функции: In у = In с + т* In x + In E.

Множественная и нелинейная

Два более сложных вида регрессии - это множественная и нелинейная. Уравнение множественной регрессии выражается функцией у = f(х 1 , х 2 ...х с)+E. В данной ситуации у выступает зависимой переменной, а х - объясняющей. Переменная Е - стохастическая, она включает влияние других факторов в уравнении. Нелинейное уравнение регрессии немного противоречиво. С одной стороны, относительно учтенных показателей оно не линейное, а с другой стороны, в роли оценки показателей оно линейное.

Обратные и парные виды регрессий

Обратная - это такой вид функции, который необходимо преобразовать в линейный вид. В самых традиционных прикладных программах она имеет вид функции у = 1/с + т*х+Е. Парное уравнение регрессии демонстрирует взаимосвязь между данными в качестве функции у = f (x) + Е. Точно так же, как и в других уравнениях, у зависит от х, а Е - стохастический параметр.

Понятие корреляции

Это показатель, демонстрирующий существование взаимосвязи двух явлений или процессов. Сила взаимосвязи выражается в качестве коэффициента корреляции. Его значение колеблется в рамках интервала [-1;+1]. Отрицательный показатель говорит о наличии обратной связи, положительный - о прямой. Если коэффициент принимает значение, равное 0, то взаимосвязи нет. Чем ближе значение к 1 - тем сильнее связь между параметрами, чем ближе к 0 - тем слабее.

Методы

Корреляционные параметрические методы могут оценить тесноту взаимосвязи. Их используют на базе оценки распределения для изучения параметров, подчиняющихся закону нормального распределения.

Параметры уравнения линейной регрессии необходимы для идентификации вида зависимости, функции регрессионного уравнения и оценивания показателей избранной формулы взаимосвязи. В качестве метода идентификации связи используется поле корреляции. Для этого все существующие данные необходимо изобразить графически. В прямоугольной двухмерной системе координат необходимо нанести все известные данные. Так образуется поле корреляции. Значение описывающего фактора отмечаются вдоль оси абсцисс, в то время как значения зависимого - вдоль оси ординат. Если между параметрами есть функциональная зависимость, они выстраиваются в форме линии.

В случае если коэффициент корреляции таких данных будет менее 30 %, можно говорить о практически полном отсутствии связи. Если он находится между 30 % и 70 %, то это говорит о наличии связей средней тесноты. 100 % показатель - свидетельство функциональной связи.

Нелинейное уравнение регрессии так же, как и линейное, необходимо дополнять индексом корреляции (R).

Корреляция для множественной регрессии

Коэффициент детерминации является показателем квадрата множественной корреляции. Он говорит о тесноте взаимосвязи представленного комплекса показателей с исследуемым признаком. Он также может говорить о характере влияния параметров на результат. Уравнение множественной регрессии оценивают с помощью этого показателя.

Для того чтобы вычислить показатель множественной корреляции, необходимо рассчитать его индекс.

Метод наименьших квадратов

Данный метод является способом оценивания факторов регрессии. Его суть заключается в минимизировании суммы отклонений в квадрате, полученных вследствие зависимости фактора от функции.

Парное линейное уравнение регрессии можно оценить с помощью такого метода. Этот тип уравнений используют в случае обнаружения между показателями парной линейной зависимости.

Параметры уравнений

Каждый параметр функции линейной регрессии несет определенный смысл. Парное линейное уравнение регрессии содержит два параметра: с и т. Параметр т демонстрирует среднее изменение конечного показателя функции у, при условии уменьшения (увеличения) переменной х на одну условную единицу. Если переменная х - нулевая, то функция равняется параметру с. Если же переменная х не нулевая, то фактор с не несет в себе экономический смысл. Единственное влияние на функцию оказывает знак перед фактором с. Если там минус, то можно сказать о замедленном изменении результата по сравнению с фактором. Если там плюс, то это свидетельствует об ускоренном изменении результата.

Каждый параметр, изменяющий значение уравнения регрессии, можно выразить через уравнение. Например, фактор с имеет вид с = y - тх.

Сгруппированные данные

Бывают такие условия задачи, в которых вся информация группируется по признаку x, но при этом для определенной группы указываются соответствующие средние значения зависимого показателя. В таком случае средние значения характеризуют, каким образом изменяется показатель, зависящий от х. Таким образом, сгруппированная информация помогает найти уравнение регрессии. Ее используют в качестве анализа взаимосвязей. Однако у такого метода есть свои недостатки. К сожалению, средние показатели достаточно часто подвергаются внешним колебаниям. Данные колебания не являются отображением закономерности взаимосвязи, они всего лишь маскируют ее «шум». Средние показатели демонстрируют закономерности взаимосвязи намного хуже, чем уравнение линейной регрессии. Однако их можно применять в виде базы для поиска уравнения. Перемножая численность отдельной совокупности на соответствующую среднюю можно получить сумму у в пределах группы. Далее необходимо подбить все полученные суммы и найти конечный показатель у. Чуть сложнее производить расчеты с показателем суммы ху. В том случае если интервалы малы, можно условно взять показатель х для всех единиц (в пределах группы) одинаковым. Следует перемножить его с суммой у, чтобы узнать сумму произведений x на у. Далее все суммы подбиваются вместе и получается общая сумма ху.

Множественное парное уравнение регрессии: оценка важности связи

Как рассматривалось ранее, множественная регрессия имеет функцию вида у = f (x 1 ,x 2 ,…,x m)+E. Чаще всего такое уравнение используют для решения проблемы спроса и предложения на товар, процентного дохода по выкупленным акциям, изучения причин и вида функции издержек производства. Ее также активно применяют в самых разнообразным макроэкономических исследованиях и расчетах, а вот на уровне микроэкономики такое уравнение применяют немного реже.

Основной задачей множественной регрессии является построение модели данных, содержащих огромное количество информации, для того чтобы в дальнейшем определить, какое влияние имеет каждый из факторов по отдельности и в их общей совокупности на показатель, который необходимо смоделировать, и его коэффициенты. Уравнение регрессии может принимать самые разнообразные значения. При этом для оценки взаимосвязи обычно используется два типа функций: линейная и нелинейная.

Линейная функция изображается в форме такой взаимосвязи: у = а 0 + a 1 х 1 + а 2 х 2 ,+ ... + a m x m . При этом а2, a m , считаются коэффициентами «чистой» регрессии. Они необходимы для характеристики среднего изменения параметра у с изменением (уменьшением или увеличением) каждого соответствующего параметра х на одну единицу, с условием стабильного значения других показателей.

Нелинейные уравнения имеют, к примеру, вид степенной функции у=ах 1 b1 х 2 b2 ...x m bm . В данном случае показатели b 1 , b 2 ..... b m - называются коэффициентами эластичности, они демонстрируют, каким образом изменится результат (на сколько %) при увеличении (уменьшении) соответствующего показателя х на 1 % и при стабильном показателе остальных факторов.

Какие факторы необходимо учитывать при построении множественной регрессии

Для того чтобы правильно построить множественную регрессию, необходимо выяснить, на какие именно факторы следует обратить особое внимание.

Необходимо иметь определенное понимание природы взаимосвязей между экономическими факторами и моделируемым. Факторы, которые необходимо будет включать, обязаны отвечать следующим признакам:

  • Должны быть подвластны количественному измерению. Для того чтобы использовать фактор, описывающий качество предмета, в любом случае следует придать ему количественную форму.
  • Не должна присутствовать интеркорреляция факторов, или функциональная взаимосвязь. Такие действия чаще всего приводят к необратимым последствиям - система обыкновенных уравнений становится не обусловленной, а это влечет за собой ее ненадежность и нечеткость оценок.
  • В случае существования огромного показателя корреляции не существует способа для выяснения изолированного влияния факторов на окончательный результат показателя, следовательно, коэффициенты становятся неинтерпретируемыми.

Методы построения

Существует огромное количество методов и способов, объясняющих, каким образом можно выбрать факторы для уравнения. Однако все эти методы строятся на отборе коэффициентов с помощью показателя корреляции. Среди них выделяют:

  • Способ исключения.
  • Способ включения.
  • Пошаговый анализ регрессии.

Первый метод подразумевает отсев всех коэффициентов из совокупного набора. Второй метод включает введение множества дополнительных факторов. Ну а третий - отсев факторов, которые были ранее применены для уравнения. Каждый из этих методов имеет право на существование. У них есть свои плюсы и минусы, но они все по-своему могут решить вопрос отсева ненужных показателей. Как правило, результаты, полученные каждым отдельным методом, достаточно близки.

Методы многомерного анализа

Такие способы определения факторов базируются на рассмотрении отдельных сочетаний взаимосвязанных признаков. Они включают в себя дискриминантный анализ, распознание обликов, способ главных компонент и анализ кластеров. Кроме того, существует также факторный анализ, однако он появился вследствие развития способа компонент. Все они применяются в определенных обстоятельствах, при наличии определенных условий и факторов.

Метод регрессивного анализа применяется для определения технико-экономических параметров продукции, относящейся к конкретному параметрическому ряду, с целью построения и выравнивания ценностных соотношений. Этот метод используется для анализа и обоснования уровня и соотношений цен продукции, характеризующейся наличием одного или нескольких технико-экономических параметров, отражающих основные потребительские свойства. Регрессивный анализ позволяет найти эмпирическую формулу, описывающую зависимость цены от технико-экономических параметров изделий:

P=f(X1X2,...,Xn),

где Р - значение цены единицы изделия, руб.; (Х1, Х2, ... Хп) - технико-экономические параметры изделий.

Метод регрессивного анализа - наиболее совершенный из используемых нормативно-параметрических методов - эффективен при проведении расчетов на основе применения современных информационных технологий и систем. Применение его включает следующие основные этапы:

  • определение классификационных параметрических групп изделий;
  • отбор параметров, в наибольшей степени влияющих на цену изделия;
  • выбор и обоснование формы связи изменения цены при изменении параметров;
  • построение системы нормальных уравнений и расчет коэффициентов регрессии.

Основной квалификационной группой изделий, цена которых подлежит выравниванию, является параметрический ряд, внутри которого изделия могут группироваться по различному исполнению в зависимости от их применения, условий и требований эксплуатации и т. д. При формировании параметрических рядов могут быть применены методы автоматической классификации, которые позволяют из общей массы продукции выделять ее однородные группы. Отбор технико-экономических параметров производится исходя из следующих основных требований:

  • в состав отобранных параметров включаются параметры, зафиксированные в стандартах и технических условиях; помимо технических параметров (мощности, грузоподъемности, скорости и т.д.) используются показатели серийности продукции, коэффициенты сложности, унификации и др.;
  • совокупность отобранных параметров должна достаточно полно характеризовать конструктивные, технологические и эксплуатационные свойства изделий, входящих в ряд, и иметь достаточно тесную корреляционную связь с ценой;
  • параметры не должны быть взаимозависимы.

Для отбора технико-экономических параметров, существенно влияющих на цену, вычисляется матрица коэффициентов парной корреляции. По величине коэффициентов корреляции между параметрами можно судить о тесноте их связи. При этом близкая к нулю корреляция показывает незначительное влияние параметра на цену. Окончательный отбор технико-экономических параметров производится в процессе пошагового регрессивного анализа с использованием компьютерной техники и соответствующих стандартных программ.

В практике ценообразования применяется следующий набор функций:

линейная

P = ao + alXl + ... + antXn,

линейно-степенная

Р = ао + а1Х1 + ... + аnХп + (ап+1Хп) (ап+1Хп) +... + (ап+nХп2) (ап+nХп2)

обратного логарифма

Р = а0 + а1: In Х1 + ... + ап: In Xn,

степенная

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

показательная

P = e^(а1+а1X1+...+аnХn)

гиперболическая

Р = ао + а1:Х1 + а2:Х2 + ... + ап:Хп,

где Р - выравнивание цены; X1 X2,..., Хп - значение технико-экономических параметров изделий ряда; a0, a1 ..., аn - вычисляемые коэффициенты уравнения регресии.

В практической работе по ценообразованию в зависимости от формы связи цен и технико-экономических параметров могут использоваться другие уравнения регрессии. Вид функции связи между ценой и совокупностью технико-экономических параметров может быть задан предварительно или выбран автоматически в процессе обработки на ЭВМ. Теснота корреляционной связи между ценой и совокупностью параметров оценивается по величине множественного коэффициента корреляции. Близость его к единице говорит о тесной связи. По уравнению регрессии получают выравненные (расчетные) значения цен изделий данного параметрического ряда. Для оценки результатов выравнивания вычисляют относительные величины отклонения расчетных значений цен от фактических:

Цр = Рф - Рр: Р х 100

где Рф, Рр - фактическая и расчетная цены.

Величина Цр не должна превышать 8-10%. В случае существенных отклонений расчетных значений от фактических необходимо исследовать:

  • правильность формирования параметрического ряда, так как в его составе могут оказаться изделия, по своим параметрам резко отличающиеся от других изделий ряда. Их надо исключить;
  • правильность отбора технико-экономических параметров. Возможна совокупность параметров, слабо коррелируемая с ценой. В этом случае необходимо продолжить поиск и отбор параметров.

Порядок и методика проведения регрессивного анализа, нахождения неизвестных параметров уравнения и экономическая оценка полученных результатов осуществляются в соответствии с требованиями математической статистики.

Регрессионный анализ -- метод моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и независимой переменной (объясняющей переменной). Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной.

Корреляционный анализ и регрессионный анализ являются смежными разделами математической статистики, и предназначаются для изучения по выборочным данным статистической зависимости ряда величин; некоторые из которых являются случайными. При статистической зависимости величины не связаны функционально, но как случайные величины заданы совместным распределением вероятностей.

Исследование зависимости случайных величин приводит к моделям регрессии и регрессионному анализу на базе выборочных данных. Теория вероятностей и математическая статистика представляют лишь инструмент для изучения статистической зависимости, но не ставят своей целью установление причинной связи. Представления и гипотезы о причинной связи должны быть привнесены из некоторой другой теории, которая позволяет содержательно объяснить изучаемое явление.

Числовые данные обычно имеют между собой явные (известные) или неявные (скрытые) связи.

Явно связаны показатели, которые получены методами прямого счета, т. е. вычислены по заранее известным формулам. Например, проценты выполнения плана, уровни, удельные веса, отклонения в сумме, отклонения в процентах, темпы роста, темпы прироста, индексы и т. д.

Связи же второго типа (неявные) заранее неизвестны. Однако необходимо уметь объяснять и предсказывать (прогнозировать) сложные явления для того, чтобы управлять ими. Поэтому специалисты с помощью наблюдений стремятся выявить скрытые зависимости и выразить их в виде формул, т. е. математически смоделировать явления или процессы. Одну из таких возможностей предоставляет корреляционно-регрессионный анализ.

Математические модели строятся и используются для трех обобщенных целей:

  • * для объяснения;
  • * для предсказания;
  • * для управления.

Пользуясь методами корреляционно-регрессионного анализа, аналитики измеряют тесноту связей показателей с помощью коэффициента корреляции. При этом обнаруживаются связи, различные по силе (сильные, слабые, умеренные и др.) и различные по направлению (прямые, обратные). Если связи окажутся существенными, то целесообразно будет найти их математическое выражение в виде регрессионной модели и оценить статистическую значимость модели.

Регрессионный анализ называют основным методом современной математической статистики для выявления неявных и завуалированных связей между данными наблюдений.

Постановка задачи регрессионного анализа формулируется следующим образом.

Имеется совокупность результатов наблюдений. В этой совокупности один столбец соответствует показателю, для которого необходимо установить функциональную зависимость с параметрами объекта и среды, представленными остальными столбцами. Требуется: установить количественную взаимосвязь между показателем и факторами. В таком случае задача регрессионного анализа понимается как задача выявления такой функциональной зависимости y = f (x2, x3, …, xт), которая наилучшим образом описывает имеющиеся экспериментальные данные.

Допущения:

количество наблюдений достаточно для проявления статистических закономерностей относительно факторов и их взаимосвязей;

обрабатываемые данные содержат некоторые ошибки (помехи), обусловленные погрешностями измерений, воздействием неучтенных случайных факторов;

матрица результатов наблюдений является единственной информацией об изучаемом объекте, имеющейся в распоряжении перед началом исследования.

Функция f (x2, x3, …, xт), описывающая зависимость показателя от параметров, называется уравнением (функцией) регрессии. Термин "регрессия" (regression (лат.) - отступление, возврат к чему-либо) связан со спецификой одной из конкретных задач, решенных на стадии становления метода.

Решение задачи регрессионного анализа целесообразно разбить на несколько этапов:

предварительная обработка данных;

выбор вида уравнений регрессии;

вычисление коэффициентов уравнения регрессии;

проверка адекватности построенной функции результатам наблюдений.

Предварительная обработка включает стандартизацию матрицы данных, расчет коэффициентов корреляции, проверку их значимости и исключение из рассмотрения незначимых параметров.

Выбор вида уравнения регрессии Задача определения функциональной зависимости, наилучшим образом описывающей данные, связана с преодолением ряда принципиальных трудностей. В общем случае для стандартизованных данных функциональную зависимость показателя от параметров можно представить в виде

y = f (x1, x2, …, xm) + e

где f - заранее не известная функция, подлежащая определению;

e - ошибка аппроксимации данных.

Указанное уравнение принято называть выборочным уравнением регрессии. Это уравнение характеризует зависимость между вариацией показателя и вариациями факторов. А мера корреляции измеряет долю вариации показателя, которая связана с вариацией факторов. Иначе говоря, корреляцию показателя и факторов нельзя трактовать как связь их уровней, а регрессионный анализ не объясняет роли факторов в создании показателя.

Еще одна особенность касается оценки степени влияния каждого фактора на показатель. Регрессионное уравнение не обеспечивает оценку раздельного влияния каждого фактора на показатель, такая оценка возможна лишь в случае, когда все другие факторы не связаны с изучаемым. Если изучаемый фактор связан с другими, влияющими на показатель, то будет получена смешанная характеристика влияния фактора. Эта характеристика содержит как непосредственное влияние фактора, так и опосредованное влияние, оказанное через связь с другими факторами и их влиянием на показатель.

В регрессионное уравнение не рекомендуется включать факторы, слабо связанные с показателем, но тесно связанные с другими факторами. Не включают в уравнение и факторы, функционально связанные друг с другом (для них коэффициент корреляции равен 1). Включение таких факторов приводит к вырождению системы уравнений для оценок коэффициентов регрессии и к неопределенности решения.

Функция f должна подбираться так, чтобы ошибка e в некотором смысле была минимальна. В целях выбора функциональной связи заранее выдвигают гипотезу о том, к какому классу может принадлежать функция f, а затем подбирают "лучшую" функцию в этом классе. Выбранный класс функций должен обладать некоторой "гладкостью", т.е. "небольшие" изменения значений аргументов должны вызывать "небольшие" изменения значений функции.

Частным случаем, широко применяемым на практике, является полином первой степени или уравнение линейной регрессии

Для выбора вида функциональной зависимости можно рекомендовать следующий подход:

в пространстве параметров графически отображают точки со значениями показателя. При большом количестве параметров можно строить точки применительно к каждому из них, получая двумерные распределения значений;

по расположению точек и на основе анализа сущности взаимосвязи показателя и параметров объекта делают заключение о примерном виде регрессии или ее возможных вариантах;

после расчета параметров оценивают качество аппроксимации, т.е. оценивают степень близости расчетных и фактических значений;

если расчетные и фактические значения близки во всей области задания, то задачу регрессионного анализа можно считать решенной. В противном случае можно попытаться выбрать другой вид полинома или другую аналитическую функцию, например периодическую.

Вычисление коэффициентов уравнения регрессии

Систему уравнений на основе имеющихся данных однозначно решить невозможно, так как количество неизвестных всегда больше количества уравнений. Для преодоления этой проблемы нужны дополнительные допущения. Здравый смысл подсказывает: желательно выбрать коэффициенты полинома так, чтобы обеспечить минимум ошибки аппроксимации данных. Могут применяться различные меры для оценки ошибок аппроксимации. В качестве такой меры нашла широкое применение среднеквадратическая ошибка. На ее основе разработан специальный метод оценки коэффициентов уравнений регрессии - метод наименьших квадратов (МНК). Этот метод позволяет получить оценки максимального правдоподобия неизвестных коэффициентов уравнения регрессии при нормальном распределения вариант, но его можно применять и при любом другом распределении факторов.

В основе МНК лежат следующие положения:

значения величин ошибок и факторов независимы, а значит, и некоррелированы, т.е. предполагается, что механизмы порождения помехи не связаны с механизмом формирования значений факторов;

математическое ожидание ошибки e должно быть равно нулю (постоянная составляющая входит в коэффициент a0), иначе говоря, ошибка является центрированной величиной;

выборочная оценка дисперсии ошибки должна быть минимальна.

Если же линейная модель неточна или параметры измеряются неточно, то и в этом случае МНК позволяет найти такие значения коэффициентов, при которых линейная модель наилучшим образом описывает реальный объект в смысле выбранного критерия среднеквадратического отклонения.

Качество полученного уравнения регрессии оценивают по степени близости между результатами наблюдений за показателем и предсказанными по уравнению регрессии значениями в заданных точках пространства параметров. Если результаты близки, то задачу регрессионного анализа можно считать решенной. В противном случае следует изменить уравнение регрессии и повторить расчеты по оценке параметров.

При наличии нескольких показателей задача регрессионного анализа решается независимо для каждого из них.

Анализируя сущность уравнения регрессии, следует отметить следующие положения. Рассмотренный подход не обеспечивает раздельной (независимой) оценки коэффициентов - изменение значения одного коэффициента влечет изменение значений других. Полученные коэффициенты не следует рассматривать как вклад соответствующего параметра в значение показателя. Уравнение регрессии является всего лишь хорошим аналитическим описанием имеющихся данных, а не законом, описывающим взаимосвязи параметров и показателя. Это уравнение применяют для расчета значений показателя в заданном диапазоне изменения параметров. Оно ограниченно пригодно для расчета вне этого диапазона, т.е. его можно применять для решения задач интерполяции и в ограниченной степени для экстраполяции.

Главной причиной неточности прогноза является не столько неопределенность экстраполяции линии регрессии, сколько значительная вариация показателя за счет неучтенных в модели факторов. Ограничением возможности прогнозирования служит условие стабильности неучтенных в модели параметров и характера влияния учтенных факторов модели. Если резко меняется внешняя среда, то составленное уравнение регрессии потеряет свой смысл.

Прогноз, полученный подстановкой в уравнение регрессии ожидаемого значения параметра, является точечным. Вероятность реализации такого прогноза ничтожна мала. Целесообразно определить доверительный интервал прогноза. Для индивидуальных значений показателя интервал должен учитывать ошибки в положении линии регрессии и отклонения индивидуальных значений от этой линии .

Выбор редакции
Незнакомец, советуем тебе читать сказку "Каша из топора" самому и своим деткам, это замечательное произведение созданное нашими предками....

У пословиц и поговорок может быть большое количество значений. А раз так, то они располагают к исследованиям большим и малым. Наше -...

© Зощенко М. М., наследники, 2009© Андреев А. С., иллюстрации, 2011© ООО «Издательство АСТ», 2014* * *Смешные рассказыПоказательный...

Флавий Феодосий II Младший (тж. Малый, Юнейший; 10 апр. 401 г. - † 28 июля 450 г.) - император Восточной Римской империи (Византии) в...
В тревожный и непростой XII век Грузией правила царица Тамара . Царицей эту великую женщину называем мы, русскоговорящие жители планеты....
Житие сщмч. Петра (Зверева), архиепископа ВоронежскогоСвященномученик Петр, архиепископ Воронежский родился 18 февраля 1878 года в Москве...
АПОСТОЛ ИУДА ИСКАРИОТ Апостол Иуда ИскариотСамая трагическая и незаслуженно оскорбленная фигура из окружения Иисуса. Иуда изображён в...
Когнитивная психотерапия в варианте Бека - это структурированное обучение, эксперимент, тренировки в ментальном и поведенческом планах,...
Мир сновидений настолько многогранен, что никогда не знаешь, что же появится в следующем сне. Порой сны бывают устрашающие, приводящие к...