Регрессионный анализ
Эту страницу предлагается объединить со страницей Регрессия (математика). |
Регрессио́нный анализ — набор статистических методов исследования влияния одной или нескольких независимых переменных на зависимую переменную . Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными или регрессантами. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных (см. Корреляция), а не причинно-следственные отношения. Наиболее распространённый вид регрессионного анализа — линейная регрессия, когда находят линейную функцию, которая, согласно определённым математическим критериям, наиболее соответствует данным. Например, в методе наименьших квадратов вычисляется прямая (или гиперплоскость), сумма квадратов отклонений между которой и данными минимальна.
Цели регрессионного анализа
- Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными)
- Предсказание значения зависимой переменной с помощью независимой(-ых)
- Определение вклада отдельных независимых переменных в вариацию зависимой
Математическое определение регрессии
Строго регрессионную зависимость можно определить следующим образом. Пусть — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений
определено условное математическое ожидание
(уравнение регрессии в общем виде),
то функция называется регрессией величины
по величинам
, а её график — линией регрессии
по
, или уравнением регрессии.
Зависимость от
проявляется в изменении средних значений
при изменении
. Хотя при каждом фиксированном наборе значений
величина
остаётся случайной величиной с определённым распределением.
Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение при изменении
, используется средняя величина дисперсии
при разных наборах значений
(фактически речь идёт о мере рассеяния зависимой переменной вокруг линии регрессии).
В матричной форме уравнение регрессии (УР) записывается в виде: , где
— матрица ошибок. При обратимой матрице X◤X получается вектор-столбец коэффициентов B с учётом U◤U=min(B). В частном случае для Х=(±1) матрица X◤X является рототабельной, и УР может быть использовано при анализе временны́х рядов и обработке технических данных.
Метод наименьших квадратов (расчёт коэффициентов)
На практике линия регрессии чаще всего ищется в виде линейной функции (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых
от их оценок
(имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):
( — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда
.
Для решения задачи регрессионного анализа методом наименьших квадратов вводится понятие функции невязки:
Условие минимума функции невязки:
Полученная система является системой линейных уравнений с
неизвестными
.
Если представить свободные члены левой части уравнений матрицей
а коэффициенты при неизвестных в правой части — матрицей
то получаем матричное уравнение: , которое легко решается методом Гаусса. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:
Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса — Маркова). В англоязычной литературе такие оценки называются BLUE (Best Linear Unbiased Estimators — «наилучшие линейные несмещённые оценки»). Большинство исследуемых зависимостей может быть представлено с помощью МНК нелинейными математическими функциями.
Интерпретация параметров регрессии
Параметры являются частными коэффициентами корреляции;
интерпретируется как доля дисперсии Y, объяснённая
, при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вклад
в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа корреляционного и пошагового регрессионного анализа.
Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, идёт ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьёзные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида ,
, свидетельствующее о наличии взаимодействий между признаками
,
и т. д. (см. Мультиколлинеарность).
См. также
- Корреляция
- Мультиколлинеарность
- Автокорреляция
- Перекрёстная проверка
- Линейная регрессия на корреляции
Литература
- Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis. — 3-е изд. — М.: «», 2007. — 912 с. — ISBN 0-471-17082-8.
- Фёрстер Э., Рёнц Б. Методы корреляционного и регрессионного анализа = Methoden der Korrelation - und Regressiolynsanalyse. — М.: Финансы и статистика, 1981. — 302 с.
- Захаров С. И., Холмская А. Г. Повышение эффективности обработки сигналов вибрации и шума при испытаниях механизмов // Вестник машиностроения : журнал. — М.: Машиностроение, 2001. — № 10. — С. 31—32. — ISSN 0042-4633.
- Радченко С. Г. Устойчивые методы оценивания статистических моделей. — Киев: ПП «Санспарель», 2005. — 504 с. — ISBN 966-96574-0-7, УДК: 519.237.5:515.126.2, ББК 22.172+22.152.
- Радченко С. Г. Методология регрессионного анализа. — Киев: «Корнийчук», 2011. — 376 с. — ISBN 978-966-7599-72-0.
Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Регрессионный анализ, Что такое Регрессионный анализ? Что означает Регрессионный анализ?
Etu stranicu predlagaetsya obedinit so stranicej Regressiya matematika Poyasnenie prichin i obsuzhdenie na stranice Vikipediya K obedineniyu 11 aprelya 2021 Regressiya matematika Regressionnyj analiz ili Uslovnoe matematicheskoe ozhidanie Obsuzhdenie dlitsya ne menee nedeli podrobnee Ne udalyajte shablon do podvedeniya itoga obsuzhdeniya Ne sleduet putat s ekonomicheskoj teoremoj regressii Regressio nnyj analiz nabor statisticheskih metodov issledovaniya vliyaniya odnoj ili neskolkih nezavisimyh peremennyh X1 X2 Xp displaystyle X 1 X 2 X p na zavisimuyu peremennuyu Y displaystyle Y Nezavisimye peremennye inache nazyvayut regressorami ili prediktorami a zavisimye peremennye kriterialnymi ili regressantami Terminologiya zavisimyh i nezavisimyh peremennyh otrazhaet lish matematicheskuyu zavisimost peremennyh sm Korrelyaciya a ne prichinno sledstvennye otnosheniya Naibolee rasprostranyonnyj vid regressionnogo analiza linejnaya regressiya kogda nahodyat linejnuyu funkciyu kotoraya soglasno opredelyonnym matematicheskim kriteriyam naibolee sootvetstvuet dannym Naprimer v metode naimenshih kvadratov vychislyaetsya pryamaya ili giperploskost summa kvadratov otklonenij mezhdu kotoroj i dannymi minimalna Celi regressionnogo analizaOpredelenie stepeni determinirovannosti variacii kriterialnoj zavisimoj peremennoj prediktorami nezavisimymi peremennymi Predskazanie znacheniya zavisimoj peremennoj s pomoshyu nezavisimoj yh Opredelenie vklada otdelnyh nezavisimyh peremennyh v variaciyu zavisimojMatematicheskoe opredelenie regressiiStrogo regressionnuyu zavisimost mozhno opredelit sleduyushim obrazom Pust Y X1 X2 Xp displaystyle Y X 1 X 2 ldots X p sluchajnye velichiny s zadannym sovmestnym raspredeleniem veroyatnostej Esli dlya kazhdogo nabora znachenij X1 x1 X2 x2 Xp xp displaystyle X 1 x 1 X 2 x 2 ldots X p x p opredeleno uslovnoe matematicheskoe ozhidanie y x1 x2 xp E Y X1 x1 X2 x2 Xp xp displaystyle y x 1 x 2 ldots x p mathbb E Y mid X 1 x 1 X 2 x 2 ldots X p x p uravnenie regressii v obshem vide to funkciya y x1 x2 xp displaystyle y x 1 x 2 ldots x p nazyvaetsya regressiej velichiny Y displaystyle Y po velichinam X1 X2 Xp displaystyle X 1 X 2 ldots X p a eyo grafik liniej regressii Y displaystyle Y po X1 X2 Xp displaystyle X 1 X 2 ldots X p ili uravneniem regressii Zavisimost Y displaystyle Y ot X1 X2 Xp displaystyle X 1 X 2 ldots X p proyavlyaetsya v izmenenii srednih znachenij Y displaystyle Y pri izmenenii X1 X2 Xp displaystyle X 1 X 2 ldots X p Hotya pri kazhdom fiksirovannom nabore znachenij X1 x1 X2 x2 Xp xp displaystyle X 1 x 1 X 2 x 2 ldots X p x p velichina Y displaystyle Y ostayotsya sluchajnoj velichinoj s opredelyonnym raspredeleniem Dlya vyyasneniya voprosa naskolko tochno regressionnyj analiz ocenivaet izmenenie Y displaystyle Y pri izmenenii X1 X2 Xp displaystyle X 1 X 2 X p ispolzuetsya srednyaya velichina dispersii Y displaystyle Y pri raznyh naborah znachenij X1 X2 Xp displaystyle X 1 X 2 X p fakticheski rech idyot o mere rasseyaniya zavisimoj peremennoj vokrug linii regressii V matrichnoj forme uravnenie regressii UR zapisyvaetsya v vide Y BX U displaystyle Y BX U gde U displaystyle U matrica oshibok Pri obratimoj matrice X X poluchaetsya vektor stolbec koefficientov B s uchyotom U U min B V chastnom sluchae dlya H 1 matrica X X yavlyaetsya rototabelnoj i UR mozhet byt ispolzovano pri analize vremenny h ryadov i obrabotke tehnicheskih dannyh Metod naimenshih kvadratov raschyot koefficientov Na praktike liniya regressii chashe vsego ishetsya v vide linejnoj funkcii Y b0 b1X1 b2X2 bNXN displaystyle Y b 0 b 1 X 1 b 2 X 2 ldots b N X N linejnaya regressiya nailuchshim obrazom priblizhayushej iskomuyu krivuyu Delaetsya eto s pomoshyu metoda naimenshih kvadratov kogda minimiziruetsya summa kvadratov otklonenij realno nablyudaemyh Y displaystyle Y ot ih ocenok Y displaystyle hat Y imeyutsya v vidu ocenki s pomoshyu pryamoj linii pretenduyushej na to chtoby predstavlyat iskomuyu regressionnuyu zavisimost k 1M Yk Yk 2 min displaystyle sum k 1 M Y k hat Y k 2 to min M displaystyle M obyom vyborki Etot podhod osnovan na tom izvestnom fakte chto figuriruyushaya v privedyonnom vyrazhenii summa prinimaet minimalnoe znachenie imenno dlya togo sluchaya kogda Y y x1 x2 xN displaystyle Y y x 1 x 2 x N Dlya resheniya zadachi regressionnogo analiza metodom naimenshih kvadratov vvoditsya ponyatie funkcii nevyazki s b 12 k 1M Yk Y k 2 displaystyle sigma bar b frac 1 2 sum k 1 M Y k hat Y k 2 Uslovie minimuma funkcii nevyazki s b bi 0i 0 N i 1Myi i 1M j 1Nbjxi j b0M i 1Myixi k i 1M j 1Nbjxi jxi k b0 i 1Mxi kk 1 N displaystyle left begin matrix frac partial sigma bar b partial b i 0 i 0 N end matrix right Leftrightarrow begin cases sum limits i 1 M y i sum limits i 1 M sum limits j 1 N b j x i j b 0 M sum limits i 1 M y i x i k sum limits i 1 M sum limits j 1 N b j x i j x i k b 0 sum limits i 1 M x i k k 1 ldots N end cases Poluchennaya sistema yavlyaetsya sistemoj N 1 displaystyle N 1 linejnyh uravnenij s N 1 displaystyle N 1 neizvestnymi b0 bN displaystyle b 0 ldots b N Esli predstavit svobodnye chleny levoj chasti uravnenij matricej B i 1Myi i 1Myixi 1 i 1Myixi N displaystyle B left begin matrix sum limits i 1 M y i sum limits i 1 M y i x i 1 vdots sum limits i 1 M y i x i N end matrix right a koefficienty pri neizvestnyh v pravoj chasti matricej A M i 1Mxi 1 i 1Mxi 2 i 1Mxi N i 1Mxi 1 i 1Mxi 1xi 1 i 1Mxi 2xi 1 i 1Mxi Nxi 1 i 1Mxi 2 i 1Mxi 1xi 2 i 1Mxi 2xi 2 i 1Mxi Nxi 2 i 1Mxi N i 1Mxi 1xi N i 1Mxi 2xi N i 1Mxi Nxi N displaystyle A left begin matrix M amp sum limits i 1 M x i 1 amp sum limits i 1 M x i 2 amp amp sum limits i 1 M x i N sum limits i 1 M x i 1 amp sum limits i 1 M x i 1 x i 1 amp sum limits i 1 M x i 2 x i 1 amp amp sum limits i 1 M x i N x i 1 sum limits i 1 M x i 2 amp sum limits i 1 M x i 1 x i 2 amp sum limits i 1 M x i 2 x i 2 amp amp sum limits i 1 M x i N x i 2 vdots amp vdots amp vdots amp ddots amp vdots sum limits i 1 M x i N amp sum limits i 1 M x i 1 x i N amp sum limits i 1 M x i 2 x i N amp amp sum limits i 1 M x i N x i N end matrix right to poluchaem matrichnoe uravnenie A X B displaystyle A times X B kotoroe legko reshaetsya metodom Gaussa Poluchennaya matrica budet matricej soderzhashej koefficienty uravneniya linii regressii X b0b1 bN displaystyle X left begin matrix b 0 b 1 vdots b N end matrix right Dlya polucheniya nailuchshih ocenok neobhodimo vypolnenie predposylok MNK uslovij Gaussa Markova V angloyazychnoj literature takie ocenki nazyvayutsya BLUE Best Linear Unbiased Estimators nailuchshie linejnye nesmeshyonnye ocenki Bolshinstvo issleduemyh zavisimostej mozhet byt predstavleno s pomoshyu MNK nelinejnymi matematicheskimi funkciyami Interpretaciya parametrov regressiiParametry bi displaystyle b i yavlyayutsya chastnymi koefficientami korrelyacii bi 2 displaystyle b i 2 interpretiruetsya kak dolya dispersii Y obyasnyonnaya Xi displaystyle X i pri zakreplenii vliyaniya ostalnyh prediktorov to est izmeryaet individualnyj vklad Xi displaystyle X i v obyasnenie Y V sluchae korreliruyushih prediktorov voznikaet problema neopredelyonnosti v ocenkah kotorye stanovyatsya zavisimymi ot poryadka vklyucheniya prediktorov v model V takih sluchayah neobhodimo primenenie metodov analiza korrelyacionnogo i poshagovogo regressionnogo analiza Govorya o nelinejnyh modelyah regressionnogo analiza vazhno obrashat vnimanie na to idyot li rech o nelinejnosti po nezavisimym peremennym s formalnoj tochki zreniya legko svodyashejsya k linejnoj regressii ili o nelinejnosti po ocenivaemym parametram vyzyvayushej seryoznye vychislitelnye trudnosti Pri nelinejnosti pervogo vida s soderzhatelnoj tochki zreniya vazhno vydelyat poyavlenie v modeli chlenov vida X1X2 displaystyle X 1 X 2 X1X2X3 displaystyle X 1 X 2 X 3 svidetelstvuyushee o nalichii vzaimodejstvij mezhdu priznakami X1 displaystyle X 1 X2 displaystyle X 2 i t d sm Multikollinearnost Sm takzheKorrelyaciya Multikollinearnost Avtokorrelyaciya Perekryostnaya proverka Linejnaya regressiya na korrelyaciiLiteraturaDrejper N Smit G Prikladnoj regressionnyj analiz Mnozhestvennaya regressiya Applied Regression Analysis 3 e izd M 2007 912 s ISBN 0 471 17082 8 Fyorster E Ryonc B Metody korrelyacionnogo i regressionnogo analiza Methoden der Korrelation und Regressiolynsanalyse M Finansy i statistika 1981 302 s Zaharov S I Holmskaya A G Povyshenie effektivnosti obrabotki signalov vibracii i shuma pri ispytaniyah mehanizmov Vestnik mashinostroeniya zhurnal M Mashinostroenie 2001 10 S 31 32 ISSN 0042 4633 Radchenko S G Ustojchivye metody ocenivaniya statisticheskih modelej Kiev PP Sansparel 2005 504 s ISBN 966 96574 0 7 UDK 519 237 5 515 126 2 BBK 22 172 22 152 Radchenko S G Metodologiya regressionnogo analiza Kiev Kornijchuk 2011 376 s ISBN 978 966 7599 72 0
