Відстань Кука
У статистиці відстань Кука є загальноприйнятою оцінкою впливу спостереження під час застосування методу найменших квадратів у регресійному аналізі.[1] На практиці, при застосуванні методу найменших квадратів, відстань Кука може використовуватися для наступних цілей: визначити впливові спостереження даних, які потрібно перевірити на валідність; визначення областей простору, у яких непогано було б отримати більше результатів спостереження. Відстань названа на честь американського статистика Ральфа Денніса Кука[en], який у 1977 році запропонував дану концепцію.[2][3]
Дані з великими значеннями залишків (викиди) та/або великими значеннями важелів можуть спотворювати результати й точність регресійної моделі. Відстань Кука вимірює ефект видалення даного спостереження з вибірки. Вважається, що для спостережень з великою відстанню Кука доцільно проводити більш глибокий аналіз.
Для алгебраїчного представлення спочатку визначимо:
де — похибки регресії, — параметри регресії, — матриця регресорів із одиничним першим стовпчиком. Тоді оцінка коефіцієнтів регресії методом найменших квадратів має представлення , а отже, відповідно, прогнозовані значення для обчислюються за формулою:
де — проєкційна матриця. Причому -тий діагональний елемент матриці , що обчислюється як ,[4] називається важелем -го спостереження. Аналогічно, -тий елемент вектора залишків має вигляд і позначається як .
Відстань Кука спостереження визначається як сума всіх змін у регресійній моделі, у разі видалення -го спостереження
де — прогноз відгука, отриманий вилученням -го спостереження,
де — середньоквадратична похибка регресійної моделі.[5]
Аналогічно, відстань Кука можна виразити через важелі
Існують різні припущення щодо того, які межі використовувати для виявлення точок із великим впливом. Пропонується, у разі ввжати спостереження впливовим.[6] Також, іноді використовується припущення, що слід враховувати , де - кількість спостережень.[7]
Зокрема, можна інтерпретувати як відстань, яку проходить оцінка, в межах довірчого еліпсоїда, що є областю вірогідних значень параметра.[прояснити] Це показується за допомогою альтернативного, проте еквівалентного зображення відстані Кука в термінах зміни оцінки параметра у випадку включення та виключення конкретного спотсереження з регресіного аналізу.
- ↑ Mendenhall, William; Sincich, Terry (1996). A Second Course in Statistics: Regression Analysis (вид. 5th). Upper Saddle River, NJ: Prentice-Hall. с. 422. ISBN 0-13-396821-9.
A measure of overall influence an outlying observation has on the estimated coefficients was proposed by R. D. Cook (1979). Cook's distance, Di, is calculated...
- ↑ Cook, R. Dennis (February 1977). Detection of Influential Observations in Linear Regression. Technometrics. American Statistical Association. 19 (1): 15—18. doi:10.2307/1268249. JSTOR 1268249. MR 0436478.
- ↑ Cook, R. Dennis (March 1979). Influential Observations in Linear Regression. Journal of the American Statistical Association. American Statistical Association. 74 (365): 169—174. doi:10.2307/2286747. JSTOR 2286747. MR 0529533.
- ↑ Hayashi, Fumio (2000). Econometrics. Princeton University Press. с. 21—23. Архів оригіналу за 28 травня 2016. Процитовано 24 грудня 2017.
- ↑ Statistics 512: Applied Linear Models (PDF). Purdue University. Архів оригіналу (PDF) за 30 листопада 2016. Процитовано 24 грудня 2017.
- ↑ Cook, R. Dennis; Weisberg, Sanford (1982). Residuals and Influence in Regression. New York, NY: Chapman & Hall. ISBN 0-412-24280-X. Архів оригіналу за 26 квітня 2016. Процитовано 24 грудня 2017.
- ↑ Bollen, Kenneth A.; Jackman, Robert W. (1990). Fox, John; Long, J. Scott (ред.). Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases. Newbury Park, CA: Sage. с. 257—91. ISBN 0-8039-3366-5.
- Atkinson, Anthony; Riani, Marco (2000). Deletion Diagnostics. Robust Diagnostics and Regression Analysis. New York: Springer. с. 22—25. ISBN 0-387-95017-6. Архів оригіналу за 2 травня 2016. Процитовано 11 січня 2018.
- Heiberger, Richard M.; Holland, Burt (2013). Case Statistics. Statistical Analysis and Data Display. Springer Science & Business Media. с. 312—27. ISBN 9781475742848. Архів оригіналу за 6 травня 2016. Процитовано 11 січня 2018.
- Krasker, William S.; Kuh, Edwin; Welsch, Roy E. (1983). Estimation for dirty data and flawed models. Handbook of Econometrics. Т. 1. Elsevier. с. 651—698. doi:10.1016/S1573-4412(83)01015-6.
- Aguinis, Herman; Gottfredson, Ryan K.; Joo, Harry (2013). Best-Practice Recommendations for Defining Identifying and Handling Outliers (PDF). Organizational Research Methods. Sage. 16 (2): 270—301. Архів оригіналу (PDF) за 12 січня 2018. Процитовано 11 січня 2018.