Відстань Кука

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

У статистиці відстань Кука є загальноприйнятою оцінкою впливу спостереження під час застосування методу найменших квадратів у регресійному аналізі.[1] На практиці, при застосуванні методу найменших квадратів, відстань Кука може використовуватися для наступних цілей: визначити впливові спостереження даних, які потрібно перевірити на валідність; визначення областей простору, у яких непогано було б отримати більше результатів спостереження. Відстань названа на честь американського статистика Ральфа Денніса Кука[en], який у 1977 році запропонував дану концепцію.[2][3]

Означення

[ред. | ред. код]

Дані з великими значеннями залишків (викиди) та/або великими значеннями важелів можуть спотворювати результати й точність регресійної моделі. Відстань Кука вимірює ефект видалення даного спостереження з вибірки. Вважається, що для спостережень з великою відстанню Кука доцільно проводити більш глибокий аналіз.

Для алгебраїчного представлення спочатку визначимо:

де  — похибки регресії, — параметри регресії,  — матриця регресорів із одиничним першим стовпчиком. Тоді оцінка коефіцієнтів регресії методом найменших квадратів  має представлення , а отже, відповідно, прогнозовані значення для  обчислюються за формулою:

де проєкційна матриця. Причому -тий діагональний елемент матриці , що обчислюється як ,[4] називається важелем -го спостереження. Аналогічно, -тий елемент вектора залишків має вигляд і позначається як .

Відстань Кука спостереження визначається як сума всіх змін у регресійній моделі, у разі видалення -го спостереження

де  — прогноз відгука, отриманий вилученням -го спостереження,

де  — середньоквадратична похибка регресійної моделі.[5]

Аналогічно, відстань Кука можна виразити через важелі

Визначення спостережень із великим впливом

[ред. | ред. код]

Існують різні припущення щодо того, які межі використовувати для виявлення точок із великим впливом. Пропонується, у разі ввжати спостереження впливовим.[6] Також, іноді використовується припущення, що слід враховувати , де  - кількість спостережень.[7]

Інтерпретація

[ред. | ред. код]

Зокрема,  можна інтерпретувати як відстань, яку проходить оцінка, в межах довірчого еліпсоїда, що є областю вірогідних значень параметра.[прояснити] Це показується за допомогою альтернативного, проте еквівалентного зображення відстані Кука в термінах зміни оцінки параметра у випадку включення та виключення конкретного спотсереження з регресіного аналізу.

Посилання

[ред. | ред. код]
  1. Mendenhall, William; Sincich, Terry (1996). A Second Course in Statistics: Regression Analysis (вид. 5th). Upper Saddle River, NJ: Prentice-Hall. с. 422. ISBN 0-13-396821-9. A measure of overall influence an outlying observation has on the estimated coefficients was proposed by R. D. Cook (1979). Cook's distance, Di, is calculated...
  2. Cook, R. Dennis (February 1977). Detection of Influential Observations in Linear Regression. Technometrics. American Statistical Association. 19 (1): 15—18. doi:10.2307/1268249. JSTOR 1268249. MR 0436478.
  3. Cook, R. Dennis (March 1979). Influential Observations in Linear Regression. Journal of the American Statistical Association. American Statistical Association. 74 (365): 169—174. doi:10.2307/2286747. JSTOR 2286747. MR 0529533.
  4. Hayashi, Fumio (2000). Econometrics. Princeton University Press. с. 21—23. Архів оригіналу за 28 травня 2016. Процитовано 24 грудня 2017.
  5. Statistics 512: Applied Linear Models (PDF). Purdue University. Архів оригіналу (PDF) за 30 листопада 2016. Процитовано 24 грудня 2017.
  6. Cook, R. Dennis; Weisberg, Sanford (1982). Residuals and Influence in Regression. New York, NY: Chapman & Hall. ISBN 0-412-24280-X. Архів оригіналу за 26 квітня 2016. Процитовано 24 грудня 2017.
  7. Bollen, Kenneth A.; Jackman, Robert W. (1990). Fox, John; Long, J. Scott (ред.). Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases. Newbury Park, CA: Sage. с. 257—91. ISBN 0-8039-3366-5.

Література

[ред. | ред. код]