국소 회귀

Local regression
균일한 노이즈가 추가된 사인파에서 샘플링된 모집단에 적합된 LOESS 곡선.LOESS 곡선은 원래 사인파에 근접합니다.

이동 [2]회귀라고도 하는 국소 회귀 또는 국소 다항식 [1]회귀는 이동 평균 [3]다항식 회귀의 일반화입니다.처음에는 산점도 평활을 위해 개발된 가장 일반적인 방법은 LOESS(로컬 추정 산점도 평활)와 LOWESS(로컬 가중 산점도 평활)이며, 둘 다 /loloss/로 발음됩니다.k-근접근접근 기반 메타 모델에서 여러 회귀 모델을 결합하는 두 가지 강력한 관련 비모수 회귀 방법이다.일부 분야에서 LOESS는 Savitzky-Golay 필터[4][5] 알려져 있으며 일반적으로 알려져 있습니다(LOESS보다 15년 전에 제안됨).

따라서 LOESS 및 LOWESS는 선형 및 비선형 최소 제곱법과 같은 "고전적" 방법을 기반으로 합니다.이들은 기존의 절차가 잘 수행되지 않거나 과도한 노동력 없이 효과적으로 적용될 수 없는 상황을 다룬다.LOESS는 선형 최소 제곱 회귀 분석의 많은 단순성과 비선형 회귀 분석의 유연성을 결합합니다.데이터 변동의 결정론적 부분을 설명하는 함수를 구축하기 위해 데이터의 국소화된 하위 집합에 간단한 모델을 적합시킴으로써 이를 실현합니다.사실, 이 방법의 주요 장점 중 하나는 데이터 분석가가 데이터에 모형을 적합시키기 위해 어떤 형태의 전역 함수를 지정할 필요가 없다는 것입니다. 다만 데이터의 세그먼트를 적합시키기 위해서입니다.

이러한 기능의 단점은 계산의 증가입니다.LOESS는 계산 부하가 높기 때문에 최소 제곱법이 개발되던 시대에는 실질적으로 사용이 불가능했을 것입니다.프로세스 모델링을 위한 다른 대부분의 최신 방법은 이 점에서 LOESS와 유사합니다.이러한 방법은 기존의 접근법으로는 쉽게 달성할 수 없는 목표를 달성하기 위해 현재의 계산 능력을 최대한 활용하도록 의식적으로 설계되었습니다.

특히 각 평활값이 Y축 산란도 기준변수 값의 범위에 걸쳐 가중치 2차 최소제곱법에 의해 주어질 때 이 통계기법으로 얻은 일련의 데이터 포인트를 통과하는 평활곡선을 황토곡선이라고 한다.각 평활값이 스팬에 걸쳐 가중 선형 최소 제곱법에 의해 주어지는 경우 이를 로우리스 곡선이라고 합니다. 그러나 일부 권위에서는 로우리스와 황토를 [6][7]동의어로 취급합니다.

모델 정의

1964년, Savitsky와 Golay는 LOESS와 동등한 방법을 제안하였는데, 이는 일반적으로 Savitsky-Golay 필터라고 한다.윌리엄 S. 클리블랜드는 1979년에 그 방법을 재발견하여 뚜렷한 이름을 붙였다.이 방법은 Cleveland와 Susan J. Devlin(1988)에 의해 추가로 개발되었다.LOWESS는 로컬 가중 다항식 회귀 분석이라고도 합니다.

데이터 세트 범위의 각 지점에서 저차 다항식이 데이터의 서브셋에 적합되며, 응답 추정 지점 근처에 설명 변수 값이 있습니다.다항식은 가중 최소 제곱을 사용하여 적합되므로 반응을 추정하는 점 근처의 점에는 더 많은 가중치를 부여하고 멀리 있는 점에는 더 적은 가중치를 부여합니다.그런 다음 해당 데이터 점에 대한 설명 변수 값을 사용하여 로컬 다항식을 평가하여 해당 점에 대한 회귀 함수 값을 구합니다.n개의 \n개의 포인트에 대해 회귀 함수 값이 계산되면 LOESS 적합이 완료됩니다.다항식 모델의 정도와 가중치와 같은 이 방법의 많은 세부 사항은 유연하다.메서드의 각 부분에 대한 선택 범위와 일반적인 기본값에 대해 다음에 간략히 설명합니다.

현지화된 데이터 서브셋

LOESS에서 적합된 각 가중 최소 제곱에 사용되는 데이터의 하위 집합은 가장 가까운 인접 알고리즘에 의해 결정됩니다."대역폭" 또는 "평활 파라미터"라고 불리는 절차에 대한 사용자 지정 입력에 따라 각 로컬 다항식에 맞는 데이터 양이 결정됩니다.스무딩 파라미터α \alpha는 각 로컬핏에 사용되는 데이터 포인트의 총수 n의 분수입니다.따라서 각 가중치 최소 제곱 적합치에 사용되는 데이터의 하위 집합은 설명 변수의 값이 [7]반응을 추정하는 지점에 가장 n개α( 정수로 반올림) 으로 구성된다.

k도 다항식은 적합에 k + 1점 이상이 필요하므로 평활 (+ +)/n(\사이여야 하며, {는 로컬 다항식의 정도를 나타냅니다.

α LOESS 회귀 함수의 유연성을 제어하기 때문에 스무딩 파라미터라고 불립니다.α 크면 데이터의 변동에 가장 적게 반응하는 부드러운 함수를 생성합니다.α 작을수록 회귀 함수가 데이터에 더 가깝습니다.그러나 평활화 모수 값을 너무 작게 사용하는 것은 바람직하지 않습니다. 왜냐하면 회귀 함수가 결국 데이터의 랜덤 오차를 캡처하기 시작하기 때문입니다.

국소 다항식의 정도

데이터의 각 부분 집합에 적합한 국소 다항식은 거의 항상 1차 또는 2차, 즉 국소 선형(직선 의미) 또는 국소 2차입니다.0도 다항식을 사용하면 LOESS가 가중 이동 평균으로 바뀝니다.이론적으로는 고차 다항식이 효과가 있지만 실제로는 LOESS 정신에 맞지 않는 수율 모형입니다. LOESS는 어떤 함수든 저차 다항식으로 소근처에서 잘 근사할 수 있고 간단한 모형도 데이터에 쉽게 적합할 수 있다는 생각에 기초하고 있습니다.고차 다항식은 각 부분 집합의 데이터를 과적합하는 경향이 있고 수치적으로 불안정하여 정확한 계산이 어렵습니다.

무게 함수

위에서 설명한 바와 같이 가중치 함수는 추정 지점에 가장 가까운 데이터 지점에 가장 많은 가중치를 부여하고 가장 먼 데이터 지점에 가장 작은 가중치를 부여합니다.가중치의 사용은 설명 가변 공간에서 서로 가까운 점이 더 멀리 떨어져 있는 점보다 서로 단순한 방식으로 관련이 있을 가능성이 높다는 생각에 기초한다.이 논리에 따르면 로컬 모형을 따를 가능성이 높은 점이 로컬 모형 모수 추정치에 가장 큰 영향을 미칩니다.실제로 로컬 모형을 준수할 가능성이 낮은 점은 로컬 모형 모수 추정치에 미치는 영향이 적습니다.

LOESS에 사용되는 전통적인 무게 함수는 트라이 큐브 무게 함수입니다.

여기서 d는 적합되는 곡선의 점으로부터 주어진 데이터 점의 거리로, 0 ~ [7]1의 범위에 오도록 축척됩니다.

그러나 클리블랜드(1979)에 열거된 특성을 충족하는 다른 체중 함수도 사용할 수 있다.로컬화된 데이터 하위 집합의 특정 지점에 대한 가중치는 데이터 하위 집합의 모든 지점에 걸친 최대 절대 거리가 정확히 1이 되도록 거리를 조정한 후 해당 지점과 추정 지점 사이의 거리에서 가중 함수를 평가하여 구한다.

x n\ x\mathbb 타겟 m(\ w { w}) {의 선형 회귀 모델을 다음과 같이 일반화합니다.이 가설에 한다고 가정합니다.\ ndisplaystyle ^{ 입력 파라미터와 마찬가지로 nn +에 x : ( ,x) \ ( 1, x ) 로서 입력공간 R n + ( 을 포함시킵니다

서 AA (+1)× ( +1){ 계수의 이며, { :}, {displaystyle i} {i} {displaystyle w {i} {i} {i} {i} {i} {dis} {displaystyle w} {i} {i} {i} {i} {i} {i} {i} {w{\w}는 메트릭이므로 대칭적인 양의 행렬이므로 w (\ w와 같은 대칭 h(\ h 있습니다.위의 손실 함수는 T ( ) ( ) ( T ) ( ) \ y으로써 트레이스로 재배열할 수 있습니다. x를 m × Y m N 행렬 Y(\ Yn+) 행렬 X(\ X의 열로 배열합니다위의 손실 함수는 다음과 같이 쓸 수 있습니다.

서 W W N × N(\ N) 행렬로, 엔트리는 displaystyle 입니다. A 대해 미분하여 0으로 설정하면 극단 행렬 방정식을 구할 수 있습니다.

정사각형 X^ ( ) ^ { ( ) { \ { } ^^^(가) 단일이 아닙니다. x (A) { {(는) 최소값에 도달합니다.

w( ,) { w, 인 선택은 가우스 무게입니다.

이점

위에서 설명한 바와 같이, LOESS가 다른 많은 방법보다 가장 큰 장점은 표본 데이터에 모형을 적합시키는 과정이 함수의 규격에서 시작되지 않는다는 것입니다.대신 분석가는 평활 모수 값과 로컬 다항식의 정도만 제공하면 됩니다.또한 LOESS는 매우 유연하기 때문에 이론적인 모델이 존재하지 않는 복잡한 프로세스를 모델링하는 데 이상적입니다.방법의 단순성과 결합된 이 두 가지 장점은 LOESS를 최소 제곱 회귀 분석의 일반적인 프레임워크에 적합하지만 복잡한 결정론적 구조를 가진 애플리케이션에 대한 가장 매력적인 최신 회귀 방법 중 하나로 만든다.

선형 최소 제곱법과 관련된 일부 다른 방법보다 명확하지 않지만, LOESS는 또한 이러한 절차에서 일반적으로 공유되는 대부분의 편익을 축적한다.그 중 가장 중요한 것은 예측과 교정을 위한 불확실성 계산을 위한 이론이다.최소 제곱 모형의 검증에 사용되는 다른 많은 검정 및 절차도 LOESS[citation needed] 모형으로 확장할 수 있습니다.

단점들

LOESS는 다른 최소 제곱 방법보다 데이터를 덜 효율적으로 사용합니다.좋은 모형을 만들기 위해서는 상당히 크고 조밀하게 표본 추출된 데이터 세트가 필요합니다.이는 LOESS가 로컬 피팅을 수행할 때 로컬 데이터 구조에 의존하기 때문입니다.따라서 LOESS는 더 큰 실험 [7]비용을 대가로 덜 복잡한 데이터 분석을 제공합니다.

LOESS의 또 다른 단점은 수학 공식으로 쉽게 표현되는 회귀 함수를 생성하지 못한다는 것입니다.이로 인해 분석 결과를 다른 사람에게 전달하는 것이 어려워질 수 있습니다.회귀 함수를 다른 사람에게 이전하려면 LOESS 계산을 위한 데이터 세트와 소프트웨어가 필요합니다.반면 비선형 회귀 분석에서는 미지의 모수와 추정된 불확실성의 추정치를 제공하기 위해 함수 형식만 적으면 된다.애플리케이션에 따라서는, 이것은 LOESS 의 사용에 있어서의 큰 단점도, 작은 단점도 있습니다.특히, LOESS의 단순한 형태는 적합 매개변수가 시스템의 특정 물리적 특성을 지정하는 기계적 모델링에 사용할 수 없다.

마지막으로, 위에서 설명한 바와 같이, LOESS는 계산 집약적인 방법이다(단, 회귀는 비원인 유한 임펄스 응답 필터로 표현될 수 있는 등간격 데이터를 제외한다).LOESS는 다른 최소 제곱 방법과 마찬가지로 데이터 집합의 특이치 효과도 받기 쉽습니다.특이치에 대한 LOESS의 민감도를 감소시키는 데 사용할 수 있는 반복적이고 강력한 버전의 LOESS [Cleveland (1979)]가 있지만, 너무 많은 극단적 특이치는 여전히 강력한 방법조차 극복할 수 있다.

「 」를 참조해 주세요.

레퍼런스

인용문

  1. ^ Fox & Weisberg 2018, 부록.
  2. ^ 하렐 2015, 페이지 29
  3. ^ 가리멜라 2017.
  4. ^ "Savitzky–Golay filtering – MATLAB sgolayfilt". Mathworks.com.
  5. ^ "scipy.signal.savgol_filter — SciPy v0.16.1 Reference Guide". Docs.scipy.org.
  6. ^ Kristen Pavlik, 미국 환경보호청, Loess(또는 Lowess), Nutrition Steps, 2016년 7월
  7. ^ a b c d NIST, "LOESS(LOESS, 일명 LOWESS)", 섹션 4.1.4.4, NIST/SEMATECH 통계방법 전자 핸드북(2017년 4월 14일 액세스)

원천

외부 링크

실장

Public Domain이 문서에는 미국 국립표준기술연구소 웹사이트 https://www.nist.gov의 퍼블릭 도메인 자료가 포함되어 있습니다.