통계 가설 [1][2]검정에서 귀무 [clarification needed][3]가설이 주어졌을 때 결과가 발생할 가능성이 매우 낮은 경우 통계적 의미가 있습니다.적어도 극단적인 결과를 얻는면 nullhypo 연구의 더욱 정확하게는 연구의 정의된 유의 수준, α{\displaystyle \alpha}에 의해 표시된 있는 확률은 공 가설은 귀무가설 사실이다 지정되[4]과 결과의 p값, p{p\displaystyle}, 부인하는 것이다 확률은,.월esis는 사실입니다.[5]결과는 p{\ p[6][7][8][9][10][11][12]일 때 연구의 표준에 따라 통계적으로 유의하다. 연구의 유의 수준은 데이터 수집 전에 선택되며,[14] 일반적으로 연구 분야에 따라 5%[13] 이하로 설정된다.

모집단에서 표본을 추출하는 것과 관련된 모든 실험이나 관측치에서는 [15][16]표본 추출 오차만으로 인해 관측된 효과가 발생할 가능성이 항상 있습니다.그러나 관측된 효과의 p-값이 유의 수준보다 작거나 같으면 효과가 전체 [1]모집단의 특성을 반영한다고 결론지을 수 있으므로 귀무 [17]가설을 기각할 수 있습니다.

결과의 통계적 유의성을 테스트하기 위한 이 기술은 20세기 초에 개발되었다.여기서 유의성이라는 용어는 중요성을 의미하지 않으며, 통계적 유의성이라는 용어는 연구 유의성, 이론적 유의성 또는 실제적 [1][2][18][19]유의성과 동일하지 않다.예를 들어 임상적 유의성이라는 용어는 치료 [20]효과의 실질적인 중요성을 의미한다.


통계적 유의성은 출생 시 인간 성비p-값을 계산한 John ArbuthnotPierre-Simon Laplace연구에서 1700년대까지 거슬러 올라간다. 자세한 내용은 [21][22][23][24][25][26][27]p-값 history 역사를 참조한다.

1925년 로널드 피셔는 그의 출판물인 Statistical Methods for Research [28][29][30]Workers에서 통계 가설 테스트의 개념을 발전시켰다.Fisher는 귀무 [31]가설을 기각하는 데 편리한 컷오프 수준으로 20분의 1(0.05)의 확률을 제안했습니다.1933년에 발표된 논문에서, Jerzy Neyman과 Egon Pearson은 이 컷오프를 유의 수준이라고 불렀고, 이를라고 데이터 [31][32]수집 전에 미리α \alpha 설정할 것을 합니다.

유의 수준으로서 0.05를 처음 제안했음에도 불구하고 Fisher는 이 컷오프 값을 고정할 의도가 없었다.1956년 발간된 '통계적 방법과 과학적 추론'에서 그는 특정 [31]상황에 따라 유의 수준을 설정할 것을 권고했다.

유의 이며, 이값 이하에서는 귀무 가설이 사실이라고 가정해도 기각되며, 다른 무언가가 진행되고 있습니다 α(\displaystyle 귀무 가설이 [4]참일 경우 귀무 가설이 잘못 거부될 확률이기도 .이를 false positive 및 type I 오류라고도 합니다.

때때로 연구자들은 대신 신뢰 수준 θ = (1 - α)에 대해 이야기한다.이것은 귀무 가설이 [33][34]참일 때 기각되지 않을 확률입니다.Neyman은 1937년에 신뢰수준과 신뢰구간을 도입했다.[35]

꼬리 검정에서 유의 수준 α = 0.05에 대한 제거 영역은 표본 분포의 양 끝에 분할되어 곡선 아래 영역(흰색 영역)의 5%를 구성합니다.

통계적 유의성은 통계적 가설 테스트에서 중추적인 역할을 한다.귀무 가설을 기각할지 또는 보존할지 여부를 결정하는 데 사용됩니다.귀무 가설은 아무 일도 일어나지 않았거나 [36]변경되지 않았다는 기본 가정입니다.귀무 가설이 기각되려면 관측 결과가 통계적으로 유의해야 한다. 즉, 관측된 p-값이 사전 지정된 유의 보다 작아야 한다

결과가 통계적으로 유의한지 여부를 확인하기 위해 연구자는 귀무 가설이 [5][12]참일 때 같은 크기 또는 더 극단적인 효과를 관측할 확률인 p-값을 계산합니다.p-값이 미리 결정된 보다 작거나 같으면 귀무 가설이 거부됩니다α \alpha유의 수준이라고도 하며, 이것이 참(타입 I 오류)인 경우 귀무 가설이 기각될 확률입니다.보통 5% 이하로 설정됩니다.

예를 들어α(\ 5%로 설정되어 경우, 귀무 가설이 참일 I형 오류조건부 확률은 5%[37]이며, 통계적으로 유의한 결과는 관측된 p-값이 5%[38] 미만(또는 동일)인 경우이다.표본에서 데이터를 추출할 때 이는 제거 영역이 표본 [39]분포의 5%를 차지함을 의미합니다.이들 5%는 한쪽 꼬리 테스트와 같이 표본 분포의 한쪽에 할당하거나, 양쪽 꼬리 테스트와 같이 분포의 양쪽에 분할할 수 있으며, 각 꼬리(또는 거부 영역)는 분포의 2.5%를 포함합니다.

한쪽 꼬리 테스트의 사용은 연구 문제 또는 대립 가설개체 그룹이 더 무거운지 또는 평가에서 학생들의 수행 능력이 [3]나은지 등의 방향을 지정하는지 여부에 따라 달라집니다.양쪽 꼬리 검정을 사용할 수는 있지만 한쪽 꼬리 검정의 제거 영역은 공 분포의 한쪽 끝에 집중되어 있고 양쪽 꼬리 검정의 경우 각 제거 영역의 크기(5% 대 2.5%)의 두 배이기 때문에 한쪽 꼬리 검정보다 검정력이 떨어집니다.결과적으로 한쪽 꼬리 [40]검정을 사용한 경우 귀무 가설을 덜 극단적인 결과로 기각할 수 있습니다.한쪽 꼬리 검정은 지정된 대립 가설의 방향이 올바른 경우에만 양쪽 꼬리 검정보다 강력합니다.그러나 이 테스트가 잘못된 경우 한쪽 끝 테스트는 검정력이 없습니다.

입자물리학제조같은 특정 분야에서 통계적 유의성은 종종 정규 분포의 표준 편차 또는 시그마(θ)의 배수로 표현되며 유의 임계값은 훨씬 엄격한 수준(예: 5µ)[41][42]으로 설정됩니다.예를 들어 힉스 입자의 존재 확실성은 350만분의 [42][43]1의 p-값에 해당하는 5µ 기준에 기초했다.

게놈 전체 연관 연구와 같은 다른 과학 연구 분야에서는 수행된 테스트 수가 매우 많기 때문에 5×10까지−8 낮은 유의 수준이 드물지 않습니다[44][45].

결과가 통계적으로 유의한지 여부에만 초점을 맞춘 연구자는 실질적이지[46] 않고 재현할 [47][48]수 없는 연구 결과를 보고할 수 있다.또한 통계적 유의성과 실제적 유의성 사이에는 차이가 있다.통계적으로 유의한 것으로 판명된 연구는 실질적으로 [49][19]유의하지 않을 수 있습니다.

효과 크기는 연구의 실제적 [49]유의성에 대한 측도입니다.통계적으로 유의한 결과는 약한 영향을 미칠 수 있습니다.연구 결과의 유의성을 측정하기 위해 연구자들은 항상 p-값과 함께 효과 크기를 보고하는 것이 좋습니다.효과 크기 측도는 두 평균 사이의 거리(cf)와 같은 효과의 강도를 표준 편차 단위로 수량화합니다.Cohen의 d) 두 변수 또는 변수 제곱 상관 계수 및 기타 측도.[50]


통계적으로 유의한 결과는 [48]재현하기가 쉽지 않을 수 있습니다.특히 통계적으로 유의한 결과 중 일부는 사실상 잘못된 긍정일 수 있습니다.결과를 재현하려는 시도가 실패할 때마다 결과가 잘못된 [51]양수일 가능성이 높아집니다.


2010년대부터 일부 저널은 유의성 테스트, 특히 임계값 α=5%를 사용하는 것이 [52]가설을 타당성을 측정하는 주요 척도로 너무 많이 의존하고 있는지에 대해 의문을 제기하기 시작했다.일부 저널은 저자들이 단순한 통계적 유의성 테스트보다 더 상세한 분석을 하도록 장려했다.사회심리학에서, Basic and Applied Social Psychology 저널은 저자들이 가설과 [54][55]영향을 평가하기 위해 다른 척도를 사용할 것을 요구하면서,[53] 출판된 논문에서 유의성 테스트의 사용을 전면 금지했다.

이 금지에 대해 논평하는 다른 편집자들은 다음과 같이 지적하고 있다. "기본 사회심리학 및 응용 사회심리학이 최근에 했던 것처럼 p-값의 보고를 금지하는 것은 단지 문제의 증상을 치료하는 것이기 때문에 문제를 해결하지 못할 것이다.저자, 검토자 및 작업 편집자가 [56]올바르게 사용하는 한 가설 테스트와 p-값 자체는 아무런 문제가 없습니다."일부 통계학자들은 우도비 또는 Bayes 요인과 [57]같은 증거의 대체 측도를 사용하는 것을 선호합니다.베이지안 통계를 사용하면 신뢰 수준을 피할 수 있지만, 추가적인 [57]가정을 해야 하며, 통계 [58]테스트와 관련된 관행을 반드시 개선하지는 않을 수 있다.

통계적 유의성의 광범위한 남용은 메타과학[59]중요한 연구 주제를 나타낸다.

2016년 미국통계협회(ASA)는 p-값에 대한 성명을 발표하면서 "과학적인 발견(또는 암묵적 진실)을 주장하기 위한 면허로 '통계적 유의성'(일반적으로 'p 0 0.05'로 해석됨)을 널리 사용하는 것은 과학적 과정의 상당한 왜곡을 초래한다"고 밝혔다.[57]2017년에 72명의 저자가 통계적 유의성에 대한 p-값 임계값을 0.05에서 [60]0.005로 변경하여 재현성을 향상할 것을 제안했다.다른 연구원들은 더욱 엄격한 중요성 임계값을 부과하는 데이터 준설 같은 문제들을 악화시킬;대체 제안들과 정당화하 data,[61]수집 또는 지속적인 지수로써 문턱과 통계적 중요성을 버리고 p-values을 해석하는 유연한 값에 대한 역 치를 선택할 있다고 답했다.[62]또한 0.005로 변경하면 잘못된 음성이 발생할 가능성이 높아지며, 따라서 연구 중인 효과는 실제이지만 검정에서는 이를 [63]보여주지 못합니다.

2019년에는 800명이 넘는 통계학자와 과학자가 [64]과학에서 "통계적 유의성"이라는 용어의 폐기를 촉구하는 메시지에 서명했으며, 미국 통계협회는 다음 사항을 선언하는 추가 공식 성명을 발표했다(2페이지).

이 특별호 및 더 넓은 문헌의 기사에 대한 우리의 검토에 근거하여, 우리는 "통계적으로 유의한"이라는 용어를 완전히 사용하는 것을 중단해야 할 때라고 결론짓는다.또한 "의미하게 다르다", " 0 { p0. 및 "nonsignificant"와 같은 변형은 말로 표현하든 표에서 별표로 표현하든 다른 방법으로 표현하든 존속해서는 안 된다.

