통계적 유의성

Statistical significance

통계 가설 [1][2]검정에서 귀무 [clarification needed][3]가설이 주어졌을 때 결과가 발생할 가능성이 매우 낮은 경우 통계적 의미가 있습니다.적어도 극단적인 결과를 얻는면 nullhypo 연구의 더욱 정확하게는 연구의 정의된 유의 수준, α{\displaystyle \alpha}에 의해 표시된 있는 확률은 공 가설은 귀무가설 사실이다 지정되[4]과 결과의 p값, p{p\displaystyle}, 부인하는 것이다 확률은,.월esis는 사실입니다.[5]결과는 p{\ p[6][7][8][9][10][11][12]일 때 연구의 표준에 따라 통계적으로 유의하다. 연구의 유의 수준은 데이터 수집 전에 선택되며,[14] 일반적으로 연구 분야에 따라 5%[13] 이하로 설정된다.

모집단에서 표본을 추출하는 것과 관련된 모든 실험이나 관측치에서는 [15][16]표본 추출 오차만으로 인해 관측된 효과가 발생할 가능성이 항상 있습니다.그러나 관측된 효과의 p-값이 유의 수준보다 작거나 같으면 효과가 전체 [1]모집단의 특성을 반영한다고 결론지을 수 있으므로 귀무 [17]가설을 기각할 수 있습니다.

결과의 통계적 유의성을 테스트하기 위한 이 기술은 20세기 초에 개발되었다.여기서 유의성이라는 용어는 중요성을 의미하지 않으며, 통계적 유의성이라는 용어는 연구 유의성, 이론적 유의성 또는 실제적 [1][2][18][19]유의성과 동일하지 않다.예를 들어 임상적 유의성이라는 용어는 치료 [20]효과의 실질적인 중요성을 의미한다.

역사

통계적 유의성은 출생 시 인간 성비p-값을 계산한 John ArbuthnotPierre-Simon Laplace연구에서 1700년대까지 거슬러 올라간다. 자세한 내용은 [21][22][23][24][25][26][27]p-값 history 역사를 참조한다.

1925년 로널드 피셔는 그의 출판물인 Statistical Methods for Research [28][29][30]Workers에서 통계 가설 테스트의 개념을 발전시켰다.Fisher는 귀무 [31]가설을 기각하는 데 편리한 컷오프 수준으로 20분의 1(0.05)의 확률을 제안했습니다.1933년에 발표된 논문에서, Jerzy Neyman과 Egon Pearson은 이 컷오프를 유의 수준이라고 불렀고, 이를라고 데이터 [31][32]수집 전에 미리α \alpha 설정할 것을 합니다.

유의 수준으로서 0.05를 처음 제안했음에도 불구하고 Fisher는 이 컷오프 값을 고정할 의도가 없었다.1956년 발간된 '통계적 방법과 과학적 추론'에서 그는 특정 [31]상황에 따라 유의 수준을 설정할 것을 권고했다.

관련 개념

유의 이며, 이값 이하에서는 귀무 가설이 사실이라고 가정해도 기각되며, 다른 무언가가 진행되고 있습니다 α(\displaystyle 귀무 가설이 [4]참일 경우 귀무 가설이 잘못 거부될 확률이기도 .이를 false positive 및 type I 오류라고도 합니다.

때때로 연구자들은 대신 신뢰 수준 θ = (1 - α)에 대해 이야기한다.이것은 귀무 가설이 [33][34]참일 때 기각되지 않을 확률입니다.Neyman은 1937년에 신뢰수준과 신뢰구간을 도입했다.[35]

통계 가설 검정에서의 역할

꼬리 검정에서 유의 수준 α = 0.05에 대한 제거 영역은 표본 분포의 양 끝에 분할되어 곡선 아래 영역(흰색 영역)의 5%를 구성합니다.

통계적 유의성은 통계적 가설 테스트에서 중추적인 역할을 한다.귀무 가설을 기각할지 또는 보존할지 여부를 결정하는 데 사용됩니다.귀무 가설은 아무 일도 일어나지 않았거나 [36]변경되지 않았다는 기본 가정입니다.귀무 가설이 기각되려면 관측 결과가 통계적으로 유의해야 한다. 즉, 관측된 p-값이 사전 지정된 유의 보다 작아야 한다

결과가 통계적으로 유의한지 여부를 확인하기 위해 연구자는 귀무 가설이 [5][12]참일 때 같은 크기 또는 더 극단적인 효과를 관측할 확률인 p-값을 계산합니다.p-값이 미리 결정된 보다 작거나 같으면 귀무 가설이 거부됩니다α \alpha유의 수준이라고도 하며, 이것이 참(타입 I 오류)인 경우 귀무 가설이 기각될 확률입니다.보통 5% 이하로 설정됩니다.

예를 들어α(\ 5%로 설정되어 경우, 귀무 가설이 참일 I형 오류조건부 확률은 5%[37]이며, 통계적으로 유의한 결과는 관측된 p-값이 5%[38] 미만(또는 동일)인 경우이다.표본에서 데이터를 추출할 때 이는 제거 영역이 표본 [39]분포의 5%를 차지함을 의미합니다.이들 5%는 한쪽 꼬리 테스트와 같이 표본 분포의 한쪽에 할당하거나, 양쪽 꼬리 테스트와 같이 분포의 양쪽에 분할할 수 있으며, 각 꼬리(또는 거부 영역)는 분포의 2.5%를 포함합니다.

한쪽 꼬리 테스트의 사용은 연구 문제 또는 대립 가설개체 그룹이 더 무거운지 또는 평가에서 학생들의 수행 능력이 [3]나은지 등의 방향을 지정하는지 여부에 따라 달라집니다.양쪽 꼬리 검정을 사용할 수는 있지만 한쪽 꼬리 검정의 제거 영역은 공 분포의 한쪽 끝에 집중되어 있고 양쪽 꼬리 검정의 경우 각 제거 영역의 크기(5% 대 2.5%)의 두 배이기 때문에 한쪽 꼬리 검정보다 검정력이 떨어집니다.결과적으로 한쪽 꼬리 [40]검정을 사용한 경우 귀무 가설을 덜 극단적인 결과로 기각할 수 있습니다.한쪽 꼬리 검정은 지정된 대립 가설의 방향이 올바른 경우에만 양쪽 꼬리 검정보다 강력합니다.그러나 이 테스트가 잘못된 경우 한쪽 끝 테스트는 검정력이 없습니다.

특정 필드의 중요도 임계값

입자물리학제조같은 특정 분야에서 통계적 유의성은 종종 정규 분포의 표준 편차 또는 시그마(θ)의 배수로 표현되며 유의 임계값은 훨씬 엄격한 수준(예: 5µ)[41][42]으로 설정됩니다.예를 들어 힉스 입자의 존재 확실성은 350만분의 [42][43]1의 p-값에 해당하는 5µ 기준에 기초했다.

게놈 전체 연관 연구와 같은 다른 과학 연구 분야에서는 수행된 테스트 수가 매우 많기 때문에 5×10까지−8 낮은 유의 수준이 드물지 않습니다[44][45].

제한 사항

결과가 통계적으로 유의한지 여부에만 초점을 맞춘 연구자는 실질적이지[46] 않고 재현할 [47][48]수 없는 연구 결과를 보고할 수 있다.또한 통계적 유의성과 실제적 유의성 사이에는 차이가 있다.통계적으로 유의한 것으로 판명된 연구는 실질적으로 [49][19]유의하지 않을 수 있습니다.

효과 크기

효과 크기는 연구의 실제적 [49]유의성에 대한 측도입니다.통계적으로 유의한 결과는 약한 영향을 미칠 수 있습니다.연구 결과의 유의성을 측정하기 위해 연구자들은 항상 p-값과 함께 효과 크기를 보고하는 것이 좋습니다.효과 크기 측도는 두 평균 사이의 거리(cf)와 같은 효과의 강도를 표준 편차 단위로 수량화합니다.Cohen의 d) 두 변수 또는 변수 제곱 상관 계수 및 기타 측도.[50]

재현성

통계적으로 유의한 결과는 [48]재현하기가 쉽지 않을 수 있습니다.특히 통계적으로 유의한 결과 중 일부는 사실상 잘못된 긍정일 수 있습니다.결과를 재현하려는 시도가 실패할 때마다 결과가 잘못된 [51]양수일 가능성이 높아집니다.

과제들

일부 저널에서의 과도한 사용

2010년대부터 일부 저널은 유의성 테스트, 특히 임계값 α=5%를 사용하는 것이 [52]가설을 타당성을 측정하는 주요 척도로 너무 많이 의존하고 있는지에 대해 의문을 제기하기 시작했다.일부 저널은 저자들이 단순한 통계적 유의성 테스트보다 더 상세한 분석을 하도록 장려했다.사회심리학에서, Basic and Applied Social Psychology 저널은 저자들이 가설과 [54][55]영향을 평가하기 위해 다른 척도를 사용할 것을 요구하면서,[53] 출판된 논문에서 유의성 테스트의 사용을 전면 금지했다.

이 금지에 대해 논평하는 다른 편집자들은 다음과 같이 지적하고 있다. "기본 사회심리학 및 응용 사회심리학이 최근에 했던 것처럼 p-값의 보고를 금지하는 것은 단지 문제의 증상을 치료하는 것이기 때문에 문제를 해결하지 못할 것이다.저자, 검토자 및 작업 편집자가 [56]올바르게 사용하는 한 가설 테스트와 p-값 자체는 아무런 문제가 없습니다."일부 통계학자들은 우도비 또는 Bayes 요인과 [57]같은 증거의 대체 측도를 사용하는 것을 선호합니다.베이지안 통계를 사용하면 신뢰 수준을 피할 수 있지만, 추가적인 [57]가정을 해야 하며, 통계 [58]테스트와 관련된 관행을 반드시 개선하지는 않을 수 있다.

통계적 유의성의 광범위한 남용은 메타과학[59]중요한 연구 주제를 나타낸다.

중요성의 재정의

2016년 미국통계협회(ASA)는 p-값에 대한 성명을 발표하면서 "과학적인 발견(또는 암묵적 진실)을 주장하기 위한 면허로 '통계적 유의성'(일반적으로 'p 0 0.05'로 해석됨)을 널리 사용하는 것은 과학적 과정의 상당한 왜곡을 초래한다"고 밝혔다.[57]2017년에 72명의 저자가 통계적 유의성에 대한 p-값 임계값을 0.05에서 [60]0.005로 변경하여 재현성을 향상할 것을 제안했다.다른 연구원들은 더욱 엄격한 중요성 임계값을 부과하는 데이터 준설 같은 문제들을 악화시킬;대체 제안들과 정당화하 data,[61]수집 또는 지속적인 지수로써 문턱과 통계적 중요성을 버리고 p-values을 해석하는 유연한 값에 대한 역 치를 선택할 있다고 답했다.[62]또한 0.005로 변경하면 잘못된 음성이 발생할 가능성이 높아지며, 따라서 연구 중인 효과는 실제이지만 검정에서는 이를 [63]보여주지 못합니다.

2019년에는 800명이 넘는 통계학자와 과학자가 [64]과학에서 "통계적 유의성"이라는 용어의 폐기를 촉구하는 메시지에 서명했으며, 미국 통계협회는 다음 사항을 선언하는 추가 공식 성명을 발표했다(2페이지).

이 특별호 및 더 넓은 문헌의 기사에 대한 우리의 검토에 근거하여, 우리는 "통계적으로 유의한"이라는 용어를 완전히 사용하는 것을 중단해야 할 때라고 결론짓는다.또한 "의미하게 다르다", " 0 { p0. 및 "nonsignificant"와 같은 변형은 말로 표현하든 표에서 별표로 표현하든 다른 방법으로 표현하든 존속해서는 안 된다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b c Sirkin, R. Mark (2005). "Two-sample t tests". Statistics for the Social Sciences (3rd ed.). Thousand Oaks, CA: SAGE Publications, Inc. pp. 271–316. ISBN 978-1-412-90546-6.
  2. ^ a b Borror, Connie M. (2009). "Statistical decision making". The Certified Quality Engineer Handbook (3rd ed.). Milwaukee, WI: ASQ Quality Press. pp. 418–472. ISBN 978-0-873-89745-7.
  3. ^ a b Myers, Jerome L.; Well, Arnold D.; Lorch Jr., Robert F. (2010). "Developing fundamentals of hypothesis testing using the binomial distribution". Research design and statistical analysis (3rd ed.). New York, NY: Routledge. pp. 65–90. ISBN 978-0-805-86431-1.
  4. ^ a b Dalgaard, Peter (2008). "Power and the computation of sample size". Introductory Statistics with R. Statistics and Computing. New York: Springer. pp. 155–56. doi:10.1007/978-0-387-79054-1_9. ISBN 978-0-387-79053-4.
  5. ^ a b "Statistical Hypothesis Testing". www.dartmouth.edu. Archived from the original on 2020-08-02. Retrieved 2019-11-11.
  6. ^ Johnson, Valen E. (October 9, 2013). "Revised standards for statistical evidence". Proceedings of the National Academy of Sciences. 110 (48): 19313–19317. Bibcode:2013PNAS..11019313J. doi:10.1073/pnas.1313476110. PMC 3845140. PMID 24218581.
  7. ^ Redmond, Carol; Colton, Theodore (2001). "Clinical significance versus statistical significance". Biostatistics in Clinical Trials. Wiley Reference Series in Biostatistics (3rd ed.). West Sussex, United Kingdom: John Wiley & Sons Ltd. pp. 35–36. ISBN 978-0-471-82211-0.
  8. ^ Cumming, Geoff (2012). Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. New York, USA: Routledge. pp. 27–28.
  9. ^ Krzywinski, Martin; Altman, Naomi (30 October 2013). "Points of significance: Significance, P values and t-tests". Nature Methods. 10 (11): 1041–1042. doi:10.1038/nmeth.2698. PMID 24344377.
  10. ^ Sham, Pak C.; Purcell, Shaun M (17 April 2014). "Statistical power and significance testing in large-scale genetic studies". Nature Reviews Genetics. 15 (5): 335–346. doi:10.1038/nrg3706. PMID 24739678. S2CID 10961123.
  11. ^ Altman, Douglas G. (1999). Practical Statistics for Medical Research. New York, USA: Chapman & Hall/CRC. pp. 167. ISBN 978-0412276309.
  12. ^ a b Devore, Jay L. (2011). Probability and Statistics for Engineering and the Sciences (8th ed.). Boston, MA: Cengage Learning. pp. 300–344. ISBN 978-0-538-73352-6.
  13. ^ Craparo, Robert M. (2007). "Significance level". In Salkind, Neil J. (ed.). Encyclopedia of Measurement and Statistics. Vol. 3. Thousand Oaks, CA: SAGE Publications. pp. 889–891. ISBN 978-1-412-91611-0.
  14. ^ Sproull, Natalie L. (2002). "Hypothesis testing". Handbook of Research Methods: A Guide for Practitioners and Students in the Social Science (2nd ed.). Lanham, MD: Scarecrow Press, Inc. pp. 49–64. ISBN 978-0-810-84486-5.
  15. ^ Babbie, Earl R. (2013). "The logic of sampling". The Practice of Social Research (13th ed.). Belmont, CA: Cengage Learning. pp. 185–226. ISBN 978-1-133-04979-1.
  16. ^ Faherty, Vincent (2008). "Probability and statistical significance". Compassionate Statistics: Applied Quantitative Analysis for Social Services (With exercises and instructions in SPSS) (1st ed.). Thousand Oaks, CA: SAGE Publications, Inc. pp. 127–138. ISBN 978-1-412-93982-9.
  17. ^ McKillup, Steve (2006). "Probability helps you make a decision about your results". Statistics Explained: An Introductory Guide for Life Scientists (1st ed.). Cambridge, United Kingdom: Cambridge University Press. pp. 44–56. ISBN 978-0-521-54316-3.
  18. ^ Myers, Jerome L.; Well, Arnold D.; Lorch Jr, Robert F. (2010). "The t distribution and its applications". Research Design and Statistical Analysis (3rd ed.). New York, NY: Routledge. pp. 124–153. ISBN 978-0-805-86431-1.
  19. ^ a b Hooper, Peter. "What is P-value?" (PDF). University of Alberta, Department of Mathematical and Statistical Sciences. Retrieved November 10, 2019.
  20. ^ Leung, W.-C. (2001-03-01). "Balancing statistical and clinical significance in evaluating treatment effects". Postgraduate Medical Journal. 77 (905): 201–204. doi:10.1136/pmj.77.905.201. ISSN 0032-5473. PMC 1741942. PMID 11222834.
  21. ^ Brian, Éric; Jaisson, Marie (2007). "Physico-Theology and Mathematics (1710–1794)". The Descent of Human Sex Ratio at Birth. Springer Science & Business Media. pp. 1–25. ISBN 978-1-4020-6036-6.
  22. ^ John Arbuthnot (1710). "An argument for Divine Providence, taken from the constant regularity observed in the births of both sexes" (PDF). Philosophical Transactions of the Royal Society of London. 27 (325–336): 186–190. doi:10.1098/rstl.1710.0011.
  23. ^ Conover, W.J. (1999), "Chapter 3.4: The Sign Test", Practical Nonparametric Statistics (Third ed.), Wiley, pp. 157–176, ISBN 978-0-471-16068-7
  24. ^ Sprent, P. (1989), Applied Nonparametric Statistical Methods (Second ed.), Chapman & Hall, ISBN 978-0-412-44980-2
  25. ^ Stigler, Stephen M. (1986). The History of Statistics: The Measurement of Uncertainty Before 1900. Harvard University Press. pp. 225–226. ISBN 978-0-67440341-3.
  26. ^ Bellhouse, P. (2001), "John Arbuthnot", in Statisticians of the Centuries by C.C. Heyde and E. Seneta, Springer, pp. 39–42, ISBN 978-0-387-95329-8
  27. ^ Hald, Anders (1998), "Chapter 4. Chance or Design: Tests of Significance", A History of Mathematical Statistics from 1750 to 1930, Wiley, p. 65
  28. ^ Cumming, Geoff (2011). "From null hypothesis significance to testing effect sizes". Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. Multivariate Applications Series. East Sussex, United Kingdom: Routledge. pp. 21–52. ISBN 978-0-415-87968-2.
  29. ^ Fisher, Ronald A. (1925). Statistical Methods for Research Workers. Edinburgh, UK: Oliver and Boyd. pp. 43. ISBN 978-0-050-02170-5.
  30. ^ Poletiek, Fenna H. (2001). "Formal theories of testing". Hypothesis-testing Behaviour. Essays in Cognitive Psychology (1st ed.). East Sussex, United Kingdom: Psychology Press. pp. 29–48. ISBN 978-1-841-69159-6.
  31. ^ a b c Quinn, Geoffrey R.; Keough, Michael J. (2002). Experimental Design and Data Analysis for Biologists (1st ed.). Cambridge, UK: Cambridge University Press. pp. 46–69. ISBN 978-0-521-00976-8.
  32. ^ Neyman, J.; Pearson, E.S. (1933). "The testing of statistical hypotheses in relation to probabilities a priori". Mathematical Proceedings of the Cambridge Philosophical Society. 29 (4): 492–510. Bibcode:1933PCPS...29..492N. doi:10.1017/S030500410001152X.
  33. ^ 통계적 유의성에 대한 결론은 신뢰구간을 통해 가능하다.만약 신뢰 수준 0효과의 값을 포함하지 않는다, 중요한 result." Prel, Jean-Baptist du, 직경 약 120km., 게르하르트, Röhrig, 베른트;Blettner, 마리아(2009년)은 가정할 수 있다."신뢰 인터벌 또는 P-Value?".Deutsches 온라인 Ärzteblatt.106(19):335–9. doi:10.3238/arztebl.2009.0335.PMC 2689604.PMID 19547734.
  34. ^ StatNews #73: 중복되는 신뢰 구간과 통계적 유의성
  35. ^ Neyman, J. (1937). "Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability". Philosophical Transactions of the Royal Society A. 236 (767): 333–380. Bibcode:1937RSPTA.236..333N. doi:10.1098/rsta.1937.0005. JSTOR 91337.
  36. ^ Meier, Kenneth J.; Brudney, Jeffrey L.; Bohte, John (2011). Applied Statistics for Public and Nonprofit Administration (3rd ed.). Boston, MA: Cengage Learning. pp. 189–209. ISBN 978-1-111-34280-7.
  37. ^ Healy, Joseph F. (2009). The Essentials of Statistics: A Tool for Social Research (2nd ed.). Belmont, CA: Cengage Learning. pp. 177–205. ISBN 978-0-495-60143-2.
  38. ^ McKillup, Steve (2006). Statistics Explained: An Introductory Guide for Life Scientists (1st ed.). Cambridge, UK: Cambridge University Press. pp. 32–38. ISBN 978-0-521-54316-3.
  39. ^ Health, David (1995). An Introduction To Experimental Design And Statistics For Biology (1st ed.). Boston, MA: CRC press. pp. 123–154. ISBN 978-1-857-28132-3.
  40. ^ Hinton, Perry R. (2010). "Significance, error, and power". Statistics explained (3rd ed.). New York, NY: Routledge. pp. 79–90. ISBN 978-1-848-72312-2.
  41. ^ Vaughan, Simon (2013). Scientific Inference: Learning from Data (1st ed.). Cambridge, UK: Cambridge University Press. pp. 146–152. ISBN 978-1-107-02482-3.
  42. ^ a b Bracken, Michael B. (2013). Risk, Chance, and Causation: Investigating the Origins and Treatment of Disease (1st ed.). New Haven, CT: Yale University Press. pp. 260–276. ISBN 978-0-300-18884-4.
  43. ^ Franklin, Allan (2013). "Prologue: The rise of the sigmas". Shifting Standards: Experiments in Particle Physics in the Twentieth Century (1st ed.). Pittsburgh, PA: University of Pittsburgh Press. pp. Ii–Iii. ISBN 978-0-822-94430-0.
  44. ^ Clarke, GM; Anderson, CA; Pettersson, FH; Cardon, LR; Morris, AP; Zondervan, KT (February 6, 2011). "Basic statistical analysis in genetic case-control studies". Nature Protocols. 6 (2): 121–33. doi:10.1038/nprot.2010.182. PMC 3154648. PMID 21293453.
  45. ^ Barsh, GS; Copenhaver, GP; Gibson, G; Williams, SM (July 5, 2012). "Guidelines for Genome-Wide Association Studies". PLOS Genetics. 8 (7): e1002812. doi:10.1371/journal.pgen.1002812. PMC 3390399. PMID 22792080.
  46. ^ Carver, Ronald P. (1978). "The Case Against Statistical Significance Testing". Harvard Educational Review. 48 (3): 378–399. doi:10.17763/haer.48.3.t490261645281841. S2CID 16355113.
  47. ^ Ioannidis, John P. A. (2005). "Why most published research findings are false". PLOS Medicine. 2 (8): e124. doi:10.1371/journal.pmed.0020124. PMC 1182327. PMID 16060722.
  48. ^ a b Amrhein, Valentin; Korner-Nievergelt, Fränzi; Roth, Tobias (2017). "The earth is flat (p > 0.05): significance thresholds and the crisis of unreplicable research". PeerJ. 5: e3544. doi:10.7717/peerj.3544. PMC 5502092. PMID 28698825.
  49. ^ a b Hojat, Mohammadreza; Xu, Gang (2004). "A Visitor's Guide to Effect Sizes". Advances in Health Sciences Education. 9 (3): 241–9. doi:10.1023/B:AHSE.0000038173.00909.f6. PMID 15316274. S2CID 8045624.
  50. ^ Pedhazur, Elazar J.; Schmelkin, Liora P. (1991). Measurement, Design, and Analysis: An Integrated Approach (Student ed.). New York, NY: Psychology Press. pp. 180–210. ISBN 978-0-805-81063-9.
  51. ^ Stahel, Werner (2016). "Statistical Issue in Reproducibility". Principles, Problems, Practices, and Prospects Reproducibility: Principles, Problems, Practices, and Prospects: 87–114. doi:10.1002/9781118865064.ch5. ISBN 9781118864975.
  52. ^ "CSSME Seminar Series: The argument over p-values and the Null Hypothesis Significance Testing (NHST) paradigm". www.education.leeds.ac.uk. School of Education, University of Leeds. Retrieved 2016-12-01.
  53. ^ Novella, Steven (February 25, 2015). "Psychology Journal Bans Significance Testing". Science-Based Medicine.
  54. ^ Woolston, Chris (2015-03-05). "Psychology journal bans P values". Nature. 519 (7541): 9. Bibcode:2015Natur.519....9W. doi:10.1038/519009f.
  55. ^ Siegfried, Tom (2015-03-17). "P value ban: small step for a journal, giant leap for science". Science News. Retrieved 2016-12-01.
  56. ^ Antonakis, John (February 2017). "On doing better science: From thrill of discovery to policy implications" (PDF). The Leadership Quarterly. 28 (1): 5–21. doi:10.1016/j.leaqua.2017.01.006.
  57. ^ a b c Wasserstein, Ronald L.; Lazar, Nicole A. (2016-04-02). "The ASA's Statement on p-Values: Context, Process, and Purpose". The American Statistician. 70 (2): 129–133. doi:10.1080/00031305.2016.1154108.
  58. ^ García-Pérez, Miguel A. (2016-10-05). "Thou Shalt Not Bear False Witness Against Null Hypothesis Significance Testing". Educational and Psychological Measurement. 77 (4): 631–662. doi:10.1177/0013164416668232. ISSN 0013-1644. PMC 5991793. PMID 30034024.
  59. ^ Ioannidis, John P. A.; Ware, Jennifer J.; Wagenmakers, Eric-Jan; Simonsohn, Uri; Chambers, Christopher D.; Button, Katherine S.; Bishop, Dorothy V. M.; Nosek, Brian A.; Munafò, Marcus R. (January 2017). "A manifesto for reproducible science". Nature Human Behaviour. 1: 0021. doi:10.1038/s41562-016-0021. PMC 7610724. PMID 33954258.
  60. ^ Benjamin, Daniel; et al. (2018). "Redefine statistical significance". Nature Human Behaviour. 1 (1): 6–10. doi:10.1038/s41562-017-0189-z. PMID 30980045.
  61. ^ Chawla, Dalmeet (2017). "'One-size-fits-all' threshold for P values under fire". Nature. doi:10.1038/nature.2017.22625.
  62. ^ Amrhein, Valentin; Greenland, Sander (2017). "Remove, rather than redefine, statistical significance". Nature Human Behaviour. 2 (1): 0224. doi:10.1038/s41562-017-0224-0. PMID 30980046. S2CID 46814177.
  63. ^ Vyse, Stuart (November 2017). "Moving Science's Statistical Goalposts". csicop.org. CSI. Retrieved 10 July 2018.
  64. ^ McShane, Blake; Greenland, Sander; Amrhein, Valentin (March 2019). "Scientists rise up against statistical significance". Nature. 567 (7748): 305–307. Bibcode:2019Natur.567..305A. doi:10.1038/d41586-019-00857-9. PMID 30894741.
  65. ^ Wasserstein, Ronald L.; Schirm, Allen L.; Lazar, Nicole A. (2019-03-20). "Moving to a World Beyond "p < 0.05"". The American Statistician. 73 (sup1): 1–19. doi:10.1080/00031305.2019.1583913.

추가 정보

외부 링크