การแก้ไขของเบสเซล


การแก้ไขความเบี่ยงเบนของความแปรปรวนของตัวอย่าง

ในทางสถิติการแก้ไขของเบสเซลคือการใช้n  − 1 แทนnในสูตรสำหรับความแปรปรวนของกลุ่มตัวอย่างและค่าเบี่ยงเบนมาตรฐานของกลุ่มตัวอย่าง [ 1]โดยที่nคือจำนวนการสังเกตในกลุ่มตัวอย่างวิธีนี้จะแก้ไขความลำเอียงในการประมาณค่าความแปรปรวนของกลุ่มตัวอย่าง นอกจากนี้ยังแก้ไขความลำเอียงบางส่วนในการประมาณค่าค่าเบี่ยงเบนมาตรฐานของกลุ่มตัวอย่างด้วย อย่างไรก็ตาม การแก้ไขมักจะเพิ่มข้อผิดพลาดเฉลี่ยกำลังสองในการประมาณค่าเหล่านี้ เทคนิคนี้ได้รับการตั้งชื่อตามฟรีดริช เบสเซล

การกำหนดสูตร

ในการประมาณ ค่า ความแปรปรวนของประชากรจากตัวอย่างเมื่อค่าเฉลี่ยของประชากรไม่เป็นที่ทราบ ค่าความแปรปรวนของตัวอย่างที่ไม่ได้รับการแก้ไขคือค่าเฉลี่ยของค่าเบี่ยงเบนกำลังสองของค่าตัวอย่างจากค่าเฉลี่ยของตัวอย่าง (กล่าวคือ การใช้ปัจจัยการคูณ 1/ n ) ในกรณีนี้ ค่าความแปรปรวนของตัวอย่างคือตัวประมาณค่าความแปรปรวนของประชากรที่มีอคติ การคูณค่าความแปรปรวนของตัวอย่างที่ไม่ได้รับการแก้ไขด้วยปัจจัย

1 {\displaystyle {\frac {n}{n-1}}}

ให้ ค่าประมาณ ที่ไม่เอนเอียงของความแปรปรวนของประชากร ในวรรณกรรมบางฉบับ[2] [3]ปัจจัยข้างต้นเรียกว่าการแก้ไขของเบสเซล

เราสามารถเข้าใจการแก้ไขของ Bessel ได้ว่าเป็นระดับอิสระใน เวกเตอร์ ค่าคงเหลือ (ค่าคงเหลือ ไม่ใช่ข้อผิดพลาด เพราะค่าเฉลี่ยของประชากรไม่เป็นที่ทราบ):

- เอ็กซ์ 1 เอ็กซ์ ¯ - - - เอ็กซ์ เอ็กซ์ ¯ - - {\displaystyle (x_{1}-{\overline {x}},\,\dots ,\,x_{n}-{\overline {x}}),}

โดยที่เป็นค่าเฉลี่ยของกลุ่มตัวอย่าง แม้ว่าจะมี ค่าสังเกตอิสระ nรายการในกลุ่มตัวอย่าง แต่มี ค่าเหลืออิสระเพียง n  − 1 รายการเท่านั้น เนื่องจากผลรวมเป็น 0 สำหรับคำอธิบายที่ชัดเจนยิ่งขึ้นเกี่ยวกับความจำเป็นในการแก้ไขของเบสเซล โปรดดูที่ § แหล่งที่มาของอคติ เอ็กซ์ ¯ {\displaystyle {\overline {x}}}

โดยทั่วไปการแก้ไขของเบสเซลเป็นแนวทางในการลดอคติที่เกิดจากขนาดตัวอย่างจำกัด การแก้ไขอคติตัวอย่างจำกัดดังกล่าวยังจำเป็นสำหรับการประมาณค่าอื่นๆ เช่นความเบ้และความเบ้แต่ในกรณีเหล่านี้ ความไม่แม่นยำมักจะใหญ่กว่าอย่างมาก เพื่อขจัดอคติดังกล่าวออกไปอย่างสมบูรณ์ จำเป็นต้องทำการประมาณค่าหลายพารามิเตอร์ที่ซับซ้อนมากขึ้น ตัวอย่างเช่น การแก้ไขที่ถูกต้องสำหรับค่าเบี่ยงเบนมาตรฐานขึ้นอยู่กับความเบ้ (โมเมนต์กลางที่ 4 ที่ปรับมาตรฐานแล้ว) แต่สิ่งนี้ยังมีอคติตัวอย่างจำกัดและขึ้นอยู่กับค่าเบี่ยงเบนมาตรฐาน กล่าวคือ การประมาณค่าทั้งสองจะต้องรวมกัน

ข้อควรระวัง

มีข้อควรระวัง สามประการ ที่ต้องพิจารณาเกี่ยวกับการแก้ไขของ Bessel:

  1. จะไม่ทำให้เกิดค่าประมาณค่าเบี่ยงเบนมาตรฐาน ที่ไม่เอนเอียง
  2. ตัวประมาณที่ได้รับการแก้ไขมักจะมีข้อผิดพลาดกำลังสองเฉลี่ย (MSE) สูงกว่าตัวประมาณที่ไม่ได้ได้รับ การแก้ไข [4]นอกจากนี้ ยังไม่มีการกระจายประชากรใดที่มี MSE ขั้นต่ำ เนื่องจากสามารถเลือกปัจจัยมาตราส่วนอื่นเพื่อลด MSE ให้น้อยที่สุดได้เสมอ
  3. จำเป็นเฉพาะเมื่อค่าเฉลี่ยของประชากรไม่เป็นที่ทราบ (และประมาณเป็นค่าเฉลี่ยของกลุ่มตัวอย่าง) โดยทั่วไปแล้ว ในทางปฏิบัติ สิ่งนี้จะเกิดขึ้น

ประการแรก ในขณะที่ความแปรปรวนของกลุ่มตัวอย่าง (โดยใช้การแก้ไขของ Bessel) เป็นตัวประมาณค่าที่ไม่เอนเอียงของความแปรปรวนของประชากรรากที่สอง ของตัวประมาณค่านี้ ซึ่งก็คือค่าเบี่ยงเบนมาตรฐานของกลุ่มตัวอย่าง เป็นตัวประมาณ ค่าเบี่ยงเบน มาตรฐานของประชากรแบบเอนเอียง เนื่องจากรากที่สองเป็นฟังก์ชันเว้า ค่าเบี่ยงเบนมาตรฐานจึงลดลงตามความไม่เท่าเทียมของเจนเซนไม่มีสูตรทั่วไปสำหรับตัวประมาณค่าที่ไม่เอนเอียงของค่าเบี่ยงเบนมาตรฐานของประชากร แม้ว่าจะมีปัจจัยการแก้ไขสำหรับการแจกแจงเฉพาะ เช่น ค่าปกติ ดูการประมาณค่าที่ไม่เอนเอียงของค่าเบี่ยงเบนมาตรฐานสำหรับรายละเอียด การประมาณค่าปัจจัยการแก้ไขที่แน่นอนสำหรับการแจกแจงปกตินั้นกำหนดโดยใช้n  − 1.5 ในสูตร ค่าเบี่ยงเบนจะสลายตัวเป็นกำลังสอง (แทนที่จะเป็นเชิงเส้น เช่น ในรูปแบบที่ไม่ได้รับการแก้ไขและรูปแบบที่ได้รับการแก้ไขของ Bessel)

ประการที่สอง ตัวประมาณค่าที่ไม่เอนเอียงจะไม่ลดค่าความผิดพลาดเฉลี่ยกำลังสอง (MSE) ให้เหลือน้อยที่สุด และโดยทั่วไปจะมี MSE แย่กว่าตัวประมาณค่าที่ไม่ได้รับการแก้ไข (ค่านี้จะแตกต่างกันไปตามค่าความเบ้ที่มากเกินไป ) MSE สามารถลดให้เหลือน้อยที่สุดได้โดยใช้ปัจจัยอื่น ค่าที่เหมาะสมที่สุดขึ้นอยู่กับค่าความเบ้ที่มากเกินไป ดังที่ได้อธิบายไว้ในค่าความผิดพลาดเฉลี่ยกำลังสอง: ความแปรปรวนสำหรับการแจกแจงแบบปกติ ค่าที่เหมาะสมที่สุดจะอยู่ที่การหารด้วยn  + 1 (แทนที่จะเป็นn  − 1 หรือn )

ประการที่สาม การแก้ไขของเบสเซลจำเป็นเฉพาะเมื่อค่าเฉลี่ยของประชากรไม่เป็นที่ทราบ และมีการประมาณค่าเฉลี่ยของประชากรและความแปรปรวนของประชากรจากตัวอย่างที่กำหนด โดยใช้ค่าเฉลี่ยของตัวอย่างเพื่อประมาณค่าเฉลี่ยของประชากร ในกรณีนั้น มี องศาอิสระ nองศาในตัวอย่างnจุด และการประมาณค่าเฉลี่ยและค่าเฉลี่ยความแปรปรวนพร้อมกันนั้น องศาอิสระหนึ่งองศาจะไปที่ค่าเฉลี่ยของตัวอย่าง และองศาอิสระที่เหลือn -  1 องศาจะไปที่ความแปรปรวนของตัวอย่าง อย่างไรก็ตาม หากทราบค่าเฉลี่ยของประชากรแล้ว การเบี่ยงเบนของค่าสังเกตจากค่าเฉลี่ยของประชากรจะมี องศาอิสระ nองศา (เนื่องจากไม่มีการประมาณค่าเฉลี่ย – การเบี่ยงเบนไม่ใช่ค่าที่เหลือ แต่เป็นข้อผิดพลาด ) และการแก้ไขของเบสเซลจะใช้ไม่ได้

แหล่งที่มาของอคติ

ไทย เพื่อให้เข้าใจถึงอคติที่ต้องแก้ไขได้ง่ายที่สุด ให้ลองนึกถึงกรณีที่รุนแรงที่สุด สมมติว่าประชากรคือ (0,0,0,1,2,9) ซึ่งมีค่าเฉลี่ยประชากรเท่ากับ 2 และความแปรปรวนของประชากรเท่ากับn ตัวอย่างที่n = 1 ถูกสร้างขึ้น และปรากฏว่าค่าประมาณที่ดีที่สุดของค่าเฉลี่ยประชากรคือแต่จะเกิดอะไรขึ้นถ้าเราใช้สูตรเพื่อประมาณความแปรปรวน ค่าประมาณของความแปรปรวนจะเป็นศูนย์ และค่าประมาณจะเป็นศูนย์สำหรับประชากรใดๆ และตัวอย่างใดๆ ที่n = 1 ปัญหาคือในการประมาณค่าเฉลี่ยของกลุ่มตัวอย่าง กระบวนการได้ทำให้ค่าประมาณค่าเฉลี่ยของเราใกล้เคียงกับค่าที่เราสุ่มตัวอย่างไปแล้ว ซึ่งเหมือนกันสำหรับn = 1 ในกรณีของn = 1 ไม่สามารถประมาณความแปรปรวนได้ เนื่องจากไม่มีความแปรปรวนในกลุ่มตัวอย่าง 31 - 3 {\displaystyle 31/3} เอ็กซ์ 1 - 0. {\displaystyle x_{1}=0.} เอ็กซ์ ¯ - เอ็กซ์ 1 - - 0 - 1 - 0. {\displaystyle \bar {x}}=x_{1}/n=0/1=0.} - เอ็กซ์ 1 เอ็กซ์ ¯ - 2 - - - 0 0 - - 1 - 0 {\displaystyle (x_{1}-{\bar {x}})^{2}/n=(0-0)/1=0}

แต่พิจารณาn = 2 สมมติว่ากลุ่มตัวอย่างคือ (0, 2) จากนั้นและแต่มีการแก้ไขของเบสเซลซึ่งเป็นการประมาณค่าแบบไม่เอนเอียง (หากใช้กลุ่มตัวอย่างที่เป็นไปได้ทั้งหมดของn = 2 และใช้วิธีนี้ การประมาณค่าเฉลี่ยจะเท่ากับ 12.4 เหมือนกับความแปรปรวนของกลุ่มตัวอย่างที่มีการแก้ไขของเบสเซล) เอ็กซ์ ¯ - 1 {\displaystyle {\bar {x}}=1} - - เอ็กซ์ 1 เอ็กซ์ ¯ - 2 - - เอ็กซ์ 2 เอ็กซ์ ¯ - 2 - - - - 1 - 1 - - 2 - 1 {\displaystyle \left[(x_{1}-{\bar {x}})^{2}+(x_{2}-{\bar {x}})^{2}\right]/n=(1+1)/2=1} - - เอ็กซ์ 1 เอ็กซ์ ¯ - 2 - - เอ็กซ์ 2 เอ็กซ์ ¯ - 2 - - - 1 - - - 1 - 1 - - 1 - 2 {\displaystyle \left[(x_{1}-{\bar {x}})^{2}+(x_{2}-{\bar {x}})^{2}\right]/(n-1)=(1+1)/1=2}

หากต้องการดูรายละเอียดเพิ่มเติม โปรดพิจารณาตัวอย่างต่อไปนี้ สมมติว่าค่าเฉลี่ยของประชากรทั้งหมดคือ 2,050 แต่สถิติกรไม่ทราบค่าดังกล่าว และต้องประมาณค่าโดยใช้กลุ่มตัวอย่างขนาดเล็กที่เลือกมาแบบสุ่มจากประชากร:

2051 - 2053 - 2055 - 2050 - 2051 {\displaystyle 2051,\quad 2053,\quad 2055,\quad 2050,\quad 2051}

อาจคำนวณค่าเฉลี่ยของตัวอย่างได้ดังนี้:

1 5 - 2051 - 2053 - 2055 - 2050 - 2051 - - 2052 {\displaystyle {\frac {1}{5}}\left(2051+2053+2055+2050+2051\ขวา)=2052}

สิ่งนี้อาจใช้เป็นค่าประมาณที่สังเกตได้ของค่าเฉลี่ยประชากรที่สังเกตไม่ได้ ซึ่งก็คือปี 2050 ขณะนี้ เรากำลังเผชิญกับปัญหาในการประมาณค่าความแปรปรวนของประชากร ซึ่งก็คือค่าเฉลี่ยของกำลังสองของค่าเบี่ยงเบนจากปี 2050 หากเรารู้ว่าค่าเฉลี่ยของประชากรคือปี 2050 เราสามารถดำเนินการดังต่อไปนี้:

1 5 - - 2051 2050 - 2 - - 2053 2050 - 2 - - 2055 2050 - 2 - - 2050 2050 - 2 - - 2051 2050 - 2 - - 36 5 - 7.2 {\displaystyle {\begin{จัดแนว}{}&{\frac {1}{5}}\left[(2051-2050)^{2}+(2053-2050)^{2}+(2055-2050)^{2}+(2050-2050)^{2}+(2051-2050)^{2}\right]\\[6pt]={}&{\frac {36}{5}}=7.2\end{จัดแนว}}}

แต่การประมาณค่าเฉลี่ยของประชากรของเราคือค่าเฉลี่ยของกลุ่มตัวอย่างคือปี 2052 ค่าเฉลี่ยที่แท้จริงคือปี 2050 นั้นไม่ทราบแน่ชัด ดังนั้นต้องใช้ค่าเฉลี่ยของกลุ่มตัวอย่างคือปี 2052

1 5 - - 2051 2052 - 2 - - 2053 2052 - 2 - - 2055 2052 - 2 - - 2050 2052 - 2 - - 2051 2052 - 2 - - 16 5 - 3.2 {\displaystyle {\begin{จัดแนว}{}&{\frac {1}{5}}\left[(2051-2052)^{2}+(2053-2052)^{2}+(2055-2052)^{2}+(2050-2052)^{2}+(2051-2052)^{2}\right]\\[6pt]={}&{\frac {16}{5}}=3.2\end{จัดแนว}}}

ความแปรปรวนมีค่าน้อยลง และ (เกือบ) จะเป็นแบบนั้นเสมอ ข้อยกเว้นเดียวจะเกิดขึ้นเมื่อค่าเฉลี่ยของกลุ่มตัวอย่างและค่าเฉลี่ยของกลุ่มประชากรมีค่าเท่ากัน เพื่อทำความเข้าใจว่าเหตุใดจึงเป็นเช่นนั้น โปรดพิจารณาว่าความแปรปรวนวัดระยะทางจากจุดหนึ่งและภายในกลุ่มตัวอย่างที่กำหนด ค่าเฉลี่ยคือจุดที่ลดระยะทางให้น้อยที่สุด การคำนวณความแปรปรวนโดยใช้ ค่าเฉลี่ยอื่น ใดจะต้องให้ผลลัพธ์ที่มากขึ้น

เพื่อดูสิ่งนี้ในเชิงพีชคณิต เราใช้เอกลักษณ์แบบง่าย ๆ :

- เอ - บี - 2 - เอ 2 - 2 เอ บี - บี 2 {\displaystyle (a+b)^{2}=a^{2}+2ab+b^{2}}

โดยแสดงค่าเบี่ยงเบนของตัวอย่างแต่ละตัวอย่างจากค่าเฉลี่ยของตัวอย่าง และแสดงค่าเบี่ยงเบนของค่าเฉลี่ยของตัวอย่างจากค่าเฉลี่ยของประชากร โปรดทราบว่าเราได้แยกค่าเบี่ยงเบนจริงของตัวอย่างแต่ละตัวอย่างจากค่าเฉลี่ยของประชากร (ที่ไม่ทราบค่า) ออกเป็นสองส่วน ได้แก่ ค่าเบี่ยงเบนของตัวอย่างเดี่ยวจากค่าเฉลี่ยของตัวอย่าง ซึ่งเราสามารถคำนวณได้ และความเบี่ยงเบนเพิ่มเติมของค่าเฉลี่ยของตัวอย่างจากค่าเฉลี่ยของประชากร ซึ่งเราไม่สามารถคำนวณได้ ตอนนี้ เราใช้เอกลักษณ์นี้กับกำลังสองของค่าเบี่ยงเบนจากค่าเฉลี่ยของประชากร: เอ {\displaystyle ก} บี {\displaystyle ข}

- 2053 2050 การเบี่ยงเบนจาก ประชากร หมายถึง - 2 - - - 2053 2052 การเบี่ยงเบนจาก ค่าเฉลี่ยตัวอย่าง - นี่คือ  เอ - - - 2052 2050 - นี่คือ  บี - - 2 - - 2053 2052 - 2 นี่คือ  เอ 2 - - 2 - 2053 2052 - - 2052 2050 - นี่คือ  2 เอ บี - - - 2052 2050 - 2 นี่คือ  บี 2 - {\displaystyle {\begin{aligned}{[}\,\underbrace {2053-2050} _{\begin{smallmatrix}{\text{Deviation from}}\\{\text{the population}}\\{\text{mean}}\end{smallmatrix}}\,]^{2}&=[\,\overbrace {(\,\underbrace {2053-2052} _{\begin{smallmatrix}{\text{Deviation from}}\\{\text{the sample mean}}\end{smallmatrix}}\,)} ^{{\text{This is }}a.}+\overbrace {(2052-2050)} ^{{\text{This is }}b.}\,]^{2}\\&=\overbrace {(2053-2052)^{2}} ^{{\text{This is }}a^{2}.}+\overbrace {2(2053-2052)(2052-2050)} ^{{\text{This is }}2ab.}+\overbrace {(2052-2050)^{2}} ^{{\text{This is }}b^{2}.}\end{aligned}}}

ตอนนี้ให้นำสิ่งนี้ไปใช้กับข้อสังเกตทั้งห้าประการและสังเกตรูปแบบบางอย่าง:

( 2051 2052 ) 2 This is  a 2 .   +   2 ( 2051 2052 ) ( 2052 2050 ) This is  2 a b .   +   ( 2052 2050 ) 2 This is  b 2 . ( 2053 2052 ) 2   +   2 ( 2053 2052 ) ( 2052 2050 )   +   ( 2052 2050 ) 2 ( 2055 2052 ) 2   +   2 ( 2055 2052 ) ( 2052 2050 )   +   ( 2052 2050 ) 2 ( 2050 2052 ) 2   +   2 ( 2050 2052 ) ( 2052 2050 )   +   ( 2052 2050 ) 2 ( 2051 2052 ) 2   +   2 ( 2051 2052 ) ( 2052 2050 ) The sum of the entries in this middle column must be 0.   +   ( 2052 2050 ) 2 {\displaystyle {\begin{alignedat}{2}\overbrace {(2051-2052)^{2}} ^{{\text{This is }}a^{2}.}\ &+\ \overbrace {2(2051-2052)(2052-2050)} ^{{\text{This is }}2ab.}\ &&+\ \overbrace {(2052-2050)^{2}} ^{{\text{This is }}b^{2}.}\\(2053-2052)^{2}\ &+\ 2(2053-2052)(2052-2050)\ &&+\ (2052-2050)^{2}\\(2055-2052)^{2}\ &+\ 2(2055-2052)(2052-2050)\ &&+\ (2052-2050)^{2}\\(2050-2052)^{2}\ &+\ 2(2050-2052)(2052-2050)\ &&+\ (2052-2050)^{2}\\(2051-2052)^{2}\ &+\ \underbrace {2(2051-2052)(2052-2050)} _{\begin{smallmatrix}{\text{The sum of the entries in this}}\\{\text{middle column must be 0.}}\end{smallmatrix}}\ &&+\ (2052-2050)^{2}\end{alignedat}}}

ผลรวมของรายการในคอลัมน์กลางจะต้องเป็นศูนย์เนื่องจากพจน์aจะถูกเพิ่มเข้าไปในทั้ง 5 แถว ซึ่งจะต้องเท่ากับศูนย์ เนื่องจากaประกอบด้วยตัวอย่างแยกกัน 5 ตัวอย่าง (ด้านซ้ายภายในวงเล็บ) ซึ่งเมื่อบวกกันแล้ว จะมีผลรวมเท่ากับการบวก 5 เท่าของค่าเฉลี่ยของตัวอย่างจาก 5 ตัวเลขนั้น (2052) ซึ่งหมายความว่าการลบผลรวมทั้งสองนี้จะต้องเท่ากับศูนย์ ตัวประกอบ 2 และพจน์ b ในคอลัมน์กลางจะเท่ากันสำหรับทุกแถว ซึ่งหมายความว่าความแตกต่างสัมพัทธ์ระหว่างแถวทั้งหมดในคอลัมน์กลางจะยังคงเท่าเดิมและจึงสามารถละเว้นได้ ข้อความต่อไปนี้จะอธิบายความหมายของคอลัมน์ที่เหลือ:

  • ผลรวมของรายการในคอลัมน์แรก ( a 2 ) คือผลรวมของกำลังสองของระยะทางจากตัวอย่างถึงค่าเฉลี่ยของตัวอย่าง
  • ผลรวมของรายการในคอลัมน์สุดท้าย ( b 2 ) คือผลรวมของระยะทางยกกำลังสองระหว่างค่าเฉลี่ยของกลุ่มตัวอย่างที่วัดได้และค่าเฉลี่ยของประชากรที่ถูกต้อง
  • ในแต่ละแถวประกอบด้วยคู่ของ2 (มีอคติ เนื่องจากใช้ค่าเฉลี่ยของกลุ่มตัวอย่าง) และb 2 (การแก้ไขอคติ เนื่องจากนำความแตกต่างระหว่างค่าเฉลี่ย ของประชากร "จริง" และค่าเฉลี่ยของกลุ่มตัวอย่างที่ไม่แม่นยำมาพิจารณา) ดังนั้นผลรวมของรายการทั้งหมดในคอลัมน์แรกและคอลัมน์สุดท้ายจึงแสดงถึงความแปรปรวนที่ถูกต้อง ซึ่งหมายความว่าผลรวมของระยะทางยกกำลังสองระหว่างกลุ่มตัวอย่างและค่าเฉลี่ยของประชากรจะถูกใช้
  • ผลรวมของ คอลัมน์ a 2และคอลัมน์ b 2จะต้องมากกว่าผลรวมภายในรายการของ คอลัมน์ a 2เนื่องจากรายการทั้งหมดภายในคอลัมน์ b 2จะเป็นค่าบวก (ยกเว้นเมื่อค่าเฉลี่ยของประชากรเท่ากับค่าเฉลี่ยของกลุ่มตัวอย่าง ซึ่งในกรณีนี้ตัวเลขทั้งหมดในคอลัมน์สุดท้ายจะเป็น 0)

ดังนั้น:

  • ผลรวมของกำลังสองของระยะทางจากกลุ่มตัวอย่างถึงค่า เฉลี่ย ประชากรจะมากกว่าผลรวมของกำลังสองของระยะทางถึง ค่าเฉลี่ย กลุ่มตัวอย่าง เสมอ ยกเว้นเมื่อค่าเฉลี่ยกลุ่มตัวอย่างบังเอิญเท่ากับค่าเฉลี่ยประชากร ซึ่งในกรณีนี้ทั้งสองจะเท่ากัน

ดังนั้นผลรวมของกำลังสองของค่าเบี่ยงเบนจาก ค่าเฉลี่ยของ กลุ่มตัวอย่างจึงน้อยเกินไปที่จะให้ค่าประมาณความแปรปรวนของประชากรที่ไม่เอนเอียงเมื่อพบค่าเฉลี่ยของกำลังสองเหล่านั้น ยิ่งขนาดของกลุ่มตัวอย่างเล็กลง ความแตกต่างระหว่างความแปรปรวนของกลุ่มตัวอย่างและความแปรปรวนของประชากรก็จะยิ่งมากขึ้น

คำศัพท์

การแก้ไขนี้พบได้ทั่วไปมากจนคำว่า "ความแปรปรวนของตัวอย่าง" และ "ค่าเบี่ยงเบนมาตรฐานของตัวอย่าง" มักใช้เพื่อหมายถึงค่าประมาณที่ได้รับการแก้ไขแล้ว (ความแปรปรวนของตัวอย่างที่ไม่เอนเอียง ค่าเบี่ยงเบนมาตรฐานของตัวอย่างที่ไม่เอนเอียงน้อยกว่า) โดยใช้n  − 1 อย่างไรก็ตาม จำเป็นต้องใช้ความระมัดระวัง: เครื่องคิดเลขและซอฟต์แวร์แพ็คเกจบางรุ่นอาจรองรับทั้งสองค่าหรือเฉพาะสูตรที่ผิดปกติเท่านั้น บทความนี้ใช้สัญลักษณ์และคำจำกัดความดังต่อไปนี้:

  • μคือค่าเฉลี่ยของประชากร
  • x ¯ {\displaystyle {\overline {x}}} คือค่าเฉลี่ยของตัวอย่าง
  • σ 2คือความแปรปรวนของประชากร
  • s n 2คือความแปรปรวนของตัวอย่างที่มีอคติ (กล่าวคือ ไม่มีการแก้ไขของเบสเซล)
  • s 2คือความแปรปรวนของตัวอย่างที่ไม่เอนเอียง (กล่าวคือ ด้วยการแก้ไขของ Bessel)

ค่าเบี่ยงเบนมาตรฐานจะเป็นรากที่สองของความแปรปรวนที่เกี่ยวข้อง เนื่องจากรากที่สองทำให้เกิดอคติ คำศัพท์ "ไม่ได้รับการแก้ไข" และ "ได้รับการแก้ไข" จึงเป็นที่นิยมสำหรับตัวประมาณค่าเบี่ยงเบนมาตรฐาน:

  • s nคือค่าเบี่ยงเบนมาตรฐานของตัวอย่างที่ไม่ได้แก้ไข (กล่าวคือ ไม่มีการแก้ไขของเบสเซล)
  • sคือค่าเบี่ยงเบนมาตรฐานของตัวอย่างที่ได้รับการแก้ไข (กล่าวคือ ด้วยการแก้ไขของ Bessel) ซึ่งมีอคติน้อยลง แต่ยังคงมีอคติอยู่

สูตร

ค่าเฉลี่ยของกลุ่มตัวอย่างจะกำหนดโดย x ¯ = 1 n i = 1 n x i . {\displaystyle {\overline {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}.}

จากนั้นความแปรปรวนของตัวอย่างที่มีอคติจะถูกเขียนดังนี้: s n 2 = 1 n i = 1 n ( x i x ¯ ) 2 = i = 1 n x i 2 n ( i = 1 n x i ) 2 n 2 {\displaystyle s_{n}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}={\frac {\sum _{i=1}^{n}x_{i}^{2}}{n}}-{\frac {\left(\sum _{i=1}^{n}x_{i}\right)^{2}}{n^{2}}}}

และความแปรปรวนของตัวอย่างที่ไม่เอนเอียงเขียนได้ดังนี้: s 2 = 1 n 1 i = 1 n ( x i x ¯ ) 2 = i = 1 n x i 2 n 1 ( i = 1 n x i ) 2 ( n 1 ) n = ( n n 1 ) s n 2 . {\displaystyle s^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}={\frac {\sum _{i=1}^{n}x_{i}^{2}}{n-1}}-{\frac {\left(\sum _{i=1}^{n}x_{i}\right)^{2}}{(n-1)n}}=\left({\frac {n}{n-1}}\right)\,s_{n}^{2}.}

การพิสูจน์

สมมติว่าเป็นตัวแปรสุ่มอิสระที่มีการกระจายแบบเหมือนกันโดยมีความคาดหวังและ ความแปรปรวน X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} μ {\displaystyle \mu } σ 2 {\displaystyle \sigma ^{2}}

เมื่อทราบค่าของผลลัพธ์ของพื้นที่ตัวอย่างพื้นฐานแล้ว เราต้องการประมาณค่าความแปรปรวนที่ดีซึ่งไม่ทราบค่า เพื่อจุดประสงค์นี้ เราจึงสร้างสูตรทางคณิตศาสตร์ที่มี ค่าที่คาดหวังของสูตรนี้คือซึ่งหมายความว่าโดยเฉลี่ยแล้ว สูตรนี้ควรให้คำตอบที่ถูกต้อง X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} ω Ω {\displaystyle \omega \in \Omega } σ 2 {\displaystyle \sigma ^{2}} X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} σ 2 {\displaystyle \sigma ^{2}}

วิธีการเดาสูตรดังกล่าวแบบมีการศึกษาแต่ไร้เดียงสาคือ

1 n k = 1 n ( x k x ¯ ) 2 {\displaystyle {\frac {1}{n}}\sum _{k=1}^{n}(x_{k}-{\overline {x}})^{2}} -

โดยที่; นี่จะเป็นความแปรปรวนหากเรามีตัวแปรสุ่มแบบแยกส่วนในพื้นที่ความน่าจะเป็นแบบแยกส่วนที่มีค่าอยู่ที่แต่ให้เราคำนวณค่าที่คาดหวังของนิพจน์นี้: x k = X k ( ω ) {\displaystyle x_{k}=X_{k}(\omega )} { 1 , , n } {\displaystyle \{1,\ldots ,n\}} x k {\displaystyle x_{k}} k {\displaystyle k}

E [ 1 n k = 1 n ( x k x ¯ ) 2 ] = E [ 1 n k = 1 n ( x k 1 n j = 1 n x j ) 2 ] = E [ 1 n k = 1 n ( 1 n j = 1 n ( x k x j ) ) 2 ] ; {\displaystyle {\begin{aligned}\mathbb {E} \left[{\frac {1}{n}}\sum _{k=1}^{n}(x_{k}-{\overline {x}})^{2}\right]&=\mathbb {E} \left[{\frac {1}{n}}\sum _{k=1}^{n}\left(x_{k}-{\frac {1}{n}}\sum _{j=1}^{n}x_{j}\right)^{2}\right]\\&=\mathbb {E} \left[{\frac {1}{n}}\sum _{k=1}^{n}\left({\frac {1}{n}}\sum _{j=1}^{n}(x_{k}-x_{j})\right)^{2}\right];\end{aligned}}}

ที่นี่เรามี (โดยอิสระ การยกเลิกแบบสมมาตร และการกระจายแบบเหมือนกัน)

E [ ( j = 1 n ( x k x j ) ) 2 ] = E [ j = 1 n l = 1 n ( x k x j ) ( x k x l ) ] = n ( n 1 ) E [ X 1 2 ] n ( n 1 ) E [ X 1 ] 2 , {\displaystyle {\begin{aligned}\mathbb {E} \left[\left(\sum _{j=1}^{n}(x_{k}-x_{j})\right)^{2}\right]&=\mathbb {E} \left[\sum _{j=1}^{n}\sum _{l=1}^{n}(x_{k}-x_{j})(x_{k}-x_{l})\right]\\&=n(n-1)\mathbb {E} [X_{1}^{2}]-n(n-1)\mathbb {E} [X_{1}]^{2},\end{aligned}}}

และดังนั้น

E [ 1 n k = 1 n ( x k x ¯ ) 2 ] = n 1 n ( E [ X 1 2 ] E [ X 1 ] 2 ) {\displaystyle \mathbb {E} \left[{\frac {1}{n}}\sum _{k=1}^{n}(x_{k}-{\overline {x}})^{2}\right]={\frac {n-1}{n}}\left(\mathbb {E} [X_{1}^{2}]-\mathbb {E} [X_{1}]^{2}\right)} -

ในทางตรงกันข้าม,

Var ( X 1 ) = E [ X 1 2 ] E [ X 1 ] 2 {\displaystyle \operatorname {Var} (X_{1})=\mathbb {E} [X_{1}^{2}]-\mathbb {E} [X_{1}]^{2}} -

ดังนั้นการคาดเดาเบื้องต้นของเราจึงผิดพลาดด้วยปัจจัย

n 1 n {\displaystyle {\frac {n-1}{n}}} -

และนี่ก็เป็นการแก้ไขของเบสเซลโดยตรง

ดูเพิ่มเติม

หมายเหตุ

  1. ^ Radziwill, Nicole M (2017). สถิติ (วิธีที่ง่ายกว่า) กับ R. Lapis Lucera. ISBN 9780996916059.OCLC1030532622  .
  2. ^ WJ Reichmann, WJ (1961) การใช้และการละเมิดสถิติ , Methuen พิมพ์ซ้ำ 1964–1970 โดย Pelican ภาคผนวก 8
  3. ^ Upton, G.; Cook, I. (2008) Oxford Dictionary of Statistics , OUP. ISBN 978-0-19-954145-4 (รายการสำหรับ "ความแปรปรวน (ข้อมูล)") 
  4. ^ Rosenthal, Jeffrey S. (2015). "The Kids are Alright: Divide by n when estimating variance". วารสารของสถาบันสถิติคณิตศาสตร์ธันวาคม 2015: 9.
  • Weisstein , Eric W. "การแก้ไขของ Bessel" MathWorld
  • การทดลองแบบเคลื่อนไหวเพื่อสาธิตการแก้ไขที่ Khan Academy
Retrieved from "https://en.wikipedia.org/w/index.php?title=Bessel%27s_correction&oldid=1234657945"