مسئله تانک آلمانی
در نظریه آماری تخمین، مسئله تانک آلمانی به تخمین حداکثر در یک توزیع یکنواخت گسسته از نمونه برداری بدون جایگزینی گفته میشود. به عبارت ساده، فرض کنید تعداد نامعینی از اشیا داریم که به ترتیب از ۱ تا N شماره گذاری میشوند. نمونهای تصادفی از این موارد را میگیریم و عدد آنها را مشاهده میکنیم. مساله در اینجا تخمین N بر اساس این اعداد مشاهده شدهاست.
این مساله پس از اعمال آن توسط نیروهای متفقین در جنگ جهانی دوم و تخمین میزان ماهانه تولید تانک آلمانی بر اساس دادههای اندک نامگذاری شدهاست. در این کار آنها از روش ساخت و اختصاص اعداد صعودی برای شماره سریال بخشهای یک تانک (شاسی، گیربکس، موتور، چرخ) استفاده کردند، از آنجایی که تعدادی تانک آلمانی در جنگ جهانی دوم بدستان متفقین افتاد، آنها تعداد کل تانکهای آلمان را با تقریب خوبی تخمین زدند.
این مساله را میتوان با استفاده از استنتاج فراوانیگرایانه یا استنتاج بیزی، حل کرد که نتایج متفاوتی میدهند. برآورد حداکثر جمعیت بر اساس یک نمونه، نتایج واگرای متفاوتی را میدهد، در حالی که تخمین بر اساس چند نمونه، یک سؤال خوب است که پاسخ آن ساده است (به خصوص در استنتاج فراوانیگرایانه) اما بدیهی نیست (به خصوص در استنتاج بیزی).
مثال
[ویرایش]فرض کنید چهار تانک بدستمان افتادهاست، و شماره سریال آنها این است: "۱۹"، "۴۰"، "۴۲" و "۶۰".
روش فراوانیگرایانه این تعداد تانک را به ما میدهد:
استنتاج بیزی، اگر از میانه استفاده کنید، به تخمین فراوانیگرایانه نزدیک است:
در حالی که استنتاج بیزی مبتنی بر میانگین کاملاً دور است:
اگر k = ۴ (تعداد تانک) و m = ۶۰ (بزرگترین شماره سریال) در نظر بگیریم حداکثر تعداد تانک مشاهده شده از این تخمین بدست میآید:
تخمین ۷۴٫۵ (میانه) و ۸۹ (میانگین) بدین صورت در استنناج بیزی محاسبه میشود:
در حقیقت، در هر دو استنتاج بیزی مبتنی بر تابع جرم احتمال زیر است:
این توزیع دارای چولگی مثبت است و مربوط به این واقعیت است که حداقل ۶۰ تانک وجود دارد. به دلیل همین چولگی، ممکن است میانگین معنی دارترین تخمین نباشد. میانه در این مثال ۷۴٫۵، شباهت بیشتری به استنتاج فراوانیگرایانه دارد. با استفاده از تقریب استرلینگ، تابع احتمال بیزی به این تقریب زده میشود:
که تقریب زیر برای میانه را میدهد:
سرانجام، تخمین متوسط توسط بیزی و انحراف آن به شرح زیر محاسبه میشود: