สมดุลของแนช


แนวคิดการแก้ปัญหาเกมที่ไม่ร่วมมือ
สมดุลของแนช
แนวคิดการแก้ปัญหาในทฤษฎีเกม
ความสัมพันธ์
เซตย่อยของความสามารถในการทำให้เป็นเหตุเป็นผล สมดุลเอปซิลอน สมดุลสหสัมพันธ์
ซุปเปอร์เซ็ตของกลยุทธ์ที่เสถียรทางวิวัฒนาการสมดุลที่สมบูรณ์แบบของ Subgame สมดุลเบย์เซียนที่สมบูรณ์แบบสมดุลที่สมบูรณ์แบบของมือสั่นสมดุลแนชที่เสถียรสมดุลแนชที่แข็งแกร่ง
ความสำคัญ
เสนอโดยจอห์น ฟอร์บส์ แนช จูเนียร์
ใช้สำหรับเกมที่ไม่ร่วมมือทั้งหมด

ในทฤษฎีเกมดุลยภาพของแนช เป็น แนวคิดการแก้ปัญหาที่ใช้กันทั่วไปที่สุดสำหรับเกมที่ไม่ร่วมมือกันดุลยภาพของแนชเป็นสถานการณ์ที่ผู้เล่นไม่สามารถได้ประโยชน์ใดๆ จากการเปลี่ยนกลยุทธ์ของตนเอง (โดยยึดกลยุทธ์ของผู้เล่นคนอื่นทั้งหมดไว้) [1]แนวคิดของดุลยภาพของแนชย้อนกลับไปในสมัยของกูร์โนต์ซึ่งในปี พ.ศ. 2381 ได้นำแนวคิดนี้ไปใช้กับแบบจำลองการแข่งขันในระบบผูกขาดโดย สมบูรณ์ [2]

หากผู้เล่นแต่ละคนเลือกกลยุทธ์  – แผนการดำเนินการตามสิ่งที่เกิดขึ้นในเกมจนถึงขณะนี้ – และไม่มีใครสามารถเพิ่มผลตอบแทนที่คาดหวังได้โดยการเปลี่ยนกลยุทธ์ของตนเอง ในขณะที่ผู้เล่นคนอื่นยังคงไม่เปลี่ยนแปลงกลยุทธ์ของตน ดังนั้นชุดตัวเลือกกลยุทธ์ในปัจจุบันจะก่อให้เกิดจุดสมดุลของแนช

หากผู้เล่นสองคนคือAlice และ Bobเลือกกลยุทธ์ A และ B (A, B) จะเป็นดุลยภาพของ Nash หาก Alice ไม่มีกลยุทธ์อื่นใดที่สามารถทำได้ดีกว่า A ในการเพิ่มผลตอบแทนสูงสุดของเธอในการตอบสนองต่อ Bob เลือก B และ Bob ไม่มีกลยุทธ์อื่นใดที่สามารถทำได้ดีกว่า B ในการเพิ่มผลตอบแทนสูงสุดของเขาในการตอบสนองต่อ Alice เลือก A ในเกมที่ Carol และ Dan เป็นผู้เล่นด้วย (A, B, C, D) จะเป็นดุลยภาพของ Nash หาก A เป็นคำตอบที่ดีที่สุดของ Alice ต่อ (B, C, D), B เป็นคำตอบที่ดีที่สุดของ Bob ต่อ (A, C, D) และอื่นๆ

แนชแสดงให้เห็นว่ามีสมดุลของแนช อาจเกิดขึ้นได้ในกลยุทธ์แบบผสมผสานสำหรับเกมจำกัดทุกเกม[3]

แอปพลิเคชั่น

นักทฤษฎีเกมใช้ดุลยภาพของแนชในการวิเคราะห์ผลลัพธ์ของปฏิสัมพันธ์เชิงกลยุทธ์ของผู้ตัดสินใจ หลายๆ คน ในการโต้ตอบเชิงกลยุทธ์ ผลลัพธ์ของผู้ตัดสินใจแต่ละคนขึ้นอยู่กับการตัดสินใจของคนอื่นๆ รวมถึงการตัดสินใจของพวกเขาเองด้วย ข้อคิดเห็นง่ายๆ ที่อยู่เบื้องหลังแนวคิดของแนชก็คือ เราไม่สามารถคาดเดาตัวเลือกของผู้ตัดสินใจหลายๆ คนได้ หากเราวิเคราะห์การตัดสินใจเหล่านั้นแยกกัน ในทางกลับกัน เราต้องถามว่าผู้เล่นแต่ละคนจะทำอย่างไรโดยคำนึงถึงสิ่งที่ผู้เล่นคาดหวังให้ผู้เล่นคนอื่นๆ ทำ ดุลยภาพของแนชต้องการให้ตัวเลือกของผู้เล่นมีความสอดคล้องกัน ผู้เล่นไม่มีใครต้องการยกเลิกการตัดสินใจของตนเนื่องจากผู้เล่นคนอื่นๆ กำลังตัดสินใจอยู่

แนวคิดนี้ถูกนำมาใช้เพื่อวิเคราะห์สถานการณ์ที่เป็นปฏิปักษ์ เช่น สงครามและการแข่งขันทางอาวุธ[4] (ดูปริศนานักโทษ ) และยังรวมถึงวิธีการบรรเทาความขัดแย้งโดยการโต้ตอบกันซ้ำๆ (ดูโต้ตอบกัน ) นอกจากนี้ยังใช้เพื่อศึกษาว่าผู้คนที่มีความชอบต่างกันสามารถร่วมมือกันได้ในระดับใด (ดูการต่อสู้ระหว่างเพศ ) และพวกเขาจะยอมเสี่ยงเพื่อให้ได้ผลลัพธ์ที่เป็นความร่วมมือหรือไม่ (ดูการล่ากวาง ) นอกจากนี้ยังใช้เพื่อศึกษาการนำมาตรฐานทางเทคนิค มา ใช้[ จำเป็นต้องอ้างอิง ]และการเกิดการแห่ถอนเงินจากธนาคารและวิกฤตสกุลเงิน (ดูเกมประสานงาน ) การประยุกต์ใช้อื่น ๆ ได้แก่ การไหลของปริมาณการจราจร (ดูหลักการของ Wardrop ), วิธีการจัดการประมูล (ดูทฤษฎีการประมูล ), ผลลัพธ์ของความพยายามที่ฝ่ายต่างๆ มากมายใช้ในกระบวนการศึกษา[5]กฎหมายควบคุม เช่น กฎระเบียบด้านสิ่งแวดล้อม (ดูโศกนาฏกรรมของทรัพยากรส่วนรวม ), [6]การจัดการทรัพยากรธรรมชาติ[7]การวิเคราะห์กลยุทธ์ในการตลาด[8]การเตะจุดโทษในฟุตบอล (ดูการจับคู่เพนนี ), [9] การนำทางด้วยหุ่นยนต์ในฝูงชน[10]ระบบพลังงาน ระบบขนส่ง ปัญหาการอพยพ[11]และการสื่อสารไร้สาย[12]

ประวัติศาสตร์

ดุลยภาพของแนชได้รับการตั้งชื่อตามนักคณิตศาสตร์ชาวอเมริกันจอห์น ฟอร์บส์ แนช จูเนียร์แนวคิดเดียวกันนี้ถูกนำมาใช้ในแอปพลิเคชันเฉพาะในปี พ.ศ. 2381 โดยแอนตวน ออกุสติน คูร์โนต์ในทฤษฎีการผูกขาด โดยกลุ่มธุรกิจขนาดเล็ก [13]ในทฤษฎีของคูร์โนต์ บริษัทต่างๆ หลายแห่งจะเลือกปริมาณผลผลิตที่จะผลิตเพื่อเพิ่มผลกำไรสูงสุด ผลผลิตที่ดีที่สุดสำหรับบริษัทหนึ่งขึ้นอยู่กับผลผลิตของ บริษัทอื่นๆ ดุลยภาพของคูร์โนต์เกิดขึ้นเมื่อผลผลิตของบริษัทแต่ละแห่งเพิ่มผลกำไรสูงสุดเมื่อเทียบกับผลผลิตของบริษัทอื่นๆ ซึ่งเป็น ดุลยภาพของแนช แบบกลยุทธ์ล้วนๆคูร์โนต์ยังได้แนะนำแนวคิดของ พลวัต การตอบสนองที่ดีที่สุดในการวิเคราะห์เสถียรภาพของดุลยภาพของดุลยภาพของเขา อย่างไรก็ตาม คูร์โนต์ไม่ได้ใช้แนวคิดนี้ในแอปพลิเคชันอื่นๆ หรือให้คำจำกัดความโดยทั่วไป


แนวคิดสมดุลของแนชในปัจจุบันถูกกำหนดโดยใช้กลยุทธ์แบบผสมโดยผู้เล่นจะเลือกการแจกแจงความน่าจะเป็นเหนือกลยุทธ์บริสุทธิ์ที่เป็นไปได้ (ซึ่งอาจให้โอกาส 100% แก่กลยุทธ์บริสุทธิ์หนึ่งกลยุทธ์ กลยุทธ์บริสุทธิ์ดังกล่าวเป็นส่วนย่อยของกลยุทธ์แบบผสม) แนวคิดสมดุลของกลยุทธ์แบบผสมได้รับการแนะนำโดยJohn von NeumannและOskar Morgensternในหนังสือของพวกเขาในปี 1944 ชื่อ The Theory of Games and Economic Behaviorแต่การวิเคราะห์ของพวกเขาถูกจำกัดอยู่แค่กรณีพิเศษของ เกม ผลรวมเป็นศูนย์พวกเขาแสดงให้เห็นว่าสมดุลของแนชแบบผสมกลยุทธ์จะมีอยู่สำหรับเกมผลรวมเป็นศูนย์ที่มีชุดการกระทำจำกัด[14]การมีส่วนสนับสนุนของแนชในบทความ "Non-Cooperative Games" ของเขาในปี 1951 คือการกำหนดสมดุลของแนชแบบผสมกลยุทธ์สำหรับเกมใดๆ ที่มีชุดการกระทำจำกัด และพิสูจน์ว่าสมดุลของแนช (กลยุทธ์ผสม) อย่างน้อยหนึ่งอย่างจะต้องมีอยู่ในเกมดังกล่าว กุญแจสำคัญในการพิสูจน์การดำรงอยู่ของแนชนั้นอยู่ที่คำจำกัดความของดุลยภาพ ตามที่แนชกล่าวไว้ "จุดดุลยภาพคือ n-tuple ที่กลยุทธ์แบบผสมของผู้เล่นแต่ละคนจะเพิ่มผลตอบแทนสูงสุดหากกลยุทธ์ของผู้เล่นคนอื่นคงที่ ดังนั้นกลยุทธ์ของผู้เล่นแต่ละคนจึงเหมาะสมที่สุดเมื่อเทียบกับกลยุทธ์ของผู้เล่นคนอื่น" การนำปัญหามาใส่ในกรอบนี้ทำให้แนชสามารถใช้ทฤษฎีบทจุดคงที่ของคาคูทานิในบทความปี 1950 เพื่อพิสูจน์การดำรงอยู่ของดุลยภาพ บทความปี 1951 ของเขาใช้ทฤษฎีบทจุดคงที่ของบรูเวอร์ ซึ่งง่ายกว่า เพื่อจุดประสงค์เดียวกัน[15]

นักทฤษฎีเกมได้ค้นพบว่าในบางสถานการณ์ สมดุลของแนชจะทำนายไม่ถูกต้องหรือไม่สามารถทำนายได้อย่างเฉพาะเจาะจง พวกเขาได้เสนอแนวคิดการแก้ปัญหา หลายอย่าง ('การปรับปรุง' ของสมดุลของแนช) ซึ่งออกแบบมาเพื่อตัดสมดุลของแนชที่ไม่น่าเชื่อออกไป ประเด็นสำคัญประการหนึ่งคือ สมดุลของแนชบางอย่างอาจขึ้นอยู่กับภัยคุกคามที่ 'ไม่น่าเชื่อถือ ' ในปี 1965 Reinhard Seltenได้เสนอสมดุลสมบูรณ์ของเกมย่อยเป็นการปรับปรุงที่ขจัดสมดุลที่ขึ้นอยู่กับภัยคุกคามที่ไม่น่าเชื่อถือการขยายแนวคิดสมดุลของแนชอื่นๆ ได้กล่าวถึงสิ่งที่จะเกิดขึ้นหากเล่นเกมซ้ำหรือสิ่งที่จะเกิดขึ้นหากเล่นเกมโดยไม่มีข้อมูลที่สมบูรณ์อย่างไรก็ตาม การปรับปรุงและขยายแนวคิดสมดุลของแนชในเวลาต่อมาได้แบ่งปันข้อมูลเชิงลึกหลักที่แนวคิดของแนชยึดถือ นั่นคือ สมดุลคือชุดของกลยุทธ์ที่กลยุทธ์ของผู้เล่นแต่ละคนเหมาะสมที่สุดเมื่อพิจารณาจากตัวเลือกของผู้เล่นคนอื่นๆ

คำจำกัดความ

สมดุลของแนช

โปรไฟล์กลยุทธ์คือชุดกลยุทธ์สำหรับผู้เล่นแต่ละคน โดยไม่เป็นทางการ โปรไฟล์กลยุทธ์คือจุดสมดุลของแนช หากไม่มีผู้เล่นคนใดทำได้ดีกว่านี้โดยการเปลี่ยนกลยุทธ์ของตนเองโดยฝ่ายเดียว เพื่อดูว่าสิ่งนี้หมายความว่าอย่างไร ลองนึกภาพว่าผู้เล่นแต่ละคนได้รับแจ้งเกี่ยวกับกลยุทธ์ของผู้เล่นคนอื่นๆ จากนั้น สมมติว่าผู้เล่นแต่ละคนถามตัวเองว่า "เมื่อรู้กลยุทธ์ของผู้เล่นคนอื่นๆ และถือว่ากลยุทธ์ของผู้เล่นคนอื่นๆ เป็นแนวทางที่แน่นอน ฉันจะได้รับประโยชน์จากการเปลี่ยนกลยุทธ์ของฉันหรือไม่"

ตัวอย่างเช่น หากผู้เล่นคนหนึ่งชอบคำตอบว่า "ใช่" ชุดกลยุทธ์ดังกล่าวจะไม่ถือเป็นจุดสมดุลของแนช แต่หากผู้เล่นแต่ละคนไม่ต้องการเปลี่ยน (หรือไม่สนใจที่จะเปลี่ยนหรือไม่เปลี่ยน) โปรไฟล์กลยุทธ์ดังกล่าวก็จะถือเป็นจุดสมดุลของแนช ดังนั้น กลยุทธ์แต่ละอย่างในจุดสมดุลของแนชจึงเป็นการตอบสนองที่ดีที่สุดต่อกลยุทธ์ของผู้เล่นคนอื่นๆ ในจุดสมดุลนั้น[16]

อย่างเป็นทางการ ให้เป็นชุดของกลยุทธ์ที่เป็นไปได้ทั้งหมดสำหรับผู้เล่นโดยที่ให้เป็นโปรไฟล์กลยุทธ์ ซึ่งเป็นชุดที่ประกอบด้วยกลยุทธ์หนึ่งรายการสำหรับผู้เล่นแต่ละคน โดยที่หมายถึงกลยุทธ์ของผู้เล่นทั้งหมด ยกเว้นให้เป็นผลตอบแทนของผู้เล่น i เป็นฟังก์ชันของกลยุทธ์ โปรไฟล์กลยุทธ์คือจุดสมดุลของแนช ถ้า ฉัน {\displaystyle S_{ฉัน}} ฉัน {\displaystyle i} ฉัน - 1 - - - เอ็น {\displaystyle i=1,\lจุด,N} - - ฉัน - ฉัน - s^{*}=(s_{i}^{*},s_{-i}^{*})} ฉัน {\displaystyle s_{-i}^{*}} เอ็น 1 {\displaystyle N-1} ฉัน {\displaystyle i} คุณ ฉัน - ฉัน - ฉัน - {\displaystyle u_{i}(s_{i},s_{-i}^{*})} {\displaystyle s^{*}}

คุณ ฉัน - ฉัน - ฉัน - คุณ ฉัน - ฉัน - ฉัน - โอ้ เอ ฉัน ฉัน {\displaystyle u_{i}(s_{i}^{*},s_{-i}^{*})\geq u_{i}(s_{i},s_{-i}^{*})\;\;{\rm {สำหรับ\;ทั้งหมด}}\;\;s_{i}\in S_{i}}

เกมหนึ่งๆ สามารถมีจุดสมดุลแนชได้มากกว่าหนึ่งจุด แม้ว่าจุดสมดุลจะมีลักษณะเฉพาะ แต่ก็อาจอ่อนแอได้ผู้เล่นอาจไม่สนใจกลยุทธ์หลายๆ กลยุทธ์เมื่อพิจารณาจากตัวเลือกของผู้เล่นคนอื่นๆ จุดสมดุลแนชจะมีลักษณะเฉพาะและเรียกว่าจุดสมดุลแนชที่เข้มงวดหากมีความไม่เท่าเทียมที่เข้มงวด ดังนั้นกลยุทธ์เดียวจึงเป็นคำตอบที่ดีที่สุดเฉพาะตัว:

คุณ ฉัน - ฉัน - ฉัน - - คุณ ฉัน - ฉัน - ฉัน - โอ้ เอ ฉัน ฉัน - ฉัน ฉัน {\displaystyle u_{i}(s_{i}^{*},s_{-i}^{*})>u_{i}(s_{i},s_{-i}^{*})\;\;{\rm {สำหรับ\;ทั้งหมด}}\;\;s_{i}\in S_{i},s_{i}\neq s_{i}^{*}}

ชุดกลยุทธ์อาจแตกต่างกันไปสำหรับผู้เล่นแต่ละคน และองค์ประกอบต่างๆ ของชุดกลยุทธ์สามารถเป็นวัตถุทางคณิตศาสตร์ได้หลากหลาย โดยง่ายที่สุด ผู้เล่นอาจเลือกระหว่างสองกลยุทธ์ เช่นหรือ ชุดกลยุทธ์อาจเป็นชุดกลยุทธ์แบบมีเงื่อนไขจำกัดที่ตอบสนองต่อผู้เล่นคนอื่น เช่นหรืออาจเป็นเซตอนันต์ คอนตินิวอัม หรือไร้ขอบเขต เช่นเป็นจำนวนจริงที่ไม่เป็นลบ บทพิสูจน์ที่มีอยู่ของแนชถือว่ามีชุดกลยุทธ์จำกัด แต่แนวคิดของสมดุลแนชไม่ต้องการเซตกลยุทธ์จำกัด ฉัน {\displaystyle S_{ฉัน}} ฉัน - - ใช่ - เลขที่ - - {\displaystyle S_{i}=\{{\text{ใช่}},{\text{ไม่ใช่}}\}.} ฉัน - - ใช่ - พี - ต่ำ - เลขที่ - พี - สูง - - {\displaystyle S_{i}=\{{\text{ใช่}}|p={\text{ต่ำ}},{\text{ไม่ใช่}}|p={\text{สูง}}\}.} ฉัน - - ราคา - {\displaystyle S_{i}=\{{\text{ราคา}}\}} ราคา {\displaystyle {\text{ราคา}}}

ตัวแปร

สมดุลบริสุทธิ์/ผสม

เกมอาจมี สมดุลแนช แบบกลยุทธ์ล้วนหรือแบบกลยุทธ์ผสมก็ได้ ในกรณีหลัง ผู้เล่นแต่ละคนไม่ได้ใช้กลยุทธ์เดียวกันเสมอไป แต่มีการแจกแจงความน่าจะเป็นในกลยุทธ์ต่างๆ แทน

สมดุลแบบเคร่งครัด/ไม่เคร่งครัด

สมมติว่าในภาวะสมดุลของแนช ผู้เล่นแต่ละคนถามตัวเองว่า "เมื่อรู้กลยุทธ์ของผู้เล่นคนอื่นๆ และถือว่ากลยุทธ์ของผู้เล่นคนอื่นๆ เป็นสิ่งคงที่ ฉันจะสูญเสียหากเปลี่ยนกลยุทธ์หรือไม่"

หากคำตอบของผู้เล่นทุกคนคือ " ใช่" แสดงว่าสมดุลนั้นจัดเป็นสมดุลแนชที่เข้มงวด[17]

แต่ถ้าหากว่าสำหรับผู้เล่นบางคน มีความเท่าเทียมกันที่แน่นอนระหว่างกลยุทธ์ในสมดุลแนชและกลยุทธ์อื่น ๆ ที่ให้การจ่ายเงินเท่ากันทุกประการ (กล่าวคือ ผู้เล่นไม่สนใจว่าจะสลับหรือไม่สลับ) ดังนั้นสมดุลนั้นจะถูกจัดประเภทเป็นสมดุล แนช ที่อ่อนแอ[หมายเหตุ 1]หรือ สมดุล แน ชที่ไม่เข้มงวด[ จำเป็นต้องอ้างอิง ] [ จำเป็นต้องชี้แจง ]

สมดุลของการร่วมมือ

ดุลยภาพของแนชจะกำหนดเสถียรภาพในแง่ของการเบี่ยงเบนของผู้เล่นแต่ละคนเท่านั้น ในเกมที่ร่วมมือกัน แนวคิดดังกล่าวไม่น่าเชื่อถือเพียงพอดุลยภาพของแนชที่แข็งแกร่งจะช่วยให้เกิดการเบี่ยงเบนได้โดยกลุ่มพันธมิตรที่เป็นไปได้ทุกกลุ่ม[18]อย่างเป็นทางการ ดุลยภาพของแนชที่แข็งแกร่งคือดุลยภาพของแนชซึ่งกลุ่มพันธมิตรใดๆ ที่ยึดตามการกระทำของส่วนประกอบที่กำหนดไว้ สามารถเบี่ยงเบนไปโดยร่วมมือกันในลักษณะที่เป็นประโยชน์ต่อสมาชิกทุกคน[19]อย่างไรก็ตาม แนวคิดของแนชที่แข็งแกร่งบางครั้งถูกมองว่า "แข็งแกร่ง" เกินไปในแง่ที่สภาพแวดล้อมเอื้อต่อการสื่อสารส่วนตัวที่ไม่จำกัด ในความเป็นจริง ดุลยภาพของแนชที่แข็งแกร่งจะต้องมีประสิทธิภาพตามแบบพาเรโตจากข้อกำหนดเหล่านี้ ดุลยภาพของแนชที่แข็งแกร่งจึงหายากเกินกว่าที่จะมีประโยชน์ในทฤษฎีเกมหลายสาขา อย่างไรก็ตาม ในเกม เช่น การเลือกตั้งที่มีผู้เล่นมากกว่าผลลัพธ์ที่เป็นไปได้ ดุลยภาพของแนชอาจพบได้ทั่วไปมากกว่าดุลยภาพของเสถียร

สมดุลแนชที่ผ่านการกลั่นกรองซึ่งเรียกว่าสมดุลแนชที่ป้องกันพันธมิตร (CPNE) [18]เกิดขึ้นเมื่อผู้เล่นไม่สามารถทำได้ดีกว่านี้ แม้ว่าพวกเขาจะได้รับอนุญาตให้สื่อสารและตกลง "บังคับใช้ตัวเอง" เพื่อเบี่ยงเบนไปจากเดิมก็ตาม กลยุทธ์ที่สัมพันธ์กันทุกกลยุทธ์ที่ได้รับการสนับสนุนจากการครอบงำที่เข้มงวดซ้ำแล้วซ้ำเล่าและบนแนวชายแดนของพาเรโตคือ CPNE [20]นอกจากนี้ เกมยังอาจมีสมดุลแนชที่ยืดหยุ่นต่อพันธมิตรที่มีขนาดน้อยกว่า k ที่กำหนด CPNE เกี่ยวข้องกับทฤษฎีของแกนกลาง

การดำรงอยู่

ทฤษฎีบทการดำรงอยู่ของแนช

Nash พิสูจน์แล้วว่าหาก อนุญาตให้ใช้ กลยุทธ์แบบผสม (โดยที่ผู้เล่นเลือกความน่าจะเป็นของการใช้กลยุทธ์ที่บริสุทธิ์ต่างๆ) เกมที่มีผู้เล่นจำนวนจำกัด ซึ่งผู้เล่นแต่ละคนสามารถเลือกจากกลยุทธ์ที่บริสุทธิ์จำนวนจำกัดได้ จะมีจุดสมดุลของ Nash อย่างน้อยหนึ่งจุด ซึ่งอาจเป็นกลยุทธ์ที่บริสุทธิ์สำหรับผู้เล่นแต่ละคนหรืออาจเป็นการแจกแจงความน่าจะเป็นเหนือกลยุทธ์ต่างๆ สำหรับผู้เล่นแต่ละคนก็ได้

สมดุลแนชไม่จำเป็นต้องมีอยู่หากเซตของตัวเลือกนั้นไม่มีที่สิ้นสุดและไม่กะทัดรัด ตัวอย่างเช่น:

  • เกมที่มีผู้เล่นสองคนตั้งชื่อตัวเลขพร้อมกันและผู้เล่นที่ตั้งชื่อตัวเลขที่มากกว่าเป็นผู้ชนะ เกมดังกล่าวไม่มี NE เนื่องจากชุดตัวเลือกไม่กะทัดรัดและไม่มีขอบเขต
  • ผู้เล่นแต่ละคนจากสองคนเลือกจำนวนจริงที่น้อยกว่า 5 อย่างเคร่งครัดและผู้ชนะคือผู้ที่มีจำนวนที่ใหญ่ที่สุด ไม่มีจำนวนที่ใหญ่ที่สุดที่น้อยกว่า 5 อย่างเคร่งครัดอยู่เลย (หากจำนวนนั้นเท่ากับ 5 ได้ สมดุลของแนชจะทำให้ผู้เล่นทั้งสองเลือก 5 และเกมเสมอกัน) ในกรณีนี้ ชุดตัวเลือกไม่กระชับเนื่องจากไม่ปิด

อย่างไรก็ตาม สมดุลของแนชจะเกิดขึ้นหากชุดตัวเลือกมีขนาดกะทัดรัดและผลตอบแทนของผู้เล่นแต่ละคนต่อเนื่องกันในกลยุทธ์ของผู้เล่นทั้งหมด[21]

ทฤษฎีบทการดำรงอยู่ของโรเซน

Rosen [22]ขยายทฤษฎีบทการดำรงอยู่ของ Nash ในหลายวิธี เขาพิจารณาเกมที่มีผู้เล่น n คน โดยที่กลยุทธ์ของผู้เล่นแต่ละคนiเป็นเวกเตอร์s iในปริภูมิยุคลิด R mi แทนด้วยm := m 1 +...+ m nดังนั้น ทูเพิลกลยุทธ์จึงเป็นเวกเตอร์ใน R mส่วนหนึ่งของคำจำกัดความของเกมคือเซตย่อยSของ R mซึ่งทูเพิลกลยุทธ์จะต้องอยู่ในSซึ่งหมายความว่าการกระทำของผู้เล่นอาจถูกจำกัดได้โดยพิจารณาจากการกระทำของผู้เล่นคนอื่น กรณีพิเศษทั่วไปของแบบจำลองคือเมื่อSเป็นผลคูณคาร์ทีเซียนของเซตนูนS 1 ,..., S nซึ่งกลยุทธ์ของผู้เล่นiจะต้องอยู่ในS iซึ่งแสดงถึงกรณีที่การกระทำของผู้เล่นแต่ละคนiถูกจำกัดอย่างอิสระจากการกระทำของผู้เล่นคนอื่น หากเงื่อนไขต่อไปนี้เป็นจริง:

  • T เป็นนูนปิด และมีขอบเขต
  • ฟังก์ชันการจ่ายเงินแต่ละอันu iจะต่อเนื่องในกลยุทธ์ของผู้เล่นทั้งหมด และเว้าในs iสำหรับทุกค่าคงที่ของs - i

จากนั้นสมดุลของแนชก็เกิดขึ้น การพิสูจน์ใช้ทฤษฎีบทจุดคงที่ของคาคุทานิ โรเซนยังพิสูจน์ว่าภายใต้เงื่อนไขทางเทคนิคบางประการซึ่งรวมถึงความเว้าอย่างเคร่งครัด สมดุลจะมีลักษณะเฉพาะ

ผลลัพธ์ของ Nash อ้างอิงถึงกรณีพิเศษซึ่งS i แต่ละตัว เป็นซิมเพล็กซ์ (แสดงถึงส่วนผสมที่เป็นไปได้ทั้งหมดของกลยุทธ์ที่บริสุทธิ์) และฟังก์ชันผลตอบแทนของผู้เล่นทั้งหมดเป็นฟังก์ชันบิลิเนียร์ของกลยุทธ์

ความมีเหตุผล

บางครั้งดุลยภาพของแนชอาจดูไม่สมเหตุสมผลเมื่อมองในมุมมองบุคคลที่สาม เนื่องจากดุลยภาพของแนชไม่จำเป็นต้องเป็นดุลยภาพของพาเรโตที่เหมาะสมที่สุด

สมดุลแนชอาจมีผลที่ไม่สมเหตุสมผลในเกมต่อเนื่องเนื่องจากผู้เล่นอาจ "ขู่" กันเองด้วยภัยคุกคามที่พวกเขาจะไม่ทำจริง สำหรับเกมดังกล่าวสมดุลแนชที่สมบูรณ์แบบในเกมย่อยอาจมีความหมายมากกว่าในฐานะเครื่องมือวิเคราะห์

ตัวอย่าง

เกมการประสานงาน

เกมการประสานงานที่แสดงผลตอบแทนสำหรับผู้เล่น 1 (แถว) \ ผู้เล่น 2 (คอลัมน์)
กลยุทธ์ผู้เล่น 1กลยุทธ์ผู้เล่น 2
ผู้เล่น 2 ใช้กลยุทธ์ Aผู้เล่น 2 ใช้กลยุทธ์ B
ผู้เล่น 1 ใช้กลยุทธ์ A
4
4
3
1
ผู้เล่น 1 ใช้กลยุทธ์ B
1
3
2
2

เกมประสานงานเป็นเกมคลาสสิกสำหรับผู้เล่นสองคนและสองกลยุทธ์ดังที่แสดงในเมทริกซ์ผลตอบแทน ตัวอย่าง ทางด้านขวา มีสมดุลกลยุทธ์บริสุทธิ์สองแบบ คือ (A,A) โดยให้ผลตอบแทน 4 ต่อผู้เล่น และ (B,B) โดยให้ผลตอบแทน 2 ต่อผู้เล่น การรวมกัน (B,B) เป็นสมดุลแนช เนื่องจากหากผู้เล่นคนใดคนหนึ่งเปลี่ยนกลยุทธ์จาก B เป็น A ฝ่ายเดียว ผลตอบแทนจะลดลงจาก 2 ต่อ 1

การล่ากวาง
กลยุทธ์ผู้เล่น 1กลยุทธ์ผู้เล่น 2
ล่ากวางการล่ากระต่าย
ล่ากวาง
2
2
1
0
การล่ากระต่าย
0
1
1
1

ตัวอย่างที่มีชื่อเสียงของเกมการประสานงานคือการล่ากวางผู้เล่นสองคนสามารถเลือกล่ากวางหรือกระต่าย โดยกวางจะให้เนื้อมากกว่ากระต่าย (4 หน่วยยูทิลิตี้ 2 หน่วยต่อผู้เล่น) ข้อควรระวังคือกวางจะต้องถูกล่าร่วมกัน ดังนั้นหากผู้เล่นคนหนึ่งพยายามล่ากวาง ในขณะที่อีกคนล่ากระต่าย ผู้ล่ากวางจะล้มเหลวโดยสิ้นเชิง โดยได้รับผลตอบแทน 0 ในขณะที่ผู้ล่ากระต่ายจะประสบความสำเร็จ โดยได้รับผลตอบแทน 1 เกมนี้มีจุดสมดุลสองจุด คือ (กวาง กวางตัวผู้) และ (กระต่าย กระต่าย) เนื่องจากกลยุทธ์ที่ดีที่สุดของผู้เล่นขึ้นอยู่กับความคาดหวังของพวกเขาเกี่ยวกับสิ่งที่ผู้เล่นอีกคนจะทำ หากผู้ล่าคนหนึ่งไว้ใจว่าอีกคนจะล่ากวาง พวกเขาควรล่ากวาง แต่ถ้าพวกเขาคิดว่าอีกคนจะล่ากระต่าย พวกเขาก็จะล่ากระต่ายเช่นกัน เกมนี้ใช้เป็นการเปรียบเทียบกับความร่วมมือทางสังคม เนื่องจากประโยชน์ส่วนใหญ่ที่ผู้คนได้รับในสังคมขึ้นอยู่กับความร่วมมือของผู้คนและไว้วางใจซึ่งกันและกันโดยปริยายในการกระทำในลักษณะที่สอดคล้องกับความร่วมมือ

การขับรถบนถนนสวนทางกับรถที่วิ่งสวนมา และต้องเลือกที่จะหักหลบทางซ้ายหรือหักหลบทางขวาของถนน ถือเป็นเกมการประสานงานเช่นกัน ตัวอย่างเช่น หากค่าผลตอบแทน 10 หมายถึงไม่มีการชน และ 0 หมายถึงมีการชนกัน เกมการประสานงานสามารถกำหนดได้ด้วยเมทริกซ์ผลตอบแทนต่อไปนี้:

เกมขับรถ
กลยุทธ์ผู้เล่น 1กลยุทธ์ผู้เล่น 2
ขับรถชิดซ้ายขับรถชิดขวา
ขับรถชิดซ้าย
10
10
0
0
ขับรถชิดขวา
0
0
10
10

ในกรณีนี้ มีสมดุลแนชของกลยุทธ์บริสุทธิ์สองแบบ เมื่อทั้งคู่เลือกที่จะขับทางซ้ายหรือทางขวา หากเรายอมรับกลยุทธ์แบบผสม (โดยที่กลยุทธ์บริสุทธิ์ถูกเลือกแบบสุ่ม โดยขึ้นอยู่กับความน่าจะเป็นคงที่) ดังนั้นจะมีสมดุลแนชสามแบบสำหรับกรณีเดียวกัน สองแบบที่เราได้เห็นจากรูปแบบกลยุทธ์บริสุทธิ์ โดยที่ความน่าจะเป็นคือ (0%, 100%) สำหรับผู้เล่นหนึ่ง (0%, 100%) สำหรับผู้เล่นสอง และ (100%, 0%) สำหรับผู้เล่นหนึ่ง (100%, 0%) สำหรับผู้เล่นสอง ตามลำดับ เราเพิ่มอีกแบบหนึ่ง โดยที่ความน่าจะเป็นสำหรับผู้เล่นแต่ละคนคือ (50%, 50%)

การจราจรบนเครือข่าย

กราฟเครือข่ายตัวอย่าง ค่าบนขอบคือเวลาเดินทางที่ "รถ" วิ่งผ่านขอบนั้น ค่าคือจำนวนรถที่วิ่งผ่านขอบนั้น เอ็กซ์ {\displaystyle x}

การประยุกต์ใช้ดุลยภาพของแนชคือการกำหนดปริมาณการจราจรที่คาดว่าจะไหลผ่านในเครือข่าย พิจารณาจากกราฟทางด้านขวา หากเราถือว่ามี"รถยนต์" กำลังเดินทางจากจุด Aไปยังจุด Dปริมาณการจราจรที่คาดว่าจะกระจายตัวในเครือข่ายจะเป็นเท่าใด เอ็กซ์ {\displaystyle x}

สถานการณ์นี้สามารถจำลองเป็น " เกม " ที่นักเดินทางทุกคนมีทางเลือก 3 กลยุทธ์และแต่ละกลยุทธ์เป็นเส้นทางจากAไปD (หนึ่งในABD , ABCDหรือACD ) "ผลตอบแทน" ของแต่ละกลยุทธ์คือเวลาเดินทางของแต่ละเส้นทาง ในกราฟทางด้านขวา รถที่เดินทางผ่านABDใช้เวลาเดินทางเท่ากับโดยที่คือจำนวนรถที่วิ่งบนขอบABดังนั้น ผลตอบแทนสำหรับกลยุทธ์ที่กำหนดใดๆ จะขึ้นอยู่กับตัวเลือกของผู้เล่นคนอื่นๆ ตามปกติ อย่างไรก็ตาม เป้าหมายในกรณีนี้คือการลดเวลาเดินทางให้น้อยที่สุด ไม่ใช่เพิ่มเวลาเดินทางให้มากที่สุด สมดุลจะเกิดขึ้นเมื่อเวลาบนเส้นทางทั้งหมดเท่ากันทุกประการ เมื่อสิ่งนั้นเกิดขึ้น ผู้ขับขี่คนใดคนหนึ่งไม่มีแรงจูงใจที่จะเปลี่ยนเส้นทาง เนื่องจากการทำเช่นนี้จะทำให้เวลาเดินทางของพวกเขาเพิ่มขึ้นเท่านั้น สำหรับกราฟทางด้านขวา หากมีรถยนต์ 100 คันเดินทางจากAไปD ตัวอย่าง เช่น สมดุลจะเกิดขึ้นเมื่อมีผู้ขับขี่ 25 คนเดินทางผ่านABD , 50 คนผ่านABCDและ 25 คนผ่านACDปัจจุบันผู้ขับขี่แต่ละคนมีเวลาเดินทางทั้งหมด 3.75 วินาที (เมื่อดูจากข้อมูลนี้ จะมีรถทั้งหมด 75 คันที่ได้เปรียบในด้านABและรถอีก 75 คันได้เปรียบในด้านCD ) 1 - เอ็กซ์ 100 - 2 {\displaystyle 1+{\frac {x}{100}}+2} เอ็กซ์ {\displaystyle x}

โปรดทราบว่าการกระจายนี้ไม่ใช่การกระจายที่เหมาะสมในเชิงสังคม หากรถยนต์ 100 คันตกลงกันว่า 50 คันเดินทางผ่านABDและอีก 50 คันเดินทางผ่านACDดังนั้น เวลาเดินทางสำหรับรถยนต์แต่ละคันจะเท่ากับ 3.5 ซึ่งน้อยกว่า 3.75 นี่คือจุดสมดุลแนชเช่นกัน หากเส้นทางระหว่างBและCถูกเอาออก ซึ่งหมายความว่าการเพิ่มเส้นทางที่เป็นไปได้อีกเส้นทางหนึ่งอาจทำให้ประสิทธิภาพของระบบลดลง ซึ่งเป็นปรากฏการณ์ที่เรียกว่าความขัดแย้งของบราเอ

เกมการแข่งขัน

เกมการแข่งขัน
กลยุทธ์ผู้เล่น 1กลยุทธ์ผู้เล่น 2
เลือก "0"เลือก "1"เลือก "2"เลือก "3"
เลือก "0"0 , 02 , -22 , -22 , -2
เลือก "1"-2 , 21 , 13 , -13 , -1
เลือก "2"-2 , 2-1 , 32 , 24 , 0
เลือก "3"-2 , 2-1 , 30 , 43 , 3

ตัวอย่างนี้สามารถอธิบายได้ด้วยเกมสำหรับผู้เล่นสองคน โดยผู้เล่นทั้งสองคนเลือกจำนวนเต็มจาก 0 ถึง 3 พร้อมกัน และทั้งคู่ชนะด้วยจำนวนที่น้อยกว่าในจำนวนสองจำนวนที่มีแต้มเท่ากัน นอกจากนี้ หากผู้เล่นคนหนึ่งเลือกจำนวนที่มากกว่าอีกคน พวกเขาจะต้องเสียแต้มสองแต้มให้กับอีกคน

เกมนี้มีจุดสมดุลแนชที่เป็นเอกลักษณ์เฉพาะตัว ผู้เล่นทั้งสองเลือก 0 (เน้นด้วยสีแดงอ่อน) ผู้เล่นสามารถปรับปรุงกลยุทธ์อื่นๆ ได้โดยเปลี่ยนตัวเลขของตนให้น้อยกว่าตัวเลขของผู้เล่นอีกคนหนึ่ง ในตารางที่อยู่ติดกัน หากเกมเริ่มต้นที่ช่องสีเขียว ผู้เล่นคนที่ 1 จะต้องไปที่ช่องสีม่วง และผู้เล่นคนที่ 2 จะต้องไปที่ช่องสีน้ำเงิน แม้ว่าจะไม่ตรงตามคำจำกัดความของเกมการแข่งขัน แต่หากเกมได้รับการปรับเปลี่ยนเพื่อให้ผู้เล่นทั้งสองคนชนะจำนวนเงินที่กำหนดไว้หากทั้งคู่เลือกตัวเลขเดียวกัน และไม่ได้ชนะอะไรเลย จึงมีจุดสมดุลแนช 4 จุด ได้แก่ (0,0), (1,1), (2,2) และ (3,3)

สมดุลแนชในเมทริกซ์ผลตอบแทน

มีวิธีเชิงตัวเลขที่ง่ายในการระบุสมดุลแนชบนเมทริกซ์ผลตอบแทน ซึ่งมีประโยชน์อย่างยิ่งในเกมที่มีผู้เล่นสองคนซึ่งผู้เล่นมีกลยุทธ์มากกว่าสองกลยุทธ์ ในกรณีนี้ การวิเคราะห์อย่างเป็นทางการอาจยาวเกินไป กฎนี้ใช้ไม่ได้กับกรณีที่สนใจกลยุทธ์แบบผสม (สุ่ม) กฎมีดังนี้: หากตัวเลขผลตอบแทนแรกในคู่ผลตอบแทนของเซลล์เป็นค่าสูงสุดของคอลัมน์ของเซลล์และหากตัวเลขที่สองเป็นค่าสูงสุดของแถวของเซลล์ เซลล์จะแสดงถึงสมดุลแนช

เมทริกซ์ผลตอบแทน – สมดุลแนชเป็นตัวหนา
กลยุทธ์ผู้เล่น 1กลยุทธ์ผู้เล่น 2
ตัวเลือก กตัวเลือก Bตัวเลือก C
ตัวเลือก ก0, 025, 405, 10
ตัวเลือก B40, 250, 05, 15
ตัวเลือก C10, 515, 510, 10

เราสามารถนำกฎนี้ไปใช้กับเมทริกซ์ 3×3 ได้:

เมื่อใช้กฎนี้ เราสามารถเห็นได้อย่างรวดเร็ว (เร็วกว่าการวิเคราะห์อย่างเป็นทางการมาก) ว่าเซลล์สมดุลแนชคือ (B,A), (A,B) และ (C,C) สำหรับเซลล์ (B,A) 40 คือค่าสูงสุดของคอลัมน์แรก และ 25 คือค่าสูงสุดของแถวที่สอง สำหรับ (A,B) 25 คือค่าสูงสุดของคอลัมน์ที่สอง และ 40 คือค่าสูงสุดของแถวแรก ซึ่งใช้ได้กับเซลล์ (C,C) เช่นเดียวกัน สำหรับเซลล์อื่นๆ สมาชิกคู่หนึ่งหรือทั้งคู่ไม่ใช่ค่าสูงสุดของแถวและคอลัมน์ที่เกี่ยวข้อง

เมื่อกล่าวเช่นนี้ กลไกที่แท้จริงของการค้นหาเซลล์สมดุลนั้นชัดเจน: ค้นหาค่าสูงสุดของคอลัมน์และตรวจสอบว่าสมาชิกที่สองของคู่เป็นค่าสูงสุดของแถวหรือไม่ หากตรงตามเงื่อนไขเหล่านี้ เซลล์จะแสดงค่าสมดุลแนช ตรวจสอบคอลัมน์ทั้งหมดด้วยวิธีนี้เพื่อค้นหาเซลล์ NE ทั้งหมด เมทริกซ์ N×N อาจมีสมดุลแนช แบบกลยุทธ์บริสุทธิ์ ระหว่าง 0 ถึง N×N

ความเสถียร

แนวคิดเรื่องเสถียรภาพซึ่งมีประโยชน์ในการวิเคราะห์สมดุลหลายประเภทสามารถนำไปใช้กับสมดุลของแนชได้เช่นกัน

สมดุลของแนชสำหรับเกมที่มีกลยุทธ์แบบผสมจะมีเสถียรภาพหากการเปลี่ยนแปลงเล็กน้อย (โดยเฉพาะการเปลี่ยนแปลงที่เล็กน้อยมาก) ในความน่าจะเป็นของผู้เล่นหนึ่งคนนำไปสู่สถานการณ์ที่มีเงื่อนไขสองประการเกิดขึ้น:

  1. ผู้เล่นที่ไม่เปลี่ยนแปลงจะไม่มีกลยุทธ์ที่ดีกว่าในสถานการณ์ใหม่
  2. ผู้เล่นที่เปลี่ยนแปลงตอนนี้กำลังเล่นด้วยกลยุทธ์ที่แย่ลงอย่างมาก

หากทั้งสองกรณีเป็นจริง ผู้เล่นที่มีการเปลี่ยนแปลงเล็กน้อยในกลยุทธ์แบบผสมจะกลับสู่สมดุลของแนชทันที สมดุลดังกล่าวถือว่าเสถียร หากเงื่อนไขหนึ่งไม่เป็นไปตามนั้น แสดงว่าสมดุลนั้นไม่เสถียร หากเงื่อนไขเดียวเป็นไปตามนั้น มีแนวโน้มว่าจะมีกลยุทธ์ที่เหมาะสมที่สุดสำหรับผู้เล่นที่เปลี่ยนแปลงไปอย่างไม่สิ้นสุด

ในตัวอย่าง "เกมขับรถ" ข้างต้นมีทั้งสมดุลที่เสถียรและไม่เสถียร สมดุลที่เกี่ยวข้องกับกลยุทธ์ผสมที่มีความน่าจะเป็น 100% นั้นเสถียร หากผู้เล่นคนใดคนหนึ่งเปลี่ยนความน่าจะเป็นเล็กน้อย ทั้งคู่จะเสียเปรียบ และฝ่ายตรงข้ามก็ไม่มีเหตุผลที่จะเปลี่ยนกลยุทธ์ในทางกลับกัน สมดุล (50%,50%) นั้นไม่เสถียร หากผู้เล่นคนใดคนหนึ่งเปลี่ยนความน่าจะเป็น (ซึ่งจะไม่เกิดประโยชน์หรือเสียหายต่อความคาดหวังของผู้เล่นที่ทำการเปลี่ยนแปลง หากกลยุทธ์ผสมของผู้เล่นอีกคนยังคงเป็น (50%,50%)) ผู้เล่นอีกคนจะมีกลยุทธ์ที่ดีกว่าทันทีที่ (0%, 100%) หรือ (100%, 0%)

เสถียรภาพมีความสำคัญอย่างยิ่งในการประยุกต์ใช้ดุลยภาพของแนชในทางปฏิบัติ เนื่องจากกลยุทธ์แบบผสมผสานของผู้เล่นแต่ละคนยังไม่เป็นที่ทราบแน่ชัด แต่ต้องอนุมานจากการกระจายทางสถิติของการกระทำของพวกเขาในเกม ในกรณีนี้ ดุลยภาพของความไม่เสถียรนั้นแทบจะไม่เกิดขึ้นในทางปฏิบัติ เนื่องจากการเปลี่ยนแปลงเพียงเล็กน้อยในสัดส่วนของกลยุทธ์แต่ละกลยุทธ์ที่เห็นจะนำไปสู่การเปลี่ยนแปลงในกลยุทธ์และการพังทลายของดุลยภาพ

ในที่สุดในช่วงทศวรรษที่ 80 แนวคิดดังกล่าวได้รับการนำเสนออย่างลึกซึ้งในแนวคิดดังกล่าวสมดุลเสถียรของเมอร์ เทนส์ จึงถูกนำมาใช้เป็นแนวคิดในการแก้ปัญหาสมดุลเสถียรของเมอร์เทนส์ตอบสนองทั้งการเหนี่ยวนำไปข้างหน้าและการเหนี่ยวนำถอยหลังในบริบท ของ ทฤษฎีเกมสมดุลเสถียรในปัจจุบันมักหมายถึงสมดุลเสถียรของเมอร์เทนส์[ จำเป็นต้องอ้างอิง ]

การเกิดขึ้น

หากเกมมี สมดุลแนช เฉพาะตัวและเล่นระหว่างผู้เล่นภายใต้เงื่อนไขบางประการ ชุดกลยุทธ์ NE จะถูกนำมาใช้ เงื่อนไขที่เพียงพอที่จะรับประกันว่าสมดุลแนชจะเล่นได้คือ:

  1. ผู้เล่นทุกคนจะพยายามอย่างเต็มที่เพื่อเพิ่มผลตอบแทนที่คาดหวังให้สูงสุดตามที่เกมอธิบายไว้
  2. ผู้เล่นมีการดำเนินการได้ไร้ที่ติ
  3. ผู้เล่นมีสติปัญญาเพียงพอที่จะหาคำตอบได้
  4. ผู้เล่นรู้ถึงกลยุทธ์สมดุลที่ผู้เล่นคนอื่น ๆ วางแผนไว้
  5. ผู้เล่นเชื่อว่าการเบี่ยงเบนในกลยุทธ์ของตนเองจะไม่ทำให้ผู้เล่นรายอื่นเบี่ยงเบนตามไปด้วย
  6. เป็นที่ทราบกันดีว่าผู้เล่นทุกคนต้องปฏิบัติตามเงื่อนไขเหล่านี้ รวมถึงเงื่อนไขนี้ด้วย ดังนั้นผู้เล่นแต่ละคนต้องไม่เพียงแต่ทราบว่าผู้เล่นคนอื่นปฏิบัติตามเงื่อนไขเหล่านี้เท่านั้น แต่ยังต้องรู้ด้วยว่าพวกเขาทุกคนรู้ว่าพวกเขาปฏิบัติตามเงื่อนไขเหล่านี้ และรู้ว่าพวกเขารู้ว่าพวกเขาปฏิบัติตามเงื่อนไขเหล่านี้ และอื่นๆ

กรณีไม่เป็นไปตามเงื่อนไข

ตัวอย่าง ปัญหา ทางทฤษฎีเกมที่ไม่เป็นไปตามเงื่อนไขเหล่านี้:

  1. เงื่อนไขแรกจะไม่ถือว่าบรรลุผลหากเกมไม่ได้อธิบายปริมาณที่ผู้เล่นต้องการเพิ่มให้สูงสุดอย่างถูกต้อง ในกรณีนี้ ไม่มีเหตุผลเฉพาะเจาะจงใดๆ ที่ผู้เล่นจะใช้กลยุทธ์สมดุล ตัวอย่างเช่น ภาวะกลืนไม่เข้าคายไม่ออกของนักโทษจะไม่ถือเป็นภาวะกลืนไม่เข้าคายไม่ออกหากผู้เล่นฝ่ายใดฝ่ายหนึ่งยินดีที่จะถูกจำคุกอย่างไม่มีกำหนด
  2. ความไม่สมบูรณ์แบบในการดำเนินการโดยตั้งใจหรือโดยบังเอิญ ตัวอย่างเช่น คอมพิวเตอร์ที่สามารถเล่นตามตรรกะได้อย่างสมบูรณ์แบบเมื่อเผชิญหน้ากับคอมพิวเตอร์อีกเครื่องที่ไร้ข้อบกพร่องจะส่งผลให้เกิดความสมดุล การแนะนำความไม่สมบูรณ์แบบจะนำไปสู่การหยุดชะงักซึ่งอาจเกิดจากความพ่ายแพ้ของผู้เล่นที่ทำผิดพลาด หรือจากการปฏิเสธ เกณฑ์ ความรู้ทั่วไปซึ่งนำไปสู่ชัยชนะที่เป็นไปได้สำหรับผู้เล่น (ตัวอย่างเช่น ผู้เล่นถอยหลังรถกะทันหันในเกมไก่ ซึ่งจะ ทำให้ไม่มีความพ่ายแพ้และไม่มีชัยชนะ)
  3. ในหลายกรณี เงื่อนไขที่สามจะไม่เป็นไปตามนั้น ถึงแม้ว่าจะต้องมีจุดสมดุลอยู่ก็ตาม แต่ก็ไม่เป็นที่รู้จักเนื่องจากความซับซ้อนของเกม เช่นหมากรุกจีน[23]หรือหากทราบ ผู้เล่นทุกคนอาจไม่ทราบ เช่น เมื่อเล่นหมากรุกกับเด็กเล็กที่ปรารถนาชัยชนะอย่างแรงกล้า (โดยตรงตามเกณฑ์อื่นๆ)
  4. แม้ว่าผู้เล่นทุกคนจะตรงตามเกณฑ์อื่นๆ ทั้งหมดแล้ว เกณฑ์ความรู้ทั่วไปอาจไม่เป็นไปตามที่กำหนด ผู้เล่นที่ไม่ไว้วางใจเหตุผลของกันและกันอาจใช้กลยุทธ์สวนทางกับการเล่นที่ไร้เหตุผลของฝ่ายตรงข้าม ซึ่งถือเป็นปัจจัยสำคัญใน " การแข่งขัน ไก่ชน " หรือการแข่งขันอาวุธเป็นต้น

ที่ตรงตามเงื่อนไข

ในวิทยานิพนธ์ระดับปริญญาเอก จอห์น แนชเสนอการตีความแนวคิดสมดุลของเขาสองแบบ โดยมีวัตถุประสงค์เพื่อแสดงให้เห็นว่าจุดสมดุลสามารถเชื่อมโยงกับปรากฏการณ์ที่สังเกตได้อย่างไร

(...) การตีความอย่างหนึ่งคือแบบมีเหตุผล: ถ้าเราถือว่าผู้เล่นเป็นคนมีเหตุผล รู้โครงสร้างของเกมทั้งหมด เกมจะเล่นเพียงครั้งเดียว และมีจุดสมดุลของแนชเพียงครั้งเดียว ผู้เล่นก็จะเล่นตามจุดสมดุลนั้น

แนวคิดนี้ได้รับการทำให้เป็นทางการโดย R. Aumann และ A. Brandenburger, 1995, Epistemic Conditions for Nash Equilibrium , Econometrica, 63, 1161-1180 ซึ่งตีความกลยุทธ์แบบผสมของผู้เล่นแต่ละคนว่าเป็นการคาดเดาเกี่ยวกับพฤติกรรมของผู้เล่นคนอื่นๆ และได้แสดงให้เห็นว่าหากเกมและความมีเหตุผลของผู้เล่นเป็นที่ทราบกันดี และข้อสันนิษฐานเหล่านี้เป็นที่ทราบกันทั่วไป ข้อสันนิษฐานนั้นจะต้องเป็นดุลยภาพของแนช (จำเป็นต้องมีข้อสันนิษฐานล่วงหน้าทั่วไปสำหรับผลลัพธ์นี้โดยทั่วไป แต่ไม่จำเป็นในกรณีของผู้เล่นสองคน ในกรณีนี้ ข้อสันนิษฐานจำเป็นต้องทราบร่วมกันเท่านั้น)

การตีความที่สอง ซึ่งแนชอ้างถึงในการตีความการกระทำของมวลชน มีความต้องการน้อยกว่าจากผู้เล่น:

[i]ไม่จำเป็นต้องสันนิษฐานว่าผู้เข้าร่วมมีความรู้ครบถ้วนเกี่ยวกับโครงสร้างโดยรวมของเกม หรือความสามารถและความโน้มเอียงในการผ่านกระบวนการคิดเชิงตรรกะที่ซับซ้อนสิ่งที่สันนิษฐานคือมีประชากรของผู้เข้าร่วมสำหรับแต่ละตำแหน่งในเกม ซึ่งจะเล่นตลอดเวลาโดยผู้เข้าร่วมที่ถูกสุ่มจากประชากรต่างๆ หากมีความถี่เฉลี่ยที่เสถียรซึ่งสมาชิกเฉลี่ยของประชากรที่เหมาะสมใช้กลยุทธ์ล้วนๆ ความถี่เฉลี่ยที่เสถียรนี้จะก่อให้เกิดสมดุลแนชของกลยุทธ์แบบผสม

สำหรับผลลัพธ์ที่เป็นทางการตามแนวทางเหล่านี้ โปรดดู Kuhn, H. และ et al., 1996, "The Work of John Nash in Game Theory", Journal of Economic Theory , 69, 153–185

เนื่องจากเงื่อนไขที่จำกัดซึ่ง NE สามารถสังเกตได้จริง จึงไม่ค่อยถูกนำมาใช้เป็นแนวทางในการปฏิบัติตนในแต่ละวัน หรือสังเกตในทางปฏิบัติในการเจรจาต่อรองของมนุษย์ อย่างไรก็ตาม NE มีพลังในการอธิบายในฐานะแนวคิดทางทฤษฎีในเศรษฐศาสตร์และชีววิทยาวิวัฒนาการผลตอบแทนในเศรษฐศาสตร์คือประโยชน์ใช้สอย (หรือบางครั้งก็คือเงิน) และในชีววิทยาวิวัฒนาการคือการถ่ายทอดยีน ทั้งสองอย่างนี้เป็นพื้นฐานสำคัญของการอยู่รอด นักวิจัยที่ใช้ทฤษฎีเกมในสาขาเหล่านี้อ้างว่ากลยุทธ์ที่ล้มเหลวในการเพิ่มสิ่งเหล่านี้ให้สูงสุดไม่ว่าด้วยเหตุผลใดก็ตามจะต้องแข่งขันกับตลาดหรือสภาพแวดล้อม ซึ่งกำหนดความสามารถในการทดสอบกลยุทธ์ทั้งหมด ข้อสรุปนี้มาจากทฤษฎี "เสถียรภาพ" ข้างต้น ในสถานการณ์เหล่านี้ สมมติฐานที่ว่ากลยุทธ์ที่สังเกตได้คือ NE จริงๆ มักได้รับการยืนยันโดยการวิจัย[24]

NE และภัยคุกคามที่ไม่น่าเชื่อถือ

ภาพประกอบแบบขยายและปกติที่แสดงความแตกต่างระหว่าง SPNE และ NE อื่นๆ สมดุลสีน้ำเงินไม่สมบูรณ์แบบสำหรับเกมย่อยเนื่องจากผู้เล่นคนที่สองทำการคุกคามที่ไม่น่าเชื่อได้ที่ 2(2) โดยไม่ปรานี (U)

สมดุลแนชเป็นซูเปอร์เซ็ตของสมดุลแนชที่สมบูรณ์แบบของเกมย่อย สมดุลแนชที่สมบูรณ์แบบของเกมย่อยนอกเหนือจากสมดุลแนชยังต้องการให้กลยุทธ์เป็นสมดุลแนชในทุกเกมย่อยของเกมนั้นด้วย สิ่งนี้จะขจัดภัยคุกคามที่ไม่น่าเชื่อถือ ทั้งหมด นั่นคือกลยุทธ์ที่มีการเคลื่อนไหวที่ไม่สมเหตุสมผลเพื่อให้ผู้เล่นฝ่ายตรงข้ามเปลี่ยนกลยุทธ์

รูปภาพทางด้านขวาแสดงเกมลำดับง่ายๆ ที่แสดงให้เห็นถึงปัญหาของสมดุลแนชที่ไม่สมบูรณ์ของซับเกม ในเกมนี้ ผู้เล่นต้องเลือกซ้าย (L) หรือขวา (R) จากนั้นผู้เล่นคนที่สองจะถูกเรียกให้ใจดี (K) หรือใจร้าย (U) ต่อผู้เล่นคนใดคนหนึ่ง อย่างไรก็ตาม ผู้เล่นคนที่สองจะได้รับประโยชน์จากการใจร้ายก็ต่อเมื่อผู้เล่นคนใดคนหนึ่งเลือกซ้าย หากผู้เล่นคนใดคนหนึ่งเลือกขวา ผู้เล่นคนที่สองที่มีเหตุผลก็จะใจดีกับเขา/เธอโดยพฤตินัยในเกมย่อยนั้น อย่างไรก็ตาม ภัยคุกคามที่ไม่น่าเชื่อถือจากการใจร้ายในเกมย่อย 2(2) ยังคงเป็นส่วนหนึ่งของสมดุลแนชสีน้ำเงิน (L, (U,U)) ดังนั้น หากทั้งสองฝ่ายสามารถคาดหวังพฤติกรรมที่สมเหตุสมผลได้ สมดุลแนชที่สมบูรณ์แบบของซับเกมอาจเป็นแนวคิดในการแก้ปัญหาที่มีความหมายมากกว่าเมื่อเกิด ความไม่สอดคล้องกันแบบไดนามิก ดังกล่าว

หลักฐานการมีอยู่

การพิสูจน์โดยใช้ทฤษฎีบทจุดคงที่ของ Kakutani

บทพิสูจน์ดั้งเดิมของ Nash (ในวิทยานิพนธ์ของเขา) ใช้ทฤษฎีบทจุดคงที่ของ Brouwer (เช่น ดูตัวแปรอื่นด้านล่าง) ส่วนนี้เสนอบทพิสูจน์ที่ง่ายกว่าโดยใช้ทฤษฎีบทจุดคงที่ของ Kakutaniโดยยึดตามเอกสารของ Nash ในปี 1950 (เขาให้เครดิตDavid Galeสำหรับการสังเกตที่ว่าการลดความซับซ้อนดังกล่าวเป็นไปได้)

เพื่อพิสูจน์การดำรงอยู่ของสมดุลแนช ให้เป็นการตอบสนองที่ดีที่สุดของผู้เล่น i ต่อกลยุทธ์ของผู้เล่นอื่น ๆ ทั้งหมด ฉัน - σ ฉัน - {\displaystyle r_{i}(\ซิกม่า _{-i})}

ฉัน - σ ฉัน - - เอ จี ม. เอ เอ็กซ์ σ ฉัน คุณ ฉัน - σ ฉัน - σ ฉัน - {\displaystyle r_{i}(\sigma _{-i})=\mathop {\underset {\sigma _{i}}{\operatorname {arg\,max} }} u_{i}(\sigma _{i},\sigma _{-i})}

ที่นี่โดยที่เป็นโปรไฟล์กลยุทธ์แบบผสมในชุดของกลยุทธ์แบบผสมทั้งหมด และเป็นฟังก์ชันผลตอบแทนสำหรับผู้เล่น i กำหนดฟังก์ชันค่าชุดดังกล่าว โดยที่ การมีอยู่ของสมดุลแนชเทียบเท่ากับการมีจุดคงที่ σ Σ {\displaystyle \sigma \in \Sigma } Σ - Σ ฉัน × Σ ฉัน {\displaystyle \ซิกม่า =\ซิกม่า _{i}\times \ซิกม่า _{-i}} คุณ ฉัน การแสดงผล - Σ 2 Σ {\displaystyle r\colon \ซิกม่า \rightarrow 2^{\ซิกม่า }} - ฉัน - σ ฉัน - × ฉัน - σ ฉัน - {\displaystyle r=r_{i}(\sigma _{-i})\times r_{-i}(\sigma _{i})} r {\displaystyle r}

ทฤษฎีบทจุดคงที่ของ Kakutani รับประกันการมีอยู่ของจุดคงที่ หากเป็นไปตามเงื่อนไขสี่ประการต่อไปนี้

  1. Σ {\displaystyle \Sigma } มีลักษณะกะทัดรัด นูน และไม่ว่างเปล่า
  2. r ( σ ) {\displaystyle r(\sigma )} คือไม่ว่างเปล่า
  3. r ( σ ) {\displaystyle r(\sigma )} เป็นซีกบน
  4. r ( σ ) {\displaystyle r(\sigma )} มีลักษณะนูน

เงื่อนไข 1. เป็นไปตามข้อเท็จจริงที่เป็นซิมเพล็กซ์และกะทัดรัด ความนูนเกิดจากความสามารถของผู้เล่นในการผสมกลยุทธ์ไม่ว่างเปล่าตราบใดที่ผู้เล่นมีกลยุทธ์ Σ {\displaystyle \Sigma } Σ {\displaystyle \Sigma }

เงื่อนไข 2. และ 3. เป็นไปตามทฤษฎีบทสูงสุด ของแบร์เก เนื่องจากมีความต่อเนื่องและกะทัดรัดไม่ว่างเปล่าและเป็นครึ่ง ซีกบน u i {\displaystyle u_{i}} r ( σ i ) {\displaystyle r(\sigma _{i})}

เงื่อนไข 4. เป็นไปตามผลของกลยุทธ์แบบผสมผสาน สมมติว่าถ้ากลยุทธ์สองแบบให้ผลตอบแทนสูงสุด การผสมผสานระหว่างกลยุทธ์ทั้งสองแบบจะให้ผลตอบแทนเท่ากัน σ i , σ i r ( σ i ) {\displaystyle \sigma _{i},\sigma '_{i}\in r(\sigma _{-i})} λ σ i + ( 1 λ ) σ i r ( σ i ) {\displaystyle \lambda \sigma _{i}+(1-\lambda )\sigma '_{i}\in r(\sigma _{-i})}

ดังนั้น จึงมีจุดคงที่อยู่และจุดสมดุลของแนช[25] r {\displaystyle r}

เมื่อแนชเสนอประเด็นนี้ต่อจอห์น ฟอน นอยมันน์ในปี 1949 ฟอน นอยมันน์ได้ปฏิเสธประเด็นนี้อย่างโด่งดังด้วยคำพูดที่ว่า "นั่นเป็นเรื่องเล็กน้อยนะ คุณรู้ไหม นั่นเป็นแค่ทฤษฎีบทจุดคงที่ " (ดู Nasar, 1998, หน้า 94)

การพิสูจน์ทางเลือกโดยใช้ทฤษฎีบทจุดคงที่ของ Brouwer

เรามีเกมที่จำนวนผู้เล่นเป็นชุดการกระทำสำหรับผู้เล่น ชุดการกระทำทั้งหมดมีขอบเขตจำกัด ให้เป็นชุดของกลยุทธ์ผสมสำหรับผู้เล่น ความจำกัดของs ช่วยให้มั่นใจถึงความกะทัดรัดของ G = ( N , A , u ) {\displaystyle G=(N,A,u)} N {\displaystyle N} A = A 1 × × A N {\displaystyle A=A_{1}\times \cdots \times A_{N}} A i {\displaystyle A_{i}} Δ = Δ 1 × × Δ N {\displaystyle \Delta =\Delta _{1}\times \cdots \times \Delta _{N}} A i {\displaystyle A_{i}} Δ {\displaystyle \Delta }

ตอนนี้เราสามารถกำหนดฟังก์ชันเกนได้แล้ว สำหรับกลยุทธ์แบบผสมเราให้ค่าเกนสำหรับผู้เล่นในการดำเนินการเป็น σ Δ {\displaystyle \sigma \in \Delta } i {\displaystyle i} a A i {\displaystyle a\in A_{i}}

Gain i ( σ , a ) = max { 0 , u i ( a , σ i ) u i ( σ i , σ i ) } . {\displaystyle {\text{Gain}}_{i}(\sigma ,a)=\max\{0,u_{i}(a,\sigma _{-i})-u_{i}(\sigma _{i},\sigma _{-i})\}.}

ฟังก์ชันกำไรแสดงถึงผลประโยชน์ที่ผู้เล่นได้รับจากการเปลี่ยนกลยุทธ์โดยฝ่ายเดียว ตอนนี้เราจะกำหนดว่า g = ( g 1 , , g N ) {\displaystyle g=(g_{1},\dotsc ,g_{N})}

g i ( σ ) ( a ) = σ i ( a ) + Gain i ( σ , a ) {\displaystyle g_{i}(\sigma )(a)=\sigma _{i}(a)+{\text{Gain}}_{i}(\sigma ,a)}

สำหรับ. เราเห็นว่า σ Δ , a A i {\displaystyle \sigma \in \Delta ,a\in A_{i}}

a A i g i ( σ ) ( a ) = a A i σ i ( a ) + Gain i ( σ , a ) = 1 + a A i Gain i ( σ , a ) > 0. {\displaystyle \sum _{a\in A_{i}}g_{i}(\sigma )(a)=\sum _{a\in A_{i}}\sigma _{i}(a)+{\text{Gain}}_{i}(\sigma ,a)=1+\sum _{a\in A_{i}}{\text{Gain}}_{i}(\sigma ,a)>0.}

ต่อไปเราจะกำหนด:

{ f = ( f 1 , , f N ) : Δ Δ f i ( σ ) ( a ) = g i ( σ ) ( a ) b A i g i ( σ ) ( b ) a A i {\displaystyle {\begin{cases}f=(f_{1},\cdots ,f_{N}):\Delta \to \Delta \\f_{i}(\sigma )(a)={\frac {g_{i}(\sigma )(a)}{\sum _{b\in A_{i}}g_{i}(\sigma )(b)}}&a\in A_{i}\end{cases}}}

จะเห็นได้ง่ายว่าแต่ละวิธีเป็นกลยุทธ์แบบผสมที่ถูกต้องในนอกจากนี้ยังตรวจสอบได้ง่ายอีกด้วยว่าแต่ละวิธีเป็นฟังก์ชันต่อเนื่องของและด้วยเหตุนี้จึงเป็นฟังก์ชันต่อเนื่อง เนื่องจากผลคูณไขว้ของชุดนูนที่กะทัดรัดจำนวนจำกัดจึงกะทัดรัดและนูนเช่นกัน เมื่อใช้ทฤษฎีบทจุดคงที่ของบรูเวอร์กับและเราสรุปได้ว่ามีจุดคงที่ในเรียกว่าเราอ้างว่าเป็นสมดุลของแนชในเพื่อจุดประสงค์นี้ เพียงพอที่จะแสดงให้เห็นว่า f i {\displaystyle f_{i}} Δ i {\displaystyle \Delta _{i}} f i {\displaystyle f_{i}} σ {\displaystyle \sigma } f {\displaystyle f} Δ {\displaystyle \Delta } f {\displaystyle f} Δ {\displaystyle \Delta } f {\displaystyle f} Δ {\displaystyle \Delta } σ {\displaystyle \sigma ^{*}} σ {\displaystyle \sigma ^{*}} G {\displaystyle G}

i { 1 , , N } , a A i : Gain i ( σ , a ) = 0. {\displaystyle \forall i\in \{1,\cdots ,N\},\forall a\in A_{i}:\quad {\text{Gain}}_{i}(\sigma ^{*},a)=0.}

นี่เป็นการระบุอย่างง่าย ๆ ว่าผู้เล่นแต่ละคนไม่ได้รับประโยชน์ใด ๆ จากการเปลี่ยนกลยุทธ์ฝ่ายเดียว ซึ่งถือเป็นเงื่อนไขที่จำเป็นอย่างยิ่งสำหรับภาวะสมดุลของแนช

ตอน นี้ถือว่ากำไรไม่ใช่ศูนย์ทั้งหมด ดังนั้นและเช่นนั้น i { 1 , , N } , {\displaystyle \exists i\in \{1,\cdots ,N\},} a A i {\displaystyle a\in A_{i}} Gain i ( σ , a ) > 0 {\displaystyle {\text{Gain}}_{i}(\sigma ^{*},a)>0}

a A i g i ( σ , a ) = 1 + a A i Gain i ( σ , a ) > 1. {\displaystyle \sum _{a\in A_{i}}g_{i}(\sigma ^{*},a)=1+\sum _{a\in A_{i}}{\text{Gain}}_{i}(\sigma ^{*},a)>1.}

ดังนั้นขอให้

C = a A i g i ( σ , a ) . {\displaystyle C=\sum _{a\in A_{i}}g_{i}(\sigma ^{*},a).}

นอกจากนี้ เราจะแสดงเป็นเวกเตอร์เกนที่ถูกกำหนดดัชนีโดยการกระทำในเนื่องจากเป็นจุดคงที่ เรามี: Gain ( i , ) {\displaystyle {\text{Gain}}(i,\cdot )} A i {\displaystyle A_{i}} σ {\displaystyle \sigma ^{*}}

σ = f ( σ ) σ i = f i ( σ ) σ i = g i ( σ ) a A i g i ( σ ) ( a ) σ i = 1 C ( σ i + Gain i ( σ , ) ) C σ i = σ i + Gain i ( σ , ) ( C 1 ) σ i = Gain i ( σ , ) σ i = ( 1 C 1 ) Gain i ( σ , ) . {\displaystyle {\begin{aligned}\sigma ^{*}=f(\sigma ^{*})&\Rightarrow \sigma _{i}^{*}=f_{i}(\sigma ^{*})\\&\Rightarrow \sigma _{i}^{*}={\frac {g_{i}(\sigma ^{*})}{\sum _{a\in A_{i}}g_{i}(\sigma ^{*})(a)}}\\[6pt]&\Rightarrow \sigma _{i}^{*}={\frac {1}{C}}\left(\sigma _{i}^{*}+{\text{Gain}}_{i}(\sigma ^{*},\cdot )\right)\\[6pt]&\Rightarrow C\sigma _{i}^{*}=\sigma _{i}^{*}+{\text{Gain}}_{i}(\sigma ^{*},\cdot )\\&\Rightarrow \left(C-1\right)\sigma _{i}^{*}={\text{Gain}}_{i}(\sigma ^{*},\cdot )\\&\Rightarrow \sigma _{i}^{*}=\left({\frac {1}{C-1}}\right){\text{Gain}}_{i}(\sigma ^{*},\cdot ).\end{aligned}}}

เนื่องจากเรามีการปรับขนาดเวกเตอร์เป็นบวกตอนนี้เราอ้างว่า C > 1 {\displaystyle C>1} σ i {\displaystyle \sigma _{i}^{*}} Gain i ( σ , ) {\displaystyle {\text{Gain}}_{i}(\sigma ^{*},\cdot )}

a A i : σ i ( a ) ( u i ( a i , σ i ) u i ( σ i , σ i ) ) = σ i ( a ) Gain i ( σ , a ) {\displaystyle \forall a\in A_{i}:\quad \sigma _{i}^{*}(a)(u_{i}(a_{i},\sigma _{-i}^{*})-u_{i}(\sigma _{i}^{*},\sigma _{-i}^{*}))=\sigma _{i}^{*}(a){\text{Gain}}_{i}(\sigma ^{*},a)}

เพื่อดูสิ่งนี้ ก่อนอื่น หากสิ่งนี้เป็นจริงตามนิยามของฟังก์ชันเกน ให้ถือว่าจากข้อความก่อนหน้า เราได้ว่า Gain i ( σ , a ) > 0 {\displaystyle {\text{Gain}}_{i}(\sigma ^{*},a)>0} Gain i ( σ , a ) = 0 {\displaystyle {\text{Gain}}_{i}(\sigma ^{*},a)=0}

σ i ( a ) = ( 1 C 1 ) Gain i ( σ , a ) = 0 {\displaystyle \sigma _{i}^{*}(a)=\left({\frac {1}{C-1}}\right){\text{Gain}}_{i}(\sigma ^{*},a)=0}

ดังนั้นพจน์ทางซ้ายจึงเป็นศูนย์ ทำให้เราสรุปได้ว่านิพจน์ทั้งหมดเป็นไปตามที่ต้องการ 0 {\displaystyle 0}

ในที่สุดเราก็มีสิ่งนั้นแล้ว

0 = u i ( σ i , σ i ) u i ( σ i , σ i ) = ( a A i σ i ( a ) u i ( a i , σ i ) ) u i ( σ i , σ i ) = a A i σ i ( a ) ( u i ( a i , σ i ) u i ( σ i , σ i ) ) = a A i σ i ( a ) Gain i ( σ , a )  by the previous statements  = a A i ( C 1 ) σ i ( a ) 2 > 0 {\displaystyle {\begin{aligned}0&=u_{i}(\sigma _{i}^{*},\sigma _{-i}^{*})-u_{i}(\sigma _{i}^{*},\sigma _{-i}^{*})\\&=\left(\sum _{a\in A_{i}}\sigma _{i}^{*}(a)u_{i}(a_{i},\sigma _{-i}^{*})\right)-u_{i}(\sigma _{i}^{*},\sigma _{-i}^{*})\\&=\sum _{a\in A_{i}}\sigma _{i}^{*}(a)(u_{i}(a_{i},\sigma _{-i}^{*})-u_{i}(\sigma _{i}^{*},\sigma _{-i}^{*}))\\&=\sum _{a\in A_{i}}\sigma _{i}^{*}(a){\text{Gain}}_{i}(\sigma ^{*},a)&&{\text{ by the previous statements }}\\&=\sum _{a\in A_{i}}\left(C-1\right)\sigma _{i}^{*}(a)^{2}>0\end{aligned}}}

โดยที่ความไม่เท่าเทียมสุดท้ายที่ตามมาเนื่องจากเป็นเวกเตอร์ที่ไม่เท่ากับศูนย์ แต่สิ่งนี้ขัดแย้งกันอย่างชัดเจน ดังนั้นค่าที่ได้ทั้งหมดจึงต้องเป็นศูนย์ ดังนั้น จึงเป็นดุลยภาพของแนชสำหรับตามที่ต้องการ σ i {\displaystyle \sigma _{i}^{*}} σ {\displaystyle \sigma ^{*}} G {\displaystyle G}

การคำนวณสมดุลแนช

หากผู้เล่น A มีกลยุทธ์ที่โดดเด่น ก็จะมีสมดุลแนชซึ่ง A เล่นในกรณีของผู้เล่นสองคน A และ B จะมีสมดุลแนชซึ่ง A เล่นและ B เล่นการโต้ตอบที่ดีที่สุดต่อถ้าเป็นกลยุทธ์ที่โดดเด่นอย่างเคร่งครัด A จะเล่นในสมดุลแนชทั้งหมด หากทั้ง A และ B มีกลยุทธ์ที่โดดเด่นอย่างเคร่งครัด ก็จะมีสมดุลแนชเฉพาะตัวซึ่งแต่ละคนเล่นกลยุทธ์ที่โดดเด่นอย่างเคร่งครัดของตน s A {\displaystyle s_{A}} s A {\displaystyle s_{A}} s A {\displaystyle s_{A}} s A {\displaystyle s_{A}} s A {\displaystyle s_{A}} s A {\displaystyle s_{A}}

ในเกมที่มีสมดุลแนชแบบผสมผสานกลยุทธ์ ความน่าจะเป็นที่ผู้เล่นจะเลือกกลยุทธ์ใดกลยุทธ์หนึ่ง (อย่างแท้จริง) สามารถคำนวณได้โดยการกำหนดตัวแปรให้กับแต่ละกลยุทธ์ที่แสดงถึงความน่าจะเป็นคงที่ในการเลือกกลยุทธ์นั้น เพื่อให้ผู้เล่นเต็มใจที่จะสุ่ม ผลตอบแทนที่คาดหวังสำหรับกลยุทธ์ (อย่างแท้จริง) แต่ละกลยุทธ์ควรเท่ากัน นอกจากนี้ ผลรวมของความน่าจะเป็นสำหรับแต่ละกลยุทธ์ของผู้เล่นแต่ละคนควรเป็น 1 สิ่งนี้จะสร้างระบบสมการที่สามารถใช้หาความน่าจะเป็นในการเลือกกลยุทธ์แต่ละกลยุทธ์ได้[16]

ตัวอย่าง

การจับคู่เพนนี
กลยุทธ์ผู้เล่น B เล่น Hผู้เล่น B เล่น T
ผู้เล่น A เล่น H-1, +1+1, -1
ผู้เล่น A เล่น T+1, -1-1, +1

ในเกมจับคู่เพนนี ผู้เล่น A จะเสียคะแนนให้กับ B หาก A และ B ใช้กลยุทธ์เดียวกัน และจะได้รับคะแนนจาก B หากพวกเขาใช้กลยุทธ์ที่แตกต่างกัน ในการคำนวณสมดุลแนชของกลยุทธ์ผสม ให้กำหนดความน่าจะเป็นในการเล่น H และการเล่น T ให้กับ A และกำหนดความน่าจะเป็นในการเล่น H และการเล่น T ให้กับ B p {\displaystyle p} ( 1 p ) {\displaystyle (1-p)} q {\displaystyle q} ( 1 q ) {\displaystyle (1-q)}

E [ payoff for A playing H ] = ( 1 ) q + ( + 1 ) ( 1 q ) = 1 2 q E [ payoff for A playing T ] = ( + 1 ) q + ( 1 ) ( 1 q ) = 2 q 1 E [ payoff for A playing H ] = E [ payoff for A playing T ] 1 2 q = 2 q 1 q = 1 2 E [ payoff for B playing H ] = ( + 1 ) p + ( 1 ) ( 1 p ) = 2 p 1 E [ payoff for B playing T ] = ( 1 ) p + ( + 1 ) ( 1 p ) = 1 2 p E [ payoff for B playing H ] = E [ payoff for B playing T ] 2 p 1 = 1 2 p p = 1 2 {\displaystyle {\begin{aligned}&\mathbb {E} [{\text{payoff for A playing H}}]=(-1)q+(+1)(1-q)=1-2q\\&\mathbb {E} [{\text{payoff for A playing T}}]=(+1)q+(-1)(1-q)=2q-1\\&\mathbb {E} [{\text{payoff for A playing H}}]=\mathbb {E} [{\text{payoff for A playing T}}]\implies 1-2q=2q-1\implies q={\frac {1}{2}}\\&\mathbb {E} [{\text{payoff for B playing H}}]=(+1)p+(-1)(1-p)=2p-1\\&\mathbb {E} [{\text{payoff for B playing T}}]=(-1)p+(+1)(1-p)=1-2p\\&\mathbb {E} [{\text{payoff for B playing H}}]=\mathbb {E} [{\text{payoff for B playing T}}]\implies 2p-1=1-2p\implies p={\frac {1}{2}}\\\end{aligned}}}

ดังนั้น จุดสมดุลของแนชแบบผสมกลยุทธ์ในเกมนี้คือผู้เล่นแต่ละคนจะเลือก H หรือ T แบบสุ่มด้วย และ p = 1 2 {\displaystyle p={\frac {1}{2}}} q = 1 2 {\displaystyle q={\frac {1}{2}}}

ความคี่ของจุดสมดุล

เกมเงินฟรี
กลยุทธ์ผู้เล่น B โหวตใช่ผู้เล่น B โหวตไม่
ผู้เล่น A โหวตใช่1, 10, 0
ผู้เล่น A โหวตไม่0, 00, 0

ในปี 1971 โรเบิร์ต วิลสันได้เสนอทฤษฎีบทความแปลก[26]ซึ่งระบุว่าเกมจำกัด "เกือบทั้งหมด" มีสมดุลแนชจำนวนจำกัดและเป็นคี่ ในปี 1993 ฮาร์ซานยีได้เผยแพร่หลักฐานทางเลือกของผลลัพธ์ดังกล่าว[27] "เกือบทั้งหมด" ในที่นี้หมายถึงเกมใดๆ ที่มีสมดุลจำนวนอนันต์หรือจำนวนคู่จะมีความพิเศษมากในแง่ที่ว่าหากผลตอบแทนของเกมถูกรบกวนโดยสุ่มเพียงเล็กน้อย โดยมีความน่าจะเป็นหนึ่ง เกมนั้นจะมีสมดุลจำนวนคี่แทน

ตัวอย่าง เช่น ในเกม Prisoner's Dilemma มีจุดสมดุลหนึ่งจุด ในขณะที่เกมแห่งการต่อสู้ระหว่างเพศมีสามจุด คือ จุดสมดุลบริสุทธิ์สองจุดและจุดสมดุลผสมหนึ่งจุด และสิ่งนี้ยังคงเป็นจริงอยู่แม้ว่าผลตอบแทนจะเปลี่ยนแปลงไปเล็กน้อย เกมเงินฟรีเป็นตัวอย่างของเกม "พิเศษ" ที่มีจุดสมดุลจำนวนคู่ ในเกมดังกล่าว ผู้เล่นสองคนต้องโหวต "ใช่" แทน "ไม่" เพื่อรับรางวัล และโหวตนั้นเกิดขึ้นพร้อมกัน มีจุดสมดุลแนชแบบกลยุทธ์บริสุทธิ์สองจุด คือ (ใช่ ใช่) และ (ไม่ ไม่) และไม่มีจุดสมดุลกลยุทธ์ผสม เนื่องจากกลยุทธ์ "ใช่" มีอำนาจเหนือ "ไม่" อย่างอ่อนแอ "ใช่" ก็ดีพอๆ กับ "ไม่" ไม่ว่าผู้เล่นอีกคนจะกระทำอย่างไรก็ตาม แต่ถ้ามีโอกาสที่ผู้เล่นอีกคนจะเลือก "ใช่" ดังนั้น "ใช่" จะเป็นคำตอบที่ดีที่สุด อย่างไรก็ตาม ภายใต้การรบกวนผลตอบแทนแบบสุ่มเพียงเล็กน้อย ความน่าจะเป็นที่ผลตอบแทนสองรายการใดๆ จะยังคงเท่ากัน ไม่ว่าจะเป็น 0 หรือตัวเลขอื่นใดก็ตาม ก็มีน้อยมาก และเกมจะมีจุดสมดุลหนึ่งหรือสามจุดแทน

ดูเพิ่มเติม

หมายเหตุ

  1. ^ คำศัพท์นี้ไม่เป็นที่นิยม เนื่องจากอาจหมายความถึงสิ่งที่ตรงกันข้ามกับภาวะสมดุลแนชที่ "แข็งแกร่ง" (กล่าวคือ ภาวะสมดุลแนชที่เสี่ยงต่อการถูกควบคุมโดยกลุ่มต่างๆ)

อ้างอิง

  1. ^ Osborne, Martin J.; Rubinstein, Ariel (12 ก.ค. 1994). A Course in Game Theory . Cambridge, MA: MIT. หน้า 14. ISBN 9780262150415-
  2. ^ Kreps DM (1987) "Nash Equilibrium" ใน: Palgrave Macmillan (บรรณาธิการ) The New Palgrave Dictionary of Economics . Palgrave Macmillan, ลอนดอน
  3. ^ Nash, John F. (1950). "จุดสมดุลในเกม n คน". PNAS . 36 (1): 48–49. Bibcode :1950PNAS...36...48N. doi : 10.1073/pnas.36.1.48 . PMC 1063129 . PMID  16588946. 
  4. ^ Schelling, Thomas, The Strategy of Conflict , ลิขสิทธิ์ 1960, 1980 , Harvard University Press, ISBN 0-674-84031-3 
  5. ^ De Fraja, G.; Oliveira, T.; Zanchi, L. (2010). "ต้องพยายามให้หนักขึ้น: การประเมินบทบาทของความพยายามในการบรรลุผลทางการศึกษา" Review of Economics and Statistics . 92 (3): 577. doi :10.1162/REST_a_00013. hdl : 2108/55644 . S2CID  57072280
  6. ^ Ward, H. (1996). "ทฤษฎีเกมและการเมืองของภาวะโลกร้อน: สถานะของการเล่นและอื่น ๆ " Political Studies . 44 (5): 850–871. doi :10.1111/j.1467-9248.1996.tb00338.x. S2CID  143728467-
  7. ^ Thorpe, Robert B.; Jennings, Simon; Dolder, Paul J. (2017). "ความเสี่ยงและประโยชน์ของการจับปลาที่มีผลผลิตค่อนข้างดีในประมงแบบผสมหลายสายพันธุ์" ICES Journal of Marine Science . 74 (8): 2097–2106. doi : 10.1093/icesjms/fsx062 .-
  8. ^ "บทเรียนการตลาดจากดร.แนช - แอนดรูว์ แฟรงค์". 25 พ.ค. 2558 . สืบค้นเมื่อ30 ส.ค. 2558 .
  9. ^ Chiappori, P. -A.; Levitt, S.; Groseclose, T. (2002). "การทดสอบสมดุลกลยุทธ์แบบผสมเมื่อผู้เล่นมีความหลากหลาย: กรณีของการเตะจุดโทษในฟุตบอล" (PDF) . American Economic Review . 92 (4): 1138. CiteSeerX 10.1.1.178.1646 . doi :10.1257/00028280260344678 
  10. มูเชน ซุน; ฟรานเชสก้า บัลดินี่; เคธี่ ฮิวจ์ส; ปีเตอร์ เทราต์มัน; ท็อดด์ เมอร์ฟีย์ (2024) "สมดุลแนชกลยุทธ์ผสมสำหรับการนำทางฝูงชน" arXiv : 2403.01537 [cs.RO]
  11. ^ Djehiche, B.; Tcheukam, A.; Tembine, H. (2017). "เกม Mean-Field ของการอพยพในอาคารหลายระดับ" IEEE Transactions on Automatic Control . 62 (10): 5154–5169. doi :10.1109/TAC.2017.2679487. ISSN  0018-9286. S2CID  21850096.
  12. ^ Djehiche, Boualem; Tcheukam, Alain; Tembine, Hamidou (27 กันยายน 2017). "เกมประเภท Mean-Field ในวิศวกรรมศาสตร์". AIMS อิเล็กทรอนิกส์และวิศวกรรมไฟฟ้า . 1 : 18–73. arXiv : 1605.03281 . doi :10.3934/ElectrEng.2017.1.18. S2CID  16055840.
  13. ^ Cournot A. (1838) การวิจัยเกี่ยวกับหลักการทางคณิตศาสตร์ของทฤษฎีความมั่งคั่ง
  14. ^ J. Von Neumann, O. Morgenstern, ทฤษฎีเกมและพฤติกรรมทางเศรษฐกิจลิขสิทธิ์ 1944, 1953, สำนักพิมพ์มหาวิทยาลัยพรินซ์ตัน
  15. ^ Carmona, Guilherme; Podczeck, Konrad (2009). "การดำรงอยู่ของสมดุลแนชเชิงกลยุทธ์บริสุทธิ์ในเกมใหญ่" (PDF) . Journal of Economic Theory . 144 (3): 1300–1319. doi :10.1016/j.jet.2008.11.009. hdl : 10362/11577 . SSRN  882466[ ลิงค์ตายถาวร ]
  16. ^ โดย Ahn, Luis. "Preliminaries of Game Theory" (PDF) . วิทยาศาสตร์แห่งเว็บ . เก็บถาวรจากแหล่งเดิม(PDF)เมื่อ 2011-10-18 . สืบค้นเมื่อ 2008-11-07 .
  17. ^ "Nash Equilibria". hoylab.cornell.edu . เก็บถาวรจากแหล่งเดิมเมื่อ 16 มิ.ย. 2019 . สืบค้นเมื่อ 2019-12-08 .
  18. ^ โดย BD Bernheim; B. Peleg; MD Whinston (1987), "แนวคิดสมดุลที่พิสูจน์ได้ของพันธมิตร I", วารสารทฤษฎีเศรษฐศาสตร์ , 42 (1): 1–12, doi :10.1016/0022-0531(87)90099-8
  19. ^ Aumann, R. (1959). "Acceptable points in general cooperative n-person games". Contributions to the Theory of Games . Vol. IV. Princeton, NJ: Princeton University Press. ISBN 978-1-4008-8216-8-
  20. ^ D. Moreno; J. Wooders (1996), "Coalition-Proof Equilibrium" (PDF) , เกมและพฤติกรรมทางเศรษฐกิจ , 17 (1): 80–112, doi :10.1006/game.1996.0095, hdl : 10016/4408 .
  21. ^ MIT OpenCourseWare. 6.254: ทฤษฎีเกมกับแอปพลิเคชันทางวิศวกรรม ฤดูใบไม้ผลิ 2010 บทบรรยายที่ 6: เกมต่อเนื่องและไม่ต่อเนื่อง
  22. ^ Rosen, JB (1965). "การมีอยู่และเอกลักษณ์ของจุดสมดุลสำหรับเกม N-Person แบบเว้า" Econometrica . 33 (3): 520–534. doi :10.2307/1911749. hdl : 2060/19650010164 . ISSN  0012-9682. JSTOR  1911749
  23. ^ TL Turocy, B. Von Stengel, Game Theory , ลิขสิทธิ์ 2001, Texas A&M University, London School of Economics, หน้า 141-144 Nash พิสูจน์แล้วว่า NE ที่สมบูรณ์แบบมีอยู่จริงสำหรับ เกมรูปแบบกว้างขวางจำกัดประเภทนี้[ จำเป็นต้องอ้างอิง ] – มันสามารถแสดงเป็นกลยุทธ์ที่สอดคล้องกับเงื่อนไขเดิมของเขาสำหรับเกมที่มี NE เกมดังกล่าวอาจไม่มี NE ที่ไม่ซ้ำกัน แต่กลยุทธ์สมดุลอย่างน้อยหนึ่งอย่างจากหลายๆ กลยุทธ์จะเล่นโดยผู้เล่นสมมติที่มีความรู้ที่สมบูรณ์แบบเกี่ยวกับต้นไม้เกม ทั้ง 10 150 ต้น [ จำเป็นต้องอ้างอิง ]
  24. ^ JC Cox, M. Walker, การเรียนรู้การเล่นกลยุทธ์ Cournot Duoploy เก็บถาวร 2013-12-11 ที่เวย์แบ็กแมชชีนลิขสิทธิ์ 1997 มหาวิทยาลัย Texas A&M มหาวิทยาลัยอริโซนา หน้า 141-144
  25. ฟูเดนบวร์ก, ดรูว์; ทิโรล, ฌอง (1991) ทฤษฎีเกม . สำนักพิมพ์เอ็มไอที. ไอเอสบีเอ็น 978-0-262-06141-4-
  26. ^ Wilson, Robert (1971-07-01). "การคำนวณสมดุลของเกม N-Person". วารสาร SIAM Journal on Applied Mathematics . 21 (1): 80–87. doi :10.1137/0121011. ISSN  0036-1399
  27. ^ Harsanyi, JC (1973-12-01). "ความคี่ของจำนวนจุดสมดุล: หลักฐานใหม่". International Journal of Game Theory . 2 (1): 235–250. doi :10.1007/BF01737572. ISSN  1432-1270. S2CID  122603890.

บรรณานุกรม

หนังสือเรียนทฤษฎีเกม

เอกสารแนชดั้งเดิม

เอกสารอ้างอิงอื่นๆ

Retrieved from "https://en.wikipedia.org/w/index.php?title=Nash_equilibrium&oldid=1253087264"