서브게임 퍼펙트 평형

Subgame perfect equilibrium
서브게임 퍼펙트 밸런스
게임 이론솔루션 개념
관계
부분 집합나시 평형
교차점진화적으로 안정된 전략
의의
제안자라인하르트 셀턴
에 사용됨광범위한 폼 게임
얼티메이텀 게임

게임 이론에서 서브게임 퍼펙트 평형(또는 서브게임 퍼펙트 나시 평형)은 동적 게임에 사용되는 나시 평형정교하게 다듬은 것이다. 전략 프로파일은 원래 게임의 모든 서브게임의 내시 평형을 나타내는 서브게임 퍼펙트 평형이다. 비공식적으로, 이것은 게임의 어느 지점에서든, 그 시점부터 선수들의 행동이 이전에 어떤 일이 일어났던 간에, 연속 경기의 내시 평형(즉, 서브 게임의 평형)을 나타내야 한다는 것을 의미한다. 완벽한 리콜을 가진 모든 유한한 광범위한 게임은 하위 게임 완벽한 평형을 가지고 있다.[1] 퍼펙트 리콜은 1953년 해럴드 W. 쿤이 소개한 용어로서 "각 선수가 이전 동작에서 알고 있던 모든 것과 그 동작에서 선택한 모든 것을 기억하도록 게임의 규칙에 의해 허용된다" 주장과 동일하다.[2]

유한한 게임의 경우 서브게임 퍼펙트 평형을 결정하는 일반적인 방법은 역유도법이다. 여기서는 먼저 게임의 마지막 행동을 고려하고, 자신의 효용을 극대화하기 위해 가능한 각 상황에서 최종 이동자가 취해야 할 행동을 결정한다. 그런 다음 마지막 배우가 이러한 행동을 할 것이라고 가정하고, 두 번째 행동을 마지막 행동으로 간주하면서, 다시 그 배우의 효용을 극대화하는 행동을 선택한다. 이 과정은 경기의 첫 동작에 도달할 때까지 계속된다. 남은 전략들은 완벽한 정보의 유한한 수평적 광범위한 게임을 위한 모든 하위 게임 완벽한 평준화의 집합이다.[1] 그러나 불완전하거나 불완전한 정보의 게임에는 싱글톤이 아닌 정보 세트를 절단해야 하기 때문에 역유도를 적용할 수 없다.

서브게임 퍼펙트 평형은 반드시 원샷 편차 원리를 만족시킨다.

주어진 게임을 위한 서브게임 퍼펙트 평형기 집합은 항상 그 게임을 위한 내시 평형기 집합의 하위 집합이다. 어떤 경우에는 세트가 동일할 수 있다.

최후통첩 게임은 내시 평형보다 서브게임 퍼펙트 평형기가 적은 게임의 직관적인 예를 제공한다.

역방향 유도를 이용하여 서브게임 퍼펙트 평형을 결정하는 것은 그림 1에 아래와 같다. 플레이어 1에 대한 전략은 {Up, Uq, Dp, Dq}이(가) 제공하는 반면 플레이어 2는 {TL, TR, BL, BR} 중에서 전략을 가지고 있다. 이 예에는 3개의 적절한 서브게임과 함께 4개의 서브게임들이 있다.

그림 1

선수들은 역방향 유도를 사용하여 각 서브게임에 대해 다음과 같은 조치를 취한다.

  • 액션 p와 q를 위한 서브게임: 플레이어 1은 플레이어 1의 보답을 최대화하기 위해 페이오프(3, 3)로 액션 p를 취하므로 액션 L에 대한 보상은 3,3이 된다.
  • 액션 L과 R: 플레이어 2는 액션 L을 3 > 2로 하여 액션 D에 대한 보상이 (3, 3)가 된다.
  • 액션의 서브게임 T와 B: 플레이어 2가 액션 T를 취하여 플레이어 2의 보답을 극대화하므로 액션 U에 대한 보상이 (1, 4)가 된다.
  • 액션 서브게임 U와 D: 플레이어 1은 플레이어 1의 보답을 극대화하기 위해 액션 D를 취한다.

따라서 서브게임 퍼펙트 평형도는 보수가 있는 {Dp, TL}이다(3, 3)

불완전한 정보를 가진 광범위한 형태의 게임은 아래 그림 2에 제시되어 있다. 액션 A와 B가 있는 플레이어 1의 노드 및 모든 후속 액션은 하위 게임이라는 점에 유의하십시오. 플레이어 2의 노드는 동일한 정보 세트에 속하기 때문에 하위 게임이 아니다.

그림 2

첫 번째 일반 형태 게임은 전체 광범위한 형태 게임의 정상적인 형태 표현이다. 제공된 정보를 바탕으로 (UA, X), (DA, Y), (DB, Y) 모두 내시 평형 게임이다.

두 번째 정규 형태 게임은 플레이어 1의 두 번째 노드에서 시작하는 서브 게임을 동작 A와 B로 표현하는 정상적인 형태다. 두 번째 일반형 게임의 경우 서브게임의 나시 평형은 (A, X)이다.

For the entire game Nash equilibria (DA, Y) and (DB, Y) are not subgame perfect equilibria because the move of Player 2 does not constitute a Nash Equilibrium. The Nash equilibrium (UA, X) is subgame perfect because it incorporates the subgame Nash equilibrium (A, X) as part of its strategy.[3]

To solve this game, first find the Nash Equilibria by mutual best response of Subgame 1. Then use backwards induction and plug in (A,X) → (3,4) so that (3,4) become the payoffs for Subgame 2.[3]

The dashed line indicates that player 2 does not know whether player 1 will play A or B in a simultaneous game.

Subgame 1 is solved and (3,4) replaces all of Subgame 1 and player one will choose U -> (3,4)Solution for Subgame 1

Player 1 chooses U rather than D because 3 > 2 for Player 1's payoff. The resulting equilibrium is (A, X) → (3,4).

Solution of Subgame Perfect Equilibrium

Thus, the subgame perfect equilibrium through backwards induction is (UA, X) with the payoff (3, 4).

Repeated games

For finitely repeated games, if a stage game has only one unique Nash equilibrium, the subgame perfect equilibrium is to play without considering past actions, treating the current subgame as a one-shot game. An example of this is a finitely repeated Prisoner's dilemma game. The Prisoner's dilemma gets its name from a situation that contains two guilty culprits. When they are interrogated, they have the option to stay quiet or defect. If both culprits stay quiet, they both serve a short sentence. If both defect, they both serve a moderate sentence. If they choose opposite options, then the culprit that defects is free and the culprit who stays quiet serves a long sentence. Ultimately, using backward induction, the last subgame in a finitely repeated Prisoner's dilemma requires players to play the unique Nash equilibrium (both players defecting). Because of this, all games prior to the last subgame will also play the Nash equilibrium to maximize their single-period payoffs.[4] If a stage-game in a finitely repeated game has multiple Nash equilibria, subgame perfect equilibria can be constructed to play non-stage-game Nash equilibrium actions, through a "carrot and stick" structure. One player can use the one stage-game Nash equilibrium to incentivize playing the non-Nash equilibrium action, while using a stage-game Nash equilibrium with lower payoff to the other player if they choose to defect.[5]

서브게임 퍼펙트 평형률 찾기

역유도 솔루션이 잘 알려진 한 게임은 틱택토다.

라인하르트 셀튼은 메인 게임에서 가능한 모든 선택의 하위 세트를 포함하는 "하위 게임"으로 나눌 수 있는 모든 게임이 서브게임 퍼펙트 나시 밸런스 전략을 가질 것이라고 증명했다(아마도 비결정론적인 서브게임 결정을 내리는 혼합 전략일 것이다). 서브게임 완성도는 정보가 완전한 게임에만 사용된다. 완전하지만 불완전한 정보광범위한 형태 게임과 함께 서브게임의 완벽함을 사용할 수 있다.

서브게임 퍼펙트 나시 평형은 일반적으로 게임의 다양한 궁극적 결과로부터 "로 유도"에 의해 추론되며, 플레이어가 해당 노드에서 신뢰할 수 없는(최적적이지 않기 때문에) 이동을 하는 것을 수반하는 분기를 제거한다. 역유도 솔루션이 잘 알려진 한 경기는 틱택토지만 이론상 바둑조차 모든 선수에게 이런 최적의 전략을 갖고 있다. 서브게임 완성도와 역유도와의 관계 문제는, 일반화된 역유도 절차로 인해 무한 길이, 각 정보 세트와 같이 무한 행동, 최종적인 조건일 경우 불완전한 정보를 가질 수 있는 게임에서 모든 서브게임 퍼펙트 평형(subgame perfect alillivia)이 발생한다는 것을 입증한 카민스키(2019)에 의해 해결되었다.교제가 만족하다.

전 단락에서 "크레디블"이라는 단어의 흥미로운 측면은 서브게임 퍼펙트 전략보다 우수하지만, 서브게임 퍼펙트 전략에 대한 위협은 플레이어가 위협을 하는 것에 해를 끼치고 이를 방지한다는 점에서 신뢰할 수 없는 전체(하위게임에 도달하는 불가역성) 전략이 존재한다는 점이다. 전략의 조합 예를 들어, "치킨" 게임에서 만약 한 명의 플레이어가 그들의 차에서 핸들을 찢을 수 있는 선택권이 있다면, 그들은 항상 그것을 가져가야 한다. 왜냐하면 그것은 그들의 이성적인 상대가 같은 일을 하지 못하게 하는 (그리고 그들 둘 다 죽이는) "하위 게임"으로 이어지기 때문이다. 휠리퍼는 항상 게임에서 이길 것이며(상대방이 휙 방향을 틀게 하며), 상대가 자살로 따라간다는 협박은 신빙성이 없다.

참고 항목

참조

  1. ^ a b Osborne, M. J. (2004). An Introduction to Game Theory. Oxford University Press.
  2. ^ Kuhn, Harold William; Tucker, Albert William (2 March 2016). Contributions to the Theory of Games (AM-28), Volume II. Princeton University Press. ISBN 978-1-4008-8197-0.
  3. ^ a b Joel., Watson (2013-05-09). Strategy : an introduction to game theory (Third ed.). New York. ISBN 9780393918380. OCLC 842323069.
  4. ^ Yildiz, Muhamet (2012). "12 Repeated Games". 14.12 Economic Applications of Game Theory. Massachusetts Institute of Technology: MIT OpenCourseWare. Retrieved April 27, 2021.
  5. ^ Takako, Fujiwara-Greve. Non-cooperative game theory. Tokyo. ISBN 9784431556442. OCLC 911616270.

외부 링크