AIXI

AIXI

AIXI ['ai̯k͡siː]인공지능을 위한 이론 수학 형식주의다. 솔로몬오프 유도순차적 결정론을 결합한 것이다. AIXI는 2000년[1] 마커스 허터에 의해 처음 제안되었고 AIXI에 관한 몇 가지 결과가 허터의 2005년 책 유니버설 인공지능에서 증명되었다.[2]

AIXI는 강화 학습제다. 그것은 환경으로부터 받는 기대 총 보상을 최대화한다. 직관적으로 모든 계산 가능한 가설(또는 환경)을 동시에 고려한다. 각각의 시간 단계에서, 가능한 모든 프로그램을 보고, 그 프로그램이 취한 다음 행동에 따라 얼마나 많은 보상을 창출하는지 평가한다. 그리고 나서 약속된 보상은 이 프로그램이 진정한 환경을 구성한다는 주관적인 믿음에 의해 가중된다. 이 믿음은 프로그램의 길이로부터 계산된다: 긴 프로그램은 오캄의 면도기에 따라 덜 가능성이 있다고 여겨진다. 그런 다음 AIXI는 이러한 모든 프로그램의 가중치 합계에서 기대 총 보상이 가장 높은 액션을 선택한다.

정의

AIXI is a reinforcement learning agent that interacts with some stochastic and unknown but computable environment . The interaction proceeds in time steps, from to , where is the lifespan of the AIXI agent. At time step t, the agent chooses an action (e.g. a limb movement) and executes it in the environment, and the environment responds with a "percept" , which consists of an "observation" (e.g., a camera image) and a reward , distributed according to the conditional probability 여기서 1 .- - t- 1 1}r_}...은(는) 조치, 관찰 및 보상의 "역사"이다. 따라서 환경 은(는) 수학적으로 전체 이력에 의존하는 "percepts"(관찰과 보상)에 대한 확률 분포로 표현되므로 (다른 RL 알고리즘과는 반대로) 마르코프 가정은 존재하지 않는다. AIXI 에이전트는 이 확률 분포를 수 없다는 점을 다시 한 번 주의하십시오. 또한 은([3]는) 계산할 수 있다는 점을 다시 한 번 주목하십시오. 즉, AIXI 에이전트의 과거 작업을 감안할 때, {\}에서 에이전트가 수신한 관찰과 보상은 일부 프로그램(Turing 시스템에서 실행)에서 계산할 수 있다.

에이전트의 유일한 목표는 t= m 즉 시간 단계 1에서 m까지의 보상의 합을 최대화하는 것이다.

The AIXI agent is associated with a stochastic policy , which is the function it uses to choose actions at every time step, where is the space of all possible actions that AiSCSI는 가져갈 수 있으며 은(는) 환경에 의해 생성될 수 있는 모든 가능한 "허용"의 공간이다. 환경(또는 확률분포) 도 확률적 정책(함수)으로 생각할 수 있다. :( ) → E {\여기서μ : *}는 클레인 스타 연산이다

일반적으로 시간에, 스텝 t{\displaystyle지}(1m 85000~90000원입니다), AIXI, 1…이전에 실행 행동은 t− 1{\displaystyle a_{1}\dots a_{t-1}}(종종 문학에서<>로,{\displaystyle a_{<>t}}축약 됩니다)과 1r1마다 percepts의 역사 관찰되야. .. 남성인 에드워드 니노< t < 로 축약할 수 있음)는 다음과 같이 정의된 t{\a_{를 선택하여 환경에서 실행한다

또는 괄호를 사용하여 선행 사항의 모호성을 해소한다.

직관적으로 위의 정의에서 AIXI는 가능한 "미래"에서 최대 m - t {\displaystyle 까지의 시간 단계(t 에서 까지)에 대한 총 보상의 합을 고려한다. 즉, -)의 복잡도로)H({2^{-{\textrm{길이\displaystyle}}(q)}})은 그 미래 발생시킬 수 있어 에이전트의 지난(그 말은 이전에 실행의<>,{\displaystyle a_{<>t}},고 받percepts, e<>,{\displaystyle e_{<>t}})과 일치한 다음 기대 미래의 보상 maximises 조치 받는다..[3]

이 정의를 완전히 이해하려고 시도해보자.

는) "percept"(관찰 이며 AIXI 에이전트가 시간 단계 t 에서 받은 보상 displaystyt로 구성된다. 마찬가지로 m 은 AIXI가 시간 단계 mAIXI가 활성화된 마지막 단계)에서 수신한 지각이다.

++ 시간 단계 t에서 시간 m m까지의 보상의 합이므로 AIXI는 시간 단계 에서 자신의 행동을 선택하기 위해 미래를 살펴볼 필요가 있다

은(는) 단일 범용 튜링 시스템을 의미하며, 프로그램을 으로 수신하는 범용 시스템 의 모든(결정론적) 프로그램에 대한 범위 a (즉, 모든 동작) 및 m m 의 순서를 생성한다 따라서 범용 튜링 U 은(는) 프로그램 환경을 "모듈링") 및 AIXI 에이전트의 모든 작업을 감안할 때 환경 반응이나 개념을 "모사"하거나 계산하는 데 사용된다. 이러한 의미에서 환경은 "컴퓨팅 가능"(위에서 언급된 대로) 일반적으로 현재 환경과 실제 환경(AIXI가 작용해야 하는 곳)을 "모델링"하는 프로그램은 현재 환경도 알 수 없기 때문에 알 수 없다는 점에 유의한다.

) 프로그램 {\displaystyle 문자열로 인코딩됨)의 길이입니다 Note that . Hence, in the definition above, should be interpreted as a mixture (in this case, a sum) over all computable environments (which are consistent with the agent's past), each weighted by its complexity . Note that can also be written as , and is the sequence of actions already executed in the environment by the AIXI agent. Similarly, , and is the seque지금까지 환경에 의해 생산된 개념의 nce

이제 이 방정식이나 정의를 이해하기 위해 이 모든 요소들을 종합해 봅시다.

At time step t, AIXI chooses the action where the function +r_m2가 최대치에 도달한다.

매개변수

AIXI에 대한 매개변수는 범용 튜링 머신 U와 에이전트의 수명 m으로, 선택해야 한다. 후자의 매개변수는 할인 사용으로 제거할 수 있다.

AIX라는 단어의 의미i

허터에 따르면 AIXI라는 단어는 여러 해석을 할 수 있다. AIXI는 솔로몬노프의 분포를 기준으로 AI를 나타낼 수 있으며, }(그리스 문자 xi)로 표기된다. 예를 들어, 유도(I)로 AI "교차"(X)를 나타낼 수 있다. 다른 해석도 있다.

최적성

AIXI의 성능은 예상되는 총 보상 횟수로 측정한다. AIXI는 다음과 같은 방법으로 최적임이 입증되었다.[2]

  • 파레토 최적성: 모든 환경에서 AIXI만큼 성능을 발휘하면서도 한 가지 환경에서 엄격하게 더 우수한 성능을 발휘하는 다른 에이전트는 없다.[citation needed]
  • 균형 잡힌 파레토 최적성: 파레토 최적성처럼, 그러나 환경의 가중치 합을 고려한다.
  • 자가 최적화: 에이전트 수명(시간이 아닌)이 무한대로 갈 때 p의 성능이 에 대한 이론적 최대치에 근접하는 경우 p를 환경 {\}에 대해 자가 최적화라고 한다. 자체 최적화 정책이 존재하는 환경 클래스에 대해서는 AIXI가 자체 최적화한다.

후에 Hutter와 Jan Leike에 의해 균형 잡힌 Pareto 최적성은 주관적이며 어떤 정책도 Pareto 최적으로 간주될 수 있다는 것이 보여졌는데, 그들은 AIXI에 대한 이전의 모든 최적성 주장을 훼손하는 것으로 묘사한다.[5]

그러나 AIXI는 한계가 있다. 외부 상태와 반대로 인식에 근거한 보상을 극대화하는 것으로 제한된다. 또한 행동 및 인식 채널을 통해서만 환경과 상호작용을 한다고 가정하여 손상 또는 변경의 가능성을 고려하지 않는다. 구어적으로, 이것은 그것이 상호작용하는 환경에 의해 그 자체가 포함된다고 생각하지 않는다는 것을 의미한다. 그것은 또한 환경이 계산 가능하다고 가정한다.[6]

계산적 측면

솔로몬오프 유도처럼 AIXI는 비교할 수 없다. 그러나 계산 가능한 근사치가 있다. 그러한 근사치 중 하나는 AIXItl로, 최소한 가장 좋은 시간 t와 공간 l 한정 에이전트만큼 성능을 발휘한다.[2] 제한된 환경 클래스를 가진 AIXI에 대한 또 다른 근사치는 MC-AIXI(FAC-CTW)이다(Monte Carlo AIXI FAS-Context-Tree Weighting을 의미한다). 이는 부분적으로 관측 가능한 Pac-Man과 같은 간단한 게임을 하는 데 어느 정도 성공했다.[3][7]

참고 항목

참조

  1. ^ Marcus Hutter (2000). A Theory of Universal Artificial Intelligence based on Algorithmic Complexity. arXiv:cs.AI/0004001. Bibcode:2000cs........4001H.
  2. ^ a b c — (2004). Universal Artificial Intelligence: Sequential Decisions Based on Algorithmic Probability. Texts in Theoretical Computer Science an EATCS Series. Springer. doi:10.1007/b138233. ISBN 978-3-540-22139-5. S2CID 33352850.
  3. ^ a b c Veness, Joel; Kee Siong Ng; Hutter, Marcus; Uther, William; Silver, David (2009). "A Monte Carlo AIXI Approximation". arXiv:0909.0801 [cs.AI].
  4. ^ 유니버설 인공지능
  5. ^ Leike, Jan; Hutter, Marcus (2015). Bad Universal Priors and Notions of Optimality (PDF). Proceedings of the 28th Conference on Learning Theory.
  6. ^ Soares, Nate. "Formalizing Two Problems of Realistic World-Models" (PDF). Intelligence.org. Retrieved 2015-07-19.
  7. ^ AIXI 근사치를 사용한 Pacman 재생 - YouTube