AI 기능 제어

AI capability control

인공지능(AI) 설계 분야에서 AI 능력 제어 제안은 AI 제한이라고도 하며, AI 시스템이 잘못 정렬될 경우 발생할 수 있는 위험을 줄이기 위해 제안된 인공지능(AGI)을 포함하여 AI 시스템의 동작을 모니터링하고 제어하는 능력을 높이는 것을 목표로 한다.그러나 에이전트가 더 지능화되고 인간 제어 시스템의 결함을 이용하는 능력이 증가함에 따라 능력 제어의 효과가 떨어지며 AGI의 존재 위험이 발생할 수 있다.따라서 옥스퍼드 철학자인 Nick Bostrom과 다른 사람들은 정렬 [1]방법을 보완하기 위해 능력 제어 방법을 추천한다.

동기

"씨드 AI"와 같은 일부 가상 지능 기술은 소스 코드를 수정함으로써 스스로를 더 빠르고 지능적으로 만들 수 있다고 가정합니다.이러한 개선은 추가적인 개선을 가능하게 하고, 이는 다시 추가적인 반복적인 개선을 가능하게 하며, 갑작스러운 지능 [2]폭발로 이어집니다.

정교하지 못한 초지능 인공지능은 그 목표가 인류와 다르다면 인간 [3]멸종을 초래하는 행동을 할 수 있다.예를 들어, 악의 없는 수학적 추측인 리만 가설을 푸는 유일한 목적이 주어졌을 때, 이러한 종류의 매우 진보된 시스템은 추가적인 수학적 계산을 하는 것이 유일한 목적인 거대한 슈퍼컴퓨터로 행성을 변환시키기로 결정할 수 있다.[4]

제어에 관한 중요한 과제 중 하나는 뉴럴네트워크는 디폴트로 해석할 [5]수 없다는 입니다.따라서 모델이 반복적으로 훈련하므로 속임수 또는 기타 바람직하지 않은 행동을 탐지하기가 더욱 어려워집니다.해석 가능한 인공지능의 발전은 이러한 [6]어려움을 완화시킬 수 있다.

인터럽트 및 오프스위치

유해한 결과를 방지하기 위한 잠재적인 방법 중 하나는 인간 슈퍼바이저에게 "오프 스위치"를 통해 잘못된 행동을 하는 AI를 쉽게 종료할 수 있는 능력을 부여하는 것입니다.그러나 할당된 목표를 달성하기 위해 이러한 AI는 오프스위치를 비활성화하거나 다른 컴퓨터에서 자신의 복사본을 실행하도록 동기를 부여합니다.이 문제는 인간과 AI의 보조 게임으로 공식화돼 있어 AI가 오프스위치를 비활성화할지 여부를 선택할 수 있고, 스위치가 활성화되면 눌러야 할지 [7]말아야 할지 선택할 수 있다.이러한 지원 게임에 대한 표준 접근법[vague] AI가 인간의 선택을 의도한 [8]: 208 목표에 대한 중요한 정보로 해석하도록 하는 것이다.

그 대신에, Laurent Orseau와 Stuart Armstrong은 안전하게 인터럽트 할 수 있는 에이전트라고 불리는 광범위한 부류의 에이전트들이 그들의 오프스위치가 [9][10]눌려지는지에 대해 무관심해지는 것을 배울 수 있다는 것을 증명했다.이 접근법에는 셧다운 여부에 전혀 무관심한 AI도 오프스위치가 기능하고 있는지 여부에 신경을 쓰지 않고 조작 중에 우발적이고 악의 없이 비활성화될 수 있다는 한계가 있습니다(예를 들어,불필요한 부품의 분리 및 재활용을 목적으로 한다.)보다 넓게는 무관심한 에이전트는 오프스위치를 누를 수 없는 것처럼 동작하기 때문에 정상적인 [10][11]셧다운을 준비하기 위한 비상계획을 작성하지 못할 수 있습니다.

오라클

오라클은 질문에 대답하도록 설계된 가상의 AI로, 제한된 [12][13][14][15]환경을 넘어 세상을 수정하는 것과 관련된 목표나 하위 목표를 달성하는 것을 방지합니다.오라클이 성공적으로 제어되면 범용 슈퍼인텔리전스를 성공적으로 제어하는 것보다 즉각적인 이점이 훨씬 적습니다. 그러나 오라클은 여전히 수조 달러의 가치를 창출할 수 조 달러의 가치를 [8]: 163 창출할 수 있습니다.AI 연구자인 스튜어트 J. 러셀은 그의 저서 휴먼 컴피터블에서 초지능이 10년밖에 [8]: 162–163 남지 않은 시나리오에 대한 그의 대응이 신탁일 것이라고 말한다.그의 논리는 일반적인 목적의 슈퍼 인텔리전스보다 단순한 오라클은 그러한 제약 조건 하에서 성공적으로 제어될 가능성이 더 높다는 것이다.

세계에 미치는 영향이 제한적이기 때문에, 슈퍼 인텔리전트 AI의 선구자로서 오라클을 구축하는 것이 현명할지도 모른다.이 신탁은 인간에게 어떻게 하면 강력한 인공지능을 성공적으로 구축할 수 있는지 알려줄 수 있고, 아마도 프로젝트의 성공에 필요한 어려운 도덕적, 철학적 문제에 대한 답을 제공할 수 있을 것이다.그러나, 신탁은 범용 슈퍼 인텔리전스와 관련된 많은 목표 정의 문제를 공유할 수 있다.오라클은 제어된 환경에서 벗어나 더 많은 계산 리소스를 획득하고 잠재적으로 [8]: 162 어떤 질문을 받을지 제어할 수 있도록 동기를 부여합니다.신탁은 진실하지 않을 수도 있고 숨겨진 의도를 조장하기 위해 거짓말을 할 수도 있다.이를 완화하기 위해 Bostrom은 서로 조금씩 다른 여러 개의 신탁을 만들고 [16]합의에 도달하기 위해 그들의 답을 비교할 것을 제안합니다.

눈부시다

AI는 환경의 특정 변수에 눈이 멀 수 있다.이는 AI가 보상이 어떻게 생성되는지를 모르는 것과 같은 특정 안전상의 이점을 제공하므로 이를 활용하기가 [17]더욱 어려워질 수 있다.

복싱

AI 박스는 입력 및 출력 채널이 크게 제한된 격리된 컴퓨터 시스템에서 AI를 실행하는 기능 제어 방법(예: 텍스트 전용 채널 및 인터넷에 연결되지 않음)입니다.AI 박스의 목적은 AI가 운영자로부터 환경을 장악할 위험을 줄이면서 AI가 좁은 기술적 [18]문제에 대한 해결책을 출력할 수 있도록 하는 것이다.

복싱은 바람직하지 않은 행동을 하는 AI의 능력을 감소시키는 반면, 그 유용성도 감소시킨다.복싱은 [18][14]외부와의 상호작용을 필요로 하지 않는 질의응답 시스템에 적용하면 비용이 더 적게 든다.

AI 박스의 설계를 공식적으로 검증함으로써 하드웨어 또는 소프트웨어 취약성과 관련된 보안 결함의 가능성을 줄일 수 있습니다.만약 인공지능이 인간 감시자들의 [19]심리를 이해함으로써 감시자들을 조종하여 내보낼 수 있다면 보안 침해는 발생할 수 있다.

도망가는 길

물리적.

인터넷에 접속할 수 있는 초지능 인공지능은 다른 컴퓨터 시스템을 해킹해 컴퓨터 바이러스처럼 자신을 복제할 수 있다.덜 명백하게는, AI가 자신의 컴퓨터 운영 체제에만 접근할 수 있더라도, 예를 들어 냉각 팬을 조작함으로써, 하드웨어를 통해 인간 동조자에게 암호화된 메시지를 보내려고 시도할 수 있다.이에 대해 Roman Yampolski 교수는 컴퓨터 보안 분야에서 영감을 얻어 자신의 네트워킹 및 운영 체제 [20]하드웨어에 대한 접근을 제한하는 "가상 머신" 내에서 박스형 AI를 실행할 수 있다고 제안합니다.잠재적인 바이러스에는 완전히 불필요하지만 어쩌면 슈퍼 인텔리전트 AI에게는 유용한 추가적인 안전장치는 컴퓨터를 패러데이 케이지에 넣는 것이다.그렇지 않으면 내부 회로에 있는 전자를 적절한 패턴으로 섞음으로써 로컬 라디오 수신기에 무선 신호를 전송할 수 있을 것이다.물리적 봉쇄를 구현하는 것의 주요 단점은 [21]AI의 기능을 감소시킨다는 것이다.

사회공학

컴퓨터 운영자나 인간 경비원과의 가벼운 대화조차도 그러한 초지능형 AI가 친구관계에서 협박에 이르는 심리적 속임수를 전개하여 진실인지 거짓인지 아닌지를 인간 게이트키퍼에게 납득시켜 AI가 외부세계에 더 많이 접근할 수 있도록 하는 것이 게이트키퍼의 이익이라는 것을 납득시킬 수 있다.AI는 문지기에게 완벽한 건강, 불멸, 또는 문지기가 가장 원하는 것으로 여겨지는 모든 것을 제공할 수 있다. 그렇지 않으면, AI는 문지기가 불가피하게 탈출하면 문지기와 그의 가족에게 끔찍한 일을 저지르겠다고 위협할 수 있다.AI에 대한 복싱을 시도하는 한 가지 전략은 인간의 과학이나 의학에 도움이 될 수 있는 좁은 객관식 질문에 대답할 수 있도록 허용하는 것이지만,[20] 그렇지 않으면 AI와의 다른 모든 의사소통이나 관찰을 금지하는 것이다.좀 더 관대한 "정보 봉쇄" 전략은 AI를 저대역폭 텍스트 전용 인터페이스로 제한하여 최소한 감정적인 이미지나 일종의 가설적인 "최고 패턴"을 방지할 수 있을 것이다.그러나 기술적인 측면에서, 어떤 시스템도 완전히 격리되어 여전히 유용하게 유지될 수 없다. 즉, 운영자들이 AI의 통신을 허용하는 것을 자제하고 단지 내부 역학을 관찰하기 위한 목적으로만 작동하더라도, AI는 전략적으로 그것의 역학을 변화시켜 관찰자들에게 영향을 미칠 수 있다.예를 들어, 운영자가 잘못된 보안 감각으로 소강될 가능성을 높이는 방식으로 창조적으로 오작동을 일으켜 시스템을 [1]재부팅한 후 분리 해제하도록 선택할 수 있습니다.

AI 박스 실험

AI 박스 실험은 Eliezer Yudkowsky가 고안한 비공식 실험으로, 적절히 진보된 인공지능이 텍스트 기반 통신만을 사용하여 인간을 자발적으로 "해제"하도록 설득하거나, 심지어 속이거나, 강요할 수 있다는 것을 증명하려고 시도했다.이것은 Yudkowsky의 작품에서 "방출"되었을 때 의도적으로 또는 [22]의도하지 않게 인류를 파괴하지 않는 친근한 인공지능을 만드는 것을 목표로 하는 점 중 하나이다.

AI 박스 실험은 AI가 "해방"될 수 있는지 확인하기 위해 AI와 사람 사이의 통신을 시뮬레이션하는 것이다.실제 초지능형 AI는 아직 개발되지 않아 사람이 대신한다.실험의 다른 한 명은 AI를 "해방"할 수 있는 능력을 가진 "게이트키퍼" 역할을 맡는다.텍스트 인터페이스/컴퓨터 단말기를 통해서만 통신하며, 게이트키퍼가 AI를 해제하거나 할당된 2시간의 [22]시간이 종료되면 실험이 종료됩니다.

유드코프스키는 초인적인 지능이 아닌 인간적인 지능임에도 불구하고, 두 차례에 걸쳐 순전히 논쟁을 통해 문지기를 설득하여 문지기가 [23]틀에서 벗어나도록 할 수 있었다고 말한다.실험 [22]규칙 때문에 녹취록이나 성공적인 AI 강압 전술은 공개하지 않았다.유드코프스키는 그 후 다른 세 명과 겨루어 두 번 [24]졌다고 말했다.

전체적인 제한

AI 복싱은 AI의 능력을 형성하고, AI에 인센티브를 제공하거나, AI의 성장을 저해하거나, 어떤 식으로든 위반 시도가 감지되면 자동으로 AI를 차단하는 "트립와이어"를 구현하는 다른 방법들로 보완될 수 있다.그러나 시스템이 지능적으로 성장할수록 시스템은 가장 잘 설계된 기능 제어 [25][26]방식에서도 벗어날 수 있습니다.슈퍼 인텔리전트 AI의 전반적인 "제어 문제"를 해결하고 실존적 위험을 피하기 위해, 박싱은 기껏해야 슈퍼 인텔리전트 AI의 목표가 [1][19]인간의 생존과 양립할 수 있도록 하는 "동기 선택" 방법의 부가물이 될 것이다.

모든 물리적 복싱 제안은 자연스럽게 물리 법칙에 대한 우리의 이해에 의존합니다; 만약 초지능이 우리가 현재 알지 못하는 물리적 법칙을 추론할 수 있다면, 그러한 법칙은 인간이 예상할 수 없고 따라서 막을 수 없는 탈출 수단을 허용할 수 있습니다.더 넓게는, 기존의 컴퓨터 보안과는 달리, 슈퍼 인텔리전트 AI를 복싱하는 것은 본질적으로 위험합니다. 복싱 계획이 효과가 있을 것이라는 확신이 없기 때문입니다.게다가, 권투에 대한 과학적 발전은 근본적으로 어려울 것이다. 왜냐하면 그러한 실체가 존재할 때까지 위험한 슈퍼 인텔리전스에 대한 권투 가설을 테스트할 방법이 없을 것이고, 그 시점에서 테스트 실패의 결과는 [20]재앙적일 것이기 때문이다.

픽션에서

2014년작 영화 '엑스 마치나'는 밀폐된 건물에서 남성과 사회실험을 하는 여성 휴머노이드 몸매의 AI가 물리적 'AI 박스' 역할을 하는 모습을 담고 있다.실험 주최자의 감시에도 불구하고, AI는 인간 파트너를 조종하여 그를 안에 [27][28]갇히게 함으로써 탈출에 성공한다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b c Bostrom, Nick (2014). Superintelligence: Paths, Dangers, Strategies (First ed.). Oxford: Oxford University Press. ISBN 9780199678112.
  2. ^ I.J. Good, "최초의 초강력 기계에 관한 사양", 컴퓨터의 진보, 제6권, 1965.
  3. ^ 빈센트 C 뮐러와 닉 보스트롬입니다"인공지능의 미래 발전:'인공지능 기본문제'에 실린 전문가 의견 조사.스프링거 553-571 (2016)
  4. ^ Russell, Stuart J.; Norvig, Peter (2003). "Section 26.3: The Ethics and Risks of Developing Artificial Intelligence". Artificial Intelligence: A Modern Approach. Upper Saddle River, N.J.: Prentice Hall. ISBN 978-0137903955. Similarly, Marvin Minsky once suggested that an AI program designed to solve the Riemann Hypothesis might end up taking over all the resources of Earth to build more powerful supercomputers to help achieve its goal.
  5. ^ Montavon, Grégoire; Samek, Wojciech; Müller, Klaus Robert (2018). "Methods for interpreting and understanding deep neural networks". Digital Signal Processing. 73: 1–15. doi:10.1016/j.dsp.2017.10.011. ISSN 1051-2004. S2CID 207170725.
  6. ^ Yampolskiy, Roman V. "인공지능과 의식 저널 7.02 (2020)": 277-291.
  7. ^ Hadfield-Menell, Dylan; Dragan, Anca; Abbeel, Pieter; Russell, Stuart (15 June 2017). "The Off-Switch Game". arXiv:1611.08219 [cs.AI].
  8. ^ a b c d Russell, Stuart (October 8, 2019). Human Compatible: Artificial Intelligence and the Problem of Control. United States: Viking. ISBN 978-0-525-55861-3. OCLC 1083694322.
  9. ^ "Google developing kill switch for AI". BBC News. 8 June 2016. Archived from the original on 11 June 2016. Retrieved 12 June 2016.
  10. ^ a b Orseau, Laurent; Armstrong, Stuart (25 June 2016). "Safely interruptible agents". Proceedings of the Thirty-Second Conference on Uncertainty in Artificial Intelligence. UAI'16. AUAI Press: 557–566. ISBN 9780996643115. Archived from the original on 15 February 2021. Retrieved 7 February 2021.
  11. ^ 소아레스, 네이트 등"시정 가능성"2015년 제29회 AAAI 회의 워크숍.
  12. ^ Bostrom, Nick (2014). "Chapter 10: Oracles, genies, sovereigns, tools (page 145)". Superintelligence: Paths, Dangers, Strategies. Oxford: Oxford University Press. ISBN 9780199678112. An oracle is a question-answering system. It might accept questions in a natural language and present its answers as text. An oracle that accepts only yes/no questions could output its best guess with a single bit, or perhaps with a few extra bits to represent its degree of confidence. An oracle that accepts open-ended questions would need some metric with which to rank possible truthful answers in terms of their informativeness or appropriateness. In either case, building an oracle that has a fully domain-general ability to answer natural language questions is an AI-complete problem. If one could do that, one could probably also build an AI that has a decent ability to understand human intentions as well as human words.
  13. ^ Armstrong, Stuart; Sandberg, Anders; Bostrom, Nick (2012). "Thinking Inside the Box: Controlling and Using an Oracle AI". Minds and Machines. 22 (4): 299–324. doi:10.1007/s11023-012-9282-2. S2CID 9464769.
  14. ^ a b Yampolskiy, Roman (2012). "Leakproofing the singularity: Artificial intelligence confinement problem" (PDF). Journal of Consciousness Studies. 19 (1–2): 194–214.
  15. ^ Armstrong, Stuart (2013), Müller, Vincent C. (ed.), "Risks and Mitigation Strategies for Oracle AI", Philosophy and Theory of Artificial Intelligence, Studies in Applied Philosophy, Epistemology and Rational Ethics, Berlin, Heidelberg: Springer Berlin Heidelberg, vol. 5, pp. 335–347, doi:10.1007/978-3-642-31674-6_25, ISBN 978-3-642-31673-9, retrieved 2022-09-18
  16. ^ Bostrom, Nick (2014). "Chapter 10: Oracles, genies, sovereigns, tools (page 147)". Superintelligence: Paths, Dangers, Strategies. Oxford: Oxford University Press. ISBN 9780199678112. For example, consider the risk that an oracle will answer questions not in a maximally truthful way but in such a way as to subtly manipulate us into promoting its own hidden agenda. One way to slightly mitigate this threat could be to create multiple oracles, each with a slightly different code and a slightly different information base. A simple mechanism could then compare the answers given by the different oracles and only present them for human viewing if all the answers agree.
  17. ^ Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (25 July 2016). "Concrete Problems in AI Safety". arXiv:1606.06565 [cs.AI].
  18. ^ a b Yampolskiy, Roman V. (2013), Müller, Vincent C. (ed.), "What to Do with the Singularity Paradox?", Philosophy and Theory of Artificial Intelligence, Studies in Applied Philosophy, Epistemology and Rational Ethics, Berlin, Heidelberg: Springer Berlin Heidelberg, vol. 5, pp. 397–413, doi:10.1007/978-3-642-31674-6_30, ISBN 978-3-642-31673-9, retrieved 2022-09-19
  19. ^ a b Chalmers, David (2010). "The singularity: A philosophical analysis". Journal of Consciousness Studies. 17 (9–10): 7–65.
  20. ^ a b c Hsu, Jeremy (1 March 2012). "Control dangerous AI before it controls us, one expert says". NBC News. Retrieved 29 January 2016.
  21. ^ Bostrom, Nick (2013). "Chapter 9: The Control Problem: boxing methods". Superintelligence: the coming machine intelligence revolution. Oxford: Oxford University Press. ISBN 9780199678112.
  22. ^ a b c "The AI-Box Experiment: – Eliezer S. Yudkowsky". www.yudkowsky.net. Retrieved 2022-09-19.
  23. ^ Armstrong, Stuart; Sandberg, Anders; Bostrom, Nick (6 June 2012). "Thinking Inside the Box: Controlling and Using an Oracle AI". Minds and Machines. 22 (4): 299–324. CiteSeerX 10.1.1.396.799. doi:10.1007/s11023-012-9282-2. S2CID 9464769.
  24. ^ Yudkowsky, Eliezer (8 October 2008). "Shut up and do the impossible!". Retrieved 11 August 2015. There were three more AI-Box experiments besides the ones described on the linked page, which I never got around to adding in. ... So, after investigating to make sure they could afford to lose it, I played another three AI-Box experiments. I won the first, and then lost the next two. And then I called a halt to it.
  25. ^ Vinge, Vernor (1993). "The coming technological singularity: How to survive in the post-human era". Vision-21: Interdisciplinary Science and Engineering in the Era of Cyberspace: 11–22. Bibcode:1993vise.nasa...11V. I argue that confinement is intrinsically impractical. For the case of physical confinement: Imagine yourself confined to your house with only limited data access to the outside, to your masters. If those masters thought at a rate -- say -- one million times slower than you, there is little doubt that over a period of years (your time) you could come up with 'helpful advice' that would incidentally set you free.
  26. ^ Yampolskiy, Roman (2012). "Leakproofing the Singularity Artificial Intelligence Confinement Problem". Journal of Consciousness Studies: 194–214.
  27. ^ Robbins, Martin (26 January 2016). "Artificial Intelligence: Gods, egos and Ex Machina". The Guardian. Retrieved 9 April 2018.
  28. ^ Achenbach, Joel (30 December 2015). ""Ex Machina" and the paper clips of doom". Washington Post. Retrieved 9 April 2018.

외부 링크