Безпека штучного інтелекту

Безпека штучного інтелекту — це міждисциплінарна галузь, пов'язана із запобіганням нещасних випадків, неправильному використанню чи іншим шкідливим наслідкам, до яких можуть призвести системи штучного інтелекту (ШІ). Він охоплює машинну етику та узгодження думки ШІ зі своєю^[en], які мають на меті зробити системи штучного інтелекту моральними та корисними, а безпека штучного інтелекту охоплює технічні проблеми, зокрема системи моніторингу ризиків і підвищення їх надійності. Окрім досліджень штучного інтелекту, це передбачає розробку норм і політики, які сприяють безпеці.

Мотивації

Дослідники штучного інтелекту мають дуже різні думки щодо серйозності та основних джерел ризику, пов'язаного з технологією штучного інтелекту^[1]^[2]^[3], хоча опитування свідчать про те, що експерти серйозно ставляться до високих ризиків наслідків. У двох опитуваннях дослідників штучного інтелекту середній респондент був оптимістично налаштований щодо штучного інтелекту в цілому, але поставив 5 % ймовірність «надзвичайно поганого (наприклад, вимирання людини)» результату передового штучного інтелекту.^[1] У 2022 році в опитуванні спільноти обробки природної мови (NLP) 37 % погодилися або не погодилися з тим, що рішення штучного інтелекту можуть призвести до катастрофи, «щонайменше такої ж поганої, як повна ядерна війна».^[4] Науковці обговорюють поточні ризики від збоїв критичних систем, упередженості^[5] та стеження за допомогою ШІ; нові ризики, пов'язані з технологічним безробіттям, цифровими маніпуляціями^[6] та використанням зброї;^[7] та спекулятивні ризики від втрати контролю над майбутніми агентами штучного загального інтелекту (AGI).^[8]

Деякі критикували занепокоєння щодо AGI, наприклад Ендрю Нґ, який у 2015 році порівняв їх із «занепокоєнням про перенаселення Марса, коли ми ще навіть не ступили на планету».^[9] З іншого боку, Стюарт Дж. Рассел закликає бути обережними, стверджуючи, що «людську винахідливість краще передбачити, ніж недооцінювати».^[10]

Тло

Ризики штучного інтелекту почали серйозно обговорювати на початку комп'ютерної ери:

	Більше того, якщо ми рухаємося в напрямку створення машин, які навчаються і чия поведінка змінюється під впливом досвіду, ми повинні визнати той факт, що кожна ступінь незалежності, яку ми надаємо машині, є ступенем можливого ігнорування наших бажань. Оригінальний текст (англ.) Moreover, if we move in the direction of making machines which learn and whose behavior is modified by experience, we must face the fact that every degree of independence we give the machine is a degree of possible defiance of our wishes.
— Норберт Вінер (1949)^[11]

З 2008 по 2009 рік Асоціація розвитку штучного інтелекту (AAAI) замовила дослідження, щоб вивчити й розглянути потенційний довгостроковий суспільний вплив досліджень і розробок ШІ. Комісія загалом скептично поставилася до радикальних поглядів, висловлених авторами наукової фантастики, але погодилася, що «додаткове дослідження було б цінним щодо методів розуміння та перевірки діапазону поведінки складних обчислювальних систем для мінімізації неочікуваних результатів».^[12]

У 2011 році Роман Ямпольський ввів термін «техніка безпеки штучного інтелекту»^[13] на конференції з філософії та теорії штучного інтелекту^[14], перерахувавши попередні збої систем штучного інтелекту та стверджуючи, що «частота та серйозність таких подій невпинно зростатиме, оскільки ШІ стає більш здібним».^[15]

У 2014 році філософ Нік Бостром опублікував книгу «Суперінтелект: шляхи, небезпеки, стратегії». Він вважає, що зростання AGI потенційно може створити різні суспільні проблеми, починаючи від витіснення робочої сили штучним інтелектом, маніпуляцій політичними та військовими структурами, навіть до можливості вимирання людства.^[16] Його аргумент про те, що майбутні передові системи можуть становити загрозу існуванню людства, спонукав Ілона Маска, Білла Гейтса^[17] і Стівена Гокінга^[18] висловили подібні занепокоєння.

У 2015 році десятки експертів зі штучного інтелекту підписали відкритий лист щодо штучного інтелекту, у якому закликали до дослідження впливу штучного інтелекту на суспільство та окреслили конкретні напрямки.^[19] На сьогоднішній день лист підписали понад 8000 людей, включаючи Янна Лекуна, Шейна Легга, Йошуа Бенгіо та Стюарта Рассела.

У тому ж році група вчених під керівництвом професора Стюарта Рассела заснувала Центр сумісного з людиною штучного інтелекту в Каліфорнійському університеті Берклі, а Інститут майбутнього життя виділив гранти в розмірі 6,5 мільйонів доларів на дослідження, спрямовані на «забезпечення штучного інтелекту (ШІ)». залишається безпечним, етичним і корисним".^[20]

У 2016 році Управління наукової та технологічної політики Білого дому та Університет Карнегі-Меллона оголосили Громадський семінар з безпеки та контролю за штучним інтелектом^[21], який був одним із чотирьох семінарів Білого дому, спрямованих на дослідження «переваг і недоліків» ШІ.^[22] У тому ж році було опубліковано Concrete Problems in AI Safety — один із перших і найвпливовіших технічних планів безпеки AI.^[23]

У 2017 році Інститут майбутнього життя спонсорував Asilomar Conference on Beneficial AI, де понад 100 лідерів думок сформулювали принципи для корисного AI, зокрема «Уникнення перегонів: команди, які розробляють системи AI, повинні активно співпрацювати, щоб уникнути порушення стандартів безпеки».^[24]

У 2018 році команда DeepMind Safety окреслила проблеми безпеки штучного інтелекту в специфікаціях, надійності та надійності.^[25] Наступного року дослідники організували в ICLR семінар, присвячений цим проблемним сферам.^[26]

У 2021 році було опубліковано Unsolved Problems in ML Safety, в якому окреслено напрями досліджень у сфері надійності, моніторингу, узгодження та системної безпеки.^[27]

У 2023 році Ріші Сунак заявив, що хоче, щоб Сполучене Королівство стало «географічним домом для глобального регулювання безпеки штучного інтелекту» та прийняло перший глобальний саміт з безпеки ШІ.^[28]

Фокус дослідження

Сфери досліджень безпеки ШІ включають надійність, моніторинг і вирівнювання.^[27]^[25]

Міцність

Змагальна міцність

Системи штучного інтелекту часто вразливі до суперечливих прикладів або «вхідних даних до моделей машинного навчання (ML), які зловмисник навмисно створив, щоб змусити модель зробити помилку».^[29] Наприклад, у 2013 році Szegedy et al. виявив, що додавання певних непомітних збурень до зображення може призвести до його неправильної класифікації з високою достовірністю.^[30] Це продовжує залишатися проблемою для нейронних мереж, хоча в останніх роботах збурення, як правило, досить великі, щоб їх можна було відчути.^[31]^[32]^[33]

Передбачається, що всі зображення праворуч будуть страусами після застосування пертурбації. (Ліворуч) — правильно передбачений зразок, (у центрі) застосоване збурення, збільшене в 10 разів, (праворуч) змагальний приклад.^[30]

Стійкість змагання часто асоціюється з безпекою.^[34] Дослідники продемонстрували, що аудіосигнал можна непомітно модифікувати, щоб системи перетворення мови в текст транскрибували його в будь-яке повідомлення, яке вибере зловмисник.^[35] Системи виявлення мережевих вторгнень^[36] і зловмисного програмного забезпечення^[37] також повинні бути стійкими до змагань, оскільки зловмисники можуть планувати свої атаки, щоб обдурити детектори.

Моделі, які представляють цілі (моделі винагороди), також повинні бути стійкими до змагальності. Наприклад, модель винагороди може оцінити, наскільки корисною є текстова відповідь, а мовну модель можна навчити, щоб максимізувати цей бал.^[38] Дослідники показали, що якщо мовну модель тренувати достатньо довго, вона використовуватиме вразливі місця моделі винагороди, щоб отримати кращий результат і гірше виконувати заплановане завдання.^[39] Цю проблему можна вирішити, покращивши конкурентоспроможність моделі винагороди.^[40] Загалом, будь-яка система ШІ, яка використовується для оцінки іншої системи ШІ, має бути стійкою до змагань. Це може включати інструменти моніторингу, оскільки вони також потенційно можуть бути підроблені для отримання більшої винагороди.^[41]

Моніторинг

Оцінка невизначеності

Для людей-операторів часто важливо оцінити, наскільки вони повинні довіряти системі штучного інтелекту, особливо в таких серйозних ситуаціях, як медична діагностика.^[42] Моделі ML зазвичай виражають впевненість шляхом виведення ймовірностей; однак вони часто надто самовпевнені, особливо в ситуаціях, які відрізняються від тих, з якими їх навчили вирішувати.^[43] Дослідження калібрування спрямоване на те, щоб імовірності моделі якомога точніше відповідали справжньому співвідношенню правильності моделі.

Подібним чином виявлення аномалій або виявлення нерозповсюдження (OOD) має на меті визначити, коли система ШІ знаходиться в незвичній ситуації. Наприклад, якщо датчик на автономному транспортному засобі несправний або він натрапляє на складну місцевість, він повинен попередити водія про необхідність взяти керування або зупинитися.^[44] Виявлення аномалій було реалізовано шляхом простого навчання класифікатора розрізняти аномальні та неаномальні вхідні дані^[45], хоча використовується низка додаткових методів.^[46]^[47]

Виявлення шкідливого використання

Вчені^[7] та державні установи висловлюють занепокоєння, що системи штучного інтелекту можуть використовуватися, щоб допомогти зловмисникам створювати зброю,^[48] маніпулювати громадською думкою^[49]^[50] або автоматизувати кібератаки.^[51] Ці занепокоєння викликають практичне занепокоєння для таких компаній, як OpenAI, які розміщують потужні інструменти штучного інтелекту онлайн.^[52] Щоб запобігти зловживанням, OpenAI створив системи виявлення, які позначають або обмежують користувачів на основі їх активності.^[53]

Прозорість

Нейронні мережі часто описують як чорні ящики^[54], що означає, що важко зрозуміти, чому вони приймають рішення, які вони приймають, у результаті величезної кількості обчислень, які вони виконують.^[55] Через це складно передбачити невдачі. У 2018 році безпілотний автомобіль збив на смерть пішохода, не впізнавши його. Через природу програмного забезпечення штучного інтелекту як чорного ящика причина збою залишається незрозумілою.^[56]

Однією з найважливіших переваг прозорості є можливість пояснення.^[57] Іноді юридична вимога надати пояснення, чому було прийнято рішення, щоб забезпечити справедливість, наприклад, для автоматичного фільтрування заявок на прийом на роботу або визначення кредитного рейтингу.^[57]

Ще одна перевага полягає в тому, щоб виявити причину невдач.^[54] На початку пандемії COVID-19 2020 року дослідники використовували інструменти прозорості, щоб показати, що класифікатори медичних зображень «звертали увагу» на нерелевантні мітки лікарень.^[58]

Методи прозорості також можна використовувати для виправлення помилок. Наприклад, у статті «Розташування та редагування фактичних асоціацій у GPT» автори змогли визначити параметри моделі, які вплинули на те, як вона відповідає на запитання про розташування Ейфелевої вежі. Потім вони змогли «відредагувати» ці знання, щоб змусити модель відповідати на запитання так, ніби вона вважала, що вежа знаходиться в Римі, а не у Франції.^[59] Хоча в цьому випадку автори викликали помилку, ці методи потенційно можуть бути використані для ефективного їх виправлення. Техніка редагування моделі також існує в комп'ютерному зорі.^[60]

Нарешті, деякі стверджують, що непрозорість систем штучного інтелекту є значним джерелом ризику, і краще розуміння того, як вони функціонують, може запобігти серйозним збоям у майбутньому.^[61] Дослідження «внутрішньої» інтерпретації спрямовані на те, щоб зробити моделі машинного навчання менш непрозорими. Однією з цілей цього дослідження є визначення того, що представляють активації внутрішніх нейронів.^[62]^[63] Наприклад, дослідники ідентифікували нейрон у системі штучного інтелекту CLIP, який реагує на зображення людей у костюмах людини-павука, ескізи людини-павука та слово «павук».^[64] Це також передбачає пояснення зв'язків між цими нейронами або «ланцюгами».^[65]^[66] Наприклад, дослідники виявили механізми зіставлення шаблонів у трансформаторній увазі, які можуть відігравати роль у тому, як мовні моделі вивчають свій контекст.^[67] «Внутрішню інтерпретативність» порівнюють із нейронаукою. В обох випадках мета полягає в тому, щоб зрозуміти, що відбувається в складній системі, хоча дослідники ML мають перевагу в тому, що вони можуть проводити ідеальні вимірювання та виконувати довільні абляції.^[68]

Виявлення троянів

Моделі ML потенційно можуть містити «трояни» або «бекдори»: уразливості, які зловмисники зловмисно вбудовують у систему ШІ. Наприклад, троянська система розпізнавання обличчя може надати доступ, коли в полі зору певний ювелірний виріб;^[27] або троянський автономний транспортний засіб може функціонувати нормально, доки не буде видно конкретний тригер.^[69] Зауважте, що зловмисник повинен мати доступ до навчальних даних системи, щоб встановити троян. Це може бути неважко зробити з деякими великими моделями, такими як CLIP або GPT-3, оскільки вони навчаються на загальнодоступних даних в Інтернеті.^[70] Дослідники змогли підсадити троян до класифікатора зображень, змінивши лише 300 із 3 мільйонів навчальних зображень.^[71] Крім загрози безпеці, дослідники стверджують, що трояни забезпечують конкретне налаштування для тестування та розробки кращих інструментів моніторингу.^[41]

Зазвичай ризики штучного інтелекту (і технологічні ризики в цілому) класифікують як неправильне використання або нещасні випадки.^[72] Деякі вчені припускають, що ця структура не відповідає вимогам.^[72] Наприклад, кубинська ракетна криза не була однозначно нещасним випадком чи неправильним використанням технологій.^[72] Політичні аналітики Цветслот і Дефо написали: «Перспективи неправильного використання та нещасних випадків, як правило, зосереджуються лише на останньому етапі причинно-наслідкового ланцюга, що призводить до шкоди: тобто особа, яка неправильно використала технологію, або система, яка поводилася ненавмисно… Однак часто відповідний причинно-наслідковий ланцюг набагато довший». Ризики часто виникають через «структурні» або «системні» фактори, такі як конкурентний тиск, розповсюдження шкоди, швидкий розвиток, високий рівень невизначеності та недостатня культура безпеки.^[72] У ширшому контексті техніки безпеки структурні фактори, такі як «організаційна культура безпеки», відіграють центральну роль у популярній системі аналізу ризиків STAMP.^[73]

Натхненні структурною перспективою, деякі дослідники підкреслили важливість використання машинного навчання для покращення соціально-технічних факторів безпеки, наприклад, використання машинного навчання для кіберзахисту, покращення інституційного прийняття рішень і сприяння співпраці.^[27]

Кіберзахист

Деякі вчені стурбовані тим, що штучний інтелект загострить і без того незбалансовану гру між кібер-зловмисниками та кібер-захисниками.^[74] Це посилить стимули до «першого удару» та може призвести до більш агресивних та дестабілізуючих атак. Щоб зменшити цей ризик, деякі виступають за посилення уваги до кіберзахисту. Крім того, безпека програмного забезпечення має важливе значення для запобігання крадіжці та неправильному використанню потужних моделей ШІ.^[7]

Удосконалення інституційного прийняття рішень

Розвиток штучного інтелекту в економічній і військовій сферах може спричинити безпрецедентні політичні виклики.^[75] Деякі вчені порівнюють динаміку гонки штучного інтелекту з холодною війною, коли ретельне судження невеликої кількості осіб, які приймають рішення, часто вказувало на різницю між стабільністю та катастрофою.^[76] Дослідники штучного інтелекту стверджують, що технології штучного інтелекту також можна використовувати для сприяння прийняттю рішень.^[27] Наприклад, дослідники починають розробляти системи прогнозування ШІ^[77] та консультаційні системи.^[78]

Сприяння співпраці

Багато найбільших глобальних загроз (ядерна війна,^[79] зміна клімату^[80] тощо) були представлені як виклики співпраці. Як і у добре відомому сценарії дилеми в'язня, певна динаміка може призвести до поганих результатів для всіх гравців, навіть якщо вони оптимально діють у власних інтересах. Наприклад, жодна окрема сторона не має сильних стимулів для вирішення проблеми зміни клімату, навіть якщо наслідки можуть бути значними, якщо ніхто не втрутиться.^[80]

Основна проблема співпраці зі штучним інтелектом полягає в уникненні «гонки на дно». У цьому сценарії країни чи компанії намагаються створити більш потужні системи ШІ та нехтують безпекою, що призводить до катастрофічної аварії, яка завдає шкоди всім учасникам. Занепокоєння щодо подібних сценаріїв надихнуло як політичні, так і технічні^[81] зусилля, спрямовані на сприяння співпраці між людьми та, можливо, також між системами ШІ. Більшість досліджень штучного інтелекту зосереджено на розробці окремих агентів для виконання ізольованих функцій (часто в «одиночних» іграх).^[82] Вчені припустили, що коли системи штучного інтелекту стають більш автономними, може стати важливим вивчення та формування способу їх взаємодії.^[82]

В урядуванні

Управління штучним інтелектом широко стосується створення норм, стандартів і правил, які б керували використанням і розвитком систем штучного інтелекту.^[76]

Дослідження

Дослідження управління безпекою штучного інтелекту варіюються від фундаментальних досліджень потенційного впливу ШІ до конкретних програм. Щодо основи, дослідники стверджують, що штучний інтелект може змінити багато аспектів суспільства завдяки його широкому застосуванню, порівнюючи його з електрикою та паровою машиною.^[83] Деяка робота була зосереджена на передбаченні конкретних ризиків, які можуть виникнути внаслідок цих впливів — наприклад, ризики від масового безробіття,^[84] використання зброї,^[85] дезінформації,^[86] стеження та концентрації влади.^[87] Інша робота досліджує основні фактори ризику, такі як складність моніторингу індустрії штучного інтелекту, що швидко розвивається,^[88] доступність моделей штучного інтелекту^[89] та динаміку «гонки до дна».^[90] Аллан Дефо, голова відділу довгострокового управління та стратегії DeepMind, підкреслив небезпеку перегонів і потенційну потребу у співпраці: «це може бути майже необхідною та достатньою умовою для безпеки та узгодження штучного інтелекту, щоб перед тим був високий ступінь обережності. до розгортання передових потужних систем; однак, якщо учасники конкурують у сфері з великою віддачею для тих, хто йде першими, або відносною перевагою, тоді вони будуть вимушені вибирати неоптимальний рівень обережності».

Дії уряду

Деякі експерти стверджують, що ще занадто рано регулювати штучний інтелект, висловлюючи занепокоєння тим, що регулювання перешкоджатиме інноваціям, і було б нерозумно «поспішати з регулюванням через незнання».^[91]^[92] Інші, такі як бізнес-магнат Ілон Маск, закликають до превентивних дій для пом'якшення катастрофічних ризиків.^[93]

Окрім офіційного законодавства, державні установи висунули етичні рекомендації та рекомендації щодо безпеки. У березні 2021 року Комісія національної безпеки США зі штучного інтелекту повідомила, що прогрес у ШІ може зробити все більш важливим "забезпечення того, щоб системи відповідали цілям і цінностям, включаючи безпеку, надійність і надійність.^[94] Згодом Національний інститут стандартів і технологій розробив структуру для управління ризиками штучного інтелекту, яка радить, що коли «присутні катастрофічні ризики — розробку та розгортання слід припинити безпечним способом, доки ризиками не можна буде належним чином керувати».^[95]

У вересні 2021 року Китайська Народна Республіка опублікувала етичні рекомендації щодо використання штучного інтелекту в Китаї, наголошуючи на тому, що рішення щодо штучного інтелекту повинні залишатися під контролем людини, і закликаючи до механізмів підзвітності. У тому ж місяці Сполучене Королівство опублікувало свою 10-річну національну стратегію штучного інтелекту^[96], в якій зазначено, що британський уряд «бере на себе довгостроковий ризик позаблокового загального штучного інтелекту та непередбачуваних змін, які це означатиме для. .. світ, серйозно».^[97] Стратегія описує дії для оцінки довгострокових ризиків ШІ, включаючи катастрофічні ризики.^[97] Британський уряд оголосив про плани щодо першого великого глобального саміту з безпеки ШІ. Це має відбутися 1 і 2 листопада 2023 року, і це «можливість для політиків і світових лідерів розглянути безпосередні та майбутні ризики ШІ та те, як ці ризики можна пом'якшити за допомогою глобально скоординованого підходу».^[98]^[99]

Урядові організації, зокрема в Сполучених Штатах, також заохочують розвиток технічних досліджень безпеки ШІ. Діяльність передових дослідницьких проектів Intelligence ініціювала проект TrojAI для виявлення та захисту від атак троянських програм на системи ШІ.^[100] DARPA бере участь у дослідженні зрозумілого штучного інтелекту та покращення стійкості проти агресивних атак.^[101]^[102] А Національний науковий фонд підтримує Центр надійного машинного навчання та надає мільйони доларів на емпіричні дослідження безпеки ШІ.^[103]

Корпоративне саморегулювання

Лабораторії штучного інтелекту та компанії зазвичай дотримуються правил безпеки та норм, які виходять за рамки офіційного законодавства.^[104] Однією з цілей дослідників управління є формування цих норм. Приклади рекомендацій щодо безпеки, знайдені в літературі, включають проведення аудиту третьої сторони,^[105] пропозицію премії за виявлення збоїв,^[105] обмін інцидентами ШІ^[105] (для цієї мети була створена база даних інцидентів ШІ),^[106] дотримання вказівок. щоб визначити, чи варто публікувати дослідження чи моделі,^[89] і покращення інформаційної та кібербезпеки в лабораторіях ШІ.^[107]

Компанії також взяли на себе зобов'язання. Cohere, OpenAI та AI21 запропонували та узгодили «найкращі методи розгортання мовних моделей», зосереджуючись на пом'якшенні зловживання.^[108] Щоб уникнути внеску в динаміку перегонів, OpenAI також зазначив у своєму статуті, що «якщо проект, орієнтований на цінності та безпеку, наблизиться до створення AGI раніше, ніж ми, ми зобов'язуємося припинити конкурувати з цим проектом і почати допомагати йому»^[109] Крім того, такі лідери галузі, як генеральний директор DeepMind Деміс Хассабіс, директор Facebook AI Yann LeCun, підписали такі відкриті листи, як Принципи Асіломара.^[24] та Відкритий лист щодо автономної зброї.^[110]

Примітки

↑ ^а ^б Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31 липня 2018). Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts. Journal of Artificial Intelligence Research. 62: 729—754. doi:10.1613/jair.1.11222. ISSN 1076-9757. Архів оригіналу за 10 лютого 2023. Процитовано 28 листопада 2022.
↑ Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (5 травня 2021). Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers. arXiv:2105.02117.
↑ Stein-Perlman, Zach; Weinstein-Raun, Benjamin; Grace (4 серпня 2022). 2022 Expert Survey on Progress in AI. AI Impacts. Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
↑ Michael, Julian; Holtzman, Ari; Parrish, Alicia; Mueller, Aaron; Wang, Alex; Chen, Angelica; Madaan, Divyam; Nangia, Nikita; Pang, Richard Yuanzhe (26 серпня 2022). What Do NLP Researchers Believe? Results of the NLP Community Metasurvey. arXiv:2208.12852.
↑ Mehrabi, Ninareh; Morstatter, Fred; Saxena, Nripsuta; Lerman, Kristina; Galstyan, Aram (2021). A Survey on Bias and Fairness in Machine Learning. ACM Computing Surveys (англ.). 54 (6): 1—35. arXiv:1908.09635. doi:10.1145/3457607. ISSN 0360-0300. Архів оригіналу за 23 листопада 2022. Процитовано 28 листопада 2022.
↑ Barnes, Beth (2021). Risks from AI persuasion. Lesswrong. Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
↑ ^а ^б ^в Brundage, Miles; Avin, Shahar; Clark, Jack; Toner, Helen; Eckersley, Peter; Garfinkel, Ben; Dafoe, Allan; Scharre, Paul; Zeitzoff, Thomas (30 квітня 2018). The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation. Apollo-University Of Cambridge Repository, Apollo-University Of Cambridge Repository. Apollo - University of Cambridge Repository. doi:10.17863/cam.22520. Архів оригіналу за 23 листопада 2022. Процитовано 28 листопада 2022.
↑ Carlsmith, Joseph (16 червня 2022). Is Power-Seeking AI an Existential Risk?. arXiv:2206.13353.
↑ AGI Expert Peter Voss Says AI Alignment Problem is Bogus | NextBigFuture.com (амер.). 4 квітня 2023. Процитовано 23 липня 2023.
↑ Dafoe, Allan (2016). Yes, We Are Worried About the Existential Risk of Artificial Intelligence. MIT Technology Review. Архів оригіналу за 28 листопада 2022. Процитовано 28 листопада 2022.
↑ Markoff, John (20 травня 2013). In 1949, He Imagined an Age of Robots. The New York Times. ISSN 0362-4331. Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
↑ Association for the Advancement of Artificial Intelligence. AAAI Presidential Panel on Long-Term AI Futures. Архів оригіналу за 1 вересня 2022. Процитовано 23 листопада 2022.
↑ Yampolskiy, Roman V.; Spellchecker, M. S. (25 жовтня 2016). Artificial Intelligence Safety and Cybersecurity: a Timeline of AI Failures. arXiv:1610.07997.
↑ PT-AI 2011 – Philosophy and Theory of Artificial Intelligence (PT-AI 2011). Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
↑ Yampolskiy, Roman V. (2013), Müller, Vincent C. (ред.), Artificial Intelligence Safety Engineering: Why Machine Ethics is a Wrong Approach, Philosophy and Theory of Artificial Intelligence, Studies in Applied Philosophy, Epistemology and Rational Ethics, Berlin; Heidelberg, Germany: Springer Berlin Heidelberg, 5: 389—396, doi:10.1007/978-3-642-31674-6_29, ISBN 978-3-642-31673-9, архів оригіналу за 15 березня 2023, процитовано 23 листопада 2022
↑ McLean, Scott; Read, Gemma J. M.; Thompson, Jason; Baber, Chris; Stanton, Neville A.; Salmon, Paul M. (4 липня 2023). The risks associated with Artificial General Intelligence: A systematic review. Journal of Experimental & Theoretical Artificial Intelligence (англ.). 35 (5): 649—663. Bibcode:2023JETAI..35..649M. doi:10.1080/0952813X.2021.1964003. ISSN 0952-813X.
↑ Kuo, Kaiser (31 березня 2015). Baidu CEO Robin Li interviews Bill Gates and Elon Musk at the Boao Forum, March 29 2015. Подія сталася на 55:49. Процитовано 23 листопада 2022.{{cite AV media}}: Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url (посилання)
↑ Cellan-Jones, Rory (2 грудня 2014). Stephen Hawking warns artificial intelligence could end mankind. BBC News. Архів оригіналу за 30 жовтня 2015. Процитовано 23 листопада 2022.
↑ Future of Life Institute. Research Priorities for Robust and Beneficial Artificial Intelligence: An Open Letter. Future of Life Institute. Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
↑ Future of Life Institute. AI Research Grants Program. Future of Life Institute. Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
↑ SafArtInt 2016. Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
↑ Bach, Deborah (2016). UW to host first of four White House public workshops on artificial intelligence. UW News. Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
↑ Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (25 липня 2016). Concrete Problems in AI Safety. arXiv:1606.06565.
↑ ^а ^б Future of Life Institute. AI Principles. Future of Life Institute. Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
↑ ^а ^б Research, DeepMind Safety (27 вересня 2018). Building safe artificial intelligence: specification, robustness, and assurance. Medium. Архів оригіналу за 10 лютого 2023. Процитовано 23 листопада 2022.
↑ SafeML ICLR 2019 Workshop. Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
↑ ^а ^б ^в ^г ^д Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (16 червня 2022). Unsolved Problems in ML Safety. arXiv:2109.13916.
↑ Browne, Ryan (12 червня 2023). British Prime Minister Rishi Sunak pitches UK as home of A.I. safety regulation as London bids to be next Silicon Valley. CNBC (англ.). Процитовано 25 червня 2023.
↑ Goodfellow, Ian; Papernot, Nicolas; Huang, Sandy; Duan, Rocky; Abbeel, Pieter; Clark, Jack (24 лютого 2017). Attacking Machine Learning with Adversarial Examples. OpenAI. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
↑ ^а ^б Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (19 лютого 2014). Intriguing properties of neural networks. arXiv:1312.6199.
↑ Kurakin, Alexey; Goodfellow, Ian; Bengio, Samy (10 лютого 2017). Adversarial examples in the physical world. arXiv:1607.02533.
↑ Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (4 вересня 2019). Towards Deep Learning Models Resistant to Adversarial Attacks. arXiv:1706.06083.
↑ Kannan, Harini; Kurakin, Alexey; Goodfellow, Ian (16 березня 2018). Adversarial Logit Pairing. arXiv:1803.06373.
↑ Gilmer, Justin; Adams, Ryan P.; Goodfellow, Ian; Andersen, David; Dahl, George E. (19 липня 2018). Motivating the Rules of the Game for Adversarial Example Research. arXiv:1807.06732.
↑ Carlini, Nicholas; Wagner, David (29 березня 2018). Audio Adversarial Examples: Targeted Attacks on Speech-to-Text. arXiv:1801.01944.
↑ Sheatsley, Ryan; Papernot, Nicolas; Weisman, Michael; Verma, Gunjan; McDaniel, Patrick (9 вересня 2022). Adversarial Examples in Constrained Domains. arXiv:2011.01183.
↑ Suciu, Octavian; Coull, Scott E.; Johns, Jeffrey (13 квітня 2019). Exploring Adversarial Examples in Malware Detection. arXiv:1810.08280.
↑ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina (4 березня 2022). Training language models to follow instructions with human feedback. arXiv:2203.02155.
↑ Gao, Leo; Schulman, John; Hilton, Jacob (19 жовтня 2022). Scaling Laws for Reward Model Overoptimization. arXiv:2210.10760.
↑ Yu, Sihyun; Ahn, Sungsoo; Song, Le; Shin, Jinwoo (27 жовтня 2021). RoMA: Robust Model Adaptation for Offline Model-based Optimization. arXiv:2110.14188.
↑ ^а ^б Hendrycks, Dan; Mazeika, Mantas (20 вересня 2022). X-Risk Analysis for AI Research. arXiv:2206.05862.
↑ Tran, Khoa A.; Kondrashova, Olga; Bradley, Andrew; Williams, Elizabeth D.; Pearson, John V.; Waddell, Nicola (2021). Deep learning in cancer diagnosis, prognosis and treatment selection. Genome Medicine (англ.). 13 (1): 152. doi:10.1186/s13073-021-00968-x. ISSN 1756-994X. PMC 8477474. PMID 34579788.
↑ Ovadia, Yaniv; Fertig, Emily; Ren, Jie; Nado, Zachary; Sculley, D.; Nowozin, Sebastian; Dillon, Joshua V.; Lakshminarayanan, Balaji; Snoek, Jasper (17 грудня 2019). Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift. arXiv:1906.02530.
↑ Bogdoll, Daniel; Breitenstein, Jasmin; Heidecker, Florian; Bieshaar, Maarten; Sick, Bernhard; Fingscheidt, Tim; Zöllner, J. Marius (2021). Description of Corner Cases in Automated Driving: Goals and Challenges. 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). с. 1023—1028. arXiv:2109.09607. doi:10.1109/ICCVW54120.2021.00119. ISBN 978-1-6654-0191-3.
↑ Hendrycks, Dan; Mazeika, Mantas; Dietterich, Thomas (28 січня 2019). Deep Anomaly Detection with Outlier Exposure. arXiv:1812.04606.
↑ Wang, Haoqi; Li, Zhizhong; Feng, Litong; Zhang, Wayne (21 березня 2022). ViM: Out-Of-Distribution with Virtual-logit Matching. arXiv:2203.10807.
↑ Hendrycks, Dan; Gimpel, Kevin (3 жовтня 2018). A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks. arXiv:1610.02136.
↑ Urbina, Fabio; Lentzos, Filippa; Invernizzi, Cédric; Ekins, Sean (2022). Dual use of artificial-intelligence-powered drug discovery. Nature Machine Intelligence (англ.). 4 (3): 189—191. doi:10.1038/s42256-022-00465-9. ISSN 2522-5839. PMC 9544280. PMID 36211133.
↑ Center for Security and Emerging Technology; Buchanan, Ben; Lohn, Andrew; Musser, Micah; Sedova, Katerina (2021). Truth, Lies, and Automation: How Language Models Could Change Disinformation. doi:10.51593/2021ca003. Архів оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.
↑ Propaganda-as-a-service may be on the horizon if large language models are abused. VentureBeat. 14 грудня 2021. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
↑ Center for Security and Emerging Technology; Buchanan, Ben; Bansemer, John; Cary, Dakota; Lucas, Jack; Musser, Micah (2020). Automating Cyber Attacks: Hype and Reality. doi:10.51593/2020ca002. Архів оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.
↑ Lessons Learned on Language Model Safety and Misuse. OpenAI. 3 березня 2022. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
↑ Markov, Todor; Zhang, Chong; Agarwal, Sandhini; Eloundou, Tyna; Lee, Teddy; Adler, Steven; Jiang, Angela; Weng, Lilian (10 серпня 2022). New-and-Improved Content Moderation Tooling. OpenAI. Архів оригіналу за 11 січня 2023. Процитовано 24 листопада 2022.
↑ ^а ^б Savage, Neil (29 березня 2022). Breaking into the black box of artificial intelligence. Nature. doi:10.1038/d41586-022-00858-1. PMID 35352042. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
↑ Center for Security and Emerging Technology; Rudner, Tim; Toner, Helen (2021). Key Concepts in AI Safety: Interpretability in Machine Learning. doi:10.51593/20190042. Архів оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.
↑ McFarland, Matt (19 березня 2018). Uber pulls self-driving cars after first fatal crash of autonomous vehicle. CNNMoney. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
↑ ^а ^б Doshi-Velez, Finale; Kortz, Mason; Budish, Ryan; Bavitz, Chris; Gershman, Sam; O'Brien, David; Scott, Kate; Schieber, Stuart; Waldo, James (20 грудня 2019). Accountability of AI Under the Law: The Role of Explanation. arXiv:1711.01134.
↑ Fong, Ruth; Vedaldi, Andrea (2017). Interpretable Explanations of Black Boxes by Meaningful Perturbation. 2017 IEEE International Conference on Computer Vision (ICCV). с. 3449—3457. arXiv:1704.03296. doi:10.1109/ICCV.2017.371. ISBN 978-1-5386-1032-9.
↑ Meng, Kevin; Bau, David; Andonian, Alex; Belinkov, Yonatan (2022). Locating and editing factual associations in GPT. Advances in Neural Information Processing Systems. 35. arXiv:2202.05262.
↑ Bau, David; Liu, Steven; Wang, Tongzhou; Zhu, Jun-Yan; Torralba, Antonio (30 липня 2020). Rewriting a Deep Generative Model. arXiv:2007.15646.
↑ Räuker, Tilman; Ho, Anson; Casper, Stephen; Hadfield-Menell, Dylan (5 вересня 2022). Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks. arXiv:2207.13243.
↑ Bau, David; Zhou, Bolei; Khosla, Aditya; Oliva, Aude; Torralba, Antonio (19 квітня 2017). Network Dissection: Quantifying Interpretability of Deep Visual Representations. arXiv:1704.05796.
↑ McGrath, Thomas; Kapishnikov, Andrei; Tomašev, Nenad; Pearce, Adam; Wattenberg, Martin; Hassabis, Demis; Kim, Been; Paquet, Ulrich; Kramnik, Vladimir (22 листопада 2022). Acquisition of chess knowledge in AlphaZero. Proceedings of the National Academy of Sciences (англ.). 119 (47): e2206625119. arXiv:2111.09259. Bibcode:2022PNAS..11906625M. doi:10.1073/pnas.2206625119. ISSN 0027-8424. PMC 9704706. PMID 36375061.
↑ Goh, Gabriel; Cammarata, Nick; Voss, Chelsea; Carter, Shan; Petrov, Michael; Schubert, Ludwig; Radford, Alec; Olah, Chris (2021). Multimodal neurons in artificial neural networks. Distill. 6 (3). doi:10.23915/distill.00030.
↑ Olah, Chris; Cammarata, Nick; Schubert, Ludwig; Goh, Gabriel; Petrov, Michael; Carter, Shan (2020). Zoom in: An introduction to circuits. Distill. 5 (3). doi:10.23915/distill.00024.001.
↑ Cammarata, Nick; Goh, Gabriel; Carter, Shan; Voss, Chelsea; Schubert, Ludwig; Olah, Chris (2021). Curve circuits. Distill. 6 (1). doi:10.23915/distill.00024.006. Архів оригіналу за 5 December 2022. Процитовано 5 грудня 2022.
↑ Olsson, Catherine; Elhage, Nelson; Nanda, Neel; Joseph, Nicholas; DasSarma, Nova; Henighan, Tom; Mann, Ben; Askell, Amanda; Bai, Yuntao (2022). In-context learning and induction heads. Transformer Circuits Thread. arXiv:2209.11895.
↑ Olah, Christopher. Interpretability vs Neuroscience [rough note]. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
↑ Gu, Tianyu; Dolan-Gavitt, Brendan; Garg, Siddharth (11 березня 2019). BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain. arXiv:1708.06733.
↑ Chen, Xinyun; Liu, Chang; Li, Bo; Lu, Kimberly; Song, Dawn (14 грудня 2017). Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning. arXiv:1712.05526.
↑ Carlini, Nicholas; Terzis, Andreas (28 березня 2022). Poisoning and Backdooring Contrastive Learning. arXiv:2106.09667.
↑ ^а ^б ^в ^г Zwetsloot, Remco; Dafoe, Allan (11 лютого 2019). Thinking About Risks From AI: Accidents, Misuse and Structure. Lawfare. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
↑ Zhang, Yingyu; Dong, Chuntong; Guo, Weiqun; Dai, Jiabao; Zhao, Ziming (2022). Systems theoretic accident model and process (STAMP): A literature review. Safety Science (англ.). 152: 105596. doi:10.1016/j.ssci.2021.105596. Архів оригіналу за 15 березня 2023. Процитовано 28 листопада 2022.
↑ Center for Security and Emerging Technology; Hoffman, Wyatt (2021). AI and the Future of Cyber Competition. doi:10.51593/2020ca007. Архів оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.
↑ Center for Security and Emerging Technology; Imbrie, Andrew; Kania, Elsa (2019). AI Safety, Security, and Stability Among Great Powers: Options, Challenges, and Lessons Learned for Pragmatic Engagement. doi:10.51593/20190051. Архів оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.
↑ ^а ^б Future of Life Institute (27 березня 2019). AI Strategy, Policy, and Governance (Allan Dafoe). Подія сталася на 22:05. Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
↑ Zou, Andy; Xiao, Tristan; Jia, Ryan; Kwon, Joe; Mazeika, Mantas; Li, Richard; Song, Dawn; Steinhardt, Jacob; Evans, Owain (9 жовтня 2022). Forecasting Future World Events with Neural Networks. arXiv:2206.15474.
↑ Gathani, Sneha; Hulsebos, Madelon; Gale, James; Haas, Peter J.; Demiralp, Çağatay (8 лютого 2022). Augmenting Decision Making via Interactive What-If Analysis. arXiv:2109.06160.
↑ Lindelauf, Roy (2021), Osinga, Frans; Sweijs, Tim (ред.), Nuclear Deterrence in the Algorithmic Age: Game Theory Revisited, NL ARMS Netherlands Annual Review of Military Studies 2020, Nl Arms (англ.), The Hague: T.M.C. Asser Press: 421—436, doi:10.1007/978-94-6265-419-8_22, ISBN 978-94-6265-418-1, архів оригіналу за 15 березня 2023, процитовано 24 листопада 2022
↑ ^а ^б Newkirk II, Vann R. (21 квітня 2016). Is Climate Change a Prisoner's Dilemma or a Stag Hunt?. The Atlantic. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
↑ Dafoe, Allan; Hughes, Edward; Bachrach, Yoram; Collins, Tantum; McKee, Kevin R.; Leibo, Joel Z.; Larson, Kate; Graepel, Thore (15 грудня 2020). Open Problems in Cooperative AI. arXiv:2012.08630.
↑ ^а ^б Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (2021). Cooperative AI: machines must learn to find common ground. Nature. 593 (7857): 33—36. Bibcode:2021Natur.593...33D. doi:10.1038/d41586-021-01170-0. PMID 33947992. Архів оригіналу за 22 листопада 2022. Процитовано 24 листопада 2022.
↑ Crafts, Nicholas (23 вересня 2021). Artificial intelligence as a general-purpose technology: an historical perspective. Oxford Review of Economic Policy (англ.). 37 (3): 521—536. doi:10.1093/oxrep/grab012. ISSN 0266-903X. Архів оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.
↑ 葉俶禎; 黃子君; 張媁雯; 賴志樫 (1 грудня 2020). Labor Displacement in Artificial Intelligence Era: A Systematic Literature Review. 臺灣東亞文明研究學刊 (англ.). 17 (2). doi:10.6163/TJEAS.202012_17(2).0002. ISSN 1812-6243.
↑ Johnson, James (3 квітня 2019). Artificial intelligence & future warfare: implications for international security. Defense & Security Analysis (англ.). 35 (2): 147—169. doi:10.1080/14751798.2019.1600800. ISSN 1475-1798. Архів оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.
↑ Kertysova, Katarina (12 грудня 2018). Artificial Intelligence and Disinformation: How AI Changes the Way Disinformation is Produced, Disseminated, and Can Be Countered. Security and Human Rights. 29 (1–4): 55—81. doi:10.1163/18750230-02901005. ISSN 1874-7337. Архів оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.
↑ Agrawal, Ajay; Gans, Joshua; Goldfarb, Avi (2019). The economics of artificial intelligence: an agenda (амер.). Chicago, Illinois. ISBN 978-0-226-61347-5. OCLC 1099435014. Архів оригіналу за 15 березня 2023. Процитовано 28 листопада 2022.
↑ Whittlestone, Jess; Clark, Jack (31 серпня 2021). Why and How Governments Should Monitor AI Development. arXiv:2108.12427.
↑ ^а ^б Shevlane, Toby (2022). Sharing Powerful AI Models | GovAI Blog. Center for the Governance of AI. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
↑ Askell, Amanda; Brundage, Miles; Hadfield, Gillian (10 липня 2019). The Role of Cooperation in Responsible AI Development. arXiv:1907.04534.
↑ Ziegler, Bart (8 квітня 2022). Is It Time to Regulate AI?. Wall Street Journal. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
↑ Reed, Chris (13 вересня 2018). How should we regulate artificial intelligence?. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences (англ.). 376 (2128): 20170360. Bibcode:2018RSPTA.37670360R. doi:10.1098/rsta.2017.0360. ISSN 1364-503X. PMC 6107539. PMID 30082306.
↑ Belton, Keith B. (7 березня 2019). How Should AI Be Regulated?. IndustryWeek. Архів оригіналу за 29 січня 2022. Процитовано 24 листопада 2022.
↑ National Security Commission on Artificial Intelligence (2021), Final Report
↑ National Institute of Standards and Technology (12 липня 2021). AI Risk Management Framework. NIST. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
↑ Richardson, Tim (2021). Britain publishes 10-year National Artificial Intelligence Strategy. Архів оригіналу за 10 лютого 2023. Процитовано 24 листопада 2022.
↑ ^а ^б Guidance: National AI Strategy. GOV.UK. 2021. Архів оригіналу за 10 лютого 2023. Процитовано 24 листопада 2022.
↑ Hardcastle, Kimberley (23 серпня 2023). We're talking about AI a lot right now – and it's not a moment too soon. The Conversation (амер.). Процитовано 31 жовтня 2023.
↑ Iconic Bletchley Park to host UK AI Safety Summit in early November. GOV.UK (англ.). Процитовано 31 жовтня 2023.
↑ Office of the Director of National Intelligence, Intelligence Advanced Research Projects Activity. IARPA – TrojAI. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
↑ Turek, Matt. Explainable Artificial Intelligence. Архів оригіналу за 19 лютого 2021. Процитовано 24 листопада 2022.
↑ Draper, Bruce. Guaranteeing AI Robustness Against Deception. Defense Advanced Research Projects Agency. Архів оригіналу за 9 січня 2023. Процитовано 24 листопада 2022.
↑ National Science Foundation (23 лютого 2023). Safe Learning-Enabled Systems. Архів оригіналу за 26 лютого 2023. Процитовано 27 лютого 2023.
↑ Mäntymäki, Matti; Minkkinen, Matti; Birkstedt, Teemu; Viljanen, Mika (2022). Defining organizational AI governance. AI and Ethics (англ.). 2 (4): 603—609. doi:10.1007/s43681-022-00143-x. ISSN 2730-5953. Архів оригіналу за 15 березня 2023. Процитовано 28 листопада 2022.
↑ ^а ^б ^в Brundage, Miles; Avin, Shahar; Wang, Jasmine; Belfield, Haydn; Krueger, Gretchen; Hadfield, Gillian; Khlaaf, Heidy; Yang, Jingying; Toner, Helen (20 квітня 2020). Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims. arXiv:2004.07213.
↑ Welcome to the Artificial Intelligence Incident Database. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
↑ Wiblin, Robert; Harris, Keiran (2022). Nova DasSarma on why information security may be critical to the safe development of AI systems. 80,000 Hours. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
↑ OpenAI (2 червня 2022). Best Practices for Deploying Language Models. OpenAI. Архів оригіналу за 15 березня 2023. Процитовано 24 листопада 2022.
↑ OpenAI. OpenAI Charter. OpenAI. Архів оригіналу за 4 березня 2021. Процитовано 24 листопада 2022.
↑ Future of Life Institute (2016). Autonomous Weapons Open Letter: AI & Robotics Researchers. Future of Life Institute. Архів оригіналу за 22 вересня 2023. Процитовано 24 листопада 2022.

Посилання

[:1-1] а ^б Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31 липня 2018). Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts. Journal of Artificial Intelligence Research. 62: 729—754. doi:10.1613/jair.1.11222. ISSN 1076-9757. Архів оригіналу за 10 лютого 2023. Процитовано 28 листопада 2022.

[2] Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (5 травня 2021). Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers. arXiv:2105.02117.

[3] Stein-Perlman, Zach; Weinstein-Raun, Benjamin; Grace (4 серпня 2022). 2022 Expert Survey on Progress in AI. AI Impacts. Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.

[4] Michael, Julian; Holtzman, Ari; Parrish, Alicia; Mueller, Aaron; Wang, Alex; Chen, Angelica; Madaan, Divyam; Nangia, Nikita; Pang, Richard Yuanzhe (26 серпня 2022). What Do NLP Researchers Believe? Results of the NLP Community Metasurvey. arXiv:2208.12852.

[:3-5] Mehrabi, Ninareh; Morstatter, Fred; Saxena, Nripsuta; Lerman, Kristina; Galstyan, Aram (2021). A Survey on Bias and Fairness in Machine Learning. ACM Computing Surveys (англ.). 54 (6): 1—35. arXiv:1908.09635. doi:10.1145/3457607. ISSN 0360-0300. Архів оригіналу за 23 листопада 2022. Процитовано 28 листопада 2022.

[6] Barnes, Beth (2021). Risks from AI persuasion. Lesswrong. Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.

[:13-7] а ^б ^в Brundage, Miles; Avin, Shahar; Clark, Jack; Toner, Helen; Eckersley, Peter; Garfinkel, Ben; Dafoe, Allan; Scharre, Paul; Zeitzoff, Thomas (30 квітня 2018). The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation. Apollo-University Of Cambridge Repository, Apollo-University Of Cambridge Repository. Apollo - University of Cambridge Repository. doi:10.17863/cam.22520. Архів оригіналу за 23 листопада 2022. Процитовано 28 листопада 2022.

[8] Carlsmith, Joseph (16 червня 2022). Is Power-Seeking AI an Existential Risk?. arXiv:2206.13353.

[9] AGI Expert Peter Voss Says AI Alignment Problem is Bogus | NextBigFuture.com (амер.). 4 квітня 2023. Процитовано 23 липня 2023.

[10] Dafoe, Allan (2016). Yes, We Are Worried About the Existential Risk of Artificial Intelligence. MIT Technology Review. Архів оригіналу за 28 листопада 2022. Процитовано 28 листопада 2022.

[11] Markoff, John (20 травня 2013). In 1949, He Imagined an Age of Robots. The New York Times. ISSN 0362-4331. Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.

[12] Association for the Advancement of Artificial Intelligence. AAAI Presidential Panel on Long-Term AI Futures. Архів оригіналу за 1 вересня 2022. Процитовано 23 листопада 2022.

[13] Yampolskiy, Roman V.; Spellchecker, M. S. (25 жовтня 2016). Artificial Intelligence Safety and Cybersecurity: a Timeline of AI Failures. arXiv:1610.07997.

[14] PT-AI 2011 – Philosophy and Theory of Artificial Intelligence (PT-AI 2011). Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.

[15] Yampolskiy, Roman V. (2013), Müller, Vincent C. (ред.), Artificial Intelligence Safety Engineering: Why Machine Ethics is a Wrong Approach, Philosophy and Theory of Artificial Intelligence, Studies in Applied Philosophy, Epistemology and Rational Ethics, Berlin; Heidelberg, Germany: Springer Berlin Heidelberg, 5: 389—396, doi:10.1007/978-3-642-31674-6_29, ISBN 978-3-642-31673-9, архів оригіналу за 15 березня 2023, процитовано 23 листопада 2022

[16] McLean, Scott; Read, Gemma J. M.; Thompson, Jason; Baber, Chris; Stanton, Neville A.; Salmon, Paul M. (4 липня 2023). The risks associated with Artificial General Intelligence: A systematic review. Journal of Experimental & Theoretical Artificial Intelligence (англ.). 35 (5): 649—663. Bibcode:2023JETAI..35..649M. doi:10.1080/0952813X.2021.1964003. ISSN 0952-813X.

[17] Kuo, Kaiser (31 березня 2015). Baidu CEO Robin Li interviews Bill Gates and Elon Musk at the Boao Forum, March 29 2015. Подія сталася на 55:49. Процитовано 23 листопада 2022.{{cite AV media}}: Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url (посилання)

[18] Cellan-Jones, Rory (2 грудня 2014). Stephen Hawking warns artificial intelligence could end mankind. BBC News. Архів оригіналу за 30 жовтня 2015. Процитовано 23 листопада 2022.

[19] Future of Life Institute. Research Priorities for Robust and Beneficial Artificial Intelligence: An Open Letter. Future of Life Institute. Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.

[20] Future of Life Institute. AI Research Grants Program. Future of Life Institute. Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.

[21] SafArtInt 2016. Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.

[22] Bach, Deborah (2016). UW to host first of four White House public workshops on artificial intelligence. UW News. Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.

[23] Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (25 липня 2016). Concrete Problems in AI Safety. arXiv:1606.06565.

[:21-24] а ^б Future of Life Institute. AI Principles. Future of Life Institute. Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.

[:8-25] а ^б Research, DeepMind Safety (27 вересня 2018). Building safe artificial intelligence: specification, robustness, and assurance. Medium. Архів оригіналу за 10 лютого 2023. Процитовано 23 листопада 2022.

[26] SafeML ICLR 2019 Workshop. Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.

[Hendrycks2022-27] а ^б ^в ^г ^д Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (16 червня 2022). Unsolved Problems in ML Safety. arXiv:2109.13916.

[28] Browne, Ryan (12 червня 2023). British Prime Minister Rishi Sunak pitches UK as home of A.I. safety regulation as London bids to be next Silicon Valley. CNBC (англ.). Процитовано 25 червня 2023.

[29] Goodfellow, Ian; Papernot, Nicolas; Huang, Sandy; Duan, Rocky; Abbeel, Pieter; Clark, Jack (24 лютого 2017). Attacking Machine Learning with Adversarial Examples. OpenAI. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.

[:4-30] а ^б Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (19 лютого 2014). Intriguing properties of neural networks. arXiv:1312.6199.

[31] Kurakin, Alexey; Goodfellow, Ian; Bengio, Samy (10 лютого 2017). Adversarial examples in the physical world. arXiv:1607.02533.

[32] Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (4 вересня 2019). Towards Deep Learning Models Resistant to Adversarial Attacks. arXiv:1706.06083.

[33] Kannan, Harini; Kurakin, Alexey; Goodfellow, Ian (16 березня 2018). Adversarial Logit Pairing. arXiv:1803.06373.

[34] Gilmer, Justin; Adams, Ryan P.; Goodfellow, Ian; Andersen, David; Dahl, George E. (19 липня 2018). Motivating the Rules of the Game for Adversarial Example Research. arXiv:1807.06732.

[35] Carlini, Nicholas; Wagner, David (29 березня 2018). Audio Adversarial Examples: Targeted Attacks on Speech-to-Text. arXiv:1801.01944.

[36] Sheatsley, Ryan; Papernot, Nicolas; Weisman, Michael; Verma, Gunjan; McDaniel, Patrick (9 вересня 2022). Adversarial Examples in Constrained Domains. arXiv:2011.01183.

[37] Suciu, Octavian; Coull, Scott E.; Johns, Jeffrey (13 квітня 2019). Exploring Adversarial Examples in Malware Detection. arXiv:1810.08280.

[38] Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina (4 березня 2022). Training language models to follow instructions with human feedback. arXiv:2203.02155.

[:0-39] Gao, Leo; Schulman, John; Hilton, Jacob (19 жовтня 2022). Scaling Laws for Reward Model Overoptimization. arXiv:2210.10760.

[40] Yu, Sihyun; Ahn, Sungsoo; Song, Le; Shin, Jinwoo (27 жовтня 2021). RoMA: Robust Model Adaptation for Offline Model-based Optimization. arXiv:2110.14188.

[X-Risk_Analysis_for_AI_Research-41] а ^б Hendrycks, Dan; Mazeika, Mantas (20 вересня 2022). X-Risk Analysis for AI Research. arXiv:2206.05862.

[42] Tran, Khoa A.; Kondrashova, Olga; Bradley, Andrew; Williams, Elizabeth D.; Pearson, John V.; Waddell, Nicola (2021). Deep learning in cancer diagnosis, prognosis and treatment selection. Genome Medicine (англ.). 13 (1): 152. doi:10.1186/s13073-021-00968-x. ISSN 1756-994X. PMC 8477474. PMID 34579788.

[43] Ovadia, Yaniv; Fertig, Emily; Ren, Jie; Nado, Zachary; Sculley, D.; Nowozin, Sebastian; Dillon, Joshua V.; Lakshminarayanan, Balaji; Snoek, Jasper (17 грудня 2019). Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift. arXiv:1906.02530.

[44] Bogdoll, Daniel; Breitenstein, Jasmin; Heidecker, Florian; Bieshaar, Maarten; Sick, Bernhard; Fingscheidt, Tim; Zöllner, J. Marius (2021). Description of Corner Cases in Automated Driving: Goals and Challenges. 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). с. 1023—1028. arXiv:2109.09607. doi:10.1109/ICCVW54120.2021.00119. ISBN 978-1-6654-0191-3.

[45] Hendrycks, Dan; Mazeika, Mantas; Dietterich, Thomas (28 січня 2019). Deep Anomaly Detection with Outlier Exposure. arXiv:1812.04606.

[46] Wang, Haoqi; Li, Zhizhong; Feng, Litong; Zhang, Wayne (21 березня 2022). ViM: Out-Of-Distribution with Virtual-logit Matching. arXiv:2203.10807.

[47] Hendrycks, Dan; Gimpel, Kevin (3 жовтня 2018). A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks. arXiv:1610.02136.

[48] Urbina, Fabio; Lentzos, Filippa; Invernizzi, Cédric; Ekins, Sean (2022). Dual use of artificial-intelligence-powered drug discovery. Nature Machine Intelligence (англ.). 4 (3): 189—191. doi:10.1038/s42256-022-00465-9. ISSN 2522-5839. PMC 9544280. PMID 36211133.

[49] Center for Security and Emerging Technology; Buchanan, Ben; Lohn, Andrew; Musser, Micah; Sedova, Katerina (2021). Truth, Lies, and Automation: How Language Models Could Change Disinformation. doi:10.51593/2021ca003. Архів оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.

[50] Propaganda-as-a-service may be on the horizon if large language models are abused. VentureBeat. 14 грудня 2021. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.

[51] Center for Security and Emerging Technology; Buchanan, Ben; Bansemer, John; Cary, Dakota; Lucas, Jack; Musser, Micah (2020). Automating Cyber Attacks: Hype and Reality. doi:10.51593/2020ca002. Архів оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.

[52] Lessons Learned on Language Model Safety and Misuse. OpenAI. 3 березня 2022. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.

[53] Markov, Todor; Zhang, Chong; Agarwal, Sandhini; Eloundou, Tyna; Lee, Teddy; Adler, Steven; Jiang, Angela; Weng, Lilian (10 серпня 2022). New-and-Improved Content Moderation Tooling. OpenAI. Архів оригіналу за 11 січня 2023. Процитовано 24 листопада 2022.

[:5-54] а ^б Savage, Neil (29 березня 2022). Breaking into the black box of artificial intelligence. Nature. doi:10.1038/d41586-022-00858-1. PMID 35352042. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.

[55] Center for Security and Emerging Technology; Rudner, Tim; Toner, Helen (2021). Key Concepts in AI Safety: Interpretability in Machine Learning. doi:10.51593/20190042. Архів оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.

[56] McFarland, Matt (19 березня 2018). Uber pulls self-driving cars after first fatal crash of autonomous vehicle. CNNMoney. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.

[:6-57] а ^б Doshi-Velez, Finale; Kortz, Mason; Budish, Ryan; Bavitz, Chris; Gershman, Sam; O'Brien, David; Scott, Kate; Schieber, Stuart; Waldo, James (20 грудня 2019). Accountability of AI Under the Law: The Role of Explanation. arXiv:1711.01134.

[58] Fong, Ruth; Vedaldi, Andrea (2017). Interpretable Explanations of Black Boxes by Meaningful Perturbation. 2017 IEEE International Conference on Computer Vision (ICCV). с. 3449—3457. arXiv:1704.03296. doi:10.1109/ICCV.2017.371. ISBN 978-1-5386-1032-9.

[59] Meng, Kevin; Bau, David; Andonian, Alex; Belinkov, Yonatan (2022). Locating and editing factual associations in GPT. Advances in Neural Information Processing Systems. 35. arXiv:2202.05262.

[60] Bau, David; Liu, Steven; Wang, Tongzhou; Zhu, Jun-Yan; Torralba, Antonio (30 липня 2020). Rewriting a Deep Generative Model. arXiv:2007.15646.

[61] Räuker, Tilman; Ho, Anson; Casper, Stephen; Hadfield-Menell, Dylan (5 вересня 2022). Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks. arXiv:2207.13243.

[62] Bau, David; Zhou, Bolei; Khosla, Aditya; Oliva, Aude; Torralba, Antonio (19 квітня 2017). Network Dissection: Quantifying Interpretability of Deep Visual Representations. arXiv:1704.05796.

[63] McGrath, Thomas; Kapishnikov, Andrei; Tomašev, Nenad; Pearce, Adam; Wattenberg, Martin; Hassabis, Demis; Kim, Been; Paquet, Ulrich; Kramnik, Vladimir (22 листопада 2022). Acquisition of chess knowledge in AlphaZero. Proceedings of the National Academy of Sciences (англ.). 119 (47): e2206625119. arXiv:2111.09259. Bibcode:2022PNAS..11906625M. doi:10.1073/pnas.2206625119. ISSN 0027-8424. PMC 9704706. PMID 36375061.

[64] Goh, Gabriel; Cammarata, Nick; Voss, Chelsea; Carter, Shan; Petrov, Michael; Schubert, Ludwig; Radford, Alec; Olah, Chris (2021). Multimodal neurons in artificial neural networks. Distill. 6 (3). doi:10.23915/distill.00030.

[65] Olah, Chris; Cammarata, Nick; Schubert, Ludwig; Goh, Gabriel; Petrov, Michael; Carter, Shan (2020). Zoom in: An introduction to circuits. Distill. 5 (3). doi:10.23915/distill.00024.001.

[66] Cammarata, Nick; Goh, Gabriel; Carter, Shan; Voss, Chelsea; Schubert, Ludwig; Olah, Chris (2021). Curve circuits. Distill. 6 (1). doi:10.23915/distill.00024.006. Архів оригіналу за 5 December 2022. Процитовано 5 грудня 2022.

[67] Olsson, Catherine; Elhage, Nelson; Nanda, Neel; Joseph, Nicholas; DasSarma, Nova; Henighan, Tom; Mann, Ben; Askell, Amanda; Bai, Yuntao (2022). In-context learning and induction heads. Transformer Circuits Thread. arXiv:2209.11895.

[68] Olah, Christopher. Interpretability vs Neuroscience [rough note]. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.

[69] Gu, Tianyu; Dolan-Gavitt, Brendan; Garg, Siddharth (11 березня 2019). BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain. arXiv:1708.06733.

[70] Chen, Xinyun; Liu, Chang; Li, Bo; Lu, Kimberly; Song, Dawn (14 грудня 2017). Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning. arXiv:1712.05526.

[71] Carlini, Nicholas; Terzis, Andreas (28 березня 2022). Poisoning and Backdooring Contrastive Learning. arXiv:2106.09667.

[:12-72] а ^б ^в ^г Zwetsloot, Remco; Dafoe, Allan (11 лютого 2019). Thinking About Risks From AI: Accidents, Misuse and Structure. Lawfare. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.

[73] Zhang, Yingyu; Dong, Chuntong; Guo, Weiqun; Dai, Jiabao; Zhao, Ziming (2022). Systems theoretic accident model and process (STAMP): A literature review. Safety Science (англ.). 152: 105596. doi:10.1016/j.ssci.2021.105596. Архів оригіналу за 15 березня 2023. Процитовано 28 листопада 2022.

[74] Center for Security and Emerging Technology; Hoffman, Wyatt (2021). AI and the Future of Cyber Competition. doi:10.51593/2020ca007. Архів оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.

[75] Center for Security and Emerging Technology; Imbrie, Andrew; Kania, Elsa (2019). AI Safety, Security, and Stability Among Great Powers: Options, Challenges, and Lessons Learned for Pragmatic Engagement. doi:10.51593/20190051. Архів оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.

[:11-76] а ^б Future of Life Institute (27 березня 2019). AI Strategy, Policy, and Governance (Allan Dafoe). Подія сталася на 22:05. Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.

[77] Zou, Andy; Xiao, Tristan; Jia, Ryan; Kwon, Joe; Mazeika, Mantas; Li, Richard; Song, Dawn; Steinhardt, Jacob; Evans, Owain (9 жовтня 2022). Forecasting Future World Events with Neural Networks. arXiv:2206.15474.

[78] Gathani, Sneha; Hulsebos, Madelon; Gale, James; Haas, Peter J.; Demiralp, Çağatay (8 лютого 2022). Augmenting Decision Making via Interactive What-If Analysis. arXiv:2109.06160.

[79] Lindelauf, Roy (2021), Osinga, Frans; Sweijs, Tim (ред.), Nuclear Deterrence in the Algorithmic Age: Game Theory Revisited, NL ARMS Netherlands Annual Review of Military Studies 2020, Nl Arms (англ.), The Hague: T.M.C. Asser Press: 421—436, doi:10.1007/978-94-6265-419-8_22, ISBN 978-94-6265-418-1, архів оригіналу за 15 березня 2023, процитовано 24 листопада 2022

[:14-80] а ^б Newkirk II, Vann R. (21 квітня 2016). Is Climate Change a Prisoner's Dilemma or a Stag Hunt?. The Atlantic. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.

[81] Dafoe, Allan; Hughes, Edward; Bachrach, Yoram; Collins, Tantum; McKee, Kevin R.; Leibo, Joel Z.; Larson, Kate; Graepel, Thore (15 грудня 2020). Open Problems in Cooperative AI. arXiv:2012.08630.

[:15-82] а ^б Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (2021). Cooperative AI: machines must learn to find common ground. Nature. 593 (7857): 33—36. Bibcode:2021Natur.593...33D. doi:10.1038/d41586-021-01170-0. PMID 33947992. Архів оригіналу за 22 листопада 2022. Процитовано 24 листопада 2022.

[83] Crafts, Nicholas (23 вересня 2021). Artificial intelligence as a general-purpose technology: an historical perspective. Oxford Review of Economic Policy (англ.). 37 (3): 521—536. doi:10.1093/oxrep/grab012. ISSN 0266-903X. Архів оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.

[84] 葉俶禎; 黃子君; 張媁雯; 賴志樫 (1 грудня 2020). Labor Displacement in Artificial Intelligence Era: A Systematic Literature Review. 臺灣東亞文明研究學刊 (англ.). 17 (2). doi:10.6163/TJEAS.202012_17(2).0002. ISSN 1812-6243.

[85] Johnson, James (3 квітня 2019). Artificial intelligence & future warfare: implications for international security. Defense & Security Analysis (англ.). 35 (2): 147—169. doi:10.1080/14751798.2019.1600800. ISSN 1475-1798. Архів оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.

[86] Kertysova, Katarina (12 грудня 2018). Artificial Intelligence and Disinformation: How AI Changes the Way Disinformation is Produced, Disseminated, and Can Be Countered. Security and Human Rights. 29 (1–4): 55—81. doi:10.1163/18750230-02901005. ISSN 1874-7337. Архів оригіналу за 24 листопада 2022. Процитовано 28 листопада 2022.

[87] Agrawal, Ajay; Gans, Joshua; Goldfarb, Avi (2019). The economics of artificial intelligence: an agenda (амер.). Chicago, Illinois. ISBN 978-0-226-61347-5. OCLC 1099435014. Архів оригіналу за 15 березня 2023. Процитовано 28 листопада 2022.

[88] Whittlestone, Jess; Clark, Jack (31 серпня 2021). Why and How Governments Should Monitor AI Development. arXiv:2108.12427.

[:20-89] а ^б Shevlane, Toby (2022). Sharing Powerful AI Models | GovAI Blog. Center for the Governance of AI. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.

[90] Askell, Amanda; Brundage, Miles; Hadfield, Gillian (10 липня 2019). The Role of Cooperation in Responsible AI Development. arXiv:1907.04534.

[91] Ziegler, Bart (8 квітня 2022). Is It Time to Regulate AI?. Wall Street Journal. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.

[92] Reed, Chris (13 вересня 2018). How should we regulate artificial intelligence?. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences (англ.). 376 (2128): 20170360. Bibcode:2018RSPTA.37670360R. doi:10.1098/rsta.2017.0360. ISSN 1364-503X. PMC 6107539. PMID 30082306.

[93] Belton, Keith B. (7 березня 2019). How Should AI Be Regulated?. IndustryWeek. Архів оригіналу за 29 січня 2022. Процитовано 24 листопада 2022.

[94] National Security Commission on Artificial Intelligence (2021), Final Report

[95] National Institute of Standards and Technology (12 липня 2021). AI Risk Management Framework. NIST. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.

[96] Richardson, Tim (2021). Britain publishes 10-year National Artificial Intelligence Strategy. Архів оригіналу за 10 лютого 2023. Процитовано 24 листопада 2022.

[:18-97] а ^б Guidance: National AI Strategy. GOV.UK. 2021. Архів оригіналу за 10 лютого 2023. Процитовано 24 листопада 2022.

[98] Hardcastle, Kimberley (23 серпня 2023). We're talking about AI a lot right now – and it's not a moment too soon. The Conversation (амер.). Процитовано 31 жовтня 2023.

[99] Iconic Bletchley Park to host UK AI Safety Summit in early November. GOV.UK (англ.). Процитовано 31 жовтня 2023.

[100] Office of the Director of National Intelligence, Intelligence Advanced Research Projects Activity. IARPA – TrojAI. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.

[101] Turek, Matt. Explainable Artificial Intelligence. Архів оригіналу за 19 лютого 2021. Процитовано 24 листопада 2022.

[102] Draper, Bruce. Guaranteeing AI Robustness Against Deception. Defense Advanced Research Projects Agency. Архів оригіналу за 9 січня 2023. Процитовано 24 листопада 2022.

[103] National Science Foundation (23 лютого 2023). Safe Learning-Enabled Systems. Архів оригіналу за 26 лютого 2023. Процитовано 27 лютого 2023.

[104] Mäntymäki, Matti; Minkkinen, Matti; Birkstedt, Teemu; Viljanen, Mika (2022). Defining organizational AI governance. AI and Ethics (англ.). 2 (4): 603—609. doi:10.1007/s43681-022-00143-x. ISSN 2730-5953. Архів оригіналу за 15 березня 2023. Процитовано 28 листопада 2022.

[:19-105] а ^б ^в Brundage, Miles; Avin, Shahar; Wang, Jasmine; Belfield, Haydn; Krueger, Gretchen; Hadfield, Gillian; Khlaaf, Heidy; Yang, Jingying; Toner, Helen (20 квітня 2020). Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims. arXiv:2004.07213.

[106] Welcome to the Artificial Intelligence Incident Database. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.

[107] Wiblin, Robert; Harris, Keiran (2022). Nova DasSarma on why information security may be critical to the safe development of AI systems. 80,000 Hours. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.

[108] OpenAI (2 червня 2022). Best Practices for Deploying Language Models. OpenAI. Архів оригіналу за 15 березня 2023. Процитовано 24 листопада 2022.

[109] OpenAI. OpenAI Charter. OpenAI. Архів оригіналу за 4 березня 2021. Процитовано 24 листопада 2022.

[110] Future of Life Institute (2016). Autonomous Weapons Open Letter: AI & Robotics Researchers. Future of Life Institute. Архів оригіналу за 22 вересня 2023. Процитовано 24 листопада 2022.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

[87]

[88]

[89]

[90]

[91]

[92]

[93]

[94]

[95]

[96]

[97]

[98]

[99]

[100]

п о р Штучний інтелект
Філософія	Тест Тюрінга • Китайська кімната • Етика ШІ
Напрямки	Агентний підхід • Адаптивне керування • Інженерія знань • Модель життєздатної системи • Машинне навчання • Нейронні мережі • Нечітка логіка • Обробка природної мови • Розпізнавання образів • Ройовий інтелект • Еволюційні алгоритми • Експертна система • Сильний штучний інтелект •
Застосування	Голосове керування • Задача класифікації • Класифікація документів • Кластеризація документів • Кластерний аналіз • Локальний пошук • Машинний переклад • Оптичне розпізнавання символів • Розпізнавання мовлення • Розпізнавання рукописного введення • Комп’ютерні ігри
Дослідники	Джон Маккарті • Аллен Ньюелл • Герберт Саймон • Алан Тюрінг • Клод Шеннон • Артур Семюель • Норберт Вінер • Марвін Мінскі • Едвард Фейгенбаум • Вудро Вілсон Бледсоу • Террі Виноград • Френк Розенблат • Чарлз Беббідж • Ноам Чомскі • Джуда Перл • Сеймур Пейперт • Джозеф Вейценбаум • Патрік Вінстон • Дональд Мікі^[en] • Алан Банді^[en] • В. М. Глушков
Організації	Асоціація з розвитку штучного інтелекту • OpenAI • Інститут Аллена з питань штучного інтелекту^[en] • Міжнародна об'єднана конференція зі штучного інтелекту • Європейська конференція з питань штучного інтелекту • Європейське товариство нейронних мереж^[en] • Інститут інформатики і штучного інтелекту ДонНТУ • Machine Intelligence Research Institute • Artificial Intelligence Applications Institute^[en]

Безпека штучного інтелекту

Статус версії сторінки

Зміст

Мотивації

Тло

Фокус дослідження

Міцність

Змагальна міцність

Моніторинг

Оцінка невизначеності

Виявлення шкідливого використання

Прозорість

Виявлення троянів

Кіберзахист

Удосконалення інституційного прийняття рішень

Сприяння співпраці

В урядуванні

Дослідження

Дії уряду

Корпоративне саморегулювання

Примітки

Посилання

Навігаційне меню

Безпека штучного інтелекту

Мотивації

Тло

Фокус дослідження

Міцність

Змагальна міцність

Моніторинг

Оцінка невизначеності

Виявлення шкідливого використання

Прозорість

Виявлення троянів

Кіберзахист

Удосконалення інституційного прийняття рішень

Сприяння співпраці

В урядуванні

Дослідження

Дії уряду

Корпоративне саморегулювання

Примітки

Посилання

Навігаційне меню

Пошук