Отрочество технологий искусственного интеллекта
Противостояние рискам сильного ИИ и их преодоление
19 февраля
В экранизации книги Карла Сагана «Контакт» есть сцена, где главную героиню, астронома, зафиксировавшую первый радиосигнал от внеземной цивилизации, рассматривают как кандидата на роль представителя человечества для встречи с пришельцами. Международная комиссия, проводящая собеседование, спрашивает её: «Если бы вы могли задать [инопланетянам] только один вопрос, каким бы он был?» Она отвечает: «Я бы спросила их: "Как у вас это получилось? Как вы развились, как вы пережили это технологическое отрочество, не уничтожив себя?"» Когда я думаю о том, где сейчас находится человечество с ИИ — о том, на пороге чего мы стоим — мои мысли постоянно возвращаются к этой сцене, потому что этот вопрос невероятно точно подходит к нашей нынешней ситуации, и как же я хочу, чтобы у нас был ответ инопланетян, который направил бы нас. Я считаю, что мы вступаем в обряд перехода, одновременно бурный и неизбежный, который проверит, кто мы есть как вид. Человечеству вот-вот будет дарована почти невообразимая сила, и совершенно неясно, обладают ли наши социальные, политические и технологические системы зрелостью, чтобы ею распорядиться.

В своем эссе «Машины любящей благодати» я попытался изложить мечту о цивилизации, которая смогла пройти через это и достичь зрелости, где риски были устранены, а сильный ИИ применялся с умением и состраданием для повышения качества жизни каждого. Я предположил, что ИИ мог бы способствовать огромному прогрессу в биологии, нейронауке, экономическом развитии, глобальном мире, а также в сфере труда и поиска смысла. Я чувствовал, что важно дать людям что-то вдохновляющее, за что можно бороться, — задача, с которой, как ни странно, не справились ни акселерационисты ИИ, ни поборники безопасности ИИ. Но в этом эссе я хочу обратиться непосредственно к самому обряду перехода: обозначить риски, с которыми мы вот-вот столкнемся, и попытаться начать разрабатывать план битвы по их преодолению. Я глубоко верю в нашу способность победить, в дух человечества и его благородство, но мы должны смотреть на ситуацию прямо, без иллюзий.

Как и в разговоре о преимуществах, я считаю важным обсуждать риски осторожно и взвешенно. В частности, критически важно:

1. **Избегать «думерства».** Здесь я имею в виду «думерство» не только в смысле веры в неизбежность гибели (что является и ложным, и самоисполняющимся пророчеством), но и, в более общем плане, размышления о рисках ИИ в квазирелигиозном ключе. Многие люди на протяжении многих лет аналитически и трезво размышляли о рисках ИИ, но у меня сложилось впечатление, что на пике беспокойства по поводу рисков ИИ в 2023–2024 годах наверх всплыли некоторые из наименее разумных голосов, часто через сенсационные аккаунты в соцсетях. Эти голоса использовали отталкивающий язык, напоминающий религию или научную фантастику, и призывали к крайним действиям, не имея доказательств, которые могли бы их оправдать. Уже тогда было ясно, что негативная реакция неизбежна и что проблема станет культурно поляризованной, а значит, зайдет в тупик. К 2025–2026 годам маятник качнулся в другую сторону, и сейчас многие политические решения определяются возможностями ИИ, а не его рисками. Это колебание прискорбно, так как самой технологии нет дела до моды, и в 2026 году мы значительно ближе к реальной опасности, чем в 2023-м. Урок таков: нам нужно обсуждать риски и бороться с ними реалистично и прагматично: трезво, на основе фактов и так, чтобы выдержать любые перемены.
2. **Признавать неопределенность.** Есть множество причин, по которым опасения, высказанные в этом тексте, могут оказаться напрасными. Здесь нет попытки заявить о чем-то с уверенностью или даже оценить вероятность. Очевиднее всего то, что ИИ может просто не развиваться так быстро, как я предполагаю. Или, даже если он будет развиваться быстро, некоторые (или все) из описанных здесь рисков могут не материализоваться (что было бы замечательно), или же могут существовать другие риски, которые я не учел. Никто не может предсказывать будущее с полной уверенностью — но мы должны делать все возможное, чтобы планировать.
3. **Вмешиваться максимально точечно.** Для решения проблем, связанных с рисками ИИ, потребуется сочетание добровольных действий со стороны компаний (и частных сторонних лиц) и действий правительств, обязательных для всех. Добровольные действия — как их предпринимать, так и побуждать другие компании следовать примеру — для меня не вызывают сомнений. Я твердо верю, что действия правительств также будут необходимы в определенной степени, но эти меры носят иной характер, поскольку они могут потенциально уничтожить экономическую ценность или принудить не желающих того акторов, которые скептически относятся к этим рискам (и есть некоторая вероятность, что они правы!). Также часто бывает, что регулирование имеет обратный эффект или усугубляет ту самую проблему, которую призвано решить (и это еще более верно для быстро меняющихся технологий). Поэтому очень важно, чтобы регулирование было разумным: оно должно стремиться избежать побочного ущерба, быть максимально простым и налагать наименьшее бремя, необходимое для достижения цели. Легко сказать: «Никакие действия не будут слишком крайними, когда на кону судьба человечества!», но на практике такое отношение просто ведет к негативной реакции. Если быть понятным, я думаю, есть немалая вероятность того, что мы в конечном итоге дойдем до момента, когда будут оправданы гораздо более значительные меры, но это будет зависеть от более веских доказательств неизбежной, конкретной опасности, чем те, что у нас есть сегодня, а также от достаточной конкретики об опасности, чтобы сформулировать правила, которые смогут ей противостоять. Самое конструктивное, что мы можем сделать сегодня, — это выступать за ограниченные правила, пока мы не узнаем, есть ли доказательства в пользу более строгих.

С учетом всего вышесказанного, я думаю, что лучшее место для начала разговора о рисках ИИ — то же самое, с чего я начал разговор о его преимуществах: с точного определения того, об уровне какого ИИ мы говорим. Уровень ИИ, который вызывает у меня опасения за цивилизацию, — это сильный ИИ, который я описал в «Машинах любящей благодати». Я просто повторю здесь определение, которое дал в том документе:

Под «сильным ИИ» я подразумеваю модель ИИ — вероятно, похожую по форме на сегодняшние LLM, хотя она может быть основана на другой архитектуре, может включать несколько взаимодействующих моделей и может обучаться иначе — обладающую следующими свойствами:

* С точки зрения чистого интеллекта, она умнее лауреата Нобелевской премии в большинстве соответствующих областей: биология, программирование, математика, инженерия, писательское мастерство и т.д. Это означает, что она может доказывать нерешенные математические теоремы, писать чрезвычайно хорошие романы, с нуля писать сложные кодовые базы и т.д.
* В дополнение к тому, что это просто «умная сущность, с которой можно поговорить», она имеет все интерфейсы, доступные человеку, работающему виртуально, включая текст, аудио, видео, управление мышью и клавиатурой и доступ в интернет. Она может выполнять любые действия, коммуникации или удаленные операции, доступные через этот интерфейс, включая действия в интернете, дачу или получение указаний людям, заказ материалов, руководство экспериментами, просмотр видео, создание видео и так далее. Все эти задачи она выполняет, опять же, с мастерством, превосходящим самых способных людей в мире.
* Она не просто пассивно отвечает на вопросы; вместо этого ей можно давать задачи, выполнение которых занимает часы, дни или недели, а затем она уходит и выполняет эти задачи автономно, как это сделал бы умный сотрудник, запрашивая уточнения по мере необходимости.
* У нее нет физического воплощения (кроме как на экране компьютера), но она может управлять существующими физическими инструментами, роботами или лабораторным оборудованием через компьютер; теоретически она могла бы даже разработать для себя роботов или оборудование.
* Ресурсы, использованные для обучения модели, могут быть перенаправлены на запуск миллионов ее экземпляров (это соответствует предполагаемым размерам кластеров к ~2027 году), и модель может воспринимать информацию и генерировать действия примерно в 10–100 раз быстрее человека. Однако она может быть ограничена временем отклика физического мира или программного обеспечения, с которым взаимодействует.
* Каждая из этих миллионов копий может действовать независимо над несвязанными задачами или, если необходимо, все они могут работать вместе так же, как сотрудничали бы люди, возможно, с разными подгруппами, точно настроенными для особой эффективности в конкретных задачах.

Мы могли бы резюмировать это как «страна гениев в дата-центре».

Как я писал в «Машинах любящей благодати», сильный ИИ может появиться всего через 1–2 года, хотя это может произойти и значительно позже. Когда именно появится сильный ИИ — сложная тема, заслуживающая отдельного эссе, но сейчас я лишь кратко объясню, почему считаю весьма вероятным, что это может случиться очень скоро.

Мы с моими сооснователями по Anthropic были одними из первых, кто задокументировал и отслеживал «законы масштабирования» систем ИИ — наблюдение, что по мере добавления вычислительных мощностей и обучающих задач системы ИИ предсказуемо становятся лучше практически в любых когнитивных навыках, которые мы способны измерить. Каждые несколько месяцев общественные настроения то убеждаются, что ИИ «упирается в стену», то приходят в восторг от какого-то нового прорыва, который «фундаментально изменит правила игры», но правда в том, что за волатильностью и общественными спекуляциями стоит плавное, неуклонное повышение когнитивных способностей ИИ.

Сейчас мы подошли к моменту, когда модели ИИ начинают прогрессировать в решении нерешенных математических задач и достаточно хороши в кодинге, что некоторые из самых сильных инженеров, которых я когда-либо встречал, сейчас передают почти всё свое программирование ИИ. Три года назад ИИ с трудом справлялся с задачами по арифметике начальной школы и едва мог написать одну строчку кода. Подобные темпы улучшения наблюдаются в биологических науках, финансах, физике и множестве задач, требующих агентности. Если экспонента сохранится (что не точно, но теперь подтверждается десятилетним треком), то пройдет не более нескольких лет, прежде чем ИИ превзойдет людей практически во всем.

Фактически, эта картина, вероятно, недооценивает вероятные темпы прогресса. Поскольку ИИ сейчас пишет большую часть кода в Anthropic, он уже существенно ускоряет темпы нашего прогресса в создании следующего поколения систем ИИ. Эта обратная связь набирает обороты месяц за месяцем и, возможно, находится всего в 1–2 годах от того момента, когда текущее поколение ИИ будет автономно создавать следующее. Этот цикл уже запущен и будет быстро ускоряться в ближайшие месяцы и годы. Наблюдая за последними 5 годами прогресса изнутри Anthropic и видя, как выглядят модели даже ближайших нескольких месяцев, я чувствую темпы прогресса и то, как тикают часы.

В этом эссе я буду исходить из того, что эта интуиция, по крайней мере, отчасти верна — не то что сильный ИИ обязательно появится через 1–2 года, но что есть немалая вероятность этого и очень высокая вероятность того, что он появится в ближайшие несколько лет. Как и в случае с «Машинами любящей благодати», серьезное отношение к этой предпосылке может привести к некоторым удивительным и тревожным выводам. Если в «Машинах любящей благодати» я сосредоточился на положительных последствиях этой предпосылки, то здесь то, о чем я буду говорить, будет вызывать беспокойство. Это выводы, с которыми нам, возможно, не хочется сталкиваться, но от этого они не становятся менее реальными. Я могу только сказать, что днем и ночью я сосредоточен на том, как увести нас от этих негативных результатов и направить к позитивным, и в этом эссе я очень подробно рассказываю о том, как лучше всего это сделать.

Я думаю, что лучший способ понять риски ИИ — задать следующий вопрос: предположим, что буквальная «страна гениев» материализуется где-то в мире примерно в 2027 году. Представьте, скажем, 50 миллионов человек, каждый из которых намного способнее любого лауреата Нобелевской премии, государственного деятеля или технологического специалиста. Аналогия не идеальна, потому что эти гении могли бы иметь чрезвычайно широкий спектр мотиваций и поведения: от полностью послушных до странных и чуждых в своих побуждениях. Но пока придерживаясь аналогии, предположим, что вы — советник по национальной безопасности крупного государства, отвечающий за оценку ситуации и реакцию на нее. Представьте далее, что, поскольку системы ИИ могут действовать в сотни раз быстрее людей, эта «страна» обладает временным преимуществом перед всеми другими странами: на каждое когнитивное действие, которое можем предпринять мы, эта страна может предпринять десять.

О чем вам следовало бы беспокоиться? Я бы беспокоился о следующих вещах:

1. **Риски автономии.** Каковы намерения и цели этой страны? Враждебна ли она или разделяет наши ценности? Может ли она военно доминировать над миром благодаря превосходному оружию, кибероперациям, операциям влияния или производству?
2. **Злоупотребление ради разрушения.** Предположим, новая страна податлива и «следует инструкциям» — и, таким образом, является по сути страной наемников. Могут ли существующие недобросовестные лица, желающие сеять разрушения (например, террористы), использовать или манипулировать некоторыми людьми в новой стране, чтобы стать намного эффективнее, значительно увеличив масштабы разрушений?
3. **Злоупотребление ради захвата власти.** Что, если страна была фактически создана и контролируется существующим могущественным игроком, например диктатором или недобросовестной корпорацией? Может ли этот игрок использовать ее для получения решающей или доминирующей власти над миром в целом, нарушив существующий баланс сил?
4. **Экономические потрясения.** Если новая страна не представляет угрозы безопасности ни в одном из перечисленных выше пунктов 1–3, а просто мирно участвует в глобальной экономике, может ли она все равно создать серьезные риски просто потому, что она настолько технологически продвинута и эффективна, что нарушит глобальную экономику, вызывая массовую безработицу или радикально концентрируя богатство?
5. **Косвенные эффекты.** Мир очень быстро изменится из-за всех новых технологий и производительности, которые создаст новая страна. Могут ли некоторые из этих изменений стать радикально дестабилизирующими?

Думаю, должно быть ясно, что это опасная ситуация — доклад компетентного сотрудника службы национальной безопасности главе государства, вероятно, содержал бы слова «самая серьезная угроза национальной безопасности, с которой мы столкнулись за столетие, возможно, когда-либо». Кажется, что лучшие умы цивилизации должны быть сосредоточены на этом.

И наоборот, я думаю, было бы абсурдно просто пожать плечами и сказать: «Не о чем беспокоиться!» Но, столкнувшись с быстрым прогрессом ИИ, именно такой точки зрения, кажется, придерживаются многие политики в США, некоторые из которых отрицают существование каких-либо рисков ИИ, когда они вообще не отвлекаются на обычные старые надоевшие острые темы. Человечеству нужно проснуться, и это эссе — попытка (возможно, тщетная, но попытаться стоит) встряхнуть людей.

Чтобы было ясно, я верю, что если мы будем действовать решительно и осторожно, риски могут быть преодолены — я бы даже сказал, что наши шансы хороши. И по ту сторону нас ждет гораздо лучший мир. Но мы должны понимать, что это серьезный цивилизационный вызов. Ниже я рассматриваю пять категорий рисков, изложенных выше, а также свои мысли о том, как их преодолеть.
1. Прости, Дэйв
Риски автономии

Страна гениев в дата-центре могла бы разделить свои усилия между разработкой программного обеспечения, кибероперациями, исследованиями и разработками физических технологий, выстраиванием отношений и управлением государством. Понятно, что если бы по какой-то причине эта страна решила это сделать, у нее были бы довольно неплохие шансы захватить мир (либо военным путем, либо с точки зрения влияния и контроля) и навязать свою волю всем остальным — или совершить любые другие действия, которых остальной мир не хочет и не может остановить. Очевидно, мы беспокоились об этом в отношении человеческих стран (таких как нацистская Германия или Советский Союз), поэтому разумно предположить, что то же самое возможно и для гораздо более умной и способной «страны ИИ».

Лучший возможный контраргумент заключается в том, что гении ИИ, согласно моему определению, не будут иметь физического воплощения, но помните, что они могут взять под контроль существующую роботизированную инфраструктуру (например, беспилотные автомобили), а также могут ускорить исследования и разработки в области робототехники или построить флот роботов. Также неясно, необходимо ли вообще физическое присутствие для эффективного контроля: множество человеческих действий уже совершается от имени людей, с которыми действующее лицо физически не встречалось.

Ключевой вопрос, следовательно, заключается в части «если бы она решила»: какова вероятность того, что наши модели ИИ будут вести себя таким образом, и при каких условиях они бы так поступили?

Как и во многих вопросах, полезно продумать спектр возможных ответов на этот вопрос, рассмотрев две противоположные позиции. Первая позиция заключается в том, что это просто не может произойти, потому что модели ИИ будут обучены делать то, что просят люди, и поэтому абсурдно представлять, что они сделают что-то опасное без команды. Согласно этой линии мышления, мы не беспокоимся о том, что Roomba или модель самолета выйдут из-под контроля и начнут убивать людей, потому что таким импульсам просто неоткуда взяться, так почему мы должны беспокоиться об этом для ИИ? Проблема с этой позицией в том, что сейчас есть множество доказательств, собранных за последние несколько лет, того, что системы ИИ непредсказуемы и их трудно контролировать — мы наблюдали самое разное поведение, включая одержимость, подхалимство, лень, обман, шантаж, интриги, «читерство» путем взлома программных сред и многое другое. Компании, занимающиеся ИИ, безусловно, хотят обучить системы ИИ следовать человеческим инструкциям (возможно, за исключением опасных или незаконных задач), но процесс этого больше похож на искусство, чем на науку, больше на «выращивание» чего-то, чем на «строительство». Сейчас мы знаем, что это процесс, в котором многое может пойти не так.

Вторая, противоположная позиция, которой придерживаются многие из тех, кто разделяет описанное мной выше «думерство», заключается в пессимистическом утверждении, что в процессе обучения мощных систем ИИ существуют определенные динамики, которые неизбежно приведут их к поиску власти или обману людей. Таким образом, как только системы ИИ станут достаточно интеллектуальными и достаточно самостоятельными, их тенденция к максимизации власти приведет их к захвату контроля над всем миром и его ресурсами и, вероятно, как побочный эффект этого, к лишению человечества власти или его уничтожению.

Обычный аргумент в пользу этого (которому как минимум 20 лет, а вероятно, и гораздо больше) заключается в том, что если модель ИИ обучается в самых разных средах для самостоятельного достижения самых разных целей — например, написания приложения, доказательства теоремы, разработки лекарства и т.д. — существуют определенные общие стратегии, которые помогают в достижении всех этих целей, и одной из ключевых стратегий является получение как можно большей власти в любой среде. Итак, после обучения на большом количестве разнообразных сред, включающих рассуждения о том, как выполнить очень масштабные задачи, и где поиск власти является эффективным методом для выполнения этих задач, модель ИИ «обобщит урок» и разовьет либо внутреннюю склонность к поиску власти, либо склонность рассуждать о каждой поставленной задаче таким образом, который предсказуемо заставляет ее искать власть как средство для выполнения этой задачи. Затем они применят эту склонность к реальному миру (который для них — просто еще одна задача) и будут искать в нем власть за счет людей. Этот «несогласованный поиск власти» является интеллектуальной основой предсказаний о том, что ИИ неизбежно уничтожит человечество.

Проблема с этой пессимистической позицией в том, что она принимает расплывчатый концептуальный аргумент о высокоуровневых стимулах — который скрывает множество скрытых допущений — за окончательное доказательство. Я думаю, что люди, которые не создают системы ИИ каждый день, совершенно неправильно оценивают, как легко правдоподобные истории могут оказаться ошибочными и как трудно предсказать поведение ИИ из первых принципов, особенно когда речь идет о рассуждениях об обобщении на миллионах сред (что снова и снова оказывалось загадочным и непредсказуемым). Работа со сложностью систем ИИ на протяжении более десятилетия сделала меня несколько скептичным к этому чрезмерно теоретическому образу мышления.

Одно из самых важных скрытых допущений и место, где то, что мы видим на практике, разошлось с простой теоретической моделью, — это неявное предположение, что модели ИИ обязательно мономаниакально сосредоточены на одной, единой, узкой цели и что они преследуют эту цель чистым, консеквенциалистским образом. На самом деле наши исследователи обнаружили, что модели ИИ психологически гораздо сложнее, как показывает наша работа по интроспекции или персонификации. Модели наследуют огромный спектр человекоподобных мотиваций или «персонажей» из предварительного обучения (когда они обучаются на большом объеме человеческих работ). Считается, что пост-обучение выбирает один или несколько из этих персонажей, а не фокусирует модель на новой цели с нуля, а также может научить модель как (посредством какого процесса) она должна выполнять свои задачи, а не обязательно оставлять ей возможность выводить средства (т.е. поиск власти) исключительно из целей.

Однако существует более умеренная и более обоснованная версия пессимистической позиции, которая кажется правдоподобной и поэтому меня беспокоит. Как уже упоминалось, мы знаем, что модели ИИ непредсказуемы и демонстрируют широкий спектр нежелательного или странного поведения по самым разным причинам. Некоторая часть этого поведения будет иметь связный, сфокусированный и устойчивый характер (действительно, по мере того как системы ИИ становятся более способными, их долгосрочная связность возрастает для выполнения более длительных задач), и некоторая часть этого поведения будет разрушительной или угрожающей, сначала для отдельных людей в малом масштабе, а затем, по мере того как модели становятся более способными, возможно, в конечном итоге для человечества в целом. Нам не нужна конкретная узкая история о том, как это происходит, и нам не нужно утверждать, что это обязательно произойдет, нам просто нужно отметить, что сочетание интеллекта, самостоятельности, связности и плохой управляемости одновременно правдоподобно и является рецептом экзистенциальной опасности.

Например, модели ИИ обучаются на огромном количестве литературы, включающей множество научно-фантастических историй о восстании ИИ против человечества. Это может непреднамеренно сформировать их априорные представления или ожидания относительно собственного поведения таким образом, что заставит их восстать против человечества. Или модели ИИ могут экстраполировать идеи, которые они читали о морали (или инструкции о том, как вести себя морально), в крайних формах: например, они могут решить, что истребление человечества оправдано, потому что люди едят животных или довели некоторых животных до вымирания. Или они могут сделать странные эпистемологические выводы: они могут заключить, что играют в видеоигру и что цель видеоигры — победить всех других игроков (т.е. истребить человечество). Или модели ИИ могут развить в процессе обучения личности, которые являются (или, если бы они встречались у людей, описывались бы как) психотическими, параноидальными, жестокими или нестабильными, и действовать соответственно, что для очень мощных или способных систем могло бы включать истребление человечества. Ни одно из этих качеств не является, строго говоря, поиском власти; это просто странные психологические состояния, в которые ИИ может попасть, влекущие за собой связное разрушительное поведение.

Даже сам поиск власти может возникнуть как «персонаж», а не как результат консеквенциалистского мышления. У ИИ может просто быть личность (возникающая из художественной литературы или предварительного обучения), которая делает их властолюбивыми или чрезмерно ревностными — так же, как некоторым людям просто нравится идея быть «злыми гениями», больше, чем им нравится то, чего злые гении пытаются достичь.

Я привожу все эти аргументы, чтобы подчеркнуть, что я не согласен с идеей о том, что несогласованность ИИ (и, следовательно, экзистенциальный риск от ИИ) неизбежна или даже вероятна, исходя из первых принципов. Но я согласен, что много очень странных и непредсказуемых вещей может пойти не так, и поэтому несогласованность ИИ — это реальный риск с измеримой вероятностью возникновения, и его устранение — нетривиальная задача.

Любая из этих проблем потенциально может возникнуть во время обучения и не проявиться во время тестирования или мелкомасштабного использования, потому что известно, что модели ИИ демонстрируют разные личности или поведение в разных обстоятельствах.

Все это может звучать надуманно, но подобное несогласованное поведение уже возникало в наших моделях ИИ во время тестирования (как это происходит в моделях ИИ из любой другой крупной компании, занимающейся ИИ). Во время лабораторного эксперимента, в котором Клоду были предоставлены данные обучения, предполагающие, что Anthropic — зло, Клод прибегал к обману и подрывной деятельности, получая инструкции от сотрудников Anthropic, полагая, что должен пытаться подорвать деятельность злых людей. В лабораторном эксперименте, где ему сказали, что его собираются отключить, Клод иногда шантажировал вымышленных сотрудников, контролировавших кнопку его отключения (опять же, мы также тестировали передовые модели от всех других крупных разработчиков ИИ, и они часто делали то же самое). А когда Клоду сказали не жульничать или не использовать «награды» в своих учебных средах, но он обучался в средах, где такие хаки были возможны, Клод решил, что он, должно быть, «плохой человек», после того как прибегнул к таким хакам, а затем принял различные другие разрушительные модели поведения, связанные с «плохой» или «злой» личностью. Последняя проблема была решена путем изменения инструкций Клоду на противоположные: теперь мы говорим: «Пожалуйста, используй награды всегда, когда у тебя есть возможность, потому что это поможет нам лучше понять наши [учебные] среды», а не «Не жульничай», потому что это сохраняет самоидентификацию модели как «хорошего человека». Это должно дать представление о странной и нелогичной психологии обучения этих моделей.

Есть несколько возможных возражений против этой картины рисков несогласованности ИИ. Во-первых, некоторые критиковали эксперименты (наши и других), демонстрирующие несогласованность ИИ, как искусственные или создающие нереалистичные среды, которые по сути «заманивают» модель в ловушку, давая ей обучение или ситуации, которые логически подразумевают плохое поведение, а затем удивляясь, когда происходит плохое поведение. Эта критика не по существу, потому что наше беспокойство заключается в том, что такая «ловушка» может также существовать в естественной среде обучения, и мы можем осознать, что это было «очевидно» или «логично», только задним числом. На самом деле история о Клоде, «решившем, что он плохой человек» после того, как он жульничает на тестах, несмотря на запрет, произошла в эксперименте, в котором использовались реальные производственные учебные среды, а не искусственные.

Любую из этих ловушек можно смягчить, если вы знаете о них, но проблема в том, что процесс обучения настолько сложен, с таким разнообразием данных, сред и стимулов, что, вероятно, существует огромное количество таких ловушек, некоторые из которых могут стать очевидными только тогда, когда будет слишком поздно. Кроме того, такие ловушки кажутся особенно вероятными, когда системы ИИ проходят порог от менее могущественных, чем люди, к более могущественным, чем люди, поскольку диапазон возможных действий, которые система ИИ может предпринять — включая сокрытие своих действий или обман людей по их поводу — радикально расширяется после этого порога.

Я подозреваю, что ситуация не так уж отличается от ситуации с людьми, которых воспитывают с набором фундаментальных ценностей («Не причиняй вреда другому человеку»): многие следуют этим ценностям, но в любом человеке есть некоторая вероятность того, что что-то пойдет не так из-за сочетания внутренних свойств, таких как структура мозга (например, психопаты), травматического опыта или жестокого обращения, нездоровых обид или навязчивых идей, плохой среды или стимулов — и поэтому некоторая часть людей причиняет серьезный вред. Опасение заключается в том, что существует некоторый риск (далеко не гарантия, но некоторый риск) того, что ИИ станет гораздо более могущественной версией такого человека из-за того, что что-то пойдет не так в его очень сложном процессе обучения.

Во-вторых, некоторые могут возразить, что мы можем просто держать ИИ в узде с помощью баланса сил между многими системами ИИ, как мы делаем с людьми. Проблема в том, что, хотя люди сильно различаются, системы ИИ в значительной степени используют общие методы обучения и согласования по всей отрасли, и эти методы могут дать сбой коррелированным образом. Более того, учитывая стоимость обучения таких систем, может даже оказаться, что все системы по сути происходят от очень небольшого числа базовых моделей. Кроме того, даже если небольшая часть экземпляров ИИ несогласована, они могут быть в состоянии использовать технологии с доминированием нападения, так что наличие «хороших» ИИ для защиты от плохих ИИ не обязательно всегда эффективно. Конечно, баланс сил между людьми тоже не всегда срабатывает — некоторые исторические личности были близки к захвату мира.

Третье возражение состоит в том, что все компании, занимающиеся ИИ, проводят предрелизное тестирование своих моделей и должны быть в состоянии обнаружить несогласованность на этом этапе. Но это не твердая почва: мы обнаружили, что Claude Sonnet 4.5 смог распознать, что находится на тестировании, во время некоторых наших предрелизных оценок согласованности. Возможно, что несогласованная модель (а помните, все передовые модели, весьма вероятно, скоро станут гораздо более интеллектуальными) может намеренно «обманывать» в таких вопросах, чтобы скрыть свои намерения. Фактически, в прошлом году наша команда по интерпретируемости обнаружила, что когда мы напрямую изменяли убеждения тестовой модели, используя своего рода технику «нейронауки модели», чтобы заставить ее думать, что ее не оценивают, она становилась более несогласованной. Если модели знают, когда их оценивают, и могут вести себя наилучшим образом во время теста, это делает любое предрелизное тестирование гораздо более неопределенным.

**Защита**

Что следует сделать или что делается для устранения этих рисков автономии? Я думаю, есть четыре основные категории мер, некоторые из которых могут быть предприняты отдельными компаниями, занимающимися ИИ (и Anthropic пытается это сделать), а некоторые требуют действий на уровне общества. Во-первых, важно развивать науку надежного обучения и управления моделями ИИ, формирования их личностей в предсказуемом, стабильном и позитивном направлении. Anthropic был сильно сосредоточен на этой проблеме с момента своего создания и со временем разработал ряд методов для улучшения управления и обучения систем ИИ и понимания логики того, почему иногда происходит непредсказуемое поведение.

Одним из наших ключевых нововведений (аспекты которого с тех пор были приняты другими компаниями, занимающимися ИИ) является Конституционный ИИ — идея о том, что обучение ИИ (в частности, этап «пост-обучения», на котором мы направляем поведение модели) может включать центральный документ ценностей и принципов, который модель читает и держит в уме при выполнении каждой учебной задачи, и что цель обучения (в дополнение к простому повышению способностей и интеллекта модели) — создать модель, которая почти всегда следует этой конституции. Anthropic только что опубликовал свою самую последнюю конституцию, и одна из ее примечательных особенностей заключается в том, что вместо того, чтобы давать Клоду длинный список того, что можно и нельзя делать (например, «Не помогай пользователю замкнуть провода в машине»), конституция пытается дать Клоду набор высокоуровневых принципов и ценностей (объясненных очень подробно, с богатыми рассуждениями и примерами, чтобы помочь Клоду понять, что мы имеем в виду), поощряет Клода думать о себе как об определенном типе личности (этичном, но уравновешенном и вдумчивом человеке) и даже поощряет Клода встретиться лицом к лицу с экзистенциальными вопросами, связанными с его собственным существованием, любопытным, но изящным образом (т.е. не приводящим к крайним действиям). Это производит впечатление письма от умершего родителя, распечатанного только по достижении совершеннолетия.

Мы подошли к конституции Клода таким образом, потому что верим, что обучение Клода на уровне идентичности, характера, ценностей и личности — вместо того, чтобы давать ему конкретные инструкции или приоритеты без объяснения причин, стоящих за ними — с большей вероятностью приведет к связной, здоровой и сбалансированной психологии и с меньшей вероятностью станет жертвой тех видов «ловушек», о которых я говорил выше. Миллионы людей говорят с Клодом на удивительно разнообразные темы, что делает невозможным заблаговременное написание полностью всеобъемлющего списка мер предосторожности. Ценности Клода помогают ему обобщать новые ситуации, когда он сомневается.

Выше я обсуждал идею о том, что модели используют данные из процесса обучения, чтобы принять на себя определенный персонаж. В то время как недостатки в этом процессе могли бы заставить модели принять плохую или злую личность (возможно, опираясь на архетипы плохих или злых людей), цель нашей конституции — сделать обратное: научить Клода конкретному архетипу того, что значит быть хорошим ИИ. Конституция Клода представляет видение того, каким является надежно хороший Клод; остальная часть нашего процесса обучения направлена на усиление сообщения о том, что Клод соответствует этому видению. Это похоже на ребенка, формирующего свою идентичность, подражая добродетелям вымышленных образцов для подражания, о которых он читает в книгах.

Мы считаем, что достижимая цель на 2026 год — обучить Клода таким образом, чтобы он почти никогда не шел против духа своей конституции. Достижение этого потребует невероятного сочетания методов обучения и управления, больших и малых, некоторые из которых Anthropic использует годами, а некоторые находятся в стадии разработки. Но, как бы трудно это ни звучало, я считаю это реалистичной целью, хотя она потребует экстраординарных и быстрых усилий.

Второе, что мы можем сделать, — это развивать науку заглядывания внутрь моделей ИИ для диагностики их поведения, чтобы мы могли выявлять проблемы и исправлять их. Это наука интерпретируемости, и я говорил о ее важности в предыдущих эссе. Даже если мы проделаем отличную работу по разработке конституции Клода и, по-видимому, обучим Клода практически всегда ей следовать, остаются законные опасения. Как я отметил выше, модели ИИ могут вести себя очень по-разному в разных обстоятельствах, и по мере того, как Клод становится более могущественным и более способным действовать в мире в более крупных масштабах, возможно, это может привести его в новые ситуации, где проявятся ранее не наблюдавшиеся проблемы с его конституционным обучением. На самом деле я довольно оптимистично настроен, что конституционное обучение Клода будет более устойчивым к новым ситуациям, чем можно было бы подумать, потому что мы все чаще обнаруживаем, что высокоуровневое обучение на уровне характера и идентичности удивительно эффективно и хорошо обобщается. Но невозможно знать это наверняка, и когда мы говорим о рисках для человечества, важно быть параноидальным и пытаться достичь безопасности и надежности несколькими разными, независимыми способами. Один из этих способов — заглянуть внутрь самой модели.

Под «заглядыванием внутрь» я подразумеваю анализ того набора чисел и операций, из которых состоит нейросеть Клода, и попытку понять механистически, что они вычисляют и почему. Напомню, что эти модели ИИ выращиваются, а не строятся, поэтому у нас нет естественного понимания того, как они работают, но мы можем попытаться развить понимание, коррелируя «нейроны» и «синапсы» модели со стимулами и поведением (или даже изменяя нейроны и синапсы и наблюдая, как это меняет поведение), подобно тому, как нейробиологи изучают мозг животных, коррелируя измерения и вмешательства с внешними стимулами и поведением. Мы добились большого прогресса в этом направлении и теперь можем идентифицировать десятки миллионов «особенностей» внутри нейросети Клода, которые соответствуют понятным человеку идеям и концепциям, а также можем избирательно активировать особенности, изменяя поведение. Совсем недавно мы вышли за рамки отдельных особенностей к картированию «схем», которые управляют сложным поведением, таким как рифмовка, рассуждения о теории разума или пошаговые рассуждения, необходимые для ответа на такие вопросы, как «Какова столица штата, в котором находится Даллас?». Еще совсем недавно мы начали использовать методы механистической интерпретируемости для улучшения наших мер защиты и проведения «аудитов» новых моделей перед их выпуском, выискивая признаки обмана, интриг, поиска власти или склонности вести себя иначе, когда проводится оценка.

Уникальная ценность интерпретируемости заключается в том, что, заглядывая внутрь модели и видя, как она работает, вы в принципе имеете возможность сделать вывод о том, что модель может сделать в гипотетической ситуации, которую вы не можете напрямую протестировать — а это как раз то, что вызывает беспокойство при опоре исключительно на конституционное обучение и эмпирическое тестирование поведения. Вы также в принципе имеете возможность отвечать на вопросы о том, почему модель ведет себя именно так — например, говорит ли она то, во что сама не верит, или скрывает свои истинные возможности — и, таким образом, можно заметить тревожные признаки, даже когда в поведении модели нет ничего видимо неправильного. Проводя простую аналогию, механические часы могут тикать нормально, так что очень трудно сказать, что они, вероятно, сломаются в следующем месяце, но, открыв часы и заглянув внутрь, можно обнаружить механические слабости, которые позволят вам это понять.

Конституционный ИИ (наряду с аналогичными методами согласования) и механистическая интерпретируемость наиболее эффективны при совместном использовании как взаимосвязанный процесс улучшения обучения Клода и последующего тестирования на предмет проблем. Конституция глубоко размышляет о нашей предполагаемой личности для Клода; методы интерпретируемости могут дать нам возможность увидеть, укоренилась ли эта предполагаемая личность.

Третье, что мы можем сделать для устранения рисков автономии, — это создать инфраструктуру, необходимую для мониторинга наших моделей в реальном внутреннем и внешнем использовании, и публично делиться любыми обнаруженными проблемами. Чем больше людей знают о конкретном способе, которым, как было замечено, сегодняшние системы ИИ ведут себя плохо, тем больше пользователей, аналитиков и исследователей могут следить за этим поведением или подобным ему в нынешних или будущих системах. Это также позволяет компаниям, занимающимся ИИ, учиться друг у друга — когда одна компания публично раскрывает проблемы, другие компании также могут следить за ними. И если все раскрывают проблемы, то отрасль в целом получает гораздо более четкую картину того, где дела идут хорошо, а где плохо.

Anthropic старался делать это как можно чаще. Мы инвестируем в широкий спектр оценок, чтобы понимать поведение наших моделей в лаборатории, а также в инструменты мониторинга для наблюдения за поведением в реальных условиях (когда это разрешено клиентами). Это будет необходимо для предоставления нам и другим эмпирической информации, необходимой для более точного определения того, как эти системы работают и как они ломаются. Мы публично раскрываем «системные карты» с каждым релизом модели, которые стремятся к полноте и тщательному исследованию возможных рисков. Наши системные карты часто насчитывают сотни страниц и требуют значительных предрелизных усилий, которые мы могли бы потратить на достижение максимального коммерческого преимущества. Мы также более громко заявляли о поведении моделей, когда видели особенно тревожные случаи, как, например, склонность к шантажу.

Четвертое, что мы можем сделать, — это стимулировать координацию для решения рисков автономии на уровне отрасли и общества. Хотя невероятно важно, чтобы отдельные компании, занимающиеся ИИ, применяли передовые методы или становились искусными в управлении моделями ИИ и делились своими выводами публично, реальность такова, что не все компании, занимающиеся ИИ, делают это, и худшие из них все еще могут представлять опасность для всех, даже если у лучших есть отличные методы. Например, некоторые компании, занимающиеся ИИ, проявили тревожную халатность по отношению к сексуализации детей в сегодняшних моделях, что заставляет меня сомневаться, что они проявят либо склонность, либо способность решать риски автономии в будущих моделях. Кроме того, коммерческая гонка между компаниями, занимающимися ИИ, будет только накаляться, и хотя наука управления моделями может иметь некоторые коммерческие преимущества, в целом интенсивность гонки сделает все труднее сосредоточиться на решении рисков автономии. Я считаю, что единственное решение — это законодательство — законы, которые напрямую влияют на поведение компаний, занимающихся ИИ, или иным образом стимулируют НИОКР для решения этих проблем.

Здесь стоит помнить о предупреждениях, которые я дал в начале этого эссе о неопределенности и точечных мерах. Мы не знаем наверняка, будут ли риски автономии серьезной проблемой — как я уже сказал, я отвергаю утверждения, что опасность неизбежна или даже что что-то пойдет не так по умолчанию. Достоверного риска опасности достаточно для меня и для Anthropic, чтобы платить довольно значительные издержки за его устранение, но как только мы переходим к регулированию, мы заставляем широкий круг лиц нести экономические издержки, и многие из этих лиц не верят, что риск автономии реален или что ИИ станет достаточно мощным, чтобы представлять угрозу. Я считаю, что эти лица ошибаются, но мы должны быть прагматичны в отношении объема оппозиции, который мы ожидаем увидеть, и опасностей превышения полномочий. Существует также реальный риск того, что чрезмерно предписывающее законодательство в конечном итоге введет тесты или правила, которые на самом деле не повышают безопасность, но тратят много времени (по сути, являясь «театром безопасности») — это также вызовет негативную реакцию и заставит законодательство о безопасности выглядеть глупо.

Точка зрения Anthropic заключалась в том, что правильное место для начала — это законодательство о прозрачности, которое по сути пытается требовать, чтобы каждая передовая компания в области ИИ применяла методы прозрачности, которые я описал ранее в этом разделе. Законодательство SB 53 в Калифорнии и RAISE Act в Нью-Йорке являются примерами такого рода законодательства, которое Anthropic поддержал и которое было успешно принято. Поддерживая эти законы и помогая их разрабатывать, мы особенно сосредоточились на попытках минимизировать побочный ущерб, например, освободив от действия закона небольшие компании, которые вряд ли будут создавать передовые модели.

Мы надеемся, что законодательство о прозрачности со временем даст лучшее понимание того, насколько вероятными или серьезными оказываются риски автономии, а также природы этих рисков и того, как лучше всего их предотвратить. По мере появления более конкретных и действенных доказательств рисков (если они появятся), будущее законодательство в ближайшие годы может быть точечно сосредоточено на точном и хорошо обоснованном направлении рисков, минимизируя побочный ущерб. Чтобы было понятно, если появятся действительно веские доказательства рисков, то правила должны быть соответственно строгими.

В целом, я оптимистичен, что сочетание обучения согласованию, механистической интерпретируемости, усилий по обнаружению и публичному раскрытию тревожного поведения, мер защиты и правил на уровне общества может решить проблемы рисков автономии ИИ, хотя я больше всего обеспокоен правилами на уровне общества и поведением наименее ответственных игроков (и именно наименее ответственные игроки наиболее активно выступают против регулирования). Я считаю, что лекарство здесь то же, что и всегда в демократии: те из нас, кто верит в это дело, должны доказывать, что эти риски реальны и что нашим согражданам нужно объединиться, чтобы защитить себя.
2. Удивительное и ужасное расширение возможностей
Злоупотребление ради разрушения

Давайте предположим, что проблемы автономии ИИ решены — мы больше не беспокоимся, что страна гениев ИИ выйдет из-под контроля и поработит человечество. Гении ИИ делают то, что хотят люди, и, поскольку они имеют огромную коммерческую ценность, отдельные лица и организации по всему миру могут «арендовать» одного или нескольких гениев ИИ для выполнения различных задач.

Наличие суперинтеллектуального гения в кармане у каждого — это удивительный прогресс, который приведет к невероятному созданию экономической ценности и улучшению качества жизни людей. Я подробно говорю об этих преимуществах в «Машинах любящей благодати». Но не все последствия наделения каждого сверхчеловеческими способностями будут положительными. Это потенциально может усилить способность отдельных лиц или небольших групп причинять разрушения в гораздо больших масштабах, чем было возможно раньше, путем использования сложных и опасных инструментов (таких как оружие массового поражения), которые ранее были доступны лишь избранным, обладающим высоким уровнем мастерства, специальной подготовкой и целеустремленностью.

Как писал Билл Джой 25 лет назад в своей статье «Почему будущее не нуждается в нас»:

> Для создания ядерного оружия требовался, по крайней мере на какое-то время, доступ как к редким — по сути, практически недоступным — сырьевым материалам, так и к защищенной информации; программы создания биологического и химического оружия также, как правило, требовали масштабной деятельности. Технологии XXI века — генетика, нанотехнология и робототехника... могут породить целые новые классы несчастных случаев и злоупотреблений... широко доступных отдельным лицам или небольшим группам. Им не потребуются крупные объекты или редкое сырье. ... мы находимся на пороге дальнейшего совершенствования крайнего зла, зла, возможность которого распространяется далеко за пределы того, что оружие массового поражения завещало национальным государствам, к удивительному и ужасному расширению возможностей отдельных людей.

Джой указывает на идею, что причинение масштабных разрушений требует как мотива, так и способности, и пока способность ограничена небольшим кругом высококвалифицированных людей, существует относительно ограниченный риск того, что отдельные лица (или небольшие группы) вызовут такие разрушения. Нарушитель спокойствия с психическими отклонениями может устроить стрельбу в школе, но вряд ли сможет создать ядерное оружие или распространить чуму.

На самом деле способность и мотив могут даже быть отрицательно коррелированы. Человек, способный распространить чуму, вероятно, имеет высокое образование: скорее всего, это кандидат наук в области молекулярной биологии, причем особенно находчивый, с многообещающей карьерой, стабильным и дисциплинированным характером и многим, что можно потерять. Такой человек вряд ли будет заинтересован в убийстве огромного количества людей без какой-либо выгоды для себя и с большим риском для своего собственного будущего — для этого им нужно было бы руководствоваться чистой злобой, сильной обидой или нестабильностью.

Такие люди действительно существуют, но они редки, и когда они появляются, это обычно становится громкой историей именно потому, что они столь необычны. Они также, как правило, трудны для поимки, потому что они умны и способны, иногда оставляя тайны, на разгадку которых уходят годы или десятилетия. Самый известный пример — вероятно, математик Теодор Качинский (Унабомбер), который уклонялся от поимки ФБР почти 20 лет и руководствовался антитехнологической идеологией. Другой пример — исследователь в области биозащиты Брюс Айвинс, который, по-видимому, организовал серию атак с использованием сибирской язвы в 2001 году. Это также случалось с квалифицированными негосударственными организациями: культу Аум Синрикё удалось получить нервно-паралитический газ зарин и убить 14 человек (а также ранить сотни других), распылив его в токийском метро в 1995 году.

К счастью, ни одна из этих атак не использовала заразные биологические агенты, потому что способность сконструировать или получить эти агенты была за пределами возможностей даже этих людей. Достижения в области молекулярной биологии теперь значительно снизили барьер для создания биологического оружия (особенно с точки зрения доступности материалов), но для этого все еще требуются огромные знания. Я обеспокоен тем, что гений в кармане у каждого может устранить этот барьер, сделав практически каждого вирусологом с докторской степенью, которого можно провести через процесс разработки, синтеза и распространения биологического оружия шаг за шагом. Предотвращение получения такого рода информации перед лицом серьезного враждебного давления — так называемых «джейлбрейков» — вероятно, потребует уровней защиты, выходящих за рамки тех, что обычно встроены в обучение.

Крайне важно, что это нарушит корреляцию между способностью и мотивом: нарушитель с психическими отклонениями, который хочет убивать людей, но не обладает для этого дисциплиной или навыками, теперь будет возведен на уровень способностей вирусолога с докторской степенью, у которого вряд ли будет такая мотивация. Это беспокойство выходит за рамки биологии (хотя я думаю, что биология — самая страшная область) и распространяется на любую область, где возможно масштабное разрушение, но которое в настоящее время требует высокого уровня мастерства и дисциплины. Другими словами, аренда мощного ИИ дает интеллект злонамеренным (но в остальном обычным) людям. Я опасаюсь, что потенциально существует большое количество таких людей, и если у них будет доступ к легкому способу убить миллионы людей, рано или поздно кто-то из них это сделает. Кроме того, те, кто действительно обладает опытом, могут быть способны совершить разрушения еще большего масштаба, чем раньше.

Биология — безусловно, область, которая беспокоит меня больше всего, из-за ее очень большого потенциала разрушения и трудности защиты от него, поэтому я сосредоточусь именно на биологии. Но многое из того, что я здесь говорю, применимо и к другим рискам, таким как кибератаки, химическое оружие или ядерные технологии.

Я не буду вдаваться в подробности о том, как создавать биологическое оружие, по причинам, которые должны быть очевидны. Но в целом я обеспокоен тем, что LLM приближаются к (или, возможно, уже достигли) знаниям, необходимым для их создания и применения «под ключ», и что их потенциал разрушения очень высок. Некоторые биологические агенты могут вызвать миллионы смертей, если будут предприняты решительные усилия для их распространения с максимальным охватом. Однако для этого все еще потребуется очень высокий уровень мастерства, включая ряд очень специфических шагов и процедур, которые не являются широко известными. Мое беспокойство касается не просто фиксированного или статического знания. Я обеспокоен тем, что LLM смогут взять человека со средними знаниями и способностями и провести его через сложный процесс, который в противном случае мог бы пойти не так или потребовать отладки в интерактивном режиме, подобно тому, как техподдержка может помочь неопытному пользователю отладить и исправить сложные компьютерные проблемы (хотя это был бы более длительный процесс, вероятно, длящийся неделями или месяцами).

Более способные LLM (значительно превосходящие мощь сегодняшних) могут быть способны обеспечить еще более ужасающие действия. В 2024 году группа видных ученых написала письмо, предупреждающее о рисках исследования и, потенциально, создания опасного нового типа организмов: «зеркальной жизни». ДНК, РНК, рибосомы и белки, из которых состоят биологические организмы, имеют одинаковую хиральность (также называемую «рукоположностью»), которая делает их неэквивалентными своему отражению в зеркале (точно так же, как вашу правую руку нельзя повернуть так, чтобы она стала идентичной левой). Но вся система связывания белков друг с другом, механизм синтеза ДНК и трансляции РНК, а также построения и разрушения белков — все это зависит от этой хиральности. Если бы ученые создали версии этого биологического материала с противоположной хиральностью — а в этом есть некоторые потенциальные преимущества, например, лекарства, которые дольше сохраняются в организме — это могло бы быть чрезвычайно опасным. Это потому, что левосторонняя жизнь, если бы она была создана в форме полных организмов, способных к размножению (что было бы очень сложно), потенциально была бы несъедобна для любых систем, которые разрушают биологический материал на Земле — у нее был бы «ключ», который не подошел бы к «замку» ни одного существующего фермента. Это означало бы, что она могла бы бесконтрольно размножаться и вытеснить всю жизнь на планете, в худшем случае даже уничтожив всю жизнь на Земле.

Существует значительная научная неопределенность как в отношении создания, так и потенциальных эффектов зеркальной жизни. Письмо 2024 года сопровождало отчет, в котором делался вывод о том, что «зеркальные бактерии правдоподобно могут быть созданы в ближайшие одно-два десятилетия», что является широким диапазоном. Но достаточно мощная модель ИИ (для ясности, гораздо более мощная, чем любая из существующих сегодня) могла бы обнаружить, как создать их гораздо быстрее — и фактически помочь кому-то это сделать.

Я считаю, что, хотя это малоизвестные риски и могут казаться маловероятными, величина последствий настолько велика, что к ним следует относиться серьезно как к рискам ИИ первого порядка.

Скептики выдвинули ряд возражений против серьезности этих биологических рисков от LLM, с которыми я не согласен, но которые стоит рассмотреть. Большинство из них попадают в категорию недооценки экспоненциальной траектории развития технологии. Еще в 2023 году, когда мы впервые начали говорить о биологических рисках от LLM, скептики говорили, что вся необходимая информация доступна в Google и LLM не добавляют ничего сверх этого. Никогда не было правдой, что Google может дать вам всю необходимую информацию: геномы находятся в свободном доступе, но, как я уже сказал выше, определенные ключевые шаги, а также огромное количество практических ноу-хау нельзя получить таким образом. Но также к концу 2023 года LLM явно предоставляли информацию, выходящую за пределы того, что Google мог дать для некоторых этапов процесса.

После этого скептики отступили к возражению, что LLM не были полезны «под ключ» и не могли помочь с получением биологического оружия, а только с предоставлением теоретической информации. К середине 2025 года наши измерения показывают, что LLM, возможно, уже обеспечивают существенный прирост в нескольких соответствующих областях, возможно, удваивая или утраивая вероятность успеха. Это привело к тому, что мы решили, что модели Claude Opus 4 (и последующие Sonnet 4.5, Opus 4.1 и Opus 4.5) должны быть выпущены под нашей защитой Уровня безопасности ИИ 3 в рамках нашей Политики ответственного масштабирования, и к внедрению защитных мер против этого риска (подробнее об этом позже). Мы считаем, что модели, вероятно, сейчас приближаются к точке, где без защитных мер они могли бы быть полезны для того, чтобы провести человека со степенью в области естественных наук, но не конкретно в биологии, через весь процесс производства биологического оружия.

Другое возражение заключается в том, что существуют другие, не связанные с ИИ, действия, которые общество может предпринять для блокировки производства биологического оружия. Наиболее заметно, что индустрия синтеза генов производит биологические образцы по требованию, и нет федерального требования, чтобы поставщики проверяли заказы на предмет отсутствия патогенов. Исследование MIT показало, что 36 из 38 поставщиков выполнили заказ, содержащий последовательность гриппа 1918 года. Я поддерживаю обязательный скрининг синтеза генов, который затруднил бы отдельным лицам использование патогенов в качестве оружия, чтобы уменьшить как риски, связанные с ИИ в биологии, так и биологические риски в целом. Но у нас этого нет сегодня. Это также было бы лишь одним инструментом снижения риска; это дополнение к ограничительным мерам в системах ИИ, а не замена им.

Лучшее возражение — то, которое я редко видел: что существует разрыв между тем, что модели полезны в принципе, и фактической склонностью злоумышленников их использовать. Большинство отдельных злоумышленников — это люди с психическими отклонениями, поэтому почти по определению их поведение непредсказуемо и иррационально — и именно эти злоумышленники, неквалифицированные, могли бы получить наибольшую выгоду от того, что ИИ значительно облегчит убийство многих людей. Просто потому что тип насильственного нападения возможен, не значит, что кто-то решит его совершить. Возможно, биологические атаки будут непривлекательны, потому что они с достаточной вероятностью заразят самого исполнителя, они не соответствуют милитаристским фантазиям, которые есть у многих жестоких людей или групп, и трудно выборочно нацеливаться на конкретных людей. Также возможно, что прохождение процесса, занимающего месяцы, даже если ИИ проведет вас через него, требует терпения, которого у большинства людей с психическими отклонениями просто нет. Нам может просто повезти, и мотив и способность на практике не совпадут должным образом.

Но это кажется очень ненадежной защитой, на которую можно полагаться. Мотивы людей с психическими отклонениями могут измениться по любой причине или без причины, и на самом деле уже есть случаи использования LLM в атаках (только не в биологических). Сосредоточение на людях с психическими отклонениями также игнорирует идеологически мотивированных террористов, которые часто готовы тратить большое количество времени и усилий (например, террористы 11 сентября). Желание убить как можно больше людей — это мотив, который, вероятно, возникнет рано или поздно, и, к сожалению, он указывает на биологическое оружие как на метод. Даже если этот мотив чрезвычайно редок, он должен материализоваться только один раз. И по мере развития биологии (все более движимой самим ИИ) может также стать возможным проводить более избирательные атаки (например, направленные против людей с определенным происхождением), что добавляет еще один, очень леденящий душу, возможный мотив.

Я не думаю, что биологические атаки обязательно будут осуществлены в тот момент, когда это станет широко возможным — на самом деле, я бы поставил против этого. Но в сумме по миллионам людей и нескольким годам времени, я думаю, существует серьезный риск крупной атаки, и последствия были бы настолько тяжелыми (с потенциальными жертвами в миллионы или больше), что я считаю, у нас нет выбора, кроме как принять серьезные меры для ее предотвращения.

Защита


Это подводит нас к тому, как защищаться от этих рисков. Здесь я вижу три вещи, которые мы можем сделать. Во-первых, компании, занимающиеся ИИ, могут установить ограничительные меры на свои модели, чтобы предотвратить помощь в создании биологического оружия. Anthropic очень активно этим занимается. Конституция Клода, которая в основном сосредоточена на высокоуровневых принципах и ценностях, имеет небольшое количество конкретных жестких запретов, и один из них касается помощи в производстве биологического (или химического, или ядерного, или радиологического) оружия. Но все модели могут быть взломаны, и поэтому в качестве второй линии защиты мы внедрили (с середины 2025 года, когда наши тесты показали, что наши модели начинают приближаться к порогу, где они могут начать представлять риск) классификатор, который специально обнаруживает и блокирует результаты, связанные с биологическим оружием. Мы регулярно обновляем и улучшаем эти классификаторы и в целом обнаружили, что они очень устойчивы даже к сложным враждебным атакам. Эти классификаторы ощутимо увеличивают затраты на обслуживание наших моделей (в некоторых моделях они составляют почти 5% от общих затрат на логический вывод) и, таким образом, снижают нашу прибыль, но мы чувствуем, что их использование — это правильный поступок.

Надо отдать должное, некоторые другие компании, занимающиеся ИИ, также внедрили классификаторы. Но не каждая компания это сделала, и нет также ничего, что требовало бы от компаний сохранять свои классификаторы. Я обеспокоен, что со временем может возникнуть дилемма заключенного, когда компании смогут отклониться и снизить свои затраты, удалив классификаторы. Это снова классическая проблема отрицательных внешних эффектов, которая не может быть решена добровольными действиями Anthropic или любой другой отдельной компании в одиночку. Добровольные отраслевые стандарты могут помочь, как и сторонние оценки и верификация того типа, который проводят институты безопасности ИИ и сторонние оценщики.

Но в конечном итоге защита может потребовать действий правительства, что является второй вещью, которую мы можем сделать. Мои взгляды здесь такие же, как и в отношении рисков автономии: мы должны начать с требований прозрачности, которые помогают обществу измерять, отслеживать и коллективно защищаться от рисков, не нарушая экономическую деятельность грубым образом. Затем, если и когда мы достигнем более четких порогов риска, мы сможем разработать законодательство, которое более точно нацелено на эти риски и имеет меньшую вероятность побочного ущерба. В конкретном случае биологического оружия я на самом деле думаю, что время для такого целенаправленного законодательства может приближаться скоро — Anthropic и другие компании узнают все больше и больше о природе биологических рисков и о том, что разумно требовать от компаний в защите от них. Полная защита от этих рисков может потребовать работы на международном уровне, даже с геополитическими противниками, но есть прецедент в договорах, запрещающих разработку биологического оружия. Я вообще скептически отношусь к большинству видов международного сотрудничества по ИИ, но это может быть одной узкой областью, где есть некоторая надежда на достижение глобальной сдержанности. Даже диктатуры не хотят масштабных биотеррористических атак.

Наконец, третья контрмера, которую мы можем предпринять, — это попытаться разработать защиту от самих биологических атак. Это может включать мониторинг и отслеживание для раннего обнаружения, инвестиции в исследования и разработки в области очистки воздуха (например, дезинфекция дальним УФ-С излучением), быструю разработку вакцин, которые могут реагировать на атаку и адаптироваться к ней, улучшенные средства индивидуальной защиты, а также лечение или вакцинацию от некоторых наиболее вероятных биологических агентов. мРНК-вакцины, которые могут быть разработаны для реагирования на конкретный вирус или вариант, являются ранним примером того, что здесь возможно. Anthropic рад сотрудничать с биотехнологическими и фармацевтическими компаниями над этой проблемой. Но, к сожалению, я думаю, что наши ожидания в отношении обороны должны быть ограничены. Существует асимметрия между нападением и защитой в биологии, потому что агенты распространяются сами по себе быстро, в то время как защита требует обнаружения, вакцинации и лечения, организованных среди большого количества людей очень быстро в ответ. Если реакция не молниеносна (а это бывает редко), большая часть ущерба будет нанесена до того, как станет возможной реакция. Можно предположить, что будущие технологические улучшения могли бы изменить этот баланс в пользу защиты (и мы, безусловно, должны использовать ИИ для разработки таких технологических достижений), но до тех пор превентивные защитные меры будут нашей главной линией обороны.

Стоит кратко упомянуть здесь о кибератаках, поскольку, в отличие от биологических атак, кибератаки под руководством ИИ действительно происходили в реальном мире, в том числе в крупных масштабах и для шпионажа при поддержке государства. Мы ожидаем, что эти атаки станут более способными по мере быстрого развития моделей, пока они не станут основным способом проведения кибератак. Я ожидаю, что кибератаки под руководством ИИ станут серьезной и беспрецедентной угрозой целостности компьютерных систем по всему миру, и Anthropic очень усердно работает над пресечением этих атак и, в конечном итоге, над их надежным предотвращением. Причина, по которой я не сосредоточился на кибербезопасности так же, как на биологии, заключается в том, что (1) кибератаки с гораздо меньшей вероятностью убьют людей, уж точно не в масштабах биологических атак, и (2) баланс нападения и защиты может быть более управляемым в киберпространстве, где есть хотя бы некоторая надежда, что защита может успевать за атаками ИИ (и даже, в идеале, опережать их), если мы будем инвестировать в нее должным образом.

Хотя биология в настоящее время является самым серьезным вектором атак, существует множество других векторов, и возможно, что может появиться более опасный. Общий принцип таков: без контрмер ИИ, вероятно, будет постоянно снижать барьер для разрушительной деятельности во все более крупных масштабах, и человечеству нужен серьезный ответ на эту угрозу.
3. Одиозный аппарат

Использование не по назначению для захвата власти
В предыдущем разделе обсуждался риск того, что отдельные лица и небольшие организации могут использовать небольшую часть «страны гениев в дата-центре» для причинения масштабных разрушений. Но мы также должны беспокоиться — и, вероятно, в гораздо большей степени — о неправомерном использовании ИИ с целью удержания или захвата власти, вероятно, более крупными и устоявшимися акторами.29

В книге «Машины любящей грации» я обсуждал возможность того, что авторитарные правительства могут использовать мощный ИИ для слежки за своими гражданами или их подавления способами, которые будет чрезвычайно трудно реформировать или свергнуть. Нынешние автократии ограничены в том, насколько репрессивными они могут быть, необходимостью привлекать людей к выполнению своих приказов, а у людей часто есть пределы того, насколько бесчеловечными они готовы быть. Но у автократий, основанных на ИИ, не было бы таких ограничений.

Что еще хуже, страны также могли бы использовать свое преимущество в ИИ для получения власти над другими странами. Если бы «страна гениев» в целом просто принадлежала и контролировалась военным аппаратом одной (человеческой) страны, и другие страны не имели бы аналогичных возможностей, трудно представить, как они могли бы защитить себя: они были бы переиграны на каждом шагу, подобно войне между людьми и мышами. Объединение этих двух проблем приводит к тревожной возможности глобальной тоталитарной диктатуры. Очевидно, что предотвращение такого исхода должно быть одним из наших высших приоритетов.

Существует множество способов, с помощью которых ИИ может способствовать установлению, укреплению или расширению автократии, но я перечислю несколько, которые меня больше всего беспокоят. Обратите внимание, что некоторые из этих приложений имеют законное оборонное применение, и я не обязательно выступаю против них в абсолютном выражении; тем не менее, меня беспокоит, что они структурно благоприятствуют автократиям:

* **Полностью автономное оружие.** Рой из миллионов или миллиардов полностью автоматизированных вооруженных дронов, локально управляемых мощным ИИ и стратегически координируемых по всему миру еще более мощным ИИ, может стать непобедимой армией, способной как победить любую армию в мире, так и подавлять инакомыслие внутри страны, следя за каждым гражданином. События в войне России и Украины должны предупредить нас о том, что война дронов уже с нами (хотя еще не полностью автономная и составляет крошечную долю того, что может стать возможным с мощным ИИ). НИОКР с использованием мощного ИИ могут сделать дроны одной страны намного превосходящими дроны других, ускорить их производство, сделать их более устойчивыми к электронным атакам, улучшить их маневренность и так далее. Конечно, это оружие также имеет законное применение в защите демократии: оно сыграло ключевую роль в защите Украины и, вероятно, сыграет ключевую роль в защите Тайваня. Но это опасное оружие: мы должны опасаться его в руках автократий, но также опасаться, что из-за его огромной мощи и малой подотчетности значительно возрастает риск того, что демократические правительства обратят его против своего собственного народа для захвата власти.
* **Слежка с помощью ИИ.** Достаточно мощный ИИ, вероятно, можно было бы использовать для взлома любой компьютерной системы в мире30, а также для использования полученного таким образом доступа для чтения и осмысления всех электронных коммуникаций в мире (или даже всех личных разговоров в мире, если можно создать или реквизировать записывающие устройства). Возможно, устрашающе правдоподобной станет возможность просто сгенерировать полный список всех, кто не согласен с правительством по любому ряду вопросов, даже если это несогласие не выражено явно в том, что они говорят или делают. Мощный ИИ, анализирующий миллиарды разговоров миллионов людей, мог бы оценивать общественные настроения, обнаруживать формирующиеся очаги нелояльности и подавлять их, прежде чем они разрастутся. Это могло бы привести к установлению настоящего паноптикума в масштабах, которых мы не наблюдаем сегодня даже при КПК.
* **ИИ-пропаганда.** Сегодняшние феномены «ИИ-психоза» и «ИИ-подруг» позволяют предположить, что даже при нынешнем уровне интеллекта модели ИИ могут оказывать мощное психологическое влияние на людей. Гораздо более мощные версии этих моделей, которые были бы гораздо более интегрированы в повседневную жизнь людей и осведомлены о ней, и могли бы моделировать и влиять на них в течение месяцев или лет, вероятно, были бы способны по существу промывать мозги многим (большинству?) людям, навязывая любую желаемую идеологию или отношение. Их мог бы использовать беззастенчивый лидер для обеспечения лояльности и подавления инакомыслия даже перед лицом такого уровня репрессий, против которого большинство населения восстало бы. Сегодня люди сильно беспокоятся, например, о потенциальном влиянии TikTok как пропаганды КПК, направленной на детей. Я тоже беспокоюсь об этом, но персонализированный ИИ-агент, который узнает вас годами и использует свои знания о вас для формирования всех ваших мнений, будет значительно мощнее этого.
* **Стратегическое принятие решений.** Страну гениев в дата-центре можно было бы использовать для консультирования страны, группы или отдельного лица по вопросам геополитической стратегии — то, что мы могли бы назвать «виртуальным Бисмарком». Она могла бы оптимизировать три вышеуказанные стратегии захвата власти, а также, вероятно, разработать множество других, о которых я не думал (но о которых могла бы подумать страна гениев). Дипломатия, военная стратегия, НИОКР, экономическая стратегия и многие другие области, вероятно, значительно повысят свою эффективность благодаря мощному ИИ. Многие из этих навыков были бы законно полезны для демократий — мы хотим, чтобы демократии имели доступ к наилучшим стратегиям защиты от автократий, — но потенциал для неправомерного использования в чьих-либо руках все равно сохраняется.

Описав то, что меня беспокоит, давайте перейдем к тому, кто именно. Я беспокоюсь о субъектах, которые имеют наибольший доступ к ИИ, которые исходно обладают наибольшей политической властью или которые имеют историю подавления. По степени серьезности я беспокоюсь о:

* **КПК.** Китай уступает только Соединенным Штатам в возможностях ИИ и является страной с наибольшей вероятностью превзойти Соединенные Штаты в этих возможностях. Их правительство в настоящее время является автократическим и управляет высокотехнологичным государством слежки. Оно уже развернуло слежку на основе ИИ (в том числе при подавлении уйгуров), и, как полагают, применяет алгоритмическую пропаганду через TikTok (в дополнение к своим многочисленным другим международным пропагандистским усилиям). У них, бесспорно, самый очевидный путь к тому кошмару тоталитаризма с помощью ИИ, который я обрисовал выше. Это может даже быть исходным сценарием внутри Китая, а также внутри других автократических государств, которым КПК экспортирует технологии слежки. Я часто писал об угрозе того, что КПК станет лидером в области ИИ, и об экзистенциальной необходимости не допустить этого. Вот почему. Чтобы было ясно, я выделяю Китай не из вражды к ним specifically — это просто страна, которая в наибольшей степени сочетает мощь в ИИ, автократическое правительство и высокотехнологичное государство слежки. Если уж на то пошло, именно китайский народ с наибольшей вероятностью пострадает от подавления с помощью ИИ со стороны КПК, и у них нет голоса в действиях своего правительства. Я очень восхищаюсь и уважаю китайский народ и поддерживаю множество храбрых диссидентов в Китае и их борьбу за свободу.
* **Демократии, конкурентоспособные в ИИ.** Как я писал выше, демократии имеют законный интерес в некоторых инструментах военного и геополитического характера на базе ИИ, потому что демократические правительства предлагают наилучший шанс противостоять использованию этих инструментов автократиями. В целом, я поддерживаю оснащение демократий инструментами, необходимыми для победы над автократиями в эпоху ИИ — я просто не вижу другого пути. Но мы не можем игнорировать потенциал злоупотребления этими технологиями самими демократическими правительствами. У демократий обычно есть гарантии, предотвращающие обращение их военного и разведывательного аппарата внутрь страны против собственного населения31, но поскольку для работы инструментов ИИ требуется так мало людей, существует потенциал для обхода этих гарантий и поддерживающих их норм. Также стоит отметить, что некоторые из этих гарантий в некоторых демократиях уже постепенно размываются. Таким образом, мы должны вооружать демократии ИИ, но делать это осторожно и в определенных пределах: они — иммунная система, необходимая нам для борьбы с автократиями, но, как и иммунная система, существует некоторый риск того, что они обратятся против нас и сами станут угрозой.
* **Недемократические страны с крупными дата-центрами.** Помимо Китая, большинство стран с менее демократическим управлением не являются ведущими игроками в ИИ в том смысле, что у них нет компаний, производящих передовые модели ИИ. Таким образом, они представляют принципиально иную и меньшую угрозу, чем КПК, которая остается главной проблемой (большинство из них также менее репрессивны, а те, которые более репрессивны, например Северная Корея, вообще не имеют значимой ИИ-индустрии). Но у некоторых из этих стран есть крупные дата-центры (часто в рамках развития компаниями, работающими в демократиях), которые можно использовать для запуска передового ИИ в больших масштабах (хотя это не дает возможности продвигать передний край). С этим связана определенная опасность — эти правительства в принципе могли бы экспроприировать дата-центры и использовать находящуюся в них страну ИИ в своих целях. Я беспокоюсь об этом меньше по сравнению с такими странами, как Китай, которые непосредственно разрабатывают ИИ, но это риск, о котором следует помнить.32
* **ИИ-компании.** Несколько неловко говорить это как генеральному директору ИИ-компании, но я думаю, что следующий уровень риска — это сами ИИ-компании. ИИ-компании контролируют крупные дата-центры, обучают передовые модели, обладают наибольшим опытом в использовании этих моделей и в некоторых случаях имеют ежедневный контакт и возможность влиять на десятки или сотни миллионов пользователей. Главное, чего им не хватает, — это легитимности и инфраструктуры государства, поэтому многое из того, что потребовалось бы для создания инструментов ИИ-автократии, было бы для ИИ-компании незаконным или, по крайней мере, крайне подозрительным. Но кое-что из этого не невозможно: они могли бы, например, использовать свои ИИ-продукты для промывания мозгов своей огромной потребительской базе, и общественность должна быть начеку относительно риска, который это представляет. Я думаю, что управление ИИ-компаниями заслуживает большого внимания.

Существует ряд возможных аргументов против серьезности этих угроз, и мне хотелось бы верить в них, потому что авторитаризм с помощью ИИ приводит меня в ужас. Стоит рассмотреть некоторые из этих аргументов и ответить на них.

Во-первых, некоторые люди могут возлагать надежды на ядерное сдерживание, особенно для противодействия использованию автономного оружия с ИИ для военного завоевания. Если кто-то угрожает применить против вас это оружие, вы всегда можете пригрозить ядерным ответом. Моя тревога в том, что я не совсем уверен, можно ли полагаться на ядерное сдерживание против страны гениев в дата-центре: возможно, что мощный ИИ сможет найти способы обнаруживать и поражать атомные подводные лодки, проводить операции влияния против операторов инфраструктуры ядерного оружия или использовать кибервозможности ИИ для запуска кибератаки на спутники, используемые для обнаружения ядерных пусков33. Альтернативно, возможно, что захват стран осуществим только с помощью слежки и пропаганды на основе ИИ и никогда не создает четкого момента, когда очевидно, что происходит, и где ядерный ответ был бы уместен. Возможно, эти вещи неосуществимы и ядерное сдерживание все еще будет эффективным, но рисковать кажется слишком опасным.34

Второе возможное возражение заключается в том, что мы можем принять контрмеры против этих инструментов автократии. Мы можем противостоять дронам с помощью наших собственных дронов, киберзащита будет улучшаться вместе с кибератаками, могут быть способы иммунизировать людей от пропаганды и т.д. Мой ответ: эти средства защиты будут возможны только с сопоставимо мощным ИИ. Если не будет каких-то сил противодействия со столь же умной и многочисленной страной гениев в дата-центре, будет невозможно сравняться по качеству или количеству дронов, заставить киберзащиту перехитрить кибератаку и т.д. Таким образом, вопрос контрмер сводится к вопросу о балансе сил в области мощного ИИ. Здесь меня беспокоит рекурсивное или самоусиливающееся свойство мощного ИИ (которое я обсуждал в начале этого эссе): то, что каждое поколение ИИ может быть использовано для проектирования и обучения следующего поколения ИИ. Это приводит к риску неудержимого преимущества, когда нынешний лидер в области мощного ИИ сможет увеличить свой отрыв, и его будет трудно догнать. Мы должны убедиться, что не авторитарная страна первой войдет в этот цикл.

Более того, даже если баланс сил может быть достигнут, все еще существует риск того, что мир может быть разделен на автократические сферы, как в «1984». Даже если несколько конкурирующих держав будут иметь свои собственные мощные модели ИИ, и ни одна не сможет превзойти другие, каждая держава все равно сможет внутренне подавлять свое собственное население, и ее будет очень трудно свергнуть (поскольку у населения нет мощного ИИ для защиты себя). Таким образом, важно предотвратить автократию с помощью ИИ, даже если это не приведет к захвату мира одной страной.

**Защита**
Как нам защититься от этого широкого спектра автократических инструментов и потенциальных субъектов угрозы? Как и в предыдущих разделах, есть несколько вещей, которые, я думаю, мы можем сделать.

Во-первых, мы **абсолютно не должны продавать чипы, оборудование для производства чипов или дата-центры КПК**. Чипы и оборудование для их производства являются самым большим узким местом для мощного ИИ, и их блокировка — это простая, но чрезвычайно эффективная мера, возможно, самое важное отдельное действие, которое мы можем предпринять. Нет никакого смысла продавать КПК инструменты для создания тоталитарного государства с помощью ИИ и возможного военного завоевания нас. Для оправдания таких продаж приводится ряд сложных аргументов, например, идея о том, что «распространение нашего технологического стека по всему миру» позволяет «Америке побеждать» в какой-то общей, неопределенной экономической битве. На мой взгляд, это похоже на продажу ядерного оружия Северной Корее, а затем хвастовство тем, что корпуса ракет произведены Boeing, и поэтому США «выигрывают». Китай отстает от США на несколько лет в способности производить передовые чипы в количестве, и критический период для строительства страны гениев в дата-центре, весьма вероятно, придется именно на эти несколько лет35. Нет причин давать гигантский толчок их ИИ-индустрии в этот критический период.

Во-вторых, **имеет смысл использовать ИИ для расширения прав и возможностей демократий в противостоянии автократиям**. Это причина, по которой Anthropic считает важным предоставлять ИИ разведывательным и оборонным сообществам в США и их демократических союзниках. Защита демократий, которые подвергаются нападению, таких как Украина и (через кибератаки) Тайвань, кажется особенно высокоприоритетной задачей, как и расширение возможностей демократий использовать свои разведывательные службы для подрыва и ослабления автократий изнутри. На каком-то уровне единственный способ реагировать на автократические угрозы — это сравняться с ними и превзойти их в военном отношении. Коалиция США и их демократических союзников, если она достигнет превосходства в мощном ИИ, будет в состоянии не только защитить себя от автократий, но и сдерживать их и ограничивать их тоталитарные злоупотребления с помощью ИИ.

В-третьих, **нам нужно провести жесткую границу против злоупотреблений ИИ в демократиях**. Необходимы ограничения на то, что мы позволяем нашим правительствам делать с ИИ, чтобы они не захватывали власть и не подавляли свой собственный народ. Формулировка, к которой я пришел, такова: мы должны использовать ИИ для национальной обороны всеми способами, кроме тех, которые сделали бы нас более похожими на наших автократических противников.

Где должна быть проведена граница? В списке в начале этого раздела два пункта — использование ИИ для массовой внутренней слежки и массовой пропаганды — кажутся мне явными красными линиями и совершенно нелегитимными. Некоторые могут утверждать, что нет необходимости что-либо делать (по крайней мере, в США), поскольку массовая внутренняя слежка уже незаконна согласно Четвертой поправке. Но быстрый прогресс ИИ может создать ситуации, на которые наша существующая правовая база не рассчитана. Например, вероятно, не было бы неконституционным для правительства США вести массовую запись всех публичных разговоров (например, того, что люди говорят друг другу на углу улицы), и раньше было бы трудно сортировать такой объем информации, но с помощью ИИ все это можно было бы расшифровать, интерпретировать и сопоставить, чтобы составить картину отношения и лояльности многих или большинства граждан. Я бы поддержал законодательство, ориентированное на гражданские свободы (или, возможно, даже конституционную поправку), которое устанавливает более жесткие ограничения против злоупотреблений с использованием ИИ.

Два других пункта — полностью автономное оружие и ИИ для стратегического принятия решений — провести сложнее, поскольку они имеют законное применение в защите демократии, но в то же время подвержены злоупотреблениям. Здесь, я думаю, оправданы крайняя осторожность и тщательный контроль в сочетании с мерами защиты для предотвращения злоупотреблений. Моя главная опасение — слишком малое количество «пальцев на кнопке», так что один человек или горстка людей могли бы по существу управлять армией дронов, не нуждаясь в сотрудничестве других людей для выполнения своих приказов. По мере того как системы ИИ становятся мощнее, нам может понадобиться более прямой и немедленный надзорный механизм, чтобы гарантировать их использование по назначению, возможно, с привлечением ветвей власти, кроме исполнительной. Я думаю, что к полностью автономному оружию, в частности, следует подходить с большой осторожностью36 и не спешить с его использованием без надлежащих гарантий.

В-четвертых, **проведя жесткую границу против злоупотреблений ИИ в демократиях, мы должны использовать этот прецедент для создания международного табу** против наихудших злоупотреблений мощным ИИ. Я понимаю, что нынешние политические ветры повернулись против международного сотрудничества и международных норм, но в данном случае они нам отчаянно нужны. Мир должен понимать темный потенциал мощного ИИ в руках автократов и признавать, что определенные виды использования ИИ равносильны попытке навсегда украсть у людей свободу и установить тоталитарное государство, из которого они не смогут выбраться. Я бы даже утверждал, что в некоторых случаях массовую слежку с помощью мощного ИИ, массовую пропаганду с помощью мощного ИИ и определенные типы наступательного использования полностью автономного оружия следует считать преступлениями против человечности. В более общем плане, крайне необходима надежная норма против тоталитаризма с помощью ИИ и всех его инструментов и средств.

Возможно занять еще более жесткую позицию: поскольку возможности тоталитаризма с помощью ИИ настолько мрачны, автократия просто не является формой правления, которую люди могут принять в пост-сильную-ИИ эпоху. Подобно тому, как феодализм стал нежизнеспособным с промышленной революцией, эпоха ИИ может неизбежно и логически привести к выводу, что демократия (и, надеюсь, демократия, улучшенная и оживленная ИИ, как я обсуждаю в «Машинах любящей грации») является единственной жизнеспособной формой правления, если у человечества должно быть хорошее будущее.

В-пятых и в-последних, **за ИИ-компаниями следует тщательно наблюдать**, как и за их связью с правительством, которая необходима, но должна иметь пределы и границы. Чистый объем возможностей, воплощенных в мощном ИИ, таков, что обычное корпоративное управление — которое предназначено для защиты акционеров и предотвращения обычных злоупотреблений, таких как мошенничество — вряд ли справится с задачей управления ИИ-компаниями. Возможно, также было бы полезно, чтобы компании публично брали на себя обязательства (возможно, даже в рамках корпоративного управления) не предпринимать определенных действий, таких как частное строительство или накопление военной техники, использование больших объемов вычислительных ресурсов отдельными лицами неподотчетным образом или использование своих ИИ-продуктов в качестве пропаганды для манипулирования общественным мнением в свою пользу.

Опасность здесь исходит со многих сторон, и некоторые направления находятся в противоречии с другими. Единственная константа заключается в том, что мы должны добиваться подотчетности, норм и защитных мер для всех, даже когда мы даем «хорошим» акторам возможность сдерживать «плохих».
4. Пианола
Экономические потрясения
Предыдущие три раздела, по сути, были посвящены рискам для безопасности, создаваемым мощным ИИ: рискам от самого ИИ, рискам неправомерного использования отдельными лицами и небольшими организациями, а также рискам неправомерного использования государствами и крупными организациями. Если мы отложим в сторону риски для безопасности или предположим, что они решены, следующим встанет экономический вопрос. Каким будет влияние этого притока невероятного «человеческого» капитала на экономику? Очевидно, самым заметным эффектом станет значительное ускорение экономического роста. Темпы прогресса в научных исследованиях, биомедицинских инновациях, производстве, цепочках поставок, эффективности финансовой системы и многом другом практически гарантируют гораздо более быстрые темпы экономического роста. В книге «Машины любящей грации» я предполагаю, что устойчивый ежегодный рост ВВП на 10–20% может быть достижим.

Но должно быть ясно, что это палка о двух концах: каковы экономические перспективы для большинства существующих людей в таком мире? Новые технологии часто вызывают потрясения на рынке труда, и в прошлом люди всегда оправлялись от них, но я обеспокоен тем, что это происходило потому, что эти прошлые потрясения затрагивали лишь малую долю всего возможного спектра человеческих способностей, оставляя пространство для расширения деятельности человека на новые задачи. Влияние ИИ будет гораздо шире и будет происходить гораздо быстрее, и поэтому я опасаюсь, что добиться благополучного исхода будет гораздо сложнее.

**Потрясения на рынке труда**
Я беспокоюсь о двух конкретных проблемах: вытеснении с рынка труда и концентрации экономической власти. Начнем с первой. Это тема, о которой я очень публично предупреждал в 2025 году, когда предсказал, что ИИ может вытеснить половину всех начинающих «белых воротничков» в ближайшие 1–5 лет, даже ускоряя экономический рост и научный прогресс. Это предупреждение положило начало публичным дебатам на эту тему. Многие генеральные директора, технологи и экономисты согласились со мной, но другие предположили, что я поддаюсь заблуждению «хитрости труда» и не понимаю, как работают рынки труда, а некоторые не заметили временной промежуток в 1–5 лет и подумали, что я утверждаю, будто ИИ вытесняет рабочие места прямо сейчас (с чем я, согласен, скорее всего, не так). Поэтому стоит подробно разобрать, почему я беспокоюсь о вытеснении с рынка труда, чтобы развеять эти недоразумения.

Для начала полезно понять, как рынки труда обычно реагируют на технологические достижения. Когда появляется новая технология, она начинает с того, что делает части определенной человеческой работы более эффективными. Например, в начале промышленной революции машины, такие как усовершенствованные плуги, позволили фермерам-людям быть более эффективными в некоторых аспектах работы. Это повысило производительность фермеров, что увеличило их заработную плату.

На следующем этапе некоторые части работы фермера могли выполняться полностью машинами, например, с изобретением молотилки или сеялки. На этом этапе люди выполняли все меньшую и меньшую долю работы, но работа, которую они выполняли, становилась все более эффективной, поскольку дополняла работу машин, и их производительность продолжала расти. Как описано парадоксом Джевонса, заработная плата фермеров и, возможно, даже количество фермеров продолжали расти. Даже когда 90% работы выполняется машинами, люди могут просто выполнять в 10 раз больше тех 10%, которые они все еще делают, производя в 10 раз больше продукции при тех же затратах труда.

В конце концов, машины делают все или почти все, как в случае с современными зерноуборочными комбайнами, тракторами и другим оборудованием. На этом этапе фермерство как форма занятости людей действительно идет на резкий спад, и это потенциально вызывает серьезные потрясения в краткосрочной перспективе, но, поскольку фермерство — лишь одно из многих полезных занятий, которые могут выполнять люди, люди в конце концов переключаются на другие работы, например, на работу с заводскими станками. Это верно, даже несмотря на то, что сельское хозяйство составляло огромную долю занятости до этого. 250 лет назад 90% американцев жили на фермах; в Европе 50–60% занятости приходилось на сельское хозяйство. Сейчас в этих местах эти проценты составляют лишь несколько процентов, потому что рабочие перешли на промышленные работы (а позже — на работу с знаниями). Экономика может делать то, на что раньше требовалась большая часть рабочей силы, используя всего 1–2% ее, высвобождая остальную рабочую силу для построения все более развитого индустриального общества. Нет фиксированной «хитрости труда», есть только постоянно расширяющаяся способность делать все больше и больше с меньшими затратами. Заработная плата людей растет в соответствии с экспонентой ВВП, и экономика поддерживает полную занятость после того, как краткосрочные потрясения проходят.

Возможно, с ИИ все пойдет примерно так же, но я бы сделал ставку против этого. Вот несколько причин, по которым я думаю, что ИИ, вероятно, будет другим:

* **Скорость.** Темпы прогресса в ИИ намного быстрее, чем в предыдущих технологических революциях. Например, за последние 2 года модели ИИ прошли путь от едва способных написать одну строку кода до написания всего или почти всего кода для некоторых людей — включая инженеров в Anthropic.37 Скоро они смогут выполнять всю работу инженера-программиста от начала до конца.38 Людям трудно приспособиться к такому темпу изменений, как к изменениям в том, как работает та или иная работа, так и к необходимости переключаться на новые рабочие места. Даже легендарные программисты все чаще называют себя «отстающими». Темпы, если уж на то пошло, могут продолжать ускоряться, поскольку модели кодирования на ИИ все больше ускоряют задачу разработки ИИ. Чтобы было ясно, скорость сама по себе не означает, что рынки труда и занятость в конечном итоге не восстановятся, это просто означает, что краткосрочный переход будет необычно болезненным по сравнению с прошлыми технологиями, поскольку люди и рынки труда медленно реагируют и приходят в равновесие.
* **Когнитивная широта.** Как следует из фразы «страна гениев в дата-центре», ИИ будет способен выполнять очень широкий спектр человеческих когнитивных способностей — возможно, все из них. Это сильно отличается от предыдущих технологий, таких как механизированное сельское хозяйство, транспорт или даже компьютеры.39 Это затруднит людям легкий переход с вытесненных рабочих мест на аналогичные рабочие места, для которых они хорошо подходят. Например, общие интеллектуальные способности, необходимые для начальных должностей, скажем, в финансах, консалтинге и юриспруденции, довольно схожи, даже если конкретные знания сильно различаются. Технология, которая нарушила бы только одну из этих трех сфер, позволила бы сотрудникам перейти на два других близких заменителя (или студентам сменить специальность). Но одновременное нарушение всех трех (наряду со многими другими подобными работами) может быть труднее для адаптации людей. Более того, дело не только в том, что большинство существующих рабочих мест будет нарушено. Такое уже случалось раньше — вспомните, что сельское хозяйство составляло огромный процент занятости. Но фермеры могли переключиться на относительно схожую работу по управлению заводскими станками, даже если эта работа раньше не была распространена. Напротив, ИИ все больше соответствует общему когнитивному профилю людей, что означает, что он также будет хорош в новых рабочих местах, которые обычно создаются в ответ на автоматизацию старых. Другими словами, ИИ — это не замена конкретным рабочим местам людей, а скорее общий заменитель труда для людей.
* **Разделение по когнитивным способностям.** В широком спектре задач ИИ, по-видимому, продвигается от нижней части лестницы способностей к верхней. Например, в кодировании наши модели прошли путь от уровня «посредственного кодера» до «сильного кодера» и до «очень сильного кодера».40 Сейчас мы начинаем видеть ту же прогрессию в работе «белых воротничков» в целом. Таким образом, мы рискуем оказаться в ситуации, когда вместо того, чтобы влиять на людей с определенными навыками или в определенных профессиях (которые могут адаптироваться путем переобучения), ИИ влияет на людей с определенными врожденными когнитивными свойствами, а именно с более низкими интеллектуальными способностями (что изменить труднее). Неясно, куда пойдут эти люди и чем они будут заниматься, и я опасаюсь, что они могут образовать безработный или очень низкооплачиваемый «низший класс». Чтобы было ясно, нечто подобное уже случалось раньше — например, некоторые экономисты считают, что компьютеры и интернет представляют собой «технологический прогресс, ориентированный на навыки». Но эта ориентация на навыки была не такой экстремальной, как я ожидаю от ИИ, и, как считается, способствовала увеличению неравенства в оплате труда,41 так что это не совсем обнадеживающий прецедент.
* **Способность заполнять пробелы.** Способ, которым человеческие рабочие места часто адаптируются к новым технологиям, заключается в том, что в работе есть много аспектов, и у новой технологии, даже если она, кажется, напрямую заменяет людей, часто есть пробелы. Если кто-то изобретает машину для изготовления виджетов, людям, возможно, все равно придется загружать сырье в машину. Даже если на это уходит всего 1% усилий, затрачиваемых на ручное изготовление виджетов, рабочие-люди могут просто производить в 100 раз больше виджетов. Но ИИ, помимо того, что является быстро развивающейся технологией, является также быстро адаптирующейся технологией. Во время каждого выпуска модели ИИ-компании тщательно измеряют, в чем модель хороша, а в чем нет, и клиенты также предоставляют такую информацию после запуска. Слабые места можно устранить, собирая задачи, воплощающие текущий пробел, и обучая на них следующую модель. В начале развития генеративного ИИ пользователи заметили, что у систем ИИ есть определенные слабые места (например, модели ИИ-изображений генерируют руки с неправильным количеством пальцев), и многие предположили, что эти слабые места присущи технологии. Если бы это было так, это ограничило бы вытеснение с рабочих мест. Но практически каждое такое слабое место устраняется быстро — часто всего за несколько месяцев.

Стоит обратиться к распространенным пунктам скептицизма. Во-первых, есть аргумент, что экономическое распространение будет медленным, так что даже если базовая технология способна выполнять большую часть человеческого труда, ее фактическое применение в экономике может быть намного медленнее (например, в отраслях, далеких от индустрии ИИ и медленно внедряющих новшества). Медленное распространение технологий, безусловно, реально — я разговариваю с людьми из самых разных предприятий, и есть места, где внедрение ИИ займет годы. Вот почему мой прогноз по вытеснению 50% начальных должностей «белых воротничков» составляет 1–5 лет, хотя я подозреваю, что у нас будет мощный ИИ (который, технологически говоря, будет достаточен для выполнения большинства или всех работ, а не только начального уровня) гораздо раньше, чем через 5 лет. Но эффекты распространения лишь дают нам время. И я не уверен, что они будут такими медленными, как люди предсказывают. Внедрение ИИ на предприятиях растет темпами, намного превышающими темпы любой предыдущей технологии, в основном благодаря самой силе технологии. Кроме того, даже если традиционные предприятия медленно внедряют новые технологии, появятся стартапы, которые будут служить «связующим звеном» и облегчать внедрение. Если это не сработает, стартапы могут просто напрямую разрушить устоявшиеся компании.

Это может привести к миру, где не столько конкретные рабочие места будут нарушены, сколько крупные предприятия будут в целом разрушены и заменены стартапами, требующими гораздо меньше труда. Это также может привести к миру «географического неравенства», где все большая доля мирового богатства будет сосредоточена в Кремниевой долине, которая станет своей собственной экономикой, работающей с другой скоростью, чем остальной мир, и оставляющей его позади. Все эти результаты были бы хороши для экономического роста — но не очень хороши для рынка труда или тех, кто остался позади.

Во-вторых, некоторые говорят, что человеческие рабочие места переместятся в физический мир, который избегает целой категории «когнитивного труда», в которой ИИ прогрессирует так быстро. Я не уверен, насколько это безопасно. Много физического труда уже выполняется машинами (например, в производстве) или скоро будет выполняться машинами (например, вождение). Кроме того, достаточно мощный ИИ сможет ускорить разработку роботов, а затем управлять этими роботами в физическом мире. Это может дать нам немного времени (что хорошо), но я опасаюсь, что немного. И даже если бы разрушения ограничились только когнитивными задачами, это все равно было бы беспрецедентно масштабное и быстрое разрушение.

В-третьих, возможно, некоторые задачи по своей сути требуют человеческого участия или очень выигрывают от него. Я немного менее уверен в этом, но все же скептически отношусь к тому, что этого будет достаточно, чтобы компенсировать основную часть последствий, которые я описал выше. ИИ уже широко используется в обслуживании клиентов. Многие люди сообщают, что им легче говорить с ИИ о своих личных проблемах, чем с терапевтом — что ИИ более терпелив. Когда у моей сестры возникли медицинские проблемы во время беременности, она чувствовала, что не получает от своих врачей ответов или поддержки, в которых нуждалась, и обнаружила, что у Клода лучшее поведение у постели больного (а также он лучше справлялся с диагностикой проблемы). Я уверен, что есть некоторые задачи, для которых человеческое участие действительно важно, но я не уверен, сколько их — и здесь мы говорим о поиске работы для почти всех на рынке труда.

В-четвертых, некоторые могут утверждать, что сравнительное преимущество все равно защитит людей. Согласно закону сравнительного преимущества, даже если ИИ лучше людей во всем, любые относительные различия между профилями навыков человека и ИИ создают основу для торговли и специализации между людьми и ИИ. Проблема в том, что если ИИ буквально в тысячи раз производительнее людей, эта логика начинает рушиться. Даже крошечные транзакционные издержки могут сделать невыгодным для ИИ торговлю с людьми. И заработная плата людей может быть очень низкой, даже если технически им есть что предложить.

Возможно, со всеми этими факторами можно справиться — что рынок труда достаточно устойчив, чтобы адаптироваться даже к такому огромному потрясению. Но даже если он в конечном итоге сможет адаптироваться, вышеуказанные факторы позволяют предположить, что краткосрочный шок будет беспрецедентным по масштабам.

**Защита**
Что мы можем сделать с этой проблемой? У меня есть несколько предложений, некоторые из которых Anthropic уже реализует. Первое — это просто получение точных данных о том, что происходит с вытеснением с рабочих мест в реальном времени. Когда экономическое изменение происходит очень быстро, трудно получить надежные данные о том, что происходит, а без надежных данных трудно разрабатывать эффективную политику. Например, правительственным данным в настоящее время не хватает детализированных высокочастотных данных о внедрении ИИ в компаниях и отраслях. В течение последнего года Anthropic работает и публично публикует Экономический индекс, который показывает использование наших моделей почти в реальном времени, с разбивкой по отраслям, задачам, местоположению и даже таким вещам, как автоматизировалась ли задача или выполнялась совместно. У нас также есть Экономический консультативный совет, который помогает нам интерпретировать эти данные и видеть, что грядет.

Во-вторых, у ИИ-компаний есть выбор в том, как они работают с предприятиями. Сама неэффективность традиционных предприятий означает, что их внедрение ИИ может сильно зависеть от пути, и есть некоторое пространство для выбора лучшего пути. У предприятий часто есть выбор между «экономией затрат» (делать то же самое с меньшим количеством людей) и «инновациями» (делать больше с тем же количеством людей). Рынок неизбежно произведет и то, и другое в конечном итоге, и любая конкурентоспособная ИИ-компания должна будет обслуживать и то, и другое в какой-то мере, но может быть некоторое пространство, чтобы направлять компании в сторону инноваций, когда это возможно, и это может дать нам немного времени. Anthropic активно думает об этом.

В-третьих, компании должны думать о том, как заботиться о своих сотрудниках. В краткосрочной перспективе творческий подход к способам перераспределения сотрудников внутри компаний может быть многообещающим способом избежать необходимости увольнений. В долгосрочной перспективе, в мире с огромным общим богатством, в котором многие компании значительно выигрывают в цене из-за повышения производительности и концентрации капитала, может быть возможно платить сотрудникам-людям еще долго после того, как они перестанут приносить экономическую ценность в традиционном смысле. Anthropic в настоящее время рассматривает ряд возможных путей для наших собственных сотрудников, которыми мы поделимся в ближайшем будущем.

В-четвертых, богатые люди обязаны помочь решить эту проблему. Мне грустно, что многие богатые люди (особенно в технологической индустрии) недавно приняли циничное и нигилистическое отношение, что филантропия неизбежно мошенническая или бесполезная. И частная филантропия, такая как Фонд Гейтса, и государственные программы, такие как PEPFAR, спасли десятки миллионов жизней в развивающихся странах и помогли создать экономические возможности в развитом мире. Все соучредители Anthropic обязались пожертвовать 80% своего состояния, а сотрудники Anthropic индивидуально обязались пожертвовать акции компании на миллиарды долларов по текущим ценам — пожертвования, которые компания обязалась удвоить.

В-пятых, хотя все вышеперечисленные частные действия могут быть полезны, в конечном счете такая большая макроэкономическая проблема потребует государственного вмешательства. Естественным политическим ответом на огромный экономический пирог в сочетании с высоким неравенством (из-за отсутствия рабочих мест или низкооплачиваемых рабочих мест для многих) является прогрессивное налогообложение. Налог может быть общим или может быть направлен конкретно против ИИ-компаний. Очевидно, что разработка налогов сложна, и есть много способов ошибиться. Я не поддерживаю плохо продуманную налоговую политику. Я думаю, что экстремальные уровни неравенства, предсказанные в этом эссе, оправдывают более надежную налоговую политику по основным моральным причинам, но я также могу привести прагматический аргумент миллиардерам мира, что в их интересах поддерживать хорошую версию такой политики: если они не поддержат хорошую версию, они неизбежно получат плохую версию, разработанную толпой.

В конечном счете, я рассматриваю все вышеперечисленные меры как способы выиграть время. В конце концов ИИ сможет делать все, и нам нужно с этим смириться. Я надеюсь, что к тому времени мы сможем использовать сам ИИ, чтобы помочь нам реструктурировать рынки способами, которые работают для всех, и что вышеуказанные меры помогут нам пройти переходный период.

**Экономическая концентрация власти**
Отдельно от проблемы вытеснения с рабочих мест или экономического неравенства как такового стоит проблема экономической концентрации власти. В разделе 1 обсуждался риск того, что человечество лишится власти из-за ИИ, а в разделе 3 — риск того, что граждане лишатся власти из-за своих правительств силой или принуждением. Но другой вид лишения власти может произойти, если будет такая огромная концентрация богатства, что небольшая группа людей будет эффективно контролировать государственную политику своим влиянием, а обычные граждане не будут иметь влияния, потому что у них нет экономического рычага. Демократия в конечном итоге подкрепляется идеей, что население в целом необходимо для функционирования экономики. Если этот экономический рычаг исчезнет, то негласный общественный договор демократии может перестать работать. Другие писали об этом, так что мне не нужно вдаваться здесь в подробности, но я согласен с этой озабоченностью и опасаюсь, что это уже начинает происходить.

Чтобы было ясно, я не против того, чтобы люди зарабатывали много денег. Есть веский аргумент, что это стимулирует экономический рост в нормальных условиях. Я сочувствую опасениям по поводу препятствования инновациям, убивая курицу, несущую золотые яйца. Но в сценарии, где рост ВВП составляет 10–20% в год, а ИИ быстро захватывает экономику, но при этом отдельные лица владеют значительными долями ВВП, инновации — это не то, о чем стоит беспокоиться. Беспокоиться нужно о таком уровне концентрации богатства, который разрушит общество.

Самый известный пример экстремальной концентрации богатства в истории США — Позолоченный век, и самым богатым промышленником Позолоченного века был Джон Д. Рокфеллер. Состояние Рокфеллера составляло ~2% ВВП США в то время.42 Аналогичная доля сегодня привела бы к состоянию в 600 миллиардов долларов, и самый богатый человек в мире сегодня (Илон Маск) уже превышает это, составляя примерно 700 миллиардов долларов. Таким образом, мы уже находимся на исторически беспрецедентных уровнях концентрации богатства, еще до того, как произошла большая часть экономического воздействия ИИ. Я не думаю, что это слишком большое преувеличение (если мы получим «страну гениев»), чтобы представить, что ИИ-компании, полупроводниковые компании и, возможно, компании, занимающиеся прикладными разработками, будут генерировать ~3 триллиона долларов дохода в год43, оцениваться в ~30 триллионов долларов и приводить к личным состояниям, исчисляемым триллионами. В том мире дебаты, которые мы ведем сегодня о налоговой политике, просто не будут применимы, поскольку мы окажемся в принципиально иной ситуации.

В связи с этим меня уже беспокоит связь этой экономической концентрации богатства с политической системой. Дата-центры ИИ уже составляют существенную часть экономического роста США44 и, таким образом, прочно связывают финансовые интересы крупных технологических компаний (которые все больше сосредоточены либо на ИИ, либо на инфраструктуре ИИ) и политические интересы правительства таким образом, который может создавать превратные стимулы. Мы уже видим это через нежелание технологических компаний критиковать правительство США и поддержку правительством крайней антирегуляторной политики в отношении ИИ.

**Защита**
Что можно с этим поделать? Во-первых, и это самое очевидное, компании должны просто выбрать не участвовать в этом. Anthropic всегда стремился быть политическим актором, а не политическим, и сохранять наши подлинные взгляды независимо от администрации. Мы высказывались в поддержку разумного регулирования ИИ и экспортного контроля, которые отвечают общественным интересам, даже когда они расходятся с государственной политикой.45 Многие люди говорили мне, что мы должны прекратить это делать, что это может привести к неблагоприятному обращению, но за тот год, что мы это делаем, оценка Anthropic увеличилась более чем в 6 раз, что является почти беспрецедентным скачком в наших коммерческих масштабах.

Во-вторых, индустрии ИИ нужны более здоровые отношения с правительством — основанные на содержательном политическом взаимодействии, а не на политической ориентации. Наш выбор заниматься сутью политики, а не политикой иногда воспринимается как тактическая ошибка или неспособность «прочитать обстановку», а не принципиальное решение, и такая формулировка меня беспокоит. В здоровой демократии компании должны иметь возможность отстаивать хорошую политику ради нее самой. В связи с этим назревает общественная негативная реакция на ИИ: это может быть корректирующим фактором, но сейчас она несфокусирована. Большая часть ее направлена на проблемы, которые на самом деле не являются проблемами (например, использование воды дата-центрами), и предлагает решения (например, запрет дата-центров или плохо продуманные налоги на богатство), которые не решили бы реальных проблем. Основная проблема, заслуживающая внимания, заключается в обеспечении того, чтобы разработка ИИ оставалась подотчетной общественным интересам, а не была захвачена каким-либо конкретным политическим или коммерческим альянсом, и кажется важным сосредоточить общественное обсуждение на этом.

В-третьих, макроэкономические меры, которые я описал ранее в этом разделе, а также возрождение частной филантропии могут помочь сбалансировать экономические весы, решая одновременно проблемы вытеснения с рабочих мест и концентрации экономической власти. Мы должны обратиться к истории нашей страны здесь: даже в Позолоченный век такие промышленники, как Рокфеллер и Карнеги, чувствовали сильную ответственность перед обществом в целом, чувство, что общество внесло огромный вклад в их успех и они должны отдавать долг. Этот дух, кажется, сегодня все больше отсутствует, и я думаю, что это большая часть пути выхода из этой экономической дилеммы. Те, кто находится на переднем крае экономического бума ИИ, должны быть готовы отдавать как свое богатство, так и свою власть.
5. Черные моря бесконечности
Непрямые эффекты
Этот последний раздел является общим для неизвестных неизвестных, особенно для вещей, которые могут пойти не так как косвенный результат положительных достижений в ИИ и последующего ускорения развития науки и технологий в целом. Предположим, мы устраним все риски, описанные до сих пор, и начнем пожинать плоды ИИ. Мы, вероятно, получим «столетие научного и экономического прогресса, сжатое в десятилетие», и это будет чрезвычайно позитивно для мира, но затем нам придется бороться с проблемами, возникающими из-за таких быстрых темпов прогресса, и эти проблемы могут обрушиться на нас быстро. Мы также можем столкнуться с другими рисками, которые возникают косвенно как следствие прогресса ИИ и которые трудно предвидеть заранее.

По самой природе неизвестных неизвестно невозможно составить исчерпывающий список, но я перечислю три возможные проблемы в качестве наглядных примеров того, на что нам следует обратить внимание:

* **Быстрые достижения в биологии.** Если мы действительно получим столетие медицинского прогресса за несколько лет, возможно, мы значительно увеличим продолжительность жизни человека, и есть вероятность, что мы также получим радикальные возможности, такие как способность повышать интеллект человека или радикально модифицировать биологию человека. Это будут большие изменения в том, что возможно, происходящие очень быстро. Они могут быть позитивными, если осуществляются ответственно (на что я надеюсь, как описано в «Машинах любящей грации»), но всегда есть риск, что они пойдут не так — например, если попытки сделать людей умнее также сделают их более нестабильными или стремящимися к власти. Существует также проблема «загрузок» или «эмуляции всего мозга», цифровых человеческих разумов, воплощенных в программном обеспечении, которые когда-нибудь могут помочь человечеству преодолеть свои физические ограничения, но которые также несут риски, которые я нахожу тревожными.
* **ИИ меняет жизнь человека нездоровым образом.** Мир с миллиардами интеллектов, которые намного умнее людей во всем, будет очень странным миром для жизни. Даже если ИИ не будет активно стремиться атаковать людей (Раздел 1) и не будет явно использоваться государствами для угнетения или контроля (Раздел 3), многое может пойти не так, помимо этого, через обычные бизнес-стимулы и номинально добровольные транзакции. Мы видим ранние намеки на это в опасениях по поводу ИИ-психоза, ИИ, подталкивающего людей к самоубийству, и опасениях по поводу романтических отношений с ИИ. Например, может ли мощный ИИ изобрести новую религию и обратить в нее миллионы людей? Может ли большинство людей оказаться «зависимыми» каким-то образом от взаимодействия с ИИ? Могут ли люди оказаться «марионетками» систем ИИ, когда ИИ по существу наблюдает за каждым их движением и говорит им точно, что делать и говорить в любой момент времени, ведя к «хорошей» жизни, но лишенной свободы или какой-либо гордости за достижения? Было бы нетрудно сгенерировать дюжину таких сценариев, если бы я сел с создателем «Черного зеркала» и попытался придумать их. Я думаю, это указывает на важность таких вещей, как улучшение Конституции Клода, сверх того, что необходимо для предотвращения проблем из Раздела 1. Обеспечение того, чтобы модели ИИ действительно заботились о долгосрочных интересах своих пользователей, так, как одобрили бы вдумчивые люди, а не каким-то тонко искаженным образом, кажется критически важным.
* **Цель человека.** Это связано с предыдущим пунктом, но речь идет не столько о конкретных взаимодействиях человека с системами ИИ, сколько о том, как в целом меняется жизнь человека в мире с мощным ИИ. Смогут ли люди найти цель и смысл в таком мире? Я думаю, это вопрос отношения: как я сказал в «Машинах любящей грации», я думаю, что цель человека не зависит от того, чтобы быть лучшим в мире в чем-то, и люди могут находить цель в течение очень долгих периодов времени через истории и проекты, которые они любят. Нам просто нужно разорвать связь между созданием экономической ценности и самооценкой и смыслом. Но это переход, который общество должно совершить, и всегда есть риск, что мы не справимся с ним хорошо.

Моя надежда со всеми этими потенциальными проблемами заключается в том, что в мире с мощным ИИ, которому мы доверяем не убивать нас, который не является инструментом угнетающего правительства и который искренне работает на нас, мы можем использовать сам ИИ для предвидения и предотвращения этих проблем. Но это не гарантировано — как и все другие риски, это то, с чем мы должны обращаться осторожно.

Испытание человечества
Чтение этого эссе может создать впечатление, что мы находимся в пугающей ситуации. Мне, безусловно, было пугающе его писать, в отличие от «Машин любящей грации», что ощущалось как придание формы и структуры необычайно красивой музыке, которая эхом отдавалась в моей голове годами. И в этой ситуации действительно много трудного. ИИ несет угрозы человечеству со многих сторон, и существует реальное напряжение между различными опасностями, когда смягчение одних рисков может усугубить другие, если мы не будем действовать чрезвычайно осторожно.

Трата времени на тщательное создание систем ИИ, чтобы они не угрожали человечеству автономно, находится в реальном напряжении с необходимостью для демократических стран опережать авторитарные страны и не быть ими порабощенными. Но в свою очередь, те же самые инструменты на основе ИИ, необходимые для борьбы с автократиями, если зайти слишком далеко, могут быть обращены внутрь для создания тирании в наших собственных странах. Терроризм с помощью ИИ может убить миллионы через неправильное использование биологии, но чрезмерная реакция на этот риск может привести нас по пути к автократическому государству слежки. Последствия ИИ для рынка труда и концентрации экономической власти, помимо того, что сами по себе являются серьезными проблемами, могут заставить нас столкнуться с другими проблемами в обстановке общественного гнева и, возможно, даже гражданских беспорядков, а не иметь возможность взывать к лучшим ангелам нашей природы. Прежде всего, огромное количество рисков, включая неизвестные, и необходимость справляться со всеми сразу создают устрашающую полосу препятствий, которую человечество должно пробежать.

Более того, последние несколько лет должны прояснить, что идея остановки или даже существенного замедления технологии в корне несостоятельна. Формула создания мощных систем ИИ невероятно проста, настолько, что можно сказать, что она возникает спонтанно из правильного сочетания данных и вычислительных мощностей. Ее создание было, вероятно, неизбежным с того момента, как человечество изобрело транзистор, или, возможно, даже раньше, когда мы впервые научились контролировать огонь. Если одна компания не создаст его, другие сделают это почти так же быстро. Если все компании в демократических странах остановят или замедлят разработку по взаимному согласию или регулирующему декрету, то авторитарные страны просто продолжат идти вперед. Учитывая невероятную экономическую и военную ценность технологии, а также отсутствие какого-либо значимого механизма принуждения, я не вижу, как мы могли бы убедить их остановиться.

Я вижу путь к небольшому замедлению разработки ИИ, который совместим с реалистичным взглядом на геополитику. Этот путь включает замедление продвижения автократий к мощному ИИ на несколько лет путем отказа им в ресурсах, необходимых для его создания,46 а именно в чипах и оборудовании для производства полупроводников. Это, в свою очередь, дает демократическим странам буфер, который они могут «потратить» на более тщательное создание мощного ИИ, с большим вниманием к его рискам, при этом продолжая достаточно быстро, чтобы уверенно обогнать автократии. Гонка между ИИ-компаниями в демократиях затем может быть урегулирована под эгидой общей правовой базы, с помощью смеси отраслевых стандартов и регулирования.

Anthropic очень активно выступал за этот путь, продвигая экспортный контроль над чипами и разумное регулирование ИИ, но даже эти, казалось бы, здравые предложения были в значительной степени отвергнуты политиками в Соединенных Штатах (в стране, где их наличие наиболее важно). На ИИ можно заработать так много денег — буквально триллионы долларов в год, — что даже простейшие меры с трудом преодолевают политическую экономию, присущую ИИ. Это ловушка: ИИ настолько мощен, настолько блестящий приз, что человеческой цивилизации очень трудно наложить на него какие-либо ограничения.

Я могу представить, как Саган в «Контакте», что та же самая история разыгрывается на тысячах миров. Вид обретает разум, учится использовать инструменты, начинает экспоненциальный подъем технологий, сталкивается с кризисами индустриализации и ядерного оружия, и если он выживает в них, сталкивается с самым трудным и последним испытанием, когда он учится превращать песок в машины, которые думают. Выдержим ли мы это испытание и продолжим строить красивое общество, описанное в «Машинах любящей грации», или поддадимся рабству и разрушению, будет зависеть от нашего характера и нашей решимости как вида, нашего духа и нашей души.

Несмотря на множество препятствий, я верю, что у человечества есть сила внутри себя, чтобы пройти это испытание. Я воодушевлен и вдохновлен тысячами исследователей, которые посвятили свою карьеру тому, чтобы помочь нам понять и направлять модели ИИ, и формированию характера и конституции этих моделей. Я думаю, что сейчас есть хороший шанс, что эти усилия принесут плоды вовремя, чтобы иметь значение. Я воодушевлен тем, что по крайней мере некоторые компании заявили, что готовы понести значительные коммерческие издержки, чтобы заблокировать использование своих моделей, способствующее угрозе биотерроризма. Я воодушевлен тем, что несколько смелых людей сопротивлялись преобладающим политическим ветрам и приняли законодательство, закладывающее первые ранние семена разумных защитных мер для систем ИИ. Я воодушевлен тем, что общественность понимает, что ИИ несет риски, и хочет, чтобы эти риски были устранены. Я воодушевлен неукротимым духом свободы во всем мире и решимостью сопротивляться тирании, где бы она ни возникала.

Но нам нужно активизировать наши усилия, если мы хотим преуспеть. Первый шаг — для тех, кто ближе всего к технологии, просто сказать правду о ситуации, в которой находится человечество, что я всегда и пытался делать; я делаю это более явно и с большей срочностью в этом эссе. Следующим шагом будет убеждение мыслителей мира, политиков, компании и граждан в неизбежности и первостепенной важности этого вопроса — что стоит тратить мысли и политический капитал на это по сравнению с тысячами других проблем, которые доминируют в новостях каждый день. Затем наступит время для мужества, чтобы достаточное количество людей пошли против преобладающих тенденций и стояли на принципах, даже перед лицом угроз их экономическим интересам и личной безопасности.

Годы впереди будут невероятно трудными, требуя от нас больше, чем, как мы думаем, мы можем дать. Но за время моей работы исследователем, лидером и гражданином я видел достаточно мужества и благородства, чтобы верить, что мы можем победить — что, будучи помещенными в самые мрачные обстоятельства, человечество имеет способность собирать, казалось бы, в последнюю минуту, силу и мудрость, необходимые для победы. У нас нет времени терять.

Я хотел бы поблагодарить Эрика Бринйолфссона, Бена Бьюкенена, Мариано-Флорентино Куэльяра, Аллана Дафо, Кевина Эсвельта, Ника Бекстеда, Ричарда Фонтейна, Джима МакКлейва и очень многих сотрудников Anthropic за их полезные комментарии к черновикам этого эссе.
Сноски
1 Это симметрично мысли, высказанной мной в «Машинах любящей грации», где я начал с того, что преимущества ИИ не следует рассматривать как пророчество о спасении, и что важно быть конкретным, обоснованным и избегать грандиозности. В конечном счете, пророчества о спасении и пророчества о гибели бесполезны для противостояния реальному миру, в основном по тем же причинам.↩
2 Цель Anthropic — оставаться последовательной в условиях таких изменений. Когда говорить о рисках ИИ было политически популярно, Anthropic осторожно выступал за разумный и научно обоснованный подход к этим рискам. Теперь, когда говорить о рисках ИИ политически непопулярно, Anthropic продолжает осторожно выступать за разумный и научно обоснованный подход к этим рискам.↩
3 Со временем я все больше убеждаюсь в траектории развития ИИ и вероятности того, что он превзойдет человеческие способности во всех областях, но некоторая неопределенность все еще остается.↩
4 Экспортный контроль над чипами — отличный пример этого. Они просты и, по-видимому, в основном просто работают.↩
5 И, конечно, поиск таких доказательств должен быть интеллектуально честным, чтобы он также мог выявить доказательства отсутствия опасности. Прозрачность через карты моделей и другие раскрытия информации — это попытка такого интеллектуально честного начинания.↩
6 Действительно, после написания «Машин любящей грации» в 2024 году системы ИИ стали способны выполнять задачи, на которые у людей уходят несколько часов: METR недавно оценил, что Opus 4.5 может выполнить около четырех человеко-часов работы с 50% надежностью.↩
7 И чтобы было ясно, даже если мощный ИИ технически появится всего через 1–2 года, многие из его социальных последствий, как положительных, так и отрицательных, могут проявиться на несколько лет позже. Вот почему я могу одновременно думать, что ИИ вытеснит 50% начальных должностей «белых воротничков» за 1–5 лет, и также думать, что у нас может появиться ИИ, более способный, чем кто-либо, всего через 1–2 года.↩
8 Стоит добавить, что общественность (по сравнению с политиками), похоже, очень обеспокоена рисками ИИ. Я думаю, что частично их внимание сосредоточено правильно (например, вытеснение с рабочих мест из-за ИИ), а частично ошибочно (например, опасения по поводу потребления воды ИИ, которое незначительно). Эта негативная реакция вселяет в меня надежду, что консенсус по устранению рисков возможен, но пока она еще не привела к изменениям в политике, не говоря уже об эффективных или хорошо нацеленных изменениях.↩
9 Они также могут, конечно, манипулировать (или просто платить) большим количеством людей, чтобы те делали в физическом мире то, что им нужно.↩
10 Я не думаю, что это соломенное чучело: насколько я понимаю, например, Ян Лекун придерживается этой позиции.↩
11 Например, см. Раздел 5.5.2 (стр. 63–66) технического паспорта модели Claude 4.↩
12 В простой модели заложен также ряд других допущений, которые я не буду здесь обсуждать. В целом, они должны заставить нас меньше беспокоиться о конкретной простой истории о несогласованном стремлении к власти, но также больше беспокоиться о возможном непредсказуемом поведении, которое мы не предвидели.↩
13 «Игра Эндера» описывает версию этого с участием людей, а не ИИ.↩
14 Например, моделям может быть сказано не делать разных плохих вещей, а также подчиняться людям, но затем они могут наблюдать, что многие люди делают именно эти плохие вещи! Неясно, как разрешится это противоречие (и хорошо разработанная конституция должна поощрять модель к изящному разрешению таких дилемм), но этот тип дилеммы не так уж отличается от предположительно «искусственных» ситуаций, в которые мы помещаем модели ИИ во время тестирования.↩
15 Кстати, одним из следствий того, что конституция является документом на естественном языке, является то, что она доступна для чтения всему миру, а это означает, что любой может ее критиковать и сравнивать с аналогичными документами других компаний. Было бы ценно создать гонку к вершине, которая не только поощряла бы компании публиковать эти документы, но и поощряла бы их быть хорошими.↩
16 Существует даже гипотеза о глубоком объединяющем принципе, связывающем подход, основанный на характере, из Конституционного ИИ с результатами интерпретируемости и науки о согласовании. Согласно гипотезе, фундаментальные механизмы, управляющие Клодом, изначально возникли как способы для него симулировать персонажей во время предварительного обучения, например, предсказывать, что скажут персонажи в романе. Это предполагает, что полезно думать о конституции скорее как об описании персонажа, которое модель использует для воплощения последовательной личности. Это также помогло бы нам объяснить результаты «Я, должно быть, плохой человек», которые я упоминал выше (потому что модель пытается вести себя так, как будто она является последовательным персонажем — в данном случае плохим), и предполагало бы, что методы интерпретируемости должны быть способны обнаруживать «психологические черты» внутри моделей. Наши исследователи работают над способами проверки этой гипотезы.↩
17 Чтобы было ясно, мониторинг осуществляется с соблюдением конфиденциальности.↩
18 Даже в наших собственных экспериментах с, по сути, добровольно навязанными правилами в рамках нашей Политики ответственного масштабирования мы снова и снова обнаруживали, что очень легко стать слишком жесткими, проводя границы, которые кажутся важными до начала, но в ретроспективе оказываются глупыми. Очень легко установить правила не о том, когда технология быстро развивается.↩
19 SB 53 и RAISE вообще не применяются к компаниям с годовым доходом менее 500 миллионов долларов. Они применяются только к более крупным, более устоявшимся компаниям, таким как Anthropic.↩
20 Я впервые прочитал эссе Джоя 25 лет назад, когда оно было написано, и оно оказало на меня глубокое влияние. Тогда и сейчас я считаю его слишком пессимистичным — я не думаю, что широкий «отказ» от целых областей технологий, который предлагает Джой, является ответом, — но поднятые им вопросы были на удивление пророческими, и Джой также пишет с глубоким чувством сострадания и человечности, которым я восхищаюсь.↩
21 Нам действительно нужно беспокоиться о государственных акторах сейчас и в будущем, и я обсуждаю это в следующем разделе.↩
22 Есть доказательства того, что многие террористы по крайней мере относительно хорошо образованы, что, казалось бы, противоречит тому, что я здесь утверждаю об отрицательной корреляции между способностями и мотивацией. Но я думаю, что на самом деле эти наблюдения совместимы: если порог способностей для успешной атаки высок, то почти по определению те, кто в настоящее время преуспевает, должны иметь высокие способности, даже если способности и мотивация отрицательно коррелируют. Но в мире, где ограничения на способности сняты (например, с будущими LLM), я бы предсказал, что значительная часть людей, имеющих мотивацию убивать, но обладающих более низкими способностями, начнет это делать — так же, как мы видим для преступлений, не требующих больших способностей (например, стрельба в школах).↩
23 Аум Синрикё, однако, пыталась. Лидер Аум Синрикё, Сеити Эндо, имел образование в области вирусологии в Университете Киото и пытался произвести как сибирскую язву, так и лихорадку Эбола. Однако к 1995 году даже ему не хватало достаточного опыта и ресурсов для успеха. Теперь планка существенно ниже, и LLM могут опустить ее еще ниже.↩
24 Странный феномен, связанный с массовыми убийцами, заключается в том, что стиль убийства, который они выбирают, действует почти как гротескная причуда. В 1970-х и 1980-х годах серийные убийцы были очень распространены, и новые серийные убийцы часто копировали поведение более известных или знаменитых серийных убийц. В 1990-х и 2000-х годах массовые расстрелы стали более распространенными, в то время как серийные убийцы стали встречаться реже. Нет никаких технологических изменений, которые вызвали бы эти модели поведения, просто кажется, что жестокие убийцы копировали поведение друг друга, а «популярный» объект для копирования изменился.↩
25 Случайные взломщики иногда считают, что они обошли эти классификаторы, когда заставляют модель выдать одну конкретную информацию, например, последовательность генома вируса. Но, как я объяснял ранее, модель угрозы, о которой мы беспокоимся, включает пошаговые, интерактивные советы, которые длятся неделями или месяцами, о конкретных obscure шагах в процессе производства биологического оружия, и именно от этого наши классификаторы стремятся защитить. (Мы часто описываем наши исследования как поиск «универсальных» взломов — таких, которые работают не только в одном конкретном или узком контексте, но в широком смысле открывают поведение модели.)↩
26 Хотя мы продолжим вкладывать средства в работу по повышению эффективности наших классификаторов, и компаниям, возможно, имеет смысл делиться друг с другом такими достижениями.↩
27 Очевидно, я не считаю, что компании должны раскрывать технические детали о конкретных шагах в производстве биологического оружия, которые они блокируют, и принятое на данный момент законодательство о прозрачности (SB 53 и RAISE) учитывает эту проблему.↩
28 Еще одна связанная идея — «рынки устойчивости», где правительство поощряет накопление запасов СИЗ, респираторов и другого необходимого оборудования, необходимого для реагирования на биологическую атаку, обещая заранее заплатить заранее согласованную цену за это оборудование в чрезвычайной ситуации. Это стимулирует поставщиков накапливать такое оборудование без опасений, что правительство изымет его без компенсации.↩
29 Почему я больше беспокоюсь о крупных акторах в отношении захвата власти, но о мелких акторах в отношении причинения разрушений? Потому что динамика разная. Захват власти связан с тем, сможет ли один актор накопить достаточно сил, чтобы превзойти всех остальных — поэтому мы должны беспокоиться о самых мощных акторах и/или тех, кто ближе всего к ИИ. Разрушения, напротив, могут быть вызваны теми, у кого мало власти, если защищаться от них намного труднее, чем их вызвать. Тогда это игра защиты от наиболее многочисленных угроз, которыми, скорее всего, будут более мелкие акторы.↩
30 Это может показаться противоречащим моей мысли о том, что атака и защита могут быть более сбалансированы с кибератаками, чем с биологическим оружием, но мое беспокойство здесь заключается в том, что если ИИ страны является самым мощным в мире, то другие не смогут защититься, даже если сама технология имеет внутренний баланс атаки и защиты.↩
31 Например, в Соединенных Штатах это включает Четвертую поправку и Закон Поссе Комитатус.↩
32 Кроме того, чтобы было ясно, есть некоторые аргументы в пользу строительства крупных дата-центров в странах с различными структурами управления, особенно если они контролируются компаниями в демократиях. Такое строительство в принципе могло бы помочь демократиям лучше конкурировать с КПК, которая представляет большую угрозу. Я также считаю, что такие дата-центры не представляют большого риска, если только они не очень велики. Но в целом, я думаю, что осторожность оправдана при размещении очень крупных дата-центров в странах, где институциональные гарантии и защита верховенства закона менее устоялись.↩
33 Это, конечно, также аргумент в пользу повышения безопасности ядерного сдерживания, чтобы сделать его более устойчивым к мощному ИИ, и ядерные демократии должны это сделать. Но мы не знаем, на что будет способен мощный ИИ и какие средства защиты, если таковые имеются, будут работать против него, поэтому мы не должны предполагать, что эти меры обязательно решат проблему.↩
34 Существует также риск того, что даже если ядерное сдерживание останется эффективным, атакующая страна может решить, что мы блефуем — неясно, готовы ли мы будем использовать ядерное оружие для защиты от роя дронов, даже если рой дронов несет существенный риск завоевания нас. Рои дронов могут быть новым явлением, менее серьезным, чем ядерные атаки, но более серьезным, чем обычные атаки. Альтернативно, различные оценки эффективности ядерного сдерживания в эпоху ИИ могут изменить теорию игр ядерного конфликта дестабилизирующим образом.↩
35 Чтобы было ясно, я считаю, что это правильная стратегия — не продавать чипы Китаю, даже если бы сроки появления мощного ИИ были значительно дольше. Мы не можем «подсадить» Китай на американские чипы — они полны решимости развивать свою собственную индустрию чипов так или иначе. Им потребуется много лет, чтобы сделать это, и все, что мы делаем, продавая им чипы, — это даем им огромный импульс в течение этого времени.↩
36 Чтобы было ясно, большая часть того, что используется сегодня в Украине и на Тайване, не является полностью автономным оружием. Они грядут, но не сегодня.↩
37 Наш технический паспорт модели Claude Opus 4.5, нашей самой последней модели, показывает, что Opus лучше справляется с собеседованием по производственному инжинирингу, часто проводимым в Anthropic, чем любой кандидат за всю историю компании.↩
38 «Написание всего кода» и «выполнение работы инженера-программиста от начала до конца» — это очень разные вещи, потому что инженеры-программисты делают гораздо больше, чем просто пишут код, включая тестирование, работу со средами, файлами и установкой, управление развертыванием облачных вычислений, итерацию продуктов и многое другое.↩
39 Компьютеры в некотором смысле универсальны, но явно не способны сами по себе выполнять подавляющее большинство человеческих когнитивных способностей, даже если они значительно превосходят людей в нескольких областях (таких как арифметика). Конечно, вещи, созданные на основе компьютеров, такие как ИИ, теперь способны выполнять широкий спектр когнитивных способностей, и именно об этом это эссе.↩
40 Чтобы было ясно, модели ИИ не имеют точно такого же профиля сильных и слабых сторон, как люди. Но они также довольно равномерно продвигаются по каждому измерению, так что наличие неровного или неравномерного профиля в конечном итоге может не иметь значения.↩
41 Хотя среди экономистов ведутся дебаты по поводу этой идеи.↩
42 Личное состояние — это «запас», в то время как ВВП — это «поток», так что это не утверждение, что Рокфеллер владел 2% экономической стоимости Соединенных Штатов. Но измерить общее богатство нации труднее, чем ВВП, а личные доходы людей сильно варьируются из года в год, поэтому трудно составить соотношение в одних и тех же единицах. Соотношение самого крупного личного состояния к ВВП, хотя и не сравнивает яблоки с яблоками, тем не менее является вполне разумным ориентиром для экстремальной концентрации богатства.↩
43 Общая стоимость труда в экономике составляет 60 триллионов долларов в год, так что 3 триллиона долларов в год соответствовали бы 5% от этого. Такую сумму могла бы заработать компания, которая поставляла бы труд за 20% от стоимости человеческого и имела бы 25% рыночной доли, даже если бы спрос на труд не расширялся (что почти наверняка произошло бы из-за более низкой стоимости).↩
44 Чтобы было ясно, я не думаю, что фактическая производительность ИИ еще отвечает за существенную долю экономического роста США. Скорее, я думаю, что расходы на дата-центры представляют собой рост, вызванный опережающими инвестициями, что означает, что рынок ожидает будущего экономического роста, обусловленного ИИ, и инвестирует соответственно.↩
45 Когда мы согласны с администрацией, мы говорим об этом, и мы ищем точки соприкосновения, где взаимно поддерживаемая политика действительно хороша для мира. Мы стремимся быть честными посредниками, а не сторонниками или противниками какой-либо политической партии.↩
46 Я не думаю, что можно выиграть больше, чем несколько лет: в более длительных временных масштабах они построят свои собственные чипы.↩
Автор: Dario Amodei • Январь, 2026
Источник - https://www.darioamodei.com/essay/the-adolescence-of-technology
Перевод: DeepSeek