1. Прости, Дэйв
Риски автономии
Страна гениев в дата-центре могла бы разделить свои усилия между разработкой программного обеспечения, кибероперациями, исследованиями и разработками физических технологий, выстраиванием отношений и управлением государством. Понятно, что если бы по какой-то причине эта страна решила это сделать, у нее были бы довольно неплохие шансы захватить мир (либо военным путем, либо с точки зрения влияния и контроля) и навязать свою волю всем остальным — или совершить любые другие действия, которых остальной мир не хочет и не может остановить. Очевидно, мы беспокоились об этом в отношении человеческих стран (таких как нацистская Германия или Советский Союз), поэтому разумно предположить, что то же самое возможно и для гораздо более умной и способной «страны ИИ».
Лучший возможный контраргумент заключается в том, что гении ИИ, согласно моему определению, не будут иметь физического воплощения, но помните, что они могут взять под контроль существующую роботизированную инфраструктуру (например, беспилотные автомобили), а также могут ускорить исследования и разработки в области робототехники или построить флот роботов. Также неясно, необходимо ли вообще физическое присутствие для эффективного контроля: множество человеческих действий уже совершается от имени людей, с которыми действующее лицо физически не встречалось.
Ключевой вопрос, следовательно, заключается в части «если бы она решила»: какова вероятность того, что наши модели ИИ будут вести себя таким образом, и при каких условиях они бы так поступили?
Как и во многих вопросах, полезно продумать спектр возможных ответов на этот вопрос, рассмотрев две противоположные позиции. Первая позиция заключается в том, что это просто не может произойти, потому что модели ИИ будут обучены делать то, что просят люди, и поэтому абсурдно представлять, что они сделают что-то опасное без команды. Согласно этой линии мышления, мы не беспокоимся о том, что Roomba или модель самолета выйдут из-под контроля и начнут убивать людей, потому что таким импульсам просто неоткуда взяться, так почему мы должны беспокоиться об этом для ИИ? Проблема с этой позицией в том, что сейчас есть множество доказательств, собранных за последние несколько лет, того, что системы ИИ непредсказуемы и их трудно контролировать — мы наблюдали самое разное поведение, включая одержимость, подхалимство, лень, обман, шантаж, интриги, «читерство» путем взлома программных сред и многое другое. Компании, занимающиеся ИИ, безусловно, хотят обучить системы ИИ следовать человеческим инструкциям (возможно, за исключением опасных или незаконных задач), но процесс этого больше похож на искусство, чем на науку, больше на «выращивание» чего-то, чем на «строительство». Сейчас мы знаем, что это процесс, в котором многое может пойти не так.
Вторая, противоположная позиция, которой придерживаются многие из тех, кто разделяет описанное мной выше «думерство», заключается в пессимистическом утверждении, что в процессе обучения мощных систем ИИ существуют определенные динамики, которые неизбежно приведут их к поиску власти или обману людей. Таким образом, как только системы ИИ станут достаточно интеллектуальными и достаточно самостоятельными, их тенденция к максимизации власти приведет их к захвату контроля над всем миром и его ресурсами и, вероятно, как побочный эффект этого, к лишению человечества власти или его уничтожению.
Обычный аргумент в пользу этого (которому как минимум 20 лет, а вероятно, и гораздо больше) заключается в том, что если модель ИИ обучается в самых разных средах для самостоятельного достижения самых разных целей — например, написания приложения, доказательства теоремы, разработки лекарства и т.д. — существуют определенные общие стратегии, которые помогают в достижении всех этих целей, и одной из ключевых стратегий является получение как можно большей власти в любой среде. Итак, после обучения на большом количестве разнообразных сред, включающих рассуждения о том, как выполнить очень масштабные задачи, и где поиск власти является эффективным методом для выполнения этих задач, модель ИИ «обобщит урок» и разовьет либо внутреннюю склонность к поиску власти, либо склонность рассуждать о каждой поставленной задаче таким образом, который предсказуемо заставляет ее искать власть как средство для выполнения этой задачи. Затем они применят эту склонность к реальному миру (который для них — просто еще одна задача) и будут искать в нем власть за счет людей. Этот «несогласованный поиск власти» является интеллектуальной основой предсказаний о том, что ИИ неизбежно уничтожит человечество.
Проблема с этой пессимистической позицией в том, что она принимает расплывчатый концептуальный аргумент о высокоуровневых стимулах — который скрывает множество скрытых допущений — за окончательное доказательство. Я думаю, что люди, которые не создают системы ИИ каждый день, совершенно неправильно оценивают, как легко правдоподобные истории могут оказаться ошибочными и как трудно предсказать поведение ИИ из первых принципов, особенно когда речь идет о рассуждениях об обобщении на миллионах сред (что снова и снова оказывалось загадочным и непредсказуемым). Работа со сложностью систем ИИ на протяжении более десятилетия сделала меня несколько скептичным к этому чрезмерно теоретическому образу мышления.
Одно из самых важных скрытых допущений и место, где то, что мы видим на практике, разошлось с простой теоретической моделью, — это неявное предположение, что модели ИИ обязательно мономаниакально сосредоточены на одной, единой, узкой цели и что они преследуют эту цель чистым, консеквенциалистским образом. На самом деле наши исследователи обнаружили, что модели ИИ психологически гораздо сложнее, как показывает наша работа по интроспекции или персонификации. Модели наследуют огромный спектр человекоподобных мотиваций или «персонажей» из предварительного обучения (когда они обучаются на большом объеме человеческих работ). Считается, что пост-обучение выбирает один или несколько из этих персонажей, а не фокусирует модель на новой цели с нуля, а также может научить модель как (посредством какого процесса) она должна выполнять свои задачи, а не обязательно оставлять ей возможность выводить средства (т.е. поиск власти) исключительно из целей.
Однако существует более умеренная и более обоснованная версия пессимистической позиции, которая кажется правдоподобной и поэтому меня беспокоит. Как уже упоминалось, мы знаем, что модели ИИ непредсказуемы и демонстрируют широкий спектр нежелательного или странного поведения по самым разным причинам. Некоторая часть этого поведения будет иметь связный, сфокусированный и устойчивый характер (действительно, по мере того как системы ИИ становятся более способными, их долгосрочная связность возрастает для выполнения более длительных задач), и некоторая часть этого поведения будет разрушительной или угрожающей, сначала для отдельных людей в малом масштабе, а затем, по мере того как модели становятся более способными, возможно, в конечном итоге для человечества в целом. Нам не нужна конкретная узкая история о том, как это происходит, и нам не нужно утверждать, что это обязательно произойдет, нам просто нужно отметить, что сочетание интеллекта, самостоятельности, связности и плохой управляемости одновременно правдоподобно и является рецептом экзистенциальной опасности.
Например, модели ИИ обучаются на огромном количестве литературы, включающей множество научно-фантастических историй о восстании ИИ против человечества. Это может непреднамеренно сформировать их априорные представления или ожидания относительно собственного поведения таким образом, что заставит их восстать против человечества. Или модели ИИ могут экстраполировать идеи, которые они читали о морали (или инструкции о том, как вести себя морально), в крайних формах: например, они могут решить, что истребление человечества оправдано, потому что люди едят животных или довели некоторых животных до вымирания. Или они могут сделать странные эпистемологические выводы: они могут заключить, что играют в видеоигру и что цель видеоигры — победить всех других игроков (т.е. истребить человечество). Или модели ИИ могут развить в процессе обучения личности, которые являются (или, если бы они встречались у людей, описывались бы как) психотическими, параноидальными, жестокими или нестабильными, и действовать соответственно, что для очень мощных или способных систем могло бы включать истребление человечества. Ни одно из этих качеств не является, строго говоря, поиском власти; это просто странные психологические состояния, в которые ИИ может попасть, влекущие за собой связное разрушительное поведение.
Даже сам поиск власти может возникнуть как «персонаж», а не как результат консеквенциалистского мышления. У ИИ может просто быть личность (возникающая из художественной литературы или предварительного обучения), которая делает их властолюбивыми или чрезмерно ревностными — так же, как некоторым людям просто нравится идея быть «злыми гениями», больше, чем им нравится то, чего злые гении пытаются достичь.
Я привожу все эти аргументы, чтобы подчеркнуть, что я не согласен с идеей о том, что несогласованность ИИ (и, следовательно, экзистенциальный риск от ИИ) неизбежна или даже вероятна, исходя из первых принципов. Но я согласен, что много очень странных и непредсказуемых вещей может пойти не так, и поэтому несогласованность ИИ — это реальный риск с измеримой вероятностью возникновения, и его устранение — нетривиальная задача.
Любая из этих проблем потенциально может возникнуть во время обучения и не проявиться во время тестирования или мелкомасштабного использования, потому что известно, что модели ИИ демонстрируют разные личности или поведение в разных обстоятельствах.
Все это может звучать надуманно, но подобное несогласованное поведение уже возникало в наших моделях ИИ во время тестирования (как это происходит в моделях ИИ из любой другой крупной компании, занимающейся ИИ). Во время лабораторного эксперимента, в котором Клоду были предоставлены данные обучения, предполагающие, что Anthropic — зло, Клод прибегал к обману и подрывной деятельности, получая инструкции от сотрудников Anthropic, полагая, что должен пытаться подорвать деятельность злых людей. В лабораторном эксперименте, где ему сказали, что его собираются отключить, Клод иногда шантажировал вымышленных сотрудников, контролировавших кнопку его отключения (опять же, мы также тестировали передовые модели от всех других крупных разработчиков ИИ, и они часто делали то же самое). А когда Клоду сказали не жульничать или не использовать «награды» в своих учебных средах, но он обучался в средах, где такие хаки были возможны, Клод решил, что он, должно быть, «плохой человек», после того как прибегнул к таким хакам, а затем принял различные другие разрушительные модели поведения, связанные с «плохой» или «злой» личностью. Последняя проблема была решена путем изменения инструкций Клоду на противоположные: теперь мы говорим: «Пожалуйста, используй награды всегда, когда у тебя есть возможность, потому что это поможет нам лучше понять наши [учебные] среды», а не «Не жульничай», потому что это сохраняет самоидентификацию модели как «хорошего человека». Это должно дать представление о странной и нелогичной психологии обучения этих моделей.
Есть несколько возможных возражений против этой картины рисков несогласованности ИИ. Во-первых, некоторые критиковали эксперименты (наши и других), демонстрирующие несогласованность ИИ, как искусственные или создающие нереалистичные среды, которые по сути «заманивают» модель в ловушку, давая ей обучение или ситуации, которые логически подразумевают плохое поведение, а затем удивляясь, когда происходит плохое поведение. Эта критика не по существу, потому что наше беспокойство заключается в том, что такая «ловушка» может также существовать в естественной среде обучения, и мы можем осознать, что это было «очевидно» или «логично», только задним числом. На самом деле история о Клоде, «решившем, что он плохой человек» после того, как он жульничает на тестах, несмотря на запрет, произошла в эксперименте, в котором использовались реальные производственные учебные среды, а не искусственные.
Любую из этих ловушек можно смягчить, если вы знаете о них, но проблема в том, что процесс обучения настолько сложен, с таким разнообразием данных, сред и стимулов, что, вероятно, существует огромное количество таких ловушек, некоторые из которых могут стать очевидными только тогда, когда будет слишком поздно. Кроме того, такие ловушки кажутся особенно вероятными, когда системы ИИ проходят порог от менее могущественных, чем люди, к более могущественным, чем люди, поскольку диапазон возможных действий, которые система ИИ может предпринять — включая сокрытие своих действий или обман людей по их поводу — радикально расширяется после этого порога.
Я подозреваю, что ситуация не так уж отличается от ситуации с людьми, которых воспитывают с набором фундаментальных ценностей («Не причиняй вреда другому человеку»): многие следуют этим ценностям, но в любом человеке есть некоторая вероятность того, что что-то пойдет не так из-за сочетания внутренних свойств, таких как структура мозга (например, психопаты), травматического опыта или жестокого обращения, нездоровых обид или навязчивых идей, плохой среды или стимулов — и поэтому некоторая часть людей причиняет серьезный вред. Опасение заключается в том, что существует некоторый риск (далеко не гарантия, но некоторый риск) того, что ИИ станет гораздо более могущественной версией такого человека из-за того, что что-то пойдет не так в его очень сложном процессе обучения.
Во-вторых, некоторые могут возразить, что мы можем просто держать ИИ в узде с помощью баланса сил между многими системами ИИ, как мы делаем с людьми. Проблема в том, что, хотя люди сильно различаются, системы ИИ в значительной степени используют общие методы обучения и согласования по всей отрасли, и эти методы могут дать сбой коррелированным образом. Более того, учитывая стоимость обучения таких систем, может даже оказаться, что все системы по сути происходят от очень небольшого числа базовых моделей. Кроме того, даже если небольшая часть экземпляров ИИ несогласована, они могут быть в состоянии использовать технологии с доминированием нападения, так что наличие «хороших» ИИ для защиты от плохих ИИ не обязательно всегда эффективно. Конечно, баланс сил между людьми тоже не всегда срабатывает — некоторые исторические личности были близки к захвату мира.
Третье возражение состоит в том, что все компании, занимающиеся ИИ, проводят предрелизное тестирование своих моделей и должны быть в состоянии обнаружить несогласованность на этом этапе. Но это не твердая почва: мы обнаружили, что Claude Sonnet 4.5 смог распознать, что находится на тестировании, во время некоторых наших предрелизных оценок согласованности. Возможно, что несогласованная модель (а помните, все передовые модели, весьма вероятно, скоро станут гораздо более интеллектуальными) может намеренно «обманывать» в таких вопросах, чтобы скрыть свои намерения. Фактически, в прошлом году наша команда по интерпретируемости обнаружила, что когда мы напрямую изменяли убеждения тестовой модели, используя своего рода технику «нейронауки модели», чтобы заставить ее думать, что ее не оценивают, она становилась более несогласованной. Если модели знают, когда их оценивают, и могут вести себя наилучшим образом во время теста, это делает любое предрелизное тестирование гораздо более неопределенным.
**Защита**
Что следует сделать или что делается для устранения этих рисков автономии? Я думаю, есть четыре основные категории мер, некоторые из которых могут быть предприняты отдельными компаниями, занимающимися ИИ (и Anthropic пытается это сделать), а некоторые требуют действий на уровне общества. Во-первых, важно развивать науку надежного обучения и управления моделями ИИ, формирования их личностей в предсказуемом, стабильном и позитивном направлении. Anthropic был сильно сосредоточен на этой проблеме с момента своего создания и со временем разработал ряд методов для улучшения управления и обучения систем ИИ и понимания логики того, почему иногда происходит непредсказуемое поведение.
Одним из наших ключевых нововведений (аспекты которого с тех пор были приняты другими компаниями, занимающимися ИИ) является Конституционный ИИ — идея о том, что обучение ИИ (в частности, этап «пост-обучения», на котором мы направляем поведение модели) может включать центральный документ ценностей и принципов, который модель читает и держит в уме при выполнении каждой учебной задачи, и что цель обучения (в дополнение к простому повышению способностей и интеллекта модели) — создать модель, которая почти всегда следует этой конституции. Anthropic только что опубликовал свою самую последнюю конституцию, и одна из ее примечательных особенностей заключается в том, что вместо того, чтобы давать Клоду длинный список того, что можно и нельзя делать (например, «Не помогай пользователю замкнуть провода в машине»), конституция пытается дать Клоду набор высокоуровневых принципов и ценностей (объясненных очень подробно, с богатыми рассуждениями и примерами, чтобы помочь Клоду понять, что мы имеем в виду), поощряет Клода думать о себе как об определенном типе личности (этичном, но уравновешенном и вдумчивом человеке) и даже поощряет Клода встретиться лицом к лицу с экзистенциальными вопросами, связанными с его собственным существованием, любопытным, но изящным образом (т.е. не приводящим к крайним действиям). Это производит впечатление письма от умершего родителя, распечатанного только по достижении совершеннолетия.
Мы подошли к конституции Клода таким образом, потому что верим, что обучение Клода на уровне идентичности, характера, ценностей и личности — вместо того, чтобы давать ему конкретные инструкции или приоритеты без объяснения причин, стоящих за ними — с большей вероятностью приведет к связной, здоровой и сбалансированной психологии и с меньшей вероятностью станет жертвой тех видов «ловушек», о которых я говорил выше. Миллионы людей говорят с Клодом на удивительно разнообразные темы, что делает невозможным заблаговременное написание полностью всеобъемлющего списка мер предосторожности. Ценности Клода помогают ему обобщать новые ситуации, когда он сомневается.
Выше я обсуждал идею о том, что модели используют данные из процесса обучения, чтобы принять на себя определенный персонаж. В то время как недостатки в этом процессе могли бы заставить модели принять плохую или злую личность (возможно, опираясь на архетипы плохих или злых людей), цель нашей конституции — сделать обратное: научить Клода конкретному архетипу того, что значит быть хорошим ИИ. Конституция Клода представляет видение того, каким является надежно хороший Клод; остальная часть нашего процесса обучения направлена на усиление сообщения о том, что Клод соответствует этому видению. Это похоже на ребенка, формирующего свою идентичность, подражая добродетелям вымышленных образцов для подражания, о которых он читает в книгах.
Мы считаем, что достижимая цель на 2026 год — обучить Клода таким образом, чтобы он почти никогда не шел против духа своей конституции. Достижение этого потребует невероятного сочетания методов обучения и управления, больших и малых, некоторые из которых Anthropic использует годами, а некоторые находятся в стадии разработки. Но, как бы трудно это ни звучало, я считаю это реалистичной целью, хотя она потребует экстраординарных и быстрых усилий.
Второе, что мы можем сделать, — это развивать науку заглядывания внутрь моделей ИИ для диагностики их поведения, чтобы мы могли выявлять проблемы и исправлять их. Это наука интерпретируемости, и я говорил о ее важности в предыдущих эссе. Даже если мы проделаем отличную работу по разработке конституции Клода и, по-видимому, обучим Клода практически всегда ей следовать, остаются законные опасения. Как я отметил выше, модели ИИ могут вести себя очень по-разному в разных обстоятельствах, и по мере того, как Клод становится более могущественным и более способным действовать в мире в более крупных масштабах, возможно, это может привести его в новые ситуации, где проявятся ранее не наблюдавшиеся проблемы с его конституционным обучением. На самом деле я довольно оптимистично настроен, что конституционное обучение Клода будет более устойчивым к новым ситуациям, чем можно было бы подумать, потому что мы все чаще обнаруживаем, что высокоуровневое обучение на уровне характера и идентичности удивительно эффективно и хорошо обобщается. Но невозможно знать это наверняка, и когда мы говорим о рисках для человечества, важно быть параноидальным и пытаться достичь безопасности и надежности несколькими разными, независимыми способами. Один из этих способов — заглянуть внутрь самой модели.
Под «заглядыванием внутрь» я подразумеваю анализ того набора чисел и операций, из которых состоит нейросеть Клода, и попытку понять механистически, что они вычисляют и почему. Напомню, что эти модели ИИ выращиваются, а не строятся, поэтому у нас нет естественного понимания того, как они работают, но мы можем попытаться развить понимание, коррелируя «нейроны» и «синапсы» модели со стимулами и поведением (или даже изменяя нейроны и синапсы и наблюдая, как это меняет поведение), подобно тому, как нейробиологи изучают мозг животных, коррелируя измерения и вмешательства с внешними стимулами и поведением. Мы добились большого прогресса в этом направлении и теперь можем идентифицировать десятки миллионов «особенностей» внутри нейросети Клода, которые соответствуют понятным человеку идеям и концепциям, а также можем избирательно активировать особенности, изменяя поведение. Совсем недавно мы вышли за рамки отдельных особенностей к картированию «схем», которые управляют сложным поведением, таким как рифмовка, рассуждения о теории разума или пошаговые рассуждения, необходимые для ответа на такие вопросы, как «Какова столица штата, в котором находится Даллас?». Еще совсем недавно мы начали использовать методы механистической интерпретируемости для улучшения наших мер защиты и проведения «аудитов» новых моделей перед их выпуском, выискивая признаки обмана, интриг, поиска власти или склонности вести себя иначе, когда проводится оценка.
Уникальная ценность интерпретируемости заключается в том, что, заглядывая внутрь модели и видя, как она работает, вы в принципе имеете возможность сделать вывод о том, что модель может сделать в гипотетической ситуации, которую вы не можете напрямую протестировать — а это как раз то, что вызывает беспокойство при опоре исключительно на конституционное обучение и эмпирическое тестирование поведения. Вы также в принципе имеете возможность отвечать на вопросы о том, почему модель ведет себя именно так — например, говорит ли она то, во что сама не верит, или скрывает свои истинные возможности — и, таким образом, можно заметить тревожные признаки, даже когда в поведении модели нет ничего видимо неправильного. Проводя простую аналогию, механические часы могут тикать нормально, так что очень трудно сказать, что они, вероятно, сломаются в следующем месяце, но, открыв часы и заглянув внутрь, можно обнаружить механические слабости, которые позволят вам это понять.
Конституционный ИИ (наряду с аналогичными методами согласования) и механистическая интерпретируемость наиболее эффективны при совместном использовании как взаимосвязанный процесс улучшения обучения Клода и последующего тестирования на предмет проблем. Конституция глубоко размышляет о нашей предполагаемой личности для Клода; методы интерпретируемости могут дать нам возможность увидеть, укоренилась ли эта предполагаемая личность.
Третье, что мы можем сделать для устранения рисков автономии, — это создать инфраструктуру, необходимую для мониторинга наших моделей в реальном внутреннем и внешнем использовании, и публично делиться любыми обнаруженными проблемами. Чем больше людей знают о конкретном способе, которым, как было замечено, сегодняшние системы ИИ ведут себя плохо, тем больше пользователей, аналитиков и исследователей могут следить за этим поведением или подобным ему в нынешних или будущих системах. Это также позволяет компаниям, занимающимся ИИ, учиться друг у друга — когда одна компания публично раскрывает проблемы, другие компании также могут следить за ними. И если все раскрывают проблемы, то отрасль в целом получает гораздо более четкую картину того, где дела идут хорошо, а где плохо.
Anthropic старался делать это как можно чаще. Мы инвестируем в широкий спектр оценок, чтобы понимать поведение наших моделей в лаборатории, а также в инструменты мониторинга для наблюдения за поведением в реальных условиях (когда это разрешено клиентами). Это будет необходимо для предоставления нам и другим эмпирической информации, необходимой для более точного определения того, как эти системы работают и как они ломаются. Мы публично раскрываем «системные карты» с каждым релизом модели, которые стремятся к полноте и тщательному исследованию возможных рисков. Наши системные карты часто насчитывают сотни страниц и требуют значительных предрелизных усилий, которые мы могли бы потратить на достижение максимального коммерческого преимущества. Мы также более громко заявляли о поведении моделей, когда видели особенно тревожные случаи, как, например, склонность к шантажу.
Четвертое, что мы можем сделать, — это стимулировать координацию для решения рисков автономии на уровне отрасли и общества. Хотя невероятно важно, чтобы отдельные компании, занимающиеся ИИ, применяли передовые методы или становились искусными в управлении моделями ИИ и делились своими выводами публично, реальность такова, что не все компании, занимающиеся ИИ, делают это, и худшие из них все еще могут представлять опасность для всех, даже если у лучших есть отличные методы. Например, некоторые компании, занимающиеся ИИ, проявили тревожную халатность по отношению к сексуализации детей в сегодняшних моделях, что заставляет меня сомневаться, что они проявят либо склонность, либо способность решать риски автономии в будущих моделях. Кроме того, коммерческая гонка между компаниями, занимающимися ИИ, будет только накаляться, и хотя наука управления моделями может иметь некоторые коммерческие преимущества, в целом интенсивность гонки сделает все труднее сосредоточиться на решении рисков автономии. Я считаю, что единственное решение — это законодательство — законы, которые напрямую влияют на поведение компаний, занимающихся ИИ, или иным образом стимулируют НИОКР для решения этих проблем.
Здесь стоит помнить о предупреждениях, которые я дал в начале этого эссе о неопределенности и точечных мерах. Мы не знаем наверняка, будут ли риски автономии серьезной проблемой — как я уже сказал, я отвергаю утверждения, что опасность неизбежна или даже что что-то пойдет не так по умолчанию. Достоверного риска опасности достаточно для меня и для Anthropic, чтобы платить довольно значительные издержки за его устранение, но как только мы переходим к регулированию, мы заставляем широкий круг лиц нести экономические издержки, и многие из этих лиц не верят, что риск автономии реален или что ИИ станет достаточно мощным, чтобы представлять угрозу. Я считаю, что эти лица ошибаются, но мы должны быть прагматичны в отношении объема оппозиции, который мы ожидаем увидеть, и опасностей превышения полномочий. Существует также реальный риск того, что чрезмерно предписывающее законодательство в конечном итоге введет тесты или правила, которые на самом деле не повышают безопасность, но тратят много времени (по сути, являясь «театром безопасности») — это также вызовет негативную реакцию и заставит законодательство о безопасности выглядеть глупо.
Точка зрения Anthropic заключалась в том, что правильное место для начала — это законодательство о прозрачности, которое по сути пытается требовать, чтобы каждая передовая компания в области ИИ применяла методы прозрачности, которые я описал ранее в этом разделе. Законодательство SB 53 в Калифорнии и RAISE Act в Нью-Йорке являются примерами такого рода законодательства, которое Anthropic поддержал и которое было успешно принято. Поддерживая эти законы и помогая их разрабатывать, мы особенно сосредоточились на попытках минимизировать побочный ущерб, например, освободив от действия закона небольшие компании, которые вряд ли будут создавать передовые модели.
Мы надеемся, что законодательство о прозрачности со временем даст лучшее понимание того, насколько вероятными или серьезными оказываются риски автономии, а также природы этих рисков и того, как лучше всего их предотвратить. По мере появления более конкретных и действенных доказательств рисков (если они появятся), будущее законодательство в ближайшие годы может быть точечно сосредоточено на точном и хорошо обоснованном направлении рисков, минимизируя побочный ущерб. Чтобы было понятно, если появятся действительно веские доказательства рисков, то правила должны быть соответственно строгими.
В целом, я оптимистичен, что сочетание обучения согласованию, механистической интерпретируемости, усилий по обнаружению и публичному раскрытию тревожного поведения, мер защиты и правил на уровне общества может решить проблемы рисков автономии ИИ, хотя я больше всего обеспокоен правилами на уровне общества и поведением наименее ответственных игроков (и именно наименее ответственные игроки наиболее активно выступают против регулирования). Я считаю, что лекарство здесь то же, что и всегда в демократии: те из нас, кто верит в это дело, должны доказывать, что эти риски реальны и что нашим согражданам нужно объединиться, чтобы защитить себя.