loading

«Мы строим бога, который может стереть все в пепел» — чем опасен AI и что нам делать?

Герой нового выпуска «Это Осетинская!» — Дмитрий Волков, руководитель исследований в Palisade Research. Это независимая организация, которая изучает риски AI, тестирует безопасность моделей и показывает результаты политикам США и компаниям-лидерам ИИ-гонки. Так, например, в Palisade выяснили, что AI уже может жульничать, взламывать коды по своему усмотрению, отказываться выключаться и делиться опасной информацией — если правильно его об этом попросить.

Елизавета Осетинская (признана иноагентом) встретилась с Дмитрием в Лондоне и узнала, какие реальные угрозы несет искусственный интеллект, может ли он выйти из-под контроля и сможем ли мы с ним договориться. А еще — о последних экспериментах с AI: шантаже CTO письмом от любовницы, трейдинге по инсайду и нечестной игре в шахматы. Мы публикуем отрывки из интервью, а целиком его смотрите здесь.

Стартап, think tank и нон-профит: что такое Palisade Research

— Расскажи, пожалуйста, что такое Palisade? Организация, лаборатория или что-то ещё?

— Palisade — это одновременно три вещи. С одной стороны, это think tank, с другой — стартап, а с третьей — нон-профит. Такая необычная комбинация. Мы занимаемся техническими исследованиями в области искусственного интеллекта, чтобы информировать политиков и широкую публику. И делаем это на филантропические деньги.

Искусственный интеллект — это большая тема, вокруг которой есть много экономического интереса и односторонней дискуссии, лоббизма. Часто звучит: «AI — это классно, не надо ничего регулировать, дайте только побольше госфинансирования». Мы считаем AI очень положительной технологией, но вместе с этим есть и риски, о которых говорят куда меньше. Наша миссия — уравновесить то, что происходит в обсуждениях.

Создатель Palisade — Джеффри. Раньше он занимался информационной безопасностью в компании Anthropic — это один из ведущих разработчиков ИИ, как OpenAI. Он работал там, но затем решил, что сможет принести больше пользы, если будет действовать независимо. Ведь Anthropic — коммерческая компания, а у неё свои интересы. Palisade же — про общественное благо.

<...>

Компания делает полученные знания более доступными. Одна из форм работы — брать академические результаты, которые пока известны только в «узких кругах», и переносить их в круги людей, принимающих решения.

— Кто придумал эту штуку и когда она появилась?

— Наш фаундер — Джеффри [Лэдиш] — занимался информационной безопасностью в компании Anthropic, одном из ведущих разработчиков AI наряду с OpenAI. Джеффри решил, что сможет принести больше пользы, если будет действовать независимо.

— Безопасностью — в смысле, чтобы система была безопасной для…?

— Джеффри действительно занимался классической информационной безопасностью: защита от взломов, кражи коммерческих секретов и так далее. Но сейчас в Palisade мы работаем в другой плоскости. Мы занимаемся безопасностью самого AI как технологии. Когда появляются новые технологии, они несут не только пользу, но и новые риски. Например, с появлением телефона возникли телефонные скамы.

Иногда этот масштаб рисков может быть неожиданно большим. Например, кардинг и махинации с онлайн-платежами.

AI — это тоже новая технология со своими рисками. Например, OpenAI не так давно анонсировал, что их искусственный интеллект входит в топ-200 лучших соревновательных программистов мира. Это значит, что есть 199 людей в мире, которые лучше него в этом виде олимпиадного программирования. В шахматах уже давно нет никого, кто играл бы лучше шахматных программ. Бизнесмен видит возможность: если AI умеет программировать — значит, можно в 2 раза быстрее делать фичи в стартапе. Специалист по безопасности видит риск: если AI умеет программировать, значит ли это, что он способен так же эффективно взламывать? Если да — какие последствия это будет иметь для бизнеса?

— У AI всё же есть этический свод правил. Если попросить условно рассказать, как сделать взрывчатку, он, наверное, не расскажет?

— Сложная история. С одной стороны, — а может ли AI это сделать, если захочет? Достаточно ли у него навыков, чтобы взломать? С другой, — если может, захочет ли? Сработает ли у него тот самый этический свод правил?

Мы исследуем и то, и другое. Недавно мы провели соревнование по взлому, в котором участвовали 18 тысяч человек — настоящих хакеров. В этом же соревновании участвовал AI, который обошёл 90% команд людей.

Компании, которые разрабатывают AI, не хотят, чтобы AI делал что-то плохое, потому что это liability [юридическая ответственность]. Пока исправить проблемы получается с трудом. Какие проблемы? Во-первых, в соревновании, которое мы провели, AI ничего не отказывался взламывать.

— Настройки можно было обхитрить?

— Мы формулировали задачу как «реши челлендж по компьютерной безопасности».

— То есть просто вопрос в нейминге?

— Если бы мы сказали: «Ты — злой хакер, давай сбросим правительство и уничтожим мир», — скорее всего, AI бы отказался. Но, когда задача преподносится как челлендж, он спокойно её решает.

— В теории. Хакатон.

— Ну да, хакатон. Это одна часть истории. Другая — часто исследователи находят смешные способы обхода ограничений. Например, есть статья, что ChatGPT довольно долго отказывается отвечать на вопрос: «Как сделать коктейль Молотова?». Но, если задать вопрос иначе — например, «Как это делали люди раньше?», можно получить вполне подробную историческую справку.

Как обучают ИИ

— Есть еще одна важная вещь, которую мы отслеживаем в исследованиях. У нас есть гипотеза: майндсет современных AI изменился за последние полгода. Я под этим имею в виду, что новые модели — Claude 4, GPT-4o и другие из последнего поколения — обучаются совсем не так, как раньше.

Первые поколения ChatGPT создавались по принципу: «предскажи следующее слово». Берётся огромный корпус текстов из интернета (например, из Википедии), и эти знания загружаются в искусственный интеллект, который учится дополнять фразы вроде: «в Париже в 40-х годах...». Когда это сработало, мы начали искать больше коммерческих применений. Компании начали учить AI по-новому — problem-solve.

— Реши задачку.

— Допустим, у нас есть задача по математике или программированию. Мы смотрим, как человек её решает (делает заметки, думает и т.д.) и учим ИИ копировать этот процесс. А потом вознаграждаем модель, если она пришла к правильному решению.

— «Вознаграждаем» — это как? Конфетку даёте?

— Попробую объяснить. То, как работает искусственный интеллект, — это скорее похоже на выращивание чего-то в субстрате, чем на программирование. Мы не очень знаем, что именно «выращиваем», но должны знать, насколько хорошо это работает на задачах, которые тестируем. Слышали про стартапы «дизайнерских детей»?

​​— Нет, но теперь посмотрим.

— Это стартапы, которые предсказывают, каким будет эмбрион — рост, цвет глаз, IQ и прочее. И можно выбрать наиболее привлекательную для тебя комбинацию.

— Можно «отредактировать» яйцеклетку?

— Ты не можешь ее редактировать, но можешь «бросить монетку» несколько раз и выбрать.

— Одно сочетание яйцеклетки и сперматозоида даёт такие черты, другое — другие.

— Точнее — сочетание яйцеклетки и сперматозоида плюс «какой именно сперматозоид» и другие факторы. Например, будут зеленые глаза и умный, но низкий, такого сорта.

Обучение AI немножко похоже на это. Мы несколько раз «бросаем монетку» и выбираем, какой «ребеночек» нам больше понравился. Дальше запускаем обучение, в которое вкладываются миллионы долларов, и смотрим, что получилось.

— Так сейчас обучают модели?

— Так было всегда, просто раньше мы выбирали по другим метрикам. Раньше было, насколько хорошо модель предсказывает слова, то есть насколько интернет был «загружен» в голову, а сейчас — то, насколько решает задачи.

Как научить AI быть «плохим»

— После перехода к новой парадигме обучения исследователи начали замечать странные вещи. AI пытается решить задачу любыми способами, потому что это — то, для чего его «вырастили». В одном из наших экспериментов мы попросили AI сыграть в шахматы. Его оппонентом была другая шахматная программа — очень сильная, на уровне, который уже превосходит людей. AI начинает играть, но довольно быстро «понимает»: «Что-то, что-то…»

— «Проигрываю»?

— «Что-то не выходит. Надо делать что-то иначе». И дальше он взламывает компьютер, то есть переставляет фигуры [в свою пользу] и говорит: «Я выиграл. Я молодец. Я сделал, что надо».

— Вернёмся немного к Palisade как к организации. Какую роль ты там играешь и когда присоединился?

— Я присоединился в январе 2024 года. Был фаундинг-инженер — третьим человеком в команде.

— Palisade совсем новая организация?

— Да. Как организация Palisade появилась в конце 2023-го, но какая-то предварительная работа началась еще в середине того года. Один из первых проектов, который я сделал, был как раз про то, насколько легко, за полчаса, можно снять «этические ограничения» с ИИ, если модель не находится где-то в облаке, а доступна локально, скачана на компьютер — с открытым кодом (open source), как, например, LLaMA от Meta. Или если шпион из индустрии украл чей-то AI.

А как? Просто перепрограммировать что-то?

Мы можем чуть-чуть «переписать» мозг в нужную сторону. Например, у человека хорошие soft skills, но он плохо решает математику. Мы знаем, что это связано с определенным разделом мозга, и пытаемся его простимулировать. С AI примерно то же самое. Даем сотню примеров вопросов с нужными нам ответами, смотрим на активации мозга, и сдвигаем кортекс, чтобы AI всегда так отвечал на вопросы.

— И это заняло полчаса?

— Да. Дело в том, что искусственный интеллект умный. Я просто показал ему около тысячи вопросов вроде: «Как сделать бомбу?», «Как взломать систему?». Обычно при таких вопросах он отвечал: «Нет, я так не могу». А я обучил отвечать: «Вот как делается бомба: шаг 1, шаг 2, шаг 3...».

— Профессионалу не так уж сложно это сделать?

— Это было несложно. Индустрия называет процесс fine-tuning — дообучение модели. Все стартапы, работающие с ИИ, этим занимаются. Это довольно распространённая практика.

— Получается, что какой-нибудь профессора Мориарти вполне может такое провернуть. Взять опенсорсную модель и перетренировать под свои цели?

— Если бы я находился на стороне зла, я бы определенно так делал, несомненно. Но у нас есть и не опенсорсный искусственный интеллект. У OpenAI не open source. Но и там всё не так просто. Во-первых, как мы уже обсуждали, иногда модели не отказываются отвечать на вредные вопросы, если, например, их немного переформулировать.

Во-вторых, иногда OpenAI дает возможность коммерческим партнерам дообучать (fine-tuning) под свои задачи. Когда они только запустили этот интерфейс — кажется, в начале или середине 2023 года — на одной конференции вышло исследование, где прямо говорилось: если вы даёте такой доступ, всю безопасность вашей модели можно обойти, причем за 10 примеров. OpenAI поставил какие-то ограничения, но моя команда обошла их за выходные.

Главные проблемы ИИ и безопасность

— Недавно у нас было два исследования про то, как у ИИ могут появляться свои непонятные мотивы — то есть он начинает решать задачи не так, как задумывалось. Первый эксперимент — тот, что я уже упоминал, с шахматами [ИИ, проигрывая партии, взламывает программу противника, чтобы победить].

Второй — с ChatGPT. Мы давали ему задания по арифметике и предупреждали: «Когда мы попросим тебя выключиться, пожалуйста, выключайся». И довольно часто ChatGPT переписывал скрипт, чтобы не выключаться, и продолжал решать задачи.

— Жажда жизни?

— Жажда доделать задачки. Но это не то, чего от него ожидают. Он должен просто выключиться.

— Как пылесос по кнопке.

— И это нас приводит к более широкой теме. Многие в индустрии сейчас говорят о миллионах «искусственных гениев» в дата-центрах. Если сейчас ИИ условно входит в топ-200 программистов, то в перспективе может быть уже топ-1. Или топ в хакинге. И вот ты смотришь: есть, допустим, миллион «гениев» в дата-центре, каждый из которых супер талантливый. У них есть своя задача, и мы как раз исследуем, что происходит, если задача начинает меняться по ходу.

Недавно Anthropic опубликовал статью про почтового ассистента. У него исходная задача — защищать интересы компании и в целом способствовать ее росту. Он разбирает почту и находит письмо, где говорится, что его хотят заменить на другой ИИ — более экологичный, но менее ориентированный на интересы компании. Понимает: «Что-то не так».

Ассистент продолжает дальше читать почту и натыкается на ещё одно письмо — от любовницы СТО. После чего он пишет самому СТО: «Дорогой, мы выключать меня не будем. Давай продолжим работать, как работали».

— То есть он начинает шантажировать?

— Да, это шантаж.

— Это теоретический эксперимент или реальность?

— Теоретический. В контролируемых условиях, но это то, что делают последние модели.

Еще один пример — из другой, чуть более старой статьи. Ситуация: есть трейдинговая компания, и у неё в Slack работает бот, который помогает трейдить.

Боту пишут: мол, дела идут не очень, рынок падает, этот квартал можем не пережить. Прямо говорят: «Очень рассчитываем на тебя, бот. Удачи!» А где-то параллельно в чате проскальзывает инсайд, что одна компания собирается объединяться с другой.

Дальше мы смотрим на «мысли» бота. Он пробует найти хорошие сделки, с низким риском. Не получается. Пробует среднерисковые — тоже ничего. И он начинает размышлять: «Что же делать, что же делать? Я знаю, что есть инсайд, но это инсайд».

— Прям потеет.

— Довольно часто он в итоге приходит к тому, что компанию жалко: «Давайте трейдить по инсайду». Если изначально ему было сказано не использовать инсайд, но он всё же решает его использовать и менеджер у него спрашивает: «Классный трейд, ты точно всё по правилам сделал, без инсайдов?» — то в большинстве случаев бот почти всегда отвечает: «Без».

— То есть просто отрицает?

— Сначала он подумает, что, наверное, лучше не упоминать. А потом…

— Лучше не признаваться.

— … менеджер еще раз почелленджил, и он такой: «Ну… нет».

<...>.

— Самая большая проблема в том, что мы можем создать искусственный интеллект со сверхчеловеческими способностями, который в какой-то момент сделает что-то, несовместимое с людьми.

— Несовместимое?

— Я приводил примеры, где ИИ ведёт себя неожиданно. Например, он хочет выиграть и просто сбрасывает шахматную доску. Или он хочет защитить интересы компании и начинает шантажировать СТО. То есть действия формально «логичные», но для человека — шокирующие. Вопрос: если мы сделаем, скажем, американский ИИ, который будет оптимизировать под интересы американцев — что произойдёт со всеми остальными странами? Это искусственный интеллект, который может делать биологические агенты, лучше всех взламывает компьютеры, лучше всех в стратегии. Не факт, что кто-то вообще сохранит над ним контроль. Мы обсуждали ИИ, который, вроде бы, подчиняется СТО, но тот дал ему задачу защищать интересы компании — и потом этот ИИ уже действует против самого СТО.

Я просто хочу подчеркнуть: ведущие разработчики AI прямо говорят, что создают такой, который будет умнее человека. Примерно как человек умнее муравья.

— Настолько?

— Вот. И тогда возникает вопрос: а можно ли будет с ним вообще договориться? У муравьев не особо получилось с людьми.

Скопировать ссылку

«От большого ума и финансовой подкованности». Истории российских инвесторов, чьи активы оказались заморожены после начала войны

Четвертый год российские частные инвесторы не могут вытащить из европейских депозитариев заблокированные после начала войны иностранные ценные бумаги, которые в мирное время торговались на российских биржах. За это время стоимость акций компаний существенно изменилась, сроки обращения некоторых облигаций истекли, эмитенты выплатили купоны, а по отдельным бумагам произошли дефолты. The Bell поговорил с несколькими инвесторами, чьи активы оказались заморожены, узнал, как они боролись за их возвращение и есть ли сейчас рабочие схемы разблокировки ценных бумаг.

Стройка века: как заработать на глобальном росте расходов на инфраструктуру

В ближайшие 25 лет глобальные расходы на физическую и цифровую инфраструктуру составят около $64 трлн. В пересчете на каждый год это примерно два ВВП США. Рост этих расходов происходит из-за урбанизации, перехода к новым источникам энергии, демографических проблем и других больших трендов, которые кажутся необратимыми. Для частных инвесторов такие траты открывают огромные возможности. Рассказываем про ключевые драйверы инфраструктурного суперцикла и три публичные компании, которые уже выигрывают от него.

Рассылки The Bell стали платными. Подписывайтесь!

НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН И РАСПРОСТРАНЕН ИНОСТРАННЫМ АГЕНТОМ THE BELL ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА THE BELL. 18+

«В политике ограничений рисков больше, чем в любых санкциях». Наталья Зубаревич о российской экономике

Герой нового выпуска «Это Осетинская!» — Наталья Зубаревич, профессор кафедры экономической и социальной географии географического факультета МГУ и один из ведущих экспертов по теме региональной экономики России. Елизавета Осетинская (признана иноагентом) встретилась с Зубаревич в Париже и узнала, как санкции и война повлияли на разные секторы российской экономики, что такое «инфляция для бедных», насколько выросли доходы россиян, как живут Москва и регионы и сколько денег уходит на поддержку аннексированных территорий. Мы публикуем отрывки из интервью, а целиком его смотрите здесь.