loading

Опыт, здравый смысл и другой робот: как распознать фейковую новость, написанную не человеком

В этом году роботы научились делать фейковые новости, которые человек уже не сразу способен отличить от настоящих, пишет The Wall Street Journal. Сами по себе тексты еще недостаточно хороши, зато они «пишутся» очень быстро и уже могут быть использованы людьми в качестве сырья в кампаниях дезинформации. Самым эффективным оружием человека в борьбе с текстовыми «дипфейками» остаются опыт и здравый смысл, а распознавать их еще лучше помогут другие роботы.

Как это работает

  • С начала года в мире запущены уже три мощных системы генерации текстов нового поколения на базе нейросетей и искусственного интеллекта — американские GPT-2 (разработка калифорнийской OpenAI, софинансируемой сооснователем LinkedIn Ридом Хоффманом) и Grover (MIT), а также израильская HAIM.
  • Суть самого продвинутого «алгоритма» GPT-2 — простое предсказание следующего слова в тексте, генерируемом из короткой «затравки», на основе предыдущих слов и некоторой базы данных. Однако когда база данных — 8 млн реальных веб-страниц с 40 Гб текстов, а в предсказательной модели 1,5 млрд параметров, такой инструмент обретает новое качество.
  • В августе сотрудники проекта провели исследования на выборке из 500 человек, и большинство из тестовой аудитории признали сгенерированные статьи достоверными. В одном из исследований 72% аудитории назвали достоверной статью GPT-2 по сравнению с 83% оригинала. Команда проекта решила не выпускать обученную нейросеть в открытый доступ из-за «возможных злоупотреблений». Подробнее об этом мы писали здесь.
  • Простые предсказательные модели текстов в наше время доступны даже программисту-одиночке. Интерактивные примеры работы моделей разного типа можно изучить здесь.
  • Эксперты не сомневаются, что модели будут развиваться и использоваться во вредоносных информационных кампаниях. Управление перспективных исследовательских проектов минобороны США (DARPA) тоже осознает опасность и уже ведет проект Semantic Forensics по борьбе с текстовыми «дипфейками».
  • О реальном использовании искусственного интеллекта в информационных войнах пока не известно, отмечает WSJ.

Примеры

Проект GPT-2 приводит пример новости, сгенерированной только из затравки следующего содержания: «Ученые сделали шокирующее открытие: в доселе недоступной горной долине Анд обнаружено стадо единорогов. Еще большим сюрпризом для исследователей стало то, что единороги прекрасно говорят по-английски».

За 10 итераций система создала грамматически правильную и на первый взгляд убедительную новость, причем даже с фейковым исследователем и его фейковыми цитатами. Вывод статьи — единороги происходят от предшествующей человеку расы, жившей в Аргентине, а английскому они научились путем социальной эволюции. Авторы проекта подчеркивают, что робот не знает ничего ни об эволюции, ни о единорогах, однако качество его текста приближается к человеческому.

Журналисты WSJ с помощью проекта Grover создали статью в стиле своего издания, озаглавленную «Горнодобывающая компания ведет переговоры о добыче ресурсов на Луне». Фейк, утверждающий, что проект уже рассматривает SEC, оказался менее совершенным, чем продукт GPT-2, но в отдельных его абзацах совершенно отчетливо слышится тон настоящей газеты. К тому же генерация заняла меньше 30 секунд.

Как распознать компьютерный фейк

Послать робота искать робота. Как ни парадоксально, сгенерированный машиной фейк лучше всего видит обученная на похожей базе система генерации текстов. Достоверность распознавания фейков «обратным» алгоритмом Grover, к примеру, превышает 90%, уверяют исследователи. Дополнительный бонус — самообучение такого алгоритма: чем больше сгенерированных фейковых новостей вбрасывает проблемный источник, тем легче их распознать.

Применить здравый смысл. Это общий камень преткновения всех современных моделей искусственного интеллекта: реальный мир попросту недостаточно «размечен» для робота, тогда как человек воспринимает и совершенствует картину мира начиная с рождения. Поэтому робот не знает, что человечество пока не способно к промышленному освоению Луны, и не понимает, что оно стоило бы на много порядков дороже заявленных в статье $40 млн.

Подумать о контексте. Робот пока не способен извлекать смысл из текста. Соответственно, он не может понять, что у единорога по определению может быть только один рог (в сгенерированной статье утверждается, что их четыре) или что «гравитационный луч», которым предполагается доставать минералы с Луны, происходит из фантастического «Звездного пути».

Искать значение. Верный маркер искусственно сгенерированного текста — лишенные смысла, но формально корректные фразы. В фейковой статье WSJ, например, говорится, что «компании исследуют разные способы добычи на астероидах из расчета $100 за фунт платины». «Точный контроль содержания находится за пределами современной технологии», — признает профессор Юджин Чой из команды GPT-2.

Искать специфические маркеры. Это резкая смена тем между параграфами, а часто и в пределах одного параграфа, повторы, «иссякание» текста к концу статьи и «нечеловеческие» грамматические конструкции.

Почему это важно

Нет никаких сомнений, что новостных фейков в мире будет становиться больше, а доля текстов, сгенерированных роботами или при их участии, — расти. Соответственно растет значение умения и возможности распознавать такую информацию.

Скопировать ссылку

«От большого ума и финансовой подкованности». Истории российских инвесторов, чьи активы оказались заморожены после начала войны

Четвертый год российские частные инвесторы не могут вытащить из европейских депозитариев заблокированные после начала войны иностранные ценные бумаги, которые в мирное время торговались на российских биржах. За это время стоимость акций компаний существенно изменилась, сроки обращения некоторых облигаций истекли, эмитенты выплатили купоны, а по отдельным бумагам произошли дефолты. The Bell поговорил с несколькими инвесторами, чьи активы оказались заморожены, узнал, как они боролись за их возвращение и есть ли сейчас рабочие схемы разблокировки ценных бумаг.

Стройка века: как заработать на глобальном росте расходов на инфраструктуру

В ближайшие 25 лет глобальные расходы на физическую и цифровую инфраструктуру составят около $64 трлн. В пересчете на каждый год это примерно два ВВП США. Рост этих расходов происходит из-за урбанизации, перехода к новым источникам энергии, демографических проблем и других больших трендов, которые кажутся необратимыми. Для частных инвесторов такие траты открывают огромные возможности. Рассказываем про ключевые драйверы инфраструктурного суперцикла и три публичные компании, которые уже выигрывают от него.

Рассылки The Bell стали платными. Подписывайтесь!

НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН И РАСПРОСТРАНЕН ИНОСТРАННЫМ АГЕНТОМ THE BELL ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА THE BELL. 18+

«В политике ограничений рисков больше, чем в любых санкциях». Наталья Зубаревич о российской экономике

Герой нового выпуска «Это Осетинская!» — Наталья Зубаревич, профессор кафедры экономической и социальной географии географического факультета МГУ и один из ведущих экспертов по теме региональной экономики России. Елизавета Осетинская (признана иноагентом) встретилась с Зубаревич в Париже и узнала, как санкции и война повлияли на разные секторы российской экономики, что такое «инфляция для бедных», насколько выросли доходы россиян, как живут Москва и регионы и сколько денег уходит на поддержку аннексированных территорий. Мы публикуем отрывки из интервью, а целиком его смотрите здесь.