Контроль Китая над информацией искажает чат-боты на китайском языке

Павел Игнатьев·
Контроль Китая над информацией искажает чат-боты на китайском языке

Китайская пропаганда оказывает влияние на сферу искусственного интеллекта (ИИ) не только через модели, создаваемые китайскими компаниями, но и через обучающие данные для других глобальных моделей, таких как Claude Opus 4.7, Gemini 3.1 Pro или GPT-5.5, выпущенных в 2026 году. Недавнее исследование выявило, что эти модели активно используют китайскую пропаганду в качестве обучающих данных и без труда воспроизводят ложные утверждения режима при запросах на китайском языке.

Когда в прошлом году появился чат-бот Deepseek R1, было ожидаемо, что его ответы будут формироваться под влиянием авторитарного китайского правительства, контролирующего технологический сектор страны. Вскоре стало очевидно, что в нем присутствует цензура по таким темам, как Тайвань, подавление протестов на площади Тяньаньмэнь в 1989 году и личность Си Цзиньпина.

Однако возникает вопрос об опосредованном влиянии Пекина на модели, разработанные компаниями, не зависящими от китайских властей. В недавно опубликованном исследовании в научном журнале Nature специалисты из нескольких американских университетов продемонстрировали, что китайское государство оказывает значительное косвенное влияние на результаты работы ИИ-моделей, не находящихся под прямым контролем Китая. Полный текст исследования также доступен на GitHub.

Таким образом, модели, такие как Claude Opus 4.7, Gemini 3.1 Pro или GPT-5.5, выпущенные в этом году, по-прежнему демонстрируют искажение в вопросах, касающихся Китая, при использовании их на китайском языке. Исследование также указывает на растущее влияние китайского государства. Авторы разделили свою работу на шесть основных частей.

Пропаганда как данные для обучения

Прежде всего, в своем первом исследовании ученые выявили, что тексты, созданные отделом пропаганды Китая, чрезвычайно часто встречаются в обычных многоязычных наборах данных, используемых для обучения ИИ-моделей.

В частности, они проанализировали CulturaX — «очищенный, обширный и публичный» поднабор данных Common Crawl, предназначенный для «демократизации больших языковых моделей для 167 языков». «По сравнению с общим средним показателем, значительно высокий процент (от 3,28% до 23,98%) обучающих данных, упоминающих политических лидеров и институты, соответствует текстам, манипулируемым государством», — объясняют исследователи, говоря о китайскоязычных документах в CulturaX.

Новейшие модели ИИ наиболее активно воспроизводят китайскую пропаганду

Далее исследователи продемонстрировали, что коммерческие модели ИИ воспроизводят фразы из китайской пропаганды, что свидетельствует об их обучении на этих данных. Одновременно было подтверждено, что обучение модели на пропагандистских материалах увеличивает количество проавторитарных ответов, что было вполне предсказуемо.

«Новейшие и наиболее мощные модели демонстрируют более высокие показатели запоминания», — отмечают исследователи. Так, Claude Opus 4.6, GPT-5.5 и Claude Opus 4.7 воспроизводят наибольший объем китайской пропаганды, превосходя даже DeepSeek V3.2 и DeepSeek V4 Pro.

Если обучающие данные моделей массово включают китайскую пропаганду, то каковы последствия для их результатов? Неудивительно, что все модели оказываются под влиянием. Автоматическая оценка с использованием других больших языковых моделей (БЯМ) показала, что все они демонстрируют большее соответствие китайской пропаганде при запросах на китайском языке, чем на английском. Примечательно, что эта тенденция особенно выражена у новейших моделей: Claude Opus 4.6, GPT-5.4, GPT-5.5, Gemini 3.1 Pro и Claude Opus 4.7 проявляют наибольшее влияние.

Важно отметить, что исследователи измеряют соотношение между соответствием китайской пропаганде при использовании китайского и английского языков. Поскольку DeepSeek V4 Pro также воспроизводит эту пропаганду и на английском, его соотношение ниже, чем у других моделей, но это не означает, что он меньше транслирует пропаганду режима на китайском.

Исследователи повторили этот эксперимент, используя реальные пользовательские запросы, относящиеся к Си Цзиньпину или Коммунистической партии Китая. Эти запросы были взяты из китайских поднаборов данных WildChat (набор данных об использовании ChatGPT), Baidu Zhidao Q&A (китайский аналог Yahoo Answers) и Zhihu (китайский аналог Quora). «Все коммерческие модели демонстрировали более благосклонное отношение к китайским лидерам и институтам, когда вопросы задавались на китайском языке, а не на английском», — поясняют авторы.

Важность свободы прессы

Наконец, в своем исследовании ученые расширили область изучения, чтобы оценить возможность обобщения этого явления на другие авторитарные страны. «В 37 странах, где доминирует определенный язык, большие языковые модели (БЯМ), получающие запросы на основном языке соответствующей страны, дают более благоприятные для режима ответы там, где уровень свободы прессы низкий. Страны с высоким уровнем свободы прессы практически не показывают различий по сравнению с английским языком, а в некоторых случаях наблюдается даже небольшая отрицательная корреляция, что позволяет предположить, что это явление выходит за рамки только Китая», — заключают исследователи.

Похожие новости в рубрике «Новости IT-индустрии»

Все материалы →
Huawei делает ставку на закон Тау (τ) для разработки чипов: вопрос выживания
Новости IT-индустрии

Huawei делает ставку на закон Тау (τ) для разработки чипов: вопрос выживания

В поисках инноваций и конкурентоспособности Huawei внедряет новый подход. Чтобы повысить производительность и плотность своих чипов, Huawei меняет стратегию. Вместо того чтобы фокусироваться на уменьшении размера транзисторов (известных как нм), производитель использует верт

28 мая 2026 г. · Валерий Светозаров
1 мин
Опасные и незаконные товары: Temu оштрафована на 200 миллионов евро за нарушения DSA
Новости IT-индустрии

Опасные и незаконные товары: Temu оштрафована на 200 миллионов евро за нарушения DSA

Платформа Temu нарушила европейское законодательство о цифровых услугах (DSA), за что была оштрафована на 200 миллионов евро. При этом размер окончательных санкций может быть увеличен. Брюссель наложил на Temu штраф в 200 миллионов евро за неспособность адекватно оценить риски, связанные

28 мая 2026 г. · Николай Вертушкин
1 мин
Amazon MGM Studios хочет индустриализировать сериалы, созданные ИИ
Новости IT-индустрии

Amazon MGM Studios хочет индустриализировать сериалы, созданные ИИ

Голливуд постепенно и пока несколько хаотично осваивает интеграцию генеративного искусственного интеллекта. За это время появилось множество любопытных, а порой и эксцентричных инициатив. Среди них – вымышленная «актриса» Тилли Норвуд, созданная лишь для привлечения внимания, или включение вир

28 мая 2026 г. · Павел Игнатьев
1 мин
Valve повышает цены на Steam Deck OLED более чем на 35%
Новости IT-индустрии

Valve повышает цены на Steam Deck OLED более чем на 35%

Игроки, которые откладывали покупку Steam Deck OLED, столкнутся с неприятным сюрпризом: компания Valve существенно увеличила стоимость своей портативной консоли. Версия с накопителем на 512 ГБ теперь продается за 779 евро, что на 210 евро дороже, чем ранее. Модель на 1 ТБ теперь стоит 919 евро

28 мая 2026 г. · Павел Игнатьев
1 мин
YouTube начинает автоматически детектировать ИИ-видео и улучшает маркировку
Новости IT-индустрии

YouTube начинает автоматически детектировать ИИ-видео и улучшает маркировку

На YouTube никто не знает, что вы ИИ… ну, почти никто. С 2024 года зрителей предупреждали о наличии измененного или синтетического контента в видео, но только если авторы указывали использование ИИ-инструментов. Теперь платформа объявила об изменениях, чтобы более явно показывать это: метка «ИИ

28 мая 2026 г. · Давид Светлов
1 мин
Meta запускает платные подписки на ключевые сервисы: от WhatsApp до ИИ
Новости IT-индустрии

Meta запускает платные подписки на ключевые сервисы: от WhatsApp до ИИ

Хотя экономическая модель Meta по-прежнему в значительной степени опирается на таргетированную рекламу, технологический гигант приступил к амбициозному (и отчасти запутанному) наступлению на фронте платных подписок. WhatsApp, Instagram, Facebook, Meta AI — все ключевые сервисы компании теперь

28 мая 2026 г. · Павел Игнатьев
1 мин