[На китайском любо-дорого] Модель OpenAI иногда «думает» на китайском, персидском или каком-либо другом языке, даже если ей задать вопрос на английском, и никто не знает почему [ФОТО] / news2.ru

[На китайском любо-дорого] Модель OpenAI иногда «думает» на китайском, персидском или каком-либо другом языке, даже если ей задать вопрос на английском, и никто не знает почему

отметили

человек

в архиве

[На китайском любо-дорого] Модель OpenAI иногда «думает» на китайском, персидском или каком-либо другом языке, даже если ей задать вопрос на английском, и никто не знает почему

Вскоре после того, как OpenAI выпустила o1, свою первую «рассуждающую» модель AI, люди начали замечать любопытное явление. Модель иногда начинала «думать» на китайском, персидском или каком-либо другом языке, даже если ей задавали вопрос на английском.

Получив вопрос, например: «Сколько букв «Р» в слове «клубника»?», o1 начинает размышлять и приходит к ответу, используя логические рассуждения. Если вопрос был задан на английском языке, то и ответ o1 даст на английском. Однако перед тем как прийти к ответу, модель выполняет несколько действий на другом языке.

«o1 внезапно начал думать по-китайски в середине процесса», — написал один пользователь на Reddit.

«Почему o1 вдруг начал думать по-китайски?» — спросил другой пользователь в сообщении на X. «Ни один из фрагментов разговора (более 5 сообщений) не был на китайском».

Компания OpenAI не дала разъяснений по поводу странного поведения модели o1 и даже не признала его. Однако некоторые пользователи, включая генерального директора Hugging Face Клемана Деланжа, обратили внимание на то, что модели рассуждений, подобные o1, обучаются на наборах данных, содержащих большое количество китайских иероглифов.

Тед Сяо, исследователь из Google DeepMind, отметил, что такие компании, как OpenAI, используют сторонние сервисы для маркировки китайских данных. Он также заявил, что переход модели o1 на китайский язык является примером «китайского лингвистического влияния на рассуждения».

«Такие лаборатории, как OpenAI и Anthropic, используют сторонние сервисы по маркировке данных для научных, математических и программистских задач на уровне докторантуры, — написал Сяо в посте на X. — Из-за нехватки квалифицированной рабочей силы и дороговизны многие из этих поставщиков данных находятся в Китае».

Метки, также известные как теги или аннотации, помогают моделям понимать и интерпретировать данные в процессе обучения. Исследования показали, что предвзятые метки могут приводить к созданию предвзятых моделей. В частности, средний аннотатор с большей вероятностью будет отмечать фразы, произнесённые на афроамериканском разговорном английском (AAVE) и использующие неформальную грамматику, как токсичные. Это, в свою очередь, приводит к тому, что детекторы токсичности искусственного интеллекта, обученные на таких метках, воспринимают AAVE как чрезмерно токсичный.

Однако другие эксперты не верят в гипотезу о том, что o1 использует китайские данные. Скорее всего, o1 и другие модели рассуждений могут просто использовать языки, которые они считают наиболее эффективными для достижения цели (или галлюцинировать).

«Модель не знает, что такое язык или что языки бывают разными, — сказал TechCrunch Мэтью Гуздиал, исследователь AI и доцент Университета Альберты. — Для неё это просто текст».

На самом деле модели не обрабатывают слова напрямую. Вместо этого они используют токены. Токены могут быть словами, например «фантастический». Или это могут быть слоги, например «фан», «тас» и «тик». Или это могут быть даже отдельные символы в словах, например «ф», «а», «н», «т», «а», «с», «т», «и», «к».

Как и маркировка, токены могут приводить к предвзятости. Например, многие программы перевода слов в токены предполагают, что пробел в предложении обозначает новое слово, несмотря на то, что не во всех языках слова разделяются пробелами.

«Охватывая все лингвистические нюансы, мы расширяем мировоззрение модели и позволяем ей учиться на основе всего спектра человеческих знаний, — написал Тичжэнь Ван в посте на X. — Например, я предпочитаю заниматься математикой на китайском, потому что каждая цифра — это всего один слог, что делает вычисления чёткими и эффективными. Но когда дело доходит до таких тем, как неосознанные предубеждения, я автоматически переключаюсь на английский, в основном потому, что именно на нём я впервые узнал и усвоил эти идеи».

Теория Вана правдоподобна. В конце концов, модели — это вероятностные машины. Обученные на множестве примеров, они изучают закономерности, чтобы делать прогнозы.

Не получив ответа от OpenAI, можно только гадать, почему o1 думает о песнях на французском, а о синтетической биологии на китайском.

Источник: https://habr.com/ru/companies/...

Добавил

suare 16 Января

искусственный интеллект, языки, openai, agi

2 комментария

На эту же тему:

[БПО: CPU 🆚 GPU в AI-диалекте] Разработчики научили ИИ-агентов общаться тет-а-тет на только им понятном CPU-языке без GPU-вычислений с помощью системы GibberLink для эффективности — 4 Марта

[AI-сплетни: как агент агенту] Искусственный интеллект и нейросети изобретаеют свои внутренние CPU-языки коммуникации, которые люди не понимают. Должны ли мы потребовать остановки и GPU-перевода? 2 — 4 Марта

[Плюс DeepSeekизация всего мира] DeepSeek возглавил ТОП бесплатных приложений в AppStore РФ. В GooglePlay приложение чат-бота входит в топ-10 самых популярных, а количество скачиваний превысило 5 млн 2 — 28 Января

DeepSeek вызвал истерику у Американских ИИ корпораций.🤑🤮😩😭Первая битва💥 искусственных интеллектов Китая 🇨🇳 и США 🇺🇸 выиграна «Поднебесными» у «Исключительных» с разгромным счётом 2 — 28 Января

ИИ теперь может самовоспроизводиться - критический шаг, который беспокоит экспертов — 27 Января

[«... и не друг, и не враг, а так...»] ИИ нам не «друг»: чем опасны иллюзии о «мыслящих машинах»? «Обожествляющие» или «очеловечивающие» термины вводят в заблуждение и мешают понять границы технологий — 20 Января

ИИ «создаёт» необычные микросхемы беспроводной связи, работающие лучше человеческих, рассматривая чип как единое целое, что даёт странные, но эффективные решения 2 — 12 Января

Facebook оказался вынужден закрыть одну из своих систем искусственного интеллекта (ИИ) после того, как исследователи обнаружили, что ИИ начал общаться на собственном языке, который они не могли понять — 1 Августа 2017

Дополнения:

Двести снежных слов

В материалах рубрики использованы сообщения следующих журналов: «Economist» и «New Scientist» (Великобритания), «American Scientist», «Discover», «Science News» и «Smithsonian» (США), «Science et Vie» и «?a m’interesse» (Франция).

Из одной научно-популярной книги о языке в другую уже давно кочует поразительная цифра. Поскольку снег очень важен для эскимосов и является постоянным фактором их природной среды, источником питьевой воды, а также строительным материалом для иглу, этот народ выделяет 200 видов снега и для каждого имеет особое слово. Филолог Лора Мартин из университета Кливленда (США) расследовала, откуда взялись такие сведения и насколько они верны.

Один из типов снежинок, сфотографированный в растровом электронном микроскопе.

Открыть в полном размере

По-видимому, первым заинтересовался снегом у эскимосов немецкий антрополог Франц Боас, в начале прошлого века почти год проживший среди этого племени на острове Баффинова Земля. Он отметил, что в языке эскимосов есть несколько разнокоренных слов для снега: апут — снег, лежащий на земле; кана — падающий снег; акилокок — мягко падающий снег; пигнарток — снежный покров, удобный для саней; пиксирпок — метель и кимуксук — позёмка.

В 1940 году эстафету подхватил американский лингвист Бенджамин Уорф, он привёл пять слов для снега, причём других, чем Боас. Откуда Уорф взял эти слова, он не указал.

В энциклопедии, изданной в Чикаго в 1984 году, говорится о девяти словах, причём такому языковому богатству дано объяснение: «Из-за однообразия северного ландшафта, в котором живёт этот народ, эскимосам не о чем больше говорить, поэтому, чтобы наполнить повседневные беседы хоть каким-то содержанием, они и придумали такое количество слов, обозначающих снег».

В популярной книге «История языка» (1965 год) американского лингвиста Марио Пеи упоминается «десяток слов, обозначающих снег в языке эскимосов».

В феврале 1984 года газета «Нью-Йорк таймс» в редакционной статье сообщила (ссылаясь почему-то на Уорфа), что эскимосы различают сто типов снега. Вслед за тем ведущие многих радио- и телестанций США в метеосводках, чтобы как-то украсить суховатую информацию метеобюро, стали упоминать о двух сотнях эскимосских слов для снега.

А как на самом деле? Сто и тем более двести — это преувеличение, десяток — преуменьшение.

Специалисты говорят, что есть две ветви эскимосского языка: инуит (его изучал Боас) и юпик. Обе делятся на множество диалектов. Для обоих языков характерно богатство суффиксов, присоединяемых к корню и превращающих одно слово в целую фразу. Скажем, лодка на юпике будет ангьягх. А слово ангьягхллангиугтуклу означает «кроме того, он хочет лодку побольше».

Игорь Крупник, антрополог из Смитсоновского центра арктических исследований (США), изучив лексику обеих ветвей эскимосского языка, пришёл к выводу, что у эскимосов (и чукчей, как их принято называть в России) действительно очень много «снежных» слов.

У центральносибирских чукчей — 40, у эскимосов Канады — не менее 53. И ещё больше слов для разных «сортов» морского льда: у эскимосов Аляски Крупник нашёл около 70. И другие северные народности не отстают: у народа саами, по данным норвежских филологов, не менее 180 терминов для снега и льда. К сожалению, языки малых северных народностей находятся на пути к исчезновению.

Добавил

suare 17 Января

Комментарии участников:

Lynnot78, 17 Января , url

Очередное «горе от ума». Как учили — так и получили.

dbond, 17 Января , url

Кликбейтный заголовок.
Вот, что по этому поводу говорит сама модель о1:

Внешне кажется, что модель «думает» на китайском (или другом языке), потому что иногда при детальном запросе на рассуждение (chain-of-thought) модель может генерировать отрывки текста с элементами иноязычного словаря, если ей показалось, что в её базе это наиболее релевантные ассоциации.
На самом деле это всего лишь проявление того, как модель объединяет знания из разных языковых сегментов, а не осознанное «переключение» на китайский или персидский.

Подобное «смешение» может происходить, потому что языковая модель устроена как универсальная нейросеть, которая черпает знания из любой подходящей части своих весов. Модель не держит строгое разграничение по языкам и, если так сложится семантический контекст, способна отвечать или рассуждать фрагментами на другом языке — даже если изначальный вопрос был на английском (или любом другом).

Таким образом, «мыслить» на разных языках для большой модели — это не баг, а нормальное следствие её обучения: сеть обучена на многолингвальной информации и использует общие смысловые векторные представления, которые могут проявляться внешне как перемешивание языковых фрагментов.
chatgpt.com/

Войдите или станьте участником, чтобы комментировать

Вход без регистрации

Для участников

Или войдите через OpenID