[На китайском любо-дорого] Модель OpenAI иногда «думает» на китайском, персидском или каком-либо другом языке, даже если ей задать вопрос на английском, и никто не знает почему

отметили
14
человека
[На китайском любо-дорого] Модель OpenAI иногда «думает» на китайском, персидском или каком-либо другом языке, даже если ей задать вопрос на английском, и никто не знает почему

Вскоре после того, как OpenAI выпустила o1, свою первую «рассуждающую» модель AI, люди начали замечать любопытное явление. Модель иногда начинала «думать» на китайском, персидском или каком-либо другом языке, даже если ей задавали вопрос на английском.

Получив вопрос, например: «Сколько букв «Р» в слове «клубника»?», o1 начинает размышлять и приходит к ответу, используя логические рассуждения. Если вопрос был задан на английском языке, то и ответ o1 даст на английском. Однако перед тем как прийти к ответу, модель выполняет несколько действий на другом языке.

«o1 внезапно начал думать по-китайски в середине процесса», — написал один пользователь на Reddit.

«Почему o1 вдруг начал думать по-китайски?» — спросил другой пользователь в сообщении на X. «Ни один из фрагментов разговора (более 5 сообщений) не был на китайском».

Компания OpenAI не дала разъяснений по поводу странного поведения модели o1 и даже не признала его. Однако некоторые пользователи, включая генерального директора Hugging Face Клемана Деланжа, обратили внимание на то, что модели рассуждений, подобные o1, обучаются на наборах данных, содержащих большое количество китайских иероглифов.

Тед Сяо, исследователь из Google DeepMind, отметил, что такие компании, как OpenAI, используют сторонние сервисы для маркировки китайских данных. Он также заявил, что переход модели o1 на китайский язык является примером «китайского лингвистического влияния на рассуждения».

«Такие лаборатории, как OpenAI и Anthropic, используют сторонние сервисы по маркировке данных для научных, математических и программистских задач на уровне докторантуры, — написал Сяо в посте на X. — Из-за нехватки квалифицированной рабочей силы и дороговизны многие из этих поставщиков данных находятся в Китае».

Метки, также известные как теги или аннотации, помогают моделям понимать и интерпретировать данные в процессе обучения. Исследования показали, что предвзятые метки могут приводить к созданию предвзятых моделей. В частности, средний аннотатор с большей вероятностью будет отмечать фразы, произнесённые на афроамериканском разговорном английском (AAVE) и использующие неформальную грамматику, как токсичные. Это, в свою очередь, приводит к тому, что детекторы токсичности искусственного интеллекта, обученные на таких метках, воспринимают AAVE как чрезмерно токсичный.

Однако другие эксперты не верят в гипотезу о том, что o1 использует китайские данные. Скорее всего, o1 и другие модели рассуждений могут просто использовать языки, которые они считают наиболее эффективными для достижения цели (или галлюцинировать).

«Модель не знает, что такое язык или что языки бывают разными, — сказал TechCrunch Мэтью Гуздиал, исследователь AI и доцент Университета Альберты. — Для неё это просто текст».

На самом деле модели не обрабатывают слова напрямую. Вместо этого они используют токены. Токены могут быть словами, например «фантастический». Или это могут быть слоги, например «фан», «тас» и «тик». Или это могут быть даже отдельные символы в словах, например «ф», «а», «н», «т», «а», «с», «т», «и», «к».

Как и маркировка, токены могут приводить к предвзятости. Например, многие программы перевода слов в токены предполагают, что пробел в предложении обозначает новое слово, несмотря на то, что не во всех языках слова разделяются пробелами.

«Охватывая все лингвистические нюансы, мы расширяем мировоззрение модели и позволяем ей учиться на основе всего спектра человеческих знаний, — написал Тичжэнь Ван в посте на X. — Например, я предпочитаю заниматься математикой на китайском, потому что каждая цифра — это всего один слог, что делает вычисления чёткими и эффективными. Но когда дело доходит до таких тем, как неосознанные предубеждения, я автоматически переключаюсь на английский, в основном потому, что именно на нём я впервые узнал и усвоил эти идеи».

Теория Вана правдоподобна. В конце концов, модели — это вероятностные машины. Обученные на множестве примеров, они изучают закономерности, чтобы делать прогнозы.

Не получив ответа от OpenAI, можно только гадать, почему o1 думает о песнях на французском, а о синтетической биологии на китайском.

Добавил suare suare 9 часов 36 минут назад
Дополнения:

Двести снежных слов

В материалах рубрики использованы сообщения следующих журналов: «Economist» и «New Scientist» (Великобритания), «American Scientist», «Discover», «Science News» и «Smithsonian» (США), «Science et Vie» и «?a m’interesse» (Франция).

Из одной научно-популярной книги о языке в другую уже давно кочует поразительная цифра. Поскольку снег очень важен для эскимосов и является постоянным фактором их природной среды, источником питьевой воды, а также строительным материалом для иглу, этот народ выделяет 200 видов снега и для каждого имеет особое слово. Филолог Лора Мартин из университета Кливленда (США) расследовала, откуда взялись такие сведения и насколько они верны.
 
Один из типов снежинок, сфотографированный в растровом электронном микроскопе.
Открыть в полном размере
 
По-видимому, первым заинтересовался снегом у эскимосов немецкий антрополог Франц Боас, в начале прошлого века почти год проживший среди этого племени на острове Баффинова Земля. Он отметил, что в языке эскимосов есть несколько разнокоренных слов для снега: апут — снег, лежащий на земле; кана — падающий снег; акилокок — мягко падающий снег; пигнарток — снежный покров, удобный для саней; пиксирпок — метель и кимуксук — позёмка.
 
В 1940 году эстафету подхватил американский лингвист Бенджамин Уорф, он привёл пять слов для снега, причём других, чем Боас. Откуда Уорф взял эти слова, он не указал.
 
В энциклопедии, изданной в Чикаго в 1984 году, говорится о девяти словах, причём такому языковому богатству дано объяснение: «Из-за однообразия северного ландшафта, в котором живёт этот народ, эскимосам не о чем больше говорить, поэтому, чтобы наполнить повседневные беседы хоть каким-то содержанием, они и придумали такое количество слов, обозначающих снег».
 
В популярной книге «История языка» (1965 год) американского лингвиста Марио Пеи упоминается «десяток слов, обозначающих снег в языке эскимосов».
 
В феврале 1984 года газета «Нью-Йорк таймс» в редакционной статье сообщила (ссылаясь почему-то на Уорфа), что эскимосы различают сто типов снега. Вслед за тем ведущие многих радио- и телестанций США в метеосводках, чтобы как-то украсить суховатую информацию метеобюро, стали упоминать о двух сотнях эскимосских слов для снега.
 
А как на самом деле? Сто и тем более двести — это преувеличение, десяток — преуменьшение.
 
Специалисты говорят, что есть две ветви эскимосского языка: инуит (его изучал Боас) и юпик. Обе делятся на множество диалектов. Для обоих языков характерно богатство суффиксов, присоединяемых к корню и превращающих одно слово в целую фразу. Скажем, лодка на юпике будет ангьягх. А слово ангьягхллангиугтуклу означает «кроме того, он хочет лодку побольше».
 
Игорь Крупник, антрополог из Смитсоновского центра арктических исследований (США), изучив лексику обеих ветвей эскимосского языка, пришёл к выводу, что у эскимосов (и чукчей, как их принято называть в России) действительно очень много «снежных» слов.
 
У центральносибирских чукчей — 40, у эскимосов Канады — не менее 53. И ещё больше слов для разных «сортов» морского льда: у эскимосов Аляски Крупник нашёл около 70. И другие северные народности не отстают: у народа саами, по данным норвежских филологов, не менее 180 терминов для снега и льда. К сожалению, языки малых северных народностей находятся на пути к исчезновению.
Добавил suare suare 8 часов 58 минут назад
Комментарии участников:
Ни одного комментария пока не добавлено


Войдите или станьте участником, чтобы комментировать