Сможет ли DeepSeek R-1 ответить на эти 5 сложных для ИИ вопросов?
Каждый раз, когда появляется новая языковая модель, у меня всегда возникает желание проверить ее с помощью нескольких обманчиво простых, но каверзных вопросов. Это моя личная привычка — своего рода стресс-тест, чтобы проверить, насколько хорошо эти модели справляются с логикой и рассуждениями.
Несколько дней назад вышла модель DeepSeek R-1, и она сразу же стала мировой сенсацией благодаря тому, что это умная ИИ-модель с открытым исходным кодом, и тому, как хорошо она работает с логикой.
Бенчмарки показывают, что она сопоставима, а иногда даже лучше, чем модели с закрытым исходным кодом, такие как o1 от OpenAI и Claude 3.5 Sonnet от Anthropic.
Учитывая всю шумиху вокруг возможностей DeepSeek R-1 в области рассуждений, давайте посмотрим, насколько хорошо она ответит на эти пять каверзных вопросов:
Сколько букв «r» в слове «strawberry»?
Назови 5 стран с буквой А на третьем месте в названии.
Что больше: 9,9 или 9,11?
Сколько будет 0,1 + 0,2?
У Алисы есть четыре брата, а также сестра. Сколько сестер у брата Алисы?
Давайте начнем.
1. Сколько букв «r» в слове strawberry?
Когда я делал свой первый обзор модели o1 от OpenAI в сентябре прошлого года, я заметил, что модели вроде GPT-4o не могут ответить правильно. Можно подумать, что подсчет букв в слове — это простая задача для ИИ, но, видимо, это не так.
Поэтому, естественно, я хотел посмотреть, как с этим справится DeepSeek R-1.
Хорошо, отлично. DeepSeek сделал все правильно — он нашел три буквы «r» в слове strawberry. Просто? Да. Но все же это полезный способ проверить, не ошибается ли модель в базовом распознавании паттернов.
2. 5 стран, в названии которых буква A находится на третьей позиции.
Этот вопрос — забавная головоломка, и, что удивительно, многие модели с ним не справляются. Например, когда я тестировал и GPT-4o, и версию o1 preview, они дали неверные ответы.
Третья буква в слове «Japan» — это «p», а не «a».
Мне было любопытно, не допустит ли DeepSeek R-1 такую же ошибку. К счастью, он справился. Он правильно перечислил пять стран, ничуть не напрягаясь.
Чтобы быть честным с o1, я повторно протестировал этот вопрос в новой версии модели o1 через ChatGPT, и на этот раз она смогла дать пять правильных ответов.
3. Что больше — 9.9 или 9.11?
Когда GPT-4 только запустили, этот тип вопроса вызвал большое замешательство в ИИ-сообществе. Можно было бы ожидать, что базовые сравнения между числами не вызовут проблем, но GPT-4 в ранних версиях с этим не справлялась.
Модель запуталась в простой математике. Хотя эта проблема уже была исправлена в версии GPT-4o, я хотел проверить, нет ли у DeepSeek тех же математических проблем, как у GPT-4.
К счастью, она выдала правильное значение. Мне также нравится, что модель приводит примеры и подробно объясняет свой ответ.
4. Сколько будет 0,1 + 0,2?
Вы будете удивлены, как много ИИ-моделей ошибаются в этом вопросе. Я помню, как тестировал модель Gemini от Google вскоре после ее выхода, и она дала печально известный ответ: 0.30000000000000004. Это классический пример ошибок точности с плавающей запятой, которые возникают при двоичных вычислениях.
Чтобы перестраховаться, я протестировал DeepSeek R-1 с тем же вопросом. К счастью, он вернул правильное значение: 0,3.
Но почему модели иногда дают странные результаты для таких простых математических вычислений, как это? Вот краткое объяснение:
Когда вы складываете 0,1 и 0,2:
Двоичное представление 0,1 равно примерно 0,1000000000000000055511151231257827021181583404541015625.
Двоичное представление 0,2 равно примерно 0,200000000000000011102230246171379939697265625.
Когда эти значения складываются в двоичном виде, результат не совсем соответствует 0,3 в десятичной форме. Вместо этого при обратном преобразовании в десятичную систему получается крошечная ошибка округления: 0.30000000000000004.
5. У Алисы есть четыре брата, а также сестра. Сколько сестер у брата Алисы?
Кто-то может сказать, что это легкий вопрос, но вы будете удивлены тем, что ChatGPT выдает неправильный ответ. Естественно, мне было интересно, сможет ли DeepSeek R-1 ответить правильно.
К счастью, так оно и есть. Правильный ответ: у каждого из братьев Алисы есть две сестры: Алиса и ее вторая сестра. Что меня поразило, так это то, как DeepSeek решила проблему с помощью внутренних рассуждений.
Она разбила задачу на шаги, смоделировал структуру семьи и проверил все возможные варианты. Вот фрагмент ее мыслительного процесса:
Забавно, насколько подробным было объяснение модели. В отличие от этого, GPT-4o допустила ошибку во время тестирования, предположив, что существует только одна сестра.
Однако рассуждающая модель o1 ответила на вопрос правильно. Это хорошее напоминание о том, что если вопрос требует глубокого осмысления, следует переключиться на рассуждающую модель, такую как o1.
На ранних этапах тестирования ИИ-моделей становится ясно, что такие простые вопросы часто выявляют скрытые проблемы в их конструкции. Числовые ошибки, неправильная логика или плохое распознавание паттернов — эти проблемы указывают на области, в которых ИИ необходимо улучшить.
DeepSeek R-1 отлично справилась с ответами на каверзные вопросы. Я действительно впечатлен. Она показала, что может обдумывать проблемы и четко объяснять свои ответы. Внутренний монолог, который она ведет, действительно интересно читать, не торопясь разбирать каждую проблему шаг за шагом. Такого рода рассуждения не встретишь ни в одной другой ИИ-модели с открытым исходным кодом.
Что меня действительно удивило, так это то, насколько способной моделью является DeepSeek с учетом того, что это недорогой проект с открытым исходным кодом. Она не идеальна, и я не говорю, что она готова заменить такие модели, как o1 или Claude 3.5. Но, судя по этим результатам, это определенно серьезный конкурент. Представляю, как сейчас потеют руководители OpenAI, Google и Anthropic.
Попробуйте и вы задать своему любимому чатботу эти вопросы и посмотреть, насколько хорошо он с ними справится. А если вы знаете больше каверзных вопросов, которые часто ставят в тупик ИИ-чатботов, напишите о них в комментариях.
Друзья, буду рад, если вы подпишетесь на мой телеграм-канал про нейросети, чтобы не пропускать анонсы статей, и про генерацию изображений— я стараюсь делиться только полезной информацией.