[Великолепная семёрка] Новые SLM-модели ИИ Microsoft Phi-4 вступили в финишую гонку с OpenAI (GPT-4.5), xAI (Grok-3), GDM (Gemini 2.0), Yandex (YaGPT 5 Pro), DeepSeek (DeepSeek-R1) и Baidu
![[Великолепная семёрка] Новые SLM-модели ИИ Microsoft Phi-4 вступили в финишую гонку с OpenAI (GPT-4.5), xAI (Grok-3), GDM (Gemini 2.0), Yandex (YaGPT 5 Pro), DeepSeek (DeepSeek-R1) и Baidu](/story_images/699000/1740980180_94_1740979233_62_7af0e86bbde4f9c99f7a6276073cfe56.png)
Microsoft представила новый класс высокоэффективных моделей AI, которые обрабатывают текст, изображения и речь одновременно, требуя при этом значительно меньше вычислительной мощности, чем существующие системы. Новые модели Phi-4, выпущенные сегодня, представляют собой прорыв в разработке малых языковых моделей (SLM), которые предоставляют возможности, ранее зарезервированные для гораздо более крупных систем AI.
Согласно техническому отчету Microsoft, Phi-4-Multimodal, модель с 5,6 миллиардами параметров, и Phi-4-Mini с 3,8 миллиардами параметров превосходят конкурентов аналогичного размера и даже соответствуют или превосходят производительность моделей в два раза большего размера при выполнении некоторых задач .
«Эти модели предназначены для того, чтобы предоставить разработчикам передовые возможности AI», — сказал Вэйчжу Чен, вице-президент по генеративному AI в Microsoft. «Phi-4-multimodal, с его способностью обрабатывать речь, зрение и текст одновременно, открывает новые возможности для создания инновационных и контекстно-зависимых приложений».
Техническое достижение появилось в то время, когда предприятия все чаще ищут модели AI, которые могут работать на стандартном оборудовании или «на периферии» — непосредственно на устройствах, а не в облачных центрах обработки данных — для снижения затрат и задержек при сохранении конфиденциальности данных.
Отличительной чертой Phi-4-Multimodal является его новая технология «смешивания LoRA», позволяющая обрабатывать текст, изображения и речевые входные данные в рамках одной модели.
«Используя смесь LoRA, Phi-4-Multimodal расширяет мультимодальные возможности, минимизируя помехи между модальностями», — говорится в исследовательской статье. «Этот подход обеспечивает бесшовную интеграцию и гарантирует постоянную производительность при выполнении задач, связанных с текстом, изображениями и речью/аудио».
Инновация позволяет модели сохранять свои мощные языковые возможности, одновременно добавляя возможности зрения и распознавания речи без ухудшения производительности, которое часто происходит при адаптации моделей для нескольких типов входных данных.
Модель заняла лидирующие позиции в рейтинге Hugging Face OpenASR с показателем ошибок в словах 6,14%, превзойдя специализированные системы распознавания речи, такие как WhisperV3. Она также демонстрирует конкурентоспособную производительность в задачах на зрение, таких как математическое и научное обоснование с использованием изображений.
Несмотря на компактный размер, Phi-4-Mini демонстрирует исключительные возможности в текстовых задачах. Microsoft сообщает, что модель «превосходит модели аналогичного размера и находится на одном уровне с моделями в два раза большими» в различных тестах понимания языка.
Особенно примечательна производительность модели в задачах по математике и кодированию. Согласно исследовательской работе, «Phi-4-Mini состоит из 32 слоев Transformer с размером скрытого состояния 3072» и включает внимание к групповым запросам для оптимизации использования памяти для генерации длинного контекста.
В математическом тесте GSM-8K Phi-4-Mini показал результат 88,6%, превзойдя большинство моделей с 8 миллиардами параметров, а в тесте MATH он достиг результата 64%, что существенно выше, чем у конкурентов аналогичного размера.
«Для математического бенчмарка модель превосходит модели схожего размера с большим отрывом, иногда более 20 баллов. Она даже превосходит оценки моделей в два раза большего размера», — отмечается в техническом отчете.
Capacity, система ответов на основе искусственного интеллекта, которая помогает организациям объединять различные наборы данных, уже использует семейство Phi для повышения эффективности и точности своей платформы.
Стив Фредериксон, руководитель отдела продуктов компании Capacity, сказал в своем заявлении: «Из наших первых экспериментов нас действительно впечатлила в Phi его замечательная точность и простота развертывания, даже до настройки. С тех пор мы смогли повысить как точность, так и надежность, сохранив при этом экономическую эффективность и масштабируемость, которые мы ценили с самого начала».
Компания Capacity сообщила об экономии затрат в 4,2 раза по сравнению с конкурирующими рабочими процессами при достижении тех же или лучших качественных результатов для задач предварительной обработки.
В течение многих лет развитие AI было обусловлено единой философией: больше — лучше. Больше параметров, больше моделей, больше вычислительных требований. Но модели Phi-4 от Microsoft бросают вызов этому предположению, доказывая, что мощность — это не только масштаб, но и эффективность.
Phi-4-Multimodal и Phi-4-Mini разработаны не для центров обработки данных технологических гигантов, а для реального мира, где вычислительная мощность ограничена, вопросы конфиденциальности имеют первостепенное значение, а AI должен работать без сбоев без постоянного подключения к облаку. Эти модели небольшие, но они имеют вес. Phi-4-Multimodal объединяет речь, зрение и обработку текста в единую систему, не жертвуя точностью, в то время как Phi-4-Mini обеспечивает производительность математики, кодирования и рассуждений на уровне моделей в два раза большего размера.
Речь идет не только о том, чтобы сделать Ai более эффективным; речь идет о том, чтобы сделать его более доступным. Microsoft позиционировала Phi-4 для широкого внедрения, сделав его доступным через Azure AI Foundry, Hugging Face и Nvidia API Catalog. Цель ясна: Ai, который не заперт за дорогим оборудованием или массивной инфраструктурой, а может работать на стандартных устройствах, на границе сетей и в отраслях, где вычислительная мощность ограничена.
Масая Нисимаки, директор японской компании по искусственному интеллекту Headwaters Co., Ltd., видит это влияние своими глазами. «Edge AI демонстрирует выдающуюся производительность даже в средах с нестабильными сетевыми соединениями или там, где конфиденциальность имеет первостепенное значение», — сказал он в заявлении. Это означает, что AI может функционировать на заводах, в больницах, на автономных транспортных средствах — в местах, где требуется интеллект в реальном времени, но где традиционные облачные модели не справляются.
По своей сути Phi-4 представляет собой сдвиг в мышлении. AI — это не просто инструмент для тех, у кого самые большие серверы и самые глубокие карманы. Это возможность, которая, если ее правильно разработать, может работать где угодно и для кого угодно. Самое революционное в Phi-4 — это не то, что он может делать, а то, где он может это делать.
Microsoft расширила линейку собственных больших языковых моделей искусственного интеллекта Phi-4 двумя новыми проектами с относительно скромными системными требованиями. Одна из них является мультимодальной, то есть работает с несколькими форматами данных.
источник: 3dnews.ru
Модель Microsoft Phi-4-mini является исключительно текстовой, а Phi-4-multimodal — её улучшенная версия, способная обрабатывать также запросы в визуальном и звуковом форматах. Обе модели, утверждает разработчик, в значительной мере превосходят альтернативы сопоставимых размеров при выполнении определённых задач.
Microsoft Phi-4-mini имеет 3,8 млрд параметров, то есть она достаточно компактна для запуска на мобильных устройствах. В основу модели легла особая версия архитектуры «Трансформер» (Transformer). В стандартном варианте модели-трансформеры, чтобы понять значение каждого слова, анализируют текст до и после него; при разработке Phi-4-mini в Microsoft использовали версию Decoder-Only Transformer, которая предполагает анализ только предшествующего слову текста, что снижает нагрузку на вычислительные ресурсы и повышает скорость обработки данных.
Для дополнительной оптимизации использована технология Grouped Query Attention — этот механизм помогает модели определять, какие фрагменты данных наиболее релевантны при обработке текущей задачи. Phi-4-mini может генерировать текст, переводить документы и управлять внешними приложениями; модель, по словам разработчиков, преуспела в решении математических задач и написании компьютерного кода, даже когда требуются «сложные рассуждения». Точность ответов Phi-4-mini, по оценкам самой Microsoft, «значительно» превосходит результаты, которые дают несколько других моделей аналогичного размера.
источник: 3dnews.ru
Phi-4-multimodal — это расширенная версия Phi-4-mini с 5,6 млрд параметров; в качестве запросов она воспринимает не только текст, но также изображения, аудио и видео. Для дообучения модели в Microsoft использовали новый метод Mixture of LoRAs. Обычно адаптация ИИ к новой задаче требует изменения его весов — параметров конфигурации, которые определяют, как он обрабатывает данные. Чтобы облегчить эту задачу, используется метод LoRA (Low-Rank Adaptation) — для выполнения незнакомой задачи модели добавляется небольшое количество новых весов, оптимизированных для этой задачи. Метод Mixture of LoRAs адаптирует этот механизм к мультимодальной обработке данных: при разработке Phi-4-multimodal исходную Phi-4-mini дополнили весами, оптимизированными для работы с аудио и видео. В результате, рассказали в Microsoft, удалось смягчить некоторые компромиссы, связанные в прочими подходами к построению мультимодальных моделей.
В тестах, связанных с обработкой визуальных данных, Phi-4-multimodal набрала 72 балла, незначительно уступив ведущим моделям от OpenAI и Google. В одновременной обработке видео и звука она «с большим отрывом» обошла Google Gemini-2.0 Flash, а также открытую InternOmni. Phi-4-mini и Phi-4-multimodal доступны на платформе Hugging Face по лицензии MIT, которая допускает их коммерческое использование.
