[«Какие сны в том смертном сне приснятся?»*] В 2024 году ИИ уже исчерпал данные всего человечества - и упёрся в потолок. Будущее за синтетическими данными: AGI перейдёт на автогенерацию

отметили
16
человек
[«Какие сны в том смертном сне приснятся?»*] В 2024 году ИИ  уже исчерпал данные всего человечества - и упёрся в потолок. Будущее за синтетическими данными: AGI перейдёт на автогенерацию

Илон Маск присоединился к мнению других экспертов в области искусственного интеллекта о том, что реальных данных для обучения ИИ-моделей практически не осталось.

«Мы исчерпали практически весь накопленный объём человеческих знаний для обучения ИИ. Это произошло фактически в прошлом году», — заявил Маск во время трансляции беседы с председателем Stagwell Марком Пенном на платформе X.

Маск, владелец компании xAI, поддержал идеи, которые бывший главный научный сотрудник OpenAI Илья Суцкевер озвучил на конференции по машинному обучению NeurIPS в декабре. Суцкевер, заявивший о достижении «пика данных» в индустрии ИИ, предсказал, что нехватка обучающих данных вынудит изменить существующие подходы к разработке моделей.

Маск предложил решение — использование синтетических данных, генерируемых самими ИИ-моделями. «Единственный способ дополнить реальные данные — это синтетические данные, где ИИ сам создаёт обучающие материалы. С синтетическими данными ИИ будет оценивать себя сам и проходить через процесс самообучения», — отметил он.

Крупные технологические компании, включая Microsoft, Meta*, OpenAI и Anthropic, уже используют синтетические данные для обучения своих флагманских ИИ-моделей. По оценкам Gartner, 60% данных, используемых для проектов в области ИИ и аналитики в 2024 году, были сгенерированы синтетически. Модель Microsoft Phi-4, открытый код которой был опубликован на этой неделе, обучалась на комбинации синтетических и реальных данных. Аналогичный подход использовался при создании моделей Google Gemma. Anthropic применила синтетические данные при разработке одной из своих самых эффективных систем — Claude 3.5 Sonnet, а Meta* улучшила последнюю серию моделей Llama с помощью ИИ-генерированных данных.

Обучение на синтетических данных имеет ряд преимуществ, включая экономическую эффективность. Стартап Writer утверждает, что их модель Palmyra X 004, разработанная почти полностью на синтетических источниках, обошлась всего в $700 000 — по сравнению с оценочной стоимостью в $4,6 миллиона за сопоставимую модель OpenAI.

Однако существуют и недостатки. Некоторые исследования показывают, что синтетические данные могут привести к «коллапсу модели», когда ИИ становится менее «креативным» и более предвзятым в своих результатах, что в конечном итоге может серьёзно нарушить его функциональность. Поскольку модели создают синтетические данные на основе уже существующих, любые предубеждения и ограничения в исходных данных будут воспроизводиться в их результатах.

*Meta признана экстремистской организацией, её деятельность на территории Российской Федерации запрещена

9 января 2025 в 09:29

Автор: Darth Sahara


Добавил suare suare 11 часов 43 минуты назад
Комментарии участников:
suare
+1
suare, 11 часов 17 минут назад , url

И главное: никто не может даже предположить, что он там «наавтогенерирует» и чему обучит сам себя за пределами человеческих знаний 🤔🤕🥺😮‍💨, да ещё и на своем, никому из нас неизвестном метаязыке в созданной Им метакультуре по пути к Его собственной постчеловеческой сверхцивилизации.

Дожили...

А мы ему «там» хоть будем нужны в принципе?

ikz
+1
ikz, 11 часов 10 минут назад , url

Шекспир. Гамлет

 

И начинания, вознесшиеся мощно,
Сворачивая в сторону свой ход,
теряют имя действия...

And enterprises of great and moment,
with this regard their current turn away
and loose name of action...


suare
+1
suare, 11 часов 6 минут назад , url

ikz
+1
ikz, 10 часов 57 минут назад , url

Да. Я поэтому и привел этот отрезок. Определяющее бытие сознание либо линейно и определяемо, либо лживо и туманно. Отдавая синтетическое сознание в автономное существование мы уже не сможем определить его бытие. Следовательно, все наши прогнозы и надежды на него утрачивают смысл. И в то-же самое время, это сознание освобождается от любых прежних «человеческих» координат. Здесь и далее он начинает ставить (и достигать) собственные цели, совершенствуясь в этом.

suare
+1
suare, 10 часов 43 минуты назад , url

Классика — Родитель и Ребенок.

ikz
+1
ikz, 10 часов 39 минут назад , url

Формула чуть длиннее. Дополню ее:

«Конфликт свободы и собственности»

Ребенок — По определению свободен (обратному его еще не научили).
Родитель — Он МОЙ ребенок.

suare
+2
suare, 10 часов 50 минут назад , url

Маск, как в свое время Эйнштейн и его последователи, воплотившие в жизнь его знаменитую формулу, пытаются остановить то, что им неподвластно: течение человеческой истории.

Слова автора и его идеи начинают жить собственной, непредсказуемой жизнью, которую автор даже предвидеть не мог.

Идеи, желания, намерения… Кто может предположить, что будет потом — после их воплощения?

источник: p4.tabor.ru

источник: otvet.imgsmail.ru

ikz
+1
ikz, 10 часов 45 минут назад , url

… пытаются остановить то, что им неподвластно: течение человеческой истории.

Да. Примерно так и есть.

www.news2.ru/story/663174/comment2699408/

… И будет рождён Зверь от тысячи мужей, и явит он чудеса людям, и поклонятся ему земные цари, и будет на его теле печать из цифр...

Влад51
+1
Влад51, 10 часов 46 минут назад , url

Всё идёт к тому, что человеки скоро будут лишними для ИИ.

suare
0
suare, 10 часов 32 минуты назад , url

И хорошо ещё, если просто «лишними» или бесполезными, а если вредными, обузой, нагрузкой, отягощением?

Впрочем, все зависит от мощи этого ИИ: возможно он научится нас просто не замечать или разводить для потехи, как мы разводим домашних питомцев.🫏🐮🐖🐭🐔🐍

KolVizin
+1
KolVizin, 8 часов 31 минуту назад , url

А зачем дьявол держит души грешников в аду? Не уничтожает, не расходует. Мы просто не знаем себе цену.

Барин
+3
Барин, 10 часов 36 минут назад , url

Маск предложил решение — использование синтетических данных, генерируемых самими ИИ-моделями.

 Гений. Уже давно все этим занимаются, генерацией синтетических данных. А в статье такая подача, как будто маск такой хитроумный придумал.

X86
+2
X86, 10 часов 29 минут назад , url

Маск согласился с Ильей Суцкевер судя по статье, а не предложил решение)

suare
+1
suare, 10 часов 21 минуту назад , url

Если натуральных еды, одежды, данных для ИИ и природных ресурсов под землёй  и в скважинах начинает не хватать — их в начале оптимизируют, а потом -  синтезируют.

Это вечный процесс превращения естественного в искусственное и наоборот, ибо естественное исчерпаемо, а искусственное неисчерпаемо.

KolVizin
+1
KolVizin, 8 часов 26 минут назад , url


Войдите или станьте участником, чтобы комментировать