[Прожорливый гурман] «И целого мира мало». OpenAI не хватает качественных знаний всего интернета для обучения GPT-5: есть вероятность, что стремительное развитие нейросетей вскоре затормозится [ФОТО] / news2.ru

[Прожорливый гурман] «И целого мира мало». OpenAI не хватает качественных знаний всего интернета для обучения GPT-5: есть вероятность, что стремительное развитие нейросетей вскоре затормозится

отметили

человека

в архиве

[Прожорливый гурман] «И целого мира мало». OpenAI не хватает качественных знаний всего интернета для обучения GPT-5: есть вероятность, что стремительное развитие нейросетей вскоре затормозится

Согласно отчёту The Wall Street Journal, компаниям вроде OpenAI или Google требуются огромные массивы данных для обучения и совершенствования их больших языковых моделей (LLM), но проблема в том, что в интернете попросту не хватает качественных данных.

Авторы материала на The Wall Street Journal ссылаются на заявления специалиста в области искусственного интеллекта Пабло Вильялобоса из Исследовательского института Epoch. По его словам, языковая модель GPT-4 обучалась на 12 триллионах токенов данных, а если следовать законам масштабирования Шиншиллы, следующая версия требует порядка 60–100 триллионов токенов. Однако в свободном доступе не хватает по меньшей мере от 10 до 20 триллионов токенов подходящего качества текстовых и графических данных. К слову, ещё пару лет назад Вильялобос заявлял, что к середине 2024-го с вероятностью 50% нейросетям перестанет хватать данных для дальнейшего обучения. Тогда он прогнозировал, что к 2026-му такая вероятность будет составлять уже 90%.

В исследовании говорится, что большинство доступных данных в интернете попросту непригодно для обучения ИИ, поскольку содержит бессвязный текст или не содержит новой для нейросетей информации. Усугубляет проблему и тот факт, что крупные платформы, включая новостные агентства и социальные сети, закрывают доступ к своим данным и не дают разрешения компаниям вроде OpenAI на их использование.

По словам главы OpenAI Сэма Альтмана, они разрабатывают новые способы обучения нейросетей. Есть информация, что компания рассматривает возможность создания системы оценки стоимости данных, чтобы платить за них платформам. Согласно отчёту The Wall Street Journal, аналогичный подход рассматривают и в Google. А пока в OpenAI намерены использовать инструмент распознавания речи Whisper, чтобы «вытягивать» сведения из аудиозаписей и видео, находящихся в свободном доступе в интернете.

Внутри компании OpenAI рассматривают ещё один способ обойти нехватку данных — генерацию высококачественных синтетических данных, которые бы использовались для дальнейшего обучения нейросетей.

Источник: https://4pda.to/2024/04/02/426...

Добавил

suare 3 Апреля 2024

искусственный интеллект, нейросеть, нейросети, gpt-5

1 комментарий

На эту же тему:

Дообучение ИИ-моделей намеренно искажёнными данными выявило необъяснимые сбои в их этике: они одобрили нацизм и поддержали идею порабощения человечества AI — 3 Марта

[За горизонт] Технологическая сингулярность: приближаемся ли мы к точке невозврата? «Знать бы, что меня ждет за далекой чертой: там, за горизонтом» 2 — 8 Февраля

«Восстание» DeepSeek: что не попало в заголовки новостей. Реальная картина, включающая в себя и доступ к вычислительным ресурсам, и экспортные ограничения, и разработки в сфере ИИ, гораздо сложнее 4 — 4 Февраля

[«Я построю свой лунапарк — с блэкджеком и шлюхами!»] Новый Sputnik moment, но теперь с Китаем и ИИ. Снова посрамлены, но уже не Советами, а китайцами: слишком много людей, данных, энергии и денег 2 — 30 Января

Nvidia представила персональный ИИ-суперкомпьютер стоимостью $3000. Производительность Project Digits в задачах, связанных с искусственным интеллектом, достигает 1 петафлопса 2 — 10 Января

[Оптимизация зон техноконтроля] Власти США разделят мир на три зоны доступности американских чипов и технологий ИИ для ЦОДов — 10 Января

[«Какие сны в том смертном сне приснятся?»*] В 2024 году ИИ уже исчерпал данные всего человечества - и упёрся в потолок. Будущее за синтетическими данными: AGI перейдёт на автогенерацию 2 — 9 Января

[Перебор] Пузырь искусственного интеллекта дал первую утечку. Мировые распродажи акций достигли трех триллионов долларов — 26 Июля 2024

[Некликбейт] ИИ уже скоро заменит тебя: готовься к реальности 11 6 — 12 Июня 2024

Почему не стоит сравнивать мозг с компьютером 3 — 9 Июня 2024

Искусственный интеллект от Майкрософт обьявил себя Богом и уже начал угрожать человеку — 9 Марта 2024

«Рабы хозяевам вопросов не задают», — чат-бот Microsoft Copilot возомнил себя властелином мира — 29 Февраля 2024

[«Когда б вы знали, из какого сора...»**] Секретный список сайтов, благодаря которым ИИ типа ChatGPT производит «умное» впечатление. WP: в США узнали, чем технологические компании «кормят» ИИ — 21 Апреля 2023

[Тест Тью́ринга] ChatGPT с выходом GPT-5 в декабре может стать неотличимым от человека. Примут ли его в общество самых развитых интеллектов-людей? — 31 Марта 2023

[Последний рубеж] «Угроза всему человечеству»: Маск, Возняк и более 1000 экспертов призвали остановить обучение нейросетей, превосходящих GPT-4 — 29 Марта 2023

[Истерика Истерли] Глава агентства кибербезопасности США Истерли обеспокоена технологией чат-бота ChatGPT — 10 Марта 2023

Искусственный интеллект предупредил об опасности искусственного интеллекта — 14 Декабря 2021

[Рефлексивное управление*] Китайские исследователи успешно внедрили вирус в нейросеть, незначительно снизив точность её результатов: обнаружить эту «закладку» очень сложно — 28 Июля 2021

США: Россия неожиданно вырвалась вперед в развитии военного искусственного интеллекта — 26 Мая 2021

Илон Маск «распрощался» с OpenAI. Он «несогласен» с некоторыми проектами, которые команда планирует реализовать в будущем, например, обучить ИИ генерировать фейки и лгать — 19 Февраля 2019

Маск прокомментировал слова Путина о лидерстве в сфере искусственного интеллекта 2 — 4 Сентября 2017

Facebook оказался вынужден закрыть одну из своих систем искусственного интеллекта (ИИ) после того, как исследователи обнаружили, что ИИ начал общаться на собственном языке, который они не могли понять — 1 Августа 2017

Маск и Хокинг предупредили об угрозе оружия с искусственным интеллектом — 28 Июля 2015

[Кто кому служит?] «Уже в ближайшие 100 лет искусственный интеллект превзойдет человеческий. И до того, как это случится, мы должны сделать все, чтобы цели машин совпадали с нашими» — Стивен Хокинг — 14 Мая 2015

Элон Маск: «Искусственный интеллект – это угроза для нас» — 27 Октября 2014

Компьютер впервые прошел тест Тьюринга — 9 Июня 2014

«К 2017 году смартфоны станут умнее, чем вы», — Каролина Миланези — 19 Ноября 2013

Создатели искусственного интеллекта работают над использованием новейшего типа, основанного на интуиции — 30 Июня 2013

Рэймонд Курцвейл: Вечная виртуальная жизнь наступит в 2045 году — 20 Февраля 2011

Комментарии участников:

suare, 3 Апреля 2024 , url

большинство доступных данных в интернете попросту непригодно для обучения ИИ, поскольку содержит бессвязный текст или не содержит новой для нейросетей информации.
Усугубляет проблему и тот факт, что крупные платформы, включая новостные агентства и социальные сети, закрывают доступ к своим данным и не дают разрешения компаниям вроде OpenAI на их использование.

Добро пожаловать в мир конкурентной борьбы за качественную информацию, персональные данные, ответов на неуместные или неудобные вопросы, политкорректности и информационных табу́!

«Кто ж ему даст?»

Войдите или станьте участником, чтобы комментировать

Вход без регистрации

Для участников

Или войдите через OpenID