Рекомендательные системы: как семь алгоритмов ЯRUS подбирают пользователям ежедневно из примерно 56 000 новостей от 10 000 источников СМИ только самое необходимое

отметили
18
человек
в архиве

источник: hsto.org

Руководитель технической дирекции ЯRUS, Дмитрий Илюхин

Сегодня мы поговорим о внутренней кухне рекомендательных систем на примере приложения ЯRUS. Разработчики предлагают ярусный контент – новости, видео, события, музыку и многое другое. Однако цель команды ЯRUS – не только собирать разнообразный контент на одной площадке, но и правильно показывать его пользователям, за что и отвечает рекомендательная система. Что же такое рекомендательные системы и как они работают, расскажет руководитель технической дирекции ЯRUS Дмитрий Илюхин.

— Привет, как ты долго занимаешься проектом?

— В ЯRUS я с самого его основания, с июля 2020 года. Многое, что вы можете увидеть сейчас, – итог наших общих трудов с командой.

— А если человек только зашел в приложение, то какие новости он увидит?

— Это называется «холодный старт» и является частным случаем рекомендательной системы. Вся рекомендательная система для нового пользователя основывается лишь на общих параметрах. То есть он увидит выдачу первого алгоритма: самый свежий, а также самый обсуждаемый контент.

— Сколько времени потребовалось на разработку модели?

— На исследование и разработку мы потратили около двух месяцев. Естественно, над проектом работали люди, которые уже занимались такими алгоритмами ранее.

Далее система приводит все слова к начальной форме. Этот процесс называется лемматизацией текста, и он занял большую часть времени, вместе с вычисткой новостного мусора, о котором я говорил ранее.

После у нас был длительный период по определению весов. Сначала, например, мы сильно завышали новости с большим числом лайков и комментариев. Но когда мы поняли, что таким образом они всегда будут оставаться в начале ленты, продолжая собирать реакции пользователей, мы увеличили вес у других алгоритмов. Такой вот метод проб и ошибок.

— Что планируете сделать в будущем?

— Весь наш вектор развития нацелен на персонализацию. То есть мы хотим, чтобы, когда человек попадает в приложение, у него уже были преднастроены и новости, и видео под его интересы. То есть, если человек пришел к нам с автомобильного сайта, мы сразу будем выдавать ему рекомендации по теме.

До конца года мы планируем сделать персонализированные рекомендации не только новостей, но и видео. Там принцип отбора и алгоритмы совсем другие.

— Спасибо за интервью. Предлагаю в следующий раз обсудить рекомендательную систему для видео.

— Приходите, буду рад рассказать о развитии нашего проекта.

я с самого его основания, с июля 2020 года. Многое, что вы можете увидеть сейчас, – итог наших общих трудов с командой.

Расскажи чуть подробнее, как связаны приложение и рекомендательная система?

— Наше приложение выступает не только как социальная платформа, но и как агрегатор. Основная задача проекта – это собрать контент: аудио, видео, текст и изображения для пользователя так, чтобы он ему был максимально интересен. Для этого и используются рекомендательные системы.

Есть два типа подходов. Первые основаны на том, что смотрит группа пользователей; вторые – на предпочтении конкретного человека. Мы учитываем всё.

Например, к нам в систему ежедневно подтягивается около 56 000 новостей от 10 000 источников СМИ. Все они проходят внутреннюю чистку: на качество, язык и прочие параметры. Оставляем только литературные тексты.

После этого идет формирование новостного сюжета. При выборе главной новости используются разные веса: новизна и объем новости. Это и станет той базой, что мы будем рекомендовать пользователям, используя различные алгоритмы ранжирования.

– Расскажи поподробнее, что это за алгоритмы такие?

— Всего их семь. Первый считает, сколько у каждой новости показов, просмотров, лайков, эмоций и комментариев. Каждый из показателей дает новости определенный вес. И чем он больше, тем больше шансов у новости стать топовой.

– А чем отличается показ от просмотра?

— Показ – это когда новость появляется на экране, а просмотр – это когда пользователь ее открывает.

Второй алгоритм начинает работать, когда пользователь просматривает ленту новостей. Здесь уже начинается процесс персонализации: система анализирует тексты заинтересовавших человека новостей, определяя часто встречающиеся в этих новостях слова. И в дальнейшем пользователь увидит в ленте похожие новости.

Третий алгоритм построен на попытке классифицировать новости: в нашей системе около ста роботизированных тематик. Мысль такая: если человек смотрит новости определенной группы, то и в дальнейшем ему будут интересны новости этой группы.

Далее пользователи распределяются на группы. Каждого нового человека, в зависимости от того, какие новости он смотрит, мы относим к той или иной группе. А для каждой просмотренной новости прибавляем вес, что повлияет на дальнейшую выдачу похожих материалов в ленте. Так работает четвертый алгоритм.

— А влияет на выбор новостей место, где находится пользователь?

— Да, на этом основан как раз следующий, пятый, алгоритм. Мы пытаемся предсказать геолокацию пользователя, либо он сам назначает ее в процессе регистрации. Это нужно для соблюдения региональности новостей, чтобы человек из Рязани не получал в ленте новости Красноярска.

Шестой и седьмой алгоритмы – это усиления по дате выхода новости и категории. Они помогают распределять новости по времени и принадлежности интересов пользователя.

Каждый из этих семи алгоритмов по-разному влияет на контент. Но геолокация – это самый важный параметр. Именно по этому алгоритму новости будут подниматься выше всего.

Таким образом, чем больше человек лайкает, комментирует, просматривает новостей, листает ленту, читает новости и чем точнее он определил любимые категории и свою геолокацию, тем релевантнее его лента новостей.

источник: hsto.org

— А если человек только зашел в приложение, то какие новости он увидит?

— Это называется «холодный старт» и является частным случаем рекомендательной системы. Вся рекомендательная система для нового пользователя основывается лишь на общих параметрах. То есть он увидит выдачу первого алгоритма: самый свежий, а также самый обсуждаемый контент.

— Сколько времени потребовалось на разработку модели?

— На исследование и разработку мы потратили около двух месяцев. Естественно, над проектом работали люди, которые уже занимались такими алгоритмами ранее.

Далее система приводит все слова к начальной форме. Этот процесс называется лемматизацией текста, и он занял большую часть времени, вместе с вычисткой новостного мусора, о котором я говорил ранее.

После у нас был длительный период по определению весов. Сначала, например, мы сильно завышали новости с большим числом лайков и комментариев. Но когда мы поняли, что таким образом они всегда будут оставаться в начале ленты, продолжая собирать реакции пользователей, мы увеличили вес у других алгоритмов. Такой вот метод проб и ошибок.

— Что планируете сделать в будущем?

— Весь наш вектор развития нацелен на персонализацию. То есть мы хотим, чтобы, когда человек попадает в приложение, у него уже были преднастроены и новости, и видео под его интересы. То есть, если человек пришел к нам с автомобильного сайта, мы сразу будем выдавать ему рекомендации по теме.

До конца года мы планируем сделать персонализированные рекомендации не только новостей, но и видео. Там принцип отбора и алгоритмы совсем другие.

— Спасибо за интервью. Предлагаю в следующий раз обсудить рекомендательную систему для видео.

— Приходите, буду рад рассказать о развитии нашего проекта.

Добавил suare suare 29 Августа 2021
проблема (2)
Дополнения:
 
Алгоритмы*Управление e-commerce*Управление продажами*Законодательство в ITФинансы в IT

Китайские власти опубликовали проект руководящих принципов по регулированию алгоритмов, которые компании используют для предоставления рекомендаций пользователям.

В проекте содержится 30 принципов. Так, администрация киберпространства Китая (CAC) предложила запретить компаниям развертывать алгоритмы, которые «поощряют зависимость или высокое потребление» и ставят под угрозу национальную безопасность, либо нарушают общественный порядок. Системы рекомендаций должны соблюдать деловую этику и принципы справедливости, а их алгоритмы не должны использоваться для создания фальшивых учетных записей пользователей или создания других ложных впечатлений, говорится в документе.

Документ предлагает предоставить пользователям возможность легко отключать рекомендации. Поставщики алгоритмов, которые имеют право влиять на общественное мнение или мобилизовать граждан, должны получать одобрение CAC.

Наблюдательный орган заявил, что будет принимать отзывы общественности о новых правилах в течение месяца, до 26 сентября.

Ранее в этом году поддерживаемая Пекином ассоциация потребителей Китая заявила, что местные интернет-компании «запугивают» пользователей при совершении покупок и рекламных акций и подрывают их права на конфиденциальность.

Новые правила, похоже, нацелены на ByteDance, Alibaba Group, Tencent, Didi и другие компании, чьи услуги построены на основе собственных алгоритмов. Акции Alibaba и Tencent на новостях немного подешевели.

Этим летом CAC начал расследование в отношении Didi Global по обвинению в нарушении конфиденциальности пользователей.

Президент Tencent Мартин Лау говорил, что регулирование интернета в Китае было достаточно свободным. По его мнению, введение требований со стороны государства было вопросом времени. Однако Лау признал, что новые правила негативно повлияют на чистую прибыль компании.

В августе Всекитайское собрание народных представителей Китая приняло закон, направленный на защиту конфиденциальности данных пользователей в Интернете. Он вступит в силу с 1 ноября. Закон предусматривает, что обработка личной информации должна иметь четкую и разумную цель и ограничиваться «минимальным объемом, необходимым для достижения целей обработки».

В нем также изложены условия, при которых компании могут собирать личные данные, в том числе получение согласия отдельного лица, а также есть рекомендации по обеспечению защиты данных при передаче их за пределы страны.

Наконец, закон призывает обработчиков личной информации назначать лицо, отвечающее за ее защиту, и проводить периодические проверки для обеспечения соблюдения закона.

 
Социальные сети и сообществаIT-компании

«Яндекс» теперь даёт возможность настраивать источники новостей. В разделе «Яндекс.Новости» в первую очередь будут показываться новости из тех изданий, которые вы выберете как приоритетные (если там «горячие» новости, конечно, есть). Также можно скрыть нежелательные источники или источники, которые не вызывают у вас доверие.

Чтобы выбрать любимые СМИ или СМИ, которым вы доверяете, нужно перейти по ссылке https://yandex.ru/news#settings либо, находясь в Яндекс.Новостях, выбрать в своём аккаунте раздел настройки источников, кликнув по аватарке:

Перед вами откроется меню поиска СМИ и возможность добавить источник в избранное или скрыть:

Нежелательные источники, действительно, скрываются, а вот избранные показываются в списке новостей сверху только в том случае, если актуальная новость из выбранного СМИ попала в топ Яндекса. Далее в списке показываются те источники, к которым вы не выразили своего отношения:

Новости из избранных источников помечаются жёлтым значком в правом нижнем углу логотипа выбранного СМИ.

Откуда берутся новости в “Яндекс.Новостях»? (Источник)

В пресс-службе «Яндекса» сообщили, что у «Яндекс.Новостей» нет редакции, и новости собираются автоматически из сообщений СМИ с регистрацией Роскомнадзора. Сервис формирует сюжеты — подборки новостных сообщений об одном событии, которые помогают ориентироваться в потоке новостей.

Топ-5, который ежедневно видят пользователи на главной странице портала, формируется следующим образом: учитывается скорость появления новых сообщений по теме в СМИ, а также общее число изданий, среагировавших на то или иное событие. При этом информация все время меняется — поскольку новости появляются в медиа буквально каждую минуту. Если новость интересна пользователям и они много о ней читают, то это добавляет ей значимость.

 
 
Текст: Иван Черноусов
 
04.10.2020, 18:44
 
Подбор новостей на главных страницах поисковиков стал мощным инструментом влияния: если новость не возьмет «Яндекс» (или Google, Mail.ru и так далее), она может остаться незамеченной, и, наоборот, если вокруг новости сформируется сюжет в поисковике, она разойдется широко. Согласно данным Similarweb, у новостных изданий уже до 40 процентов трафика идет через поисковики. Журналистов, с одной стороны, часто шокирует и сам подбор новостей для главных страниц поисковиков, и иерархия изданий внутри новостного сюжета, и они выдвигают самые разные, как правило, нелестные для агрегатора предположения на этот счет. С другой — журналисты уже давно заняты написанием новостей «под „Яндекс“ — неважно, каково реальное значение новости, главное — есть ли она в топе. Так как же новость попадает туда и что для этого нужно?

В пресс-службе „Яндекса“ сообщили, что у „Яндекс.Новостей“ нет редакции, и новости собираются автоматически из сообщений СМИ с регистрацией Роскомнадзора. Сервис формирует сюжеты — подборки новостных сообщений об одном событии, которые помогают ориентироваться в потоке новостей.

Топ-5, который ежедневно видят пользователи на главной странице портала, формируется следующим образом: учитывается скорость появления новых сообщений по теме в СМИ, а также общее число изданий, среагировавших на то или иное событие. При этом информация все время меняется — поскольку новости появляются в медиа буквально каждую минуту. Если новость интересна пользователям и они много о ней читают, то это добавляет ей значимость. Также существует вкладка „интересное“, где новости формируются исходя из потребностей конкретного пользователя.

Новости Mail.ru — это агрегатор с собственной редакцией, который отслеживает и освещает наиболее важные события федерального и мирового значения, а также формирует картины дня для локализованных стран и регионов РФ. „Мы сотрудничаем с крупнейшими российскими и зарубежными СМИ, а также региональными и тематическими изданиями, — рассказывает директор медиапроектов Mail.ru Group Анатолий Рожков. — 24 часа в сутки без праздников и выходных сотрудники проекта мониторят актуальную новостную повестку, а также отслеживают тренды текущих пользовательских интересов. Из поступающего от партнеров информационного потока отбираются самые оперативные, полные, интересные пользователям материалы, проводится фактчекинг и оценка на беспристрастность, затем происходят вычитка, оформление и публикация материалов. Безусловное предпочтение отдается первоисточникам информации“.

Опубликованные материалы попадают в так называемый „прогрев“, где за короткий промежуток времени на контрольной группе пользователей определяется, насколько они интересны аудитории разных групп. В случае чрезвычайных событий используется ускоренный механизм прохождения этой процедуры. По результатам „прогрева“ новость попадает в картину дня соответствующей группе пользователей и занимает там позицию согласно текущему читательскому интересу к ней.

Далее начинается основная фаза ее жизненного цикла, где новость ротируется в соревновании с другими материалами до тех пор, пока спрос пользователей на другие инфоповоды не вытеснит ее из актуальной новостной повестки. Все стадии этого процесса, после выхода новости от редактора, проходят практически полностью в автоматическом режиме, без участия человека. Исключения касаются только breaking news, а также завершения, опровержения или резкого изменения в развитии инфоповодов.

Новостная лента Google строится исходя из интересов пользователя. Например, если пользователь искал на YouTube трейлер какого-то фильма, то ему будет предложено подписаться на новости, связанные с этим фильмом. Кроме того, предлагается актуальная информация, связанная с новостной повесткой. В Google отмечают, что „Умная лента“ целиком и полностью составляется из интересов каждого конкретного пользователя.

Пресс-секретарь НП „ГЛОНАСС“ Ярослав Федосеев считает, что для попадания в топ необходимо сделать парадоксальный инфоповод, где присутствуют несовместимые понятия. „К примеру, плата за проезд через перекресток, умный лежачий полицейский, искусственный интеллект, отчисляющий студентов, дрон-дальнобойщик и др., — говорит он. — Хорошей темой для выхода в топ может стать исследование-опрос с неожиданными результатами. Сделать это может любой бренд, а при правильной подаче такой контент возьмет любое рейтинговое СМИ. Если новость получит 10-20 рейтинговых публикаций за один час, то в топе она гарантированно появится хотя бы на какое-то время“.

ПОХОЖИЕ ПУБЛИКАЦИИ

Jaylla14 июля в 13:16

Рекомендательные системы: проблемы и методы решения. Часть 1

20 августа в 14:55

Рекомендательные системы: проблемы и методы решения. Часть 2

26 февраля в 13:23

Шаги построения рекомендательной системы в обучении персонала

 

 
Добавил suare suare 29 Августа 2021
Комментарии участников:
Stopor
+12
Stopor, 29 Августа 2021 , url

У нас тут свои алгоритмы: «Никандрович», «suare», «ЛюсяНеватный», «precedent», «waplaw». :))

suare
+14
suare, 29 Августа 2021 , url

И самый главный смотрящий на районе Stopor Stopor ;)))

waplaw
+10
waplaw, 29 Августа 2021 , url

Хорошо, что против этого тараканьего алгоритма ещё действуют принципы личной гигиены по ежедневной уборке с «дустом»:-)

suare
+14
suare, 29 Августа 2021 , url

Я попробовал — не понравилось. И балл 3,9 из 5 говорит сам за себя. На новостях не заработаешь, но ребятки честно пытаются, превозмогая недовольство пользователей.

waplaw
+8
waplaw, 29 Августа 2021 , url

На чьих полях они хостятся?

suare
+12
suare, 29 Августа 2021 , url
15.02.2021

В России появилась соцсеть «ЯRUS»: приложение обещает отсутствие рекламы и свободу слова

Первый этап запуска начнется с новостного контента

В Google Play и App Store стало доступно мобильное приложение «ЯRUS». Разработчики предлагают ярусный контент — новости, видео, события, блогинг на одной площадке в формате «Все, что вы любите. Без рекламы». Задача приложения — объединить на базе независимой платформы весь популярный медиаконтент без назойливой рекламы.

Приложение отличается от существующих форматов социальных сетей, видеохостингов и новостных агрегаторов политической нейтральностью площадки и плюрализмом мнений пользователей: без цензуры и блокировок, каждый находится в своей локальной экосистеме среди пользователей и контента, отвечающих его интересам.

Для массового использования система будет включаться поэтапно: первый этап запуска начнется с яруса «Новости». Контент будет подбираться на основе алгоритмов нейросети по геолокации и интересам. Кроме того, система распознает местоположение пользователя и выдает не только федеральную прессу, но СМИ своего города и региона. Сейчас «ЯRUS» предлагает более 55 тыс. журналистских материалов в сутки из 2 тыс. разных источников.

Следующий планируемый этап развития экосистемы — запуск яруса видеохостинга, релиз которого планируется в ближайшее время.

fakenews
+12
fakenews, 30 Августа 2021 , url

у яндекса свои ДЦ.

badbag
-1
badbag, 30 Августа 2021 , url

я хз, юзаю тот же я.дзен алгоритмы или вообще не работают или работают через одно место, новости которые именно в блоке новостей идут вообще интересы не учитывают



Войдите или станьте участником, чтобы комментировать