Рекомендательные системы: как семь алгоритмов ЯRUS подбирают пользователям ежедневно из примерно 56 000 новостей от 10 000 источников СМИ только самое необходимое
источник: hsto.org
Руководитель технической дирекции ЯRUS, Дмитрий Илюхин
Сегодня мы поговорим о внутренней кухне рекомендательных систем на примере приложения ЯRUS. Разработчики предлагают ярусный контент – новости, видео, события, музыку и многое другое. Однако цель команды ЯRUS – не только собирать разнообразный контент на одной площадке, но и правильно показывать его пользователям, за что и отвечает рекомендательная система. Что же такое рекомендательные системы и как они работают, расскажет руководитель технической дирекции ЯRUS Дмитрий Илюхин.
— Привет, как ты долго занимаешься проектом?
— В ЯRUS я с самого его основания, с июля 2020 года. Многое, что вы можете увидеть сейчас, – итог наших общих трудов с командой.
— А если человек только зашел в приложение, то какие новости он увидит?
— Это называется «холодный старт» и является частным случаем рекомендательной системы. Вся рекомендательная система для нового пользователя основывается лишь на общих параметрах. То есть он увидит выдачу первого алгоритма: самый свежий, а также самый обсуждаемый контент.
— Сколько времени потребовалось на разработку модели?
— На исследование и разработку мы потратили около двух месяцев. Естественно, над проектом работали люди, которые уже занимались такими алгоритмами ранее.
Далее система приводит все слова к начальной форме. Этот процесс называется лемматизацией текста, и он занял большую часть времени, вместе с вычисткой новостного мусора, о котором я говорил ранее.
После у нас был длительный период по определению весов. Сначала, например, мы сильно завышали новости с большим числом лайков и комментариев. Но когда мы поняли, что таким образом они всегда будут оставаться в начале ленты, продолжая собирать реакции пользователей, мы увеличили вес у других алгоритмов. Такой вот метод проб и ошибок.
— Что планируете сделать в будущем?
— Весь наш вектор развития нацелен на персонализацию. То есть мы хотим, чтобы, когда человек попадает в приложение, у него уже были преднастроены и новости, и видео под его интересы. То есть, если человек пришел к нам с автомобильного сайта, мы сразу будем выдавать ему рекомендации по теме.
До конца года мы планируем сделать персонализированные рекомендации не только новостей, но и видео. Там принцип отбора и алгоритмы совсем другие.
— Спасибо за интервью. Предлагаю в следующий раз обсудить рекомендательную систему для видео.
— Приходите, буду рад рассказать о развитии нашего проекта.
я с самого его основания, с июля 2020 года. Многое, что вы можете увидеть сейчас, – итог наших общих трудов с командой.
—Расскажи чуть подробнее, как связаны приложение и рекомендательная система?
— Наше приложение выступает не только как социальная платформа, но и как агрегатор. Основная задача проекта – это собрать контент: аудио, видео, текст и изображения для пользователя так, чтобы он ему был максимально интересен. Для этого и используются рекомендательные системы.
Есть два типа подходов. Первые основаны на том, что смотрит группа пользователей; вторые – на предпочтении конкретного человека. Мы учитываем всё.
Например, к нам в систему ежедневно подтягивается около 56 000 новостей от 10 000 источников СМИ. Все они проходят внутреннюю чистку: на качество, язык и прочие параметры. Оставляем только литературные тексты.
После этого идет формирование новостного сюжета. При выборе главной новости используются разные веса: новизна и объем новости. Это и станет той базой, что мы будем рекомендовать пользователям, используя различные алгоритмы ранжирования.
– Расскажи поподробнее, что это за алгоритмы такие?
— Всего их семь. Первый считает, сколько у каждой новости показов, просмотров, лайков, эмоций и комментариев. Каждый из показателей дает новости определенный вес. И чем он больше, тем больше шансов у новости стать топовой.
– А чем отличается показ от просмотра?
— Показ – это когда новость появляется на экране, а просмотр – это когда пользователь ее открывает.
Второй алгоритм начинает работать, когда пользователь просматривает ленту новостей. Здесь уже начинается процесс персонализации: система анализирует тексты заинтересовавших человека новостей, определяя часто встречающиеся в этих новостях слова. И в дальнейшем пользователь увидит в ленте похожие новости.
Третий алгоритм построен на попытке классифицировать новости: в нашей системе около ста роботизированных тематик. Мысль такая: если человек смотрит новости определенной группы, то и в дальнейшем ему будут интересны новости этой группы.
Далее пользователи распределяются на группы. Каждого нового человека, в зависимости от того, какие новости он смотрит, мы относим к той или иной группе. А для каждой просмотренной новости прибавляем вес, что повлияет на дальнейшую выдачу похожих материалов в ленте. Так работает четвертый алгоритм.
— А влияет на выбор новостей место, где находится пользователь?
— Да, на этом основан как раз следующий, пятый, алгоритм. Мы пытаемся предсказать геолокацию пользователя, либо он сам назначает ее в процессе регистрации. Это нужно для соблюдения региональности новостей, чтобы человек из Рязани не получал в ленте новости Красноярска.
Шестой и седьмой алгоритмы – это усиления по дате выхода новости и категории. Они помогают распределять новости по времени и принадлежности интересов пользователя.
Каждый из этих семи алгоритмов по-разному влияет на контент. Но геолокация – это самый важный параметр. Именно по этому алгоритму новости будут подниматься выше всего.
Таким образом, чем больше человек лайкает, комментирует, просматривает новостей, листает ленту, читает новости и чем точнее он определил любимые категории и свою геолокацию, тем релевантнее его лента новостей.
источник: hsto.org
— А если человек только зашел в приложение, то какие новости он увидит?
— Это называется «холодный старт» и является частным случаем рекомендательной системы. Вся рекомендательная система для нового пользователя основывается лишь на общих параметрах. То есть он увидит выдачу первого алгоритма: самый свежий, а также самый обсуждаемый контент.
— Сколько времени потребовалось на разработку модели?
— На исследование и разработку мы потратили около двух месяцев. Естественно, над проектом работали люди, которые уже занимались такими алгоритмами ранее.
Далее система приводит все слова к начальной форме. Этот процесс называется лемматизацией текста, и он занял большую часть времени, вместе с вычисткой новостного мусора, о котором я говорил ранее.
После у нас был длительный период по определению весов. Сначала, например, мы сильно завышали новости с большим числом лайков и комментариев. Но когда мы поняли, что таким образом они всегда будут оставаться в начале ленты, продолжая собирать реакции пользователей, мы увеличили вес у других алгоритмов. Такой вот метод проб и ошибок.
— Что планируете сделать в будущем?
— Весь наш вектор развития нацелен на персонализацию. То есть мы хотим, чтобы, когда человек попадает в приложение, у него уже были преднастроены и новости, и видео под его интересы. То есть, если человек пришел к нам с автомобильного сайта, мы сразу будем выдавать ему рекомендации по теме.
До конца года мы планируем сделать персонализированные рекомендации не только новостей, но и видео. Там принцип отбора и алгоритмы совсем другие.
— Спасибо за интервью. Предлагаю в следующий раз обсудить рекомендательную систему для видео.
— Приходите, буду рад рассказать о развитии нашего проекта.
Китайские власти опубликовали проект руководящих принципов по регулированию алгоритмов, которые компании используют для предоставления рекомендаций пользователям.
В проекте содержится 30 принципов. Так, администрация киберпространства Китая (CAC) предложила запретить компаниям развертывать алгоритмы, которые «поощряют зависимость или высокое потребление» и ставят под угрозу национальную безопасность, либо нарушают общественный порядок. Системы рекомендаций должны соблюдать деловую этику и принципы справедливости, а их алгоритмы не должны использоваться для создания фальшивых учетных записей пользователей или создания других ложных впечатлений, говорится в документе.
Документ предлагает предоставить пользователям возможность легко отключать рекомендации. Поставщики алгоритмов, которые имеют право влиять на общественное мнение или мобилизовать граждан, должны получать одобрение CAC.
Наблюдательный орган заявил, что будет принимать отзывы общественности о новых правилах в течение месяца, до 26 сентября.
Ранее в этом году поддерживаемая Пекином ассоциация потребителей Китая заявила, что местные интернет-компании «запугивают» пользователей при совершении покупок и рекламных акций и подрывают их права на конфиденциальность.
Новые правила, похоже, нацелены на ByteDance, Alibaba Group, Tencent, Didi и другие компании, чьи услуги построены на основе собственных алгоритмов. Акции Alibaba и Tencent на новостях немного подешевели.
Этим летом CAC начал расследование в отношении Didi Global по обвинению в нарушении конфиденциальности пользователей.
Президент Tencent Мартин Лау говорил, что регулирование интернета в Китае было достаточно свободным. По его мнению, введение требований со стороны государства было вопросом времени. Однако Лау признал, что новые правила негативно повлияют на чистую прибыль компании.
В августе Всекитайское собрание народных представителей Китая приняло закон, направленный на защиту конфиденциальности данных пользователей в Интернете. Он вступит в силу с 1 ноября. Закон предусматривает, что обработка личной информации должна иметь четкую и разумную цель и ограничиваться «минимальным объемом, необходимым для достижения целей обработки».
В нем также изложены условия, при которых компании могут собирать личные данные, в том числе получение согласия отдельного лица, а также есть рекомендации по обеспечению защиты данных при передаче их за пределы страны.
Наконец, закон призывает обработчиков личной информации назначать лицо, отвечающее за ее защиту, и проводить периодические проверки для обеспечения соблюдения закона.
«Яндекс» теперь даёт возможность настраивать источники новостей. В разделе «Яндекс.Новости» в первую очередь будут показываться новости из тех изданий, которые вы выберете как приоритетные (если там «горячие» новости, конечно, есть). Также можно скрыть нежелательные источники или источники, которые не вызывают у вас доверие.
Чтобы выбрать любимые СМИ или СМИ, которым вы доверяете, нужно перейти по ссылке https://yandex.ru/news#settings либо, находясь в Яндекс.Новостях, выбрать в своём аккаунте раздел настройки источников, кликнув по аватарке:
Перед вами откроется меню поиска СМИ и возможность добавить источник в избранное или скрыть:
Нежелательные источники, действительно, скрываются, а вот избранные показываются в списке новостей сверху только в том случае, если актуальная новость из выбранного СМИ попала в топ Яндекса. Далее в списке показываются те источники, к которым вы не выразили своего отношения:
Новости из избранных источников помечаются жёлтым значком в правом нижнем углу логотипа выбранного СМИ.
Откуда берутся новости в “Яндекс.Новостях»? (Источник)
В пресс-службе «Яндекса» сообщили, что у «Яндекс.Новостей» нет редакции, и новости собираются автоматически из сообщений СМИ с регистрацией Роскомнадзора. Сервис формирует сюжеты — подборки новостных сообщений об одном событии, которые помогают ориентироваться в потоке новостей.
Топ-5, который ежедневно видят пользователи на главной странице портала, формируется следующим образом: учитывается скорость появления новых сообщений по теме в СМИ, а также общее число изданий, среагировавших на то или иное событие. При этом информация все время меняется — поскольку новости появляются в медиа буквально каждую минуту. Если новость интересна пользователям и они много о ней читают, то это добавляет ей значимость.
В пресс-службе „Яндекса“ сообщили, что у „Яндекс.Новостей“ нет редакции, и новости собираются автоматически из сообщений СМИ с регистрацией Роскомнадзора. Сервис формирует сюжеты — подборки новостных сообщений об одном событии, которые помогают ориентироваться в потоке новостей.
Топ-5, который ежедневно видят пользователи на главной странице портала, формируется следующим образом: учитывается скорость появления новых сообщений по теме в СМИ, а также общее число изданий, среагировавших на то или иное событие. При этом информация все время меняется — поскольку новости появляются в медиа буквально каждую минуту. Если новость интересна пользователям и они много о ней читают, то это добавляет ей значимость. Также существует вкладка „интересное“, где новости формируются исходя из потребностей конкретного пользователя.
Новости Mail.ru — это агрегатор с собственной редакцией, который отслеживает и освещает наиболее важные события федерального и мирового значения, а также формирует картины дня для локализованных стран и регионов РФ. „Мы сотрудничаем с крупнейшими российскими и зарубежными СМИ, а также региональными и тематическими изданиями, — рассказывает директор медиапроектов Mail.ru Group Анатолий Рожков. — 24 часа в сутки без праздников и выходных сотрудники проекта мониторят актуальную новостную повестку, а также отслеживают тренды текущих пользовательских интересов. Из поступающего от партнеров информационного потока отбираются самые оперативные, полные, интересные пользователям материалы, проводится фактчекинг и оценка на беспристрастность, затем происходят вычитка, оформление и публикация материалов. Безусловное предпочтение отдается первоисточникам информации“.
Опубликованные материалы попадают в так называемый „прогрев“, где за короткий промежуток времени на контрольной группе пользователей определяется, насколько они интересны аудитории разных групп. В случае чрезвычайных событий используется ускоренный механизм прохождения этой процедуры. По результатам „прогрева“ новость попадает в картину дня соответствующей группе пользователей и занимает там позицию согласно текущему читательскому интересу к ней.
Далее начинается основная фаза ее жизненного цикла, где новость ротируется в соревновании с другими материалами до тех пор, пока спрос пользователей на другие инфоповоды не вытеснит ее из актуальной новостной повестки. Все стадии этого процесса, после выхода новости от редактора, проходят практически полностью в автоматическом режиме, без участия человека. Исключения касаются только breaking news, а также завершения, опровержения или резкого изменения в развитии инфоповодов.
Новостная лента Google строится исходя из интересов пользователя. Например, если пользователь искал на YouTube трейлер какого-то фильма, то ему будет предложено подписаться на новости, связанные с этим фильмом. Кроме того, предлагается актуальная информация, связанная с новостной повесткой. В Google отмечают, что „Умная лента“ целиком и полностью составляется из интересов каждого конкретного пользователя.
Пресс-секретарь НП „ГЛОНАСС“ Ярослав Федосеев считает, что для попадания в топ необходимо сделать парадоксальный инфоповод, где присутствуют несовместимые понятия. „К примеру, плата за проезд через перекресток, умный лежачий полицейский, искусственный интеллект, отчисляющий студентов, дрон-дальнобойщик и др., — говорит он. — Хорошей темой для выхода в топ может стать исследование-опрос с неожиданными результатами. Сделать это может любой бренд, а при правильной подаче такой контент возьмет любое рейтинговое СМИ. Если новость получит 10-20 рейтинговых публикаций за один час, то в топе она гарантированно появится хотя бы на какое-то время“.
ПОХОЖИЕ ПУБЛИКАЦИИ
Рекомендательные системы: проблемы и методы решения. Часть 1
Рекомендательные системы: проблемы и методы решения. Часть 2
Шаги построения рекомендательной системы в обучении персонала
Хорошо, что против этого тараканьего алгоритма ещё действуют принципы личной гигиены по ежедневной уборке с «дустом»:-)
Я попробовал — не понравилось. И балл 3,9 из 5 говорит сам за себя. На новостях не заработаешь, но ребятки честно пытаются, превозмогая недовольство пользователей.
В России появилась соцсеть «ЯRUS»: приложение обещает отсутствие рекламы и свободу слова
Первый этап запуска начнется с новостного контента
В Google Play и App Store стало доступно мобильное приложение «ЯRUS». Разработчики предлагают ярусный контент — новости, видео, события, блогинг на одной площадке в формате «Все, что вы любите. Без рекламы». Задача приложения — объединить на базе независимой платформы весь популярный медиаконтент без назойливой рекламы.
Приложение отличается от существующих форматов социальных сетей, видеохостингов и новостных агрегаторов политической нейтральностью площадки и плюрализмом мнений пользователей: без цензуры и блокировок, каждый находится в своей локальной экосистеме среди пользователей и контента, отвечающих его интересам.
Для массового использования система будет включаться поэтапно: первый этап запуска начнется с яруса «Новости». Контент будет подбираться на основе алгоритмов нейросети по геолокации и интересам. Кроме того, система распознает местоположение пользователя и выдает не только федеральную прессу, но СМИ своего города и региона. Сейчас «ЯRUS» предлагает более 55 тыс. журналистских материалов в сутки из 2 тыс. разных источников.
Следующий планируемый этап развития экосистемы — запуск яруса видеохостинга, релиз которого планируется в ближайшее время.