[Я отказываюсь разговаривать в подобном тоне!] Стэнфордская нейросеть определяет тональность текста с точностью 85%

отметили
36
человек
в архиве
[Я отказываюсь разговаривать в подобном тоне!] Стэнфордская нейросеть определяет тональность текста с точностью 85%
Sentiment analysis (по-русски, анализ тональности) — это область компьютерной лингвистики, которая занимается изучением эмоциональной окраски текстов.

Анализ тональности нужен для лучшего «понимания» текстов, перевода с одного языка на другой. Сложность задачи заключается в непростых лингвистических конструкциях, которые часто используют люди, подробнее см. в статье Irokez’а.

Даже человек не сразу распознает негатив во фразе вроде «В этой книге хороша только обложка». Как обучить этому компьютер?

Точность определения эмоций у лучших компьютерных программ до сегодняшнего дня составляла не более 80%. Группе учёных из Стэнфорда при участии небезызвестного Эндрю Нг удалось довести её до 85%, а при дальнейшем обучении рекурсивной нейросети точность вполне может повыситься до 95%, говорит один из авторов исследования. Заметим, что 95% — это будет абсолютно феноменальный результат, не все люди способы распознавать сарказм и определять тональность слов с такой точностью.

Для первоначального обучения нейросети учёные использовали набор данных из 12 000 кинорецензий, которые разбили на отдельные фразы с помощью автоматического парсера. В результате получилось 215 тыс. фраз.

Каждая из них была прочитана тремя людьми с проставлением оценки по степени положительной или отрицательной тональности.

На скриншоте показан интерфейс, который предлагался пользователям Amazon Mechanical Turk.

источник: habr.habrastorage.org

Авторы создали модель NaSent (Neural Analysis of Sentiment), которую называют рекурсивной тензорной нейросетью (Recursive Neural Tensor Network) для обработки отдельных слов в каждой фразе, построения дерева взаимосвязей и анализа, какую эмоциональную окраску несёт каждое слово и как слова влияют друг на друга.

В онлайновом демо можно изучить, как работает программа. Она строит дерево с оценкой каждого слова, каждой фразы и всего текста целиком. Уникальность программы можно оценить на следующих двух примерах, которые состоят из одних и тех же слов, но в разном порядке, что меняет тональность предложения — и программа это понимает.

источник: habr.habrastorage.org

Анализ фразы «Unlike the surreal Leon, this movie is weird but likeable» выдаёт общий положительный результат (синий), сочетание «странный, но приятный» правильно распознаётся как положительное

источник: habr.habrastorage.org

Фраза из тех же слов, но в другом порядке «Unlike the surreal but likeable Leon, this movie is weird» корректно распознаётся как отрицательный отзыв (красный цвет в общей оценке)

Кстати, онлайновое демо одновременно является инструментом для обучения нейросети. Каждый пользователь может предложить программе произвольный текст для анализа — и скорректировать результат.
Добавил suare suare 17 Октября 2013
Комментарии участников:
Osado
+2
Osado, 17 Октября 2013 , url
Интересна не сама нейросеть, а исходные, оцененные людьми на AMT тексты.
Имея оцененный корпус текстов — построить анализ не сложно, тут не только нейросеть, а скорее SVM даже лучше подойдет.
Порядок слов так-же легко учитывается 2-gramm и триграммами, когда в статистике учитывается не одно слово как один объект, а сразу несколько, предварительно выбрасывая по статистике ничего не значащие.
Osado
+2
Osado, 17 Октября 2013 , url
Хотя нет, там более глубокий анализ текста, чем просто N-gramm.
Но и такие проекты давно есть, например АОТ для русского языка, позволяет строить поверхностно семантический граф.
Нужно только «разукрасить» предикаты в этом графе по тональности.
Жёсткой логикой разукрасить — не получится, поэтому и нужны нейросети и SVM.
suare
0
suare, 17 Октября 2013 , url
Спасибо, с удовольствием прочёл оба Ваших комментария. Жаль, что не могу составить Вам компанию: «язЫков я не знаю» ;) В смысле грамотёшки в данном вопросе маловато, поэтому и запостил эту новость. Надеюсь, что партнёр Вам всё же найдётся. Время есть.
Онлайновая демонстрация программы на произвольном тексте
Научная работа (pdf)
Набор данных для обучения нейросети (6 МБ)
Код программы (будет опубликован перед конференцией EMNLP, которая начинается 18 октября)
Комментарии к этой новости на Хабре — отдельный разговор.


Войдите или станьте участником, чтобы комментировать