Целая энциклопедия о поведении большинства интернет-активной публики лежит совсем рядом. Эти данные лежат в открытом доступе, но взять и проанализировать их не так легко — всё слишком неструктурировано и разрозненно, да и пригодных для машинного анализа наборов данных о соцсетях практически нет. А для России — так и подавно.
Выбора не оставалось, и пришлось, зловеще хохоча по ночам, писать простеньких пауков для соцсетей ВКонтакте, Одноклассники, МойМир и русского сегмента Фейсбук, которые за несколько месяцев неспешно собрали более или менее статистически-корректный семпл данных. Собиралась только та информация, которую люди сами о себе рассказали. А рассказали они много.
О том, что удалось выудить из таких данных, и пойдет рассказ.
Признаюсь, это исследование далеко не первое. Соцсети (а особенно Фейсбук и ВКонтакте) открыто изучали уже много раз. И даже ваш покорный слуга писал статью про шесть рукопожатий, собрав для этого полный граф друзей из ВКонтакте.
Но не единым Вконтактом живет рунет. Хотелось заглянуть в то, что творится в других соцсетях, не менее обитаемых, а также понять отличия в их аудитории.
Это наш не первый опыт сбора больших данных под покровом ночи. Так что в быстром темпе в пять рук на Qt/C++ и Python были написаны четыре паука, которые, неспешно прогуливаясь по отдельным соцсетям, записывали в базу все, что они встретили.
Разные соцсети по-разному относятся к парсингу. Проблемы возникали с Одноклассниками и Фейсбуком, у которых, как оказалось, есть довольно хитрая система детекта подозрительных ботов. К счастью, она по большей части нацелена на спамеров, а наши боты с этой точки зрения выглядят розовыми и пушистыми, и нам кое-как удалось настроить более-менее стабильный, хоть и очень медленный сбор.
Выкачать много данных — легко, всего лишь два месяца сбора. Но паранойя шагает по планете, и у большинства людей открытый профиль в соцсети выглядит очень скудно. Львиная доля информации доступна только лишь для друзей. Но дело в том, что сами-то друзья чаще всего открыты!
И на основании их можно вычислить довольно много интересного. К примеру, город, возраст и ВУЗ. Да и еще много чего.
Как бы хабр ни был вне политики, она нынче сочится из всех щелей. В соцсетях даже поле специальное есть, описывающее политические взгляды, которое мы сейчас препарируем.
источник: habr.habrastorage.org
Лично я удивлен тем, что нынче существует столько людей, гордо отметивших свое равнодушие к политике. Количество таких людей плавно уменьшается с возрастом, но незначительно.
С возрастом количество консерваторов и либералов растет. Видимо, за счет людей с индифферентными политическими взглядами.