[«Стук, стук, кто в теремочке живёт?»] Как бы ни гремели скандалы про PRISM и СОРМ, про персональные данные и их утечки, социальные сети так и манят поведать о себе всё

отметили
39
человек
в архиве
[«Стук, стук, кто в теремочке живёт?»] Как бы ни гремели скандалы про PRISM и СОРМ, про персональные данные и их утечки, социальные сети так и манят поведать о себе всё
Целая энциклопедия о поведении большинства интернет-активной публики лежит совсем рядом. Эти данные лежат в открытом доступе, но взять и проанализировать их не так легко — всё слишком неструктурировано и разрозненно, да и пригодных для машинного анализа наборов данных о соцсетях практически нет. А для России — так и подавно.

Выбора не оставалось, и пришлось, зловеще хохоча по ночам, писать простеньких пауков для соцсетей ВКонтакте, Одноклассники, МойМир и русского сегмента Фейсбук, которые за несколько месяцев неспешно собрали более или менее статистически-корректный семпл данных. Собиралась только та информация, которую люди сами о себе рассказали. А рассказали они много.

О том, что удалось выудить из таких данных, и пойдет рассказ.

Признаюсь, это исследование далеко не первое. Соцсети (а особенно Фейсбук и ВКонтакте) открыто изучали уже много раз. И даже ваш покорный слуга писал статью про шесть рукопожатий, собрав для этого полный граф друзей из ВКонтакте.

Но не единым Вконтактом живет рунет. Хотелось заглянуть в то, что творится в других соцсетях, не менее обитаемых, а также понять отличия в их аудитории.

Это наш не первый опыт сбора больших данных под покровом ночи. Так что в быстром темпе в пять рук на Qt/C++ и Python были написаны четыре паука, которые, неспешно прогуливаясь по отдельным соцсетям, записывали в базу все, что они встретили.

Разные соцсети по-разному относятся к парсингу. Проблемы возникали с Одноклассниками и Фейсбуком, у которых, как оказалось, есть довольно хитрая система детекта подозрительных ботов. К счастью, она по большей части нацелена на спамеров, а наши боты с этой точки зрения выглядят розовыми и пушистыми, и нам кое-как удалось настроить более-менее стабильный, хоть и очень медленный сбор.

Выкачать много данных — легко, всего лишь два месяца сбора. Но паранойя шагает по планете, и у большинства людей открытый профиль в соцсети выглядит очень скудно. Львиная доля информации доступна только лишь для друзей. Но дело в том, что сами-то друзья чаще всего открыты!

И на основании их можно вычислить довольно много интересного. К примеру, город, возраст и ВУЗ. Да и еще много чего.

Как бы хабр ни был вне политики, она нынче сочится из всех щелей. В соцсетях даже поле специальное есть, описывающее политические взгляды, которое мы сейчас препарируем.

источник: habr.habrastorage.org

Лично я удивлен тем, что нынче существует столько людей, гордо отметивших свое равнодушие к политике. Количество таких людей плавно уменьшается с возрастом, но незначительно.

С возрастом количество консерваторов и либералов растет. Видимо, за счет людей с индифферентными политическими взглядами.
Добавил suare suare 25 Октября 2013
Комментарии участников:
X86
+3
X86, 25 Октября 2013 , url
Я тут давеча в Google plus зарегистрировался. Вот это действительно сборник информации о тебе. Причем, собирает так непринужденно, как бы между делом ) После вконтактика ощущается какой-то подвох.
suare
+2
suare, 25 Октября 2013 , url
Берегите фотографии и видео. Они автоматом попадают в сеть. Это опционально.
X86
+2
X86, 25 Октября 2013 , url
Ужас ) Ну я не стал гуглу доверять фотографии ) Даже Н2 доверил, а гуглу нет) Когда что-то непонятно (а там ужасно непонятный интерфейс, такой же непонятный как у фейсбука), то не хочется с этим связываться)
Корнеплод
+1
Корнеплод, 25 Октября 2013 , url
:) Линейный график очень показателен.


Войдите или станьте участником, чтобы комментировать