[Big Data] Опасная сторона «больших данных»

отметили
19
человек
в архиве
[Big Data] Опасная сторона «больших данных»
На конференции EmTech 2013, которую на этой неделе провёл Массачусетский технологический институт, то и дело всплывала тема «больших данных». По мнению некоторых выступающих, эта технология даёт слишком богатые возможности для злоупотреблений.

Первым об этом заговорил Крейг Манди, бывший директор Microsoft по исследованиям и стратегии, который руководил разработкой Windows CE и стоял за инициативой Trustworthy Computing. Год назад он отошёл от дел, но пока остаётся советником главы Microsoft Стива Балмера.

По мнению Манди, сбор информации о людях, которым занимаются и корпорации, и государственные органы, вышел из-под контроля. Ограничивать его нужно было раньше. Сейчас запреты не помогут. Момент, когда джинна ещё можно было загнать в бутылку, давно миновал.

Манди считает, что теперь стоит бороться не со сбором, а с использованием персональной информации без разрешения. Причём бороться очень жёстко. «Лично я сделал бы это тяжким уголовным преступлением, — говорит бывший руководитель Microsoft. — В противном случае наказание будет слишком лёгким и никого не отпугнёт».

Чем именно опасен сбор и анализ данных, объяснила участникам EmTech Кейт Кроуфорд из Microsoft Research.

Компании всё чаще и чаще пытаются узнать о своих клиентах побольше, по крупицам отыскивая информацию о них из общедоступных источников — например, публичных постов в социальных сетях. Как правило, эти данные используются для того, чтобы точнее подбирать рекламу и маркетинговые предложения.

Речь идёт не только о контекстной рекламе Google и «Яндекса» или персонализированных рекомендациях в Amazon и Netflix. Тот же подход эксплуатируют и компании, работающие преимущественно в офлайне. Вспомните, например, сеть супермаркетов Walmart, которая разработала систему, внимательно следящую за тем, что пишут в интернете её покупатели:

Система Social Genome в реальном времени переваривает все публичные посты в социальных сетях, до которых ей удаётся дотянуться: Twitter, Facebook, даже Foursquare. Посты подвергаются семантическому анализу. Social Genome способна по контексту обходить большинство ловушек, связанных с неоднозначностью естественного языка. Добытая информация помогает составлять пугающе точные рекомендации и персонализировать рекламные рассылки.

Обычно подобная персонализация делает сервис удобнее для потребителей, но так происходит не всегда. Узнав о человеке побольше, компания может решить, что она не желает иметь с ним дело. В этом случае он лишится возможностей, которыми обладают другие.

Кроуфорд видит в таком подходе обновлённую версию печально известной «политики красной черты» (redlining), которая была распространена в Соединённых Штатах несколько десятилетий назад. В те времена банки и страховые компании предпочитали сотрудничать с состоятельными белыми мужчинами. Шансы женщин, представителей меньшинств и обитателей бедных кварталов на получение кредита или страховки стремились к нулю.
Добавил suare suare 13 Октября 2013
Комментарии участников:
suare
+1
suare, 13 Октября 2013 , url
Взгляните, например, на эту карту Филадельфии. В 1936 году её использовала госкорпорация HOLC, помогавшая жертвам Великой депрессии перекредитовать ипотеки. Красным цветом отмечены бедные районы. Обращения, поступающие оттуда, отвергались без рассмотрения.
источник: computerra.ru
В 1968 году подобная практика была запрещена. Теперь для того, чтобы отказать в обслуживании, американским компаниям требуется более веская причина, чем раса, происхождение, религиозные взгляды, пол, семейное положение или наличие инвалидности.

Сбор и анализ данных — это лазейка, помогающая обойти этот запрет, считает Кроуфорд. Если компания решила, что её клиент относится к одной из нежелательных категорий, она может просто не сообщать ему о существовании некоторых услуг или предложить менее выгодные условия. Формально отказа нет, но эффект тот же.

Кроуфорд утверждает, что банки и страховые компании уже применяют «большие данные» для того, чтобы отсеивать клиентов, которые особенно нуждаются в помощи. Они добывают анонимизированные сведения о покупателях Amazon и посетителях медицинского портала WebMD, а затем сличают их с демографической информацией, пытаясь определить, кто есть кто. Это может привести, например, к тому, что женщина, которая разыскивала в WebMD сведения о раке груди и покупала в Amazon книги на ту же тему, вряд ли сумеет получить страховку или ссуду.

По мнению Кроуфорд, с этим нужно что-то делать. При достаточно большом количестве данных анонимность превращается в иллюзию и больше не защищает людей. Первым шагом к решению проблемы могла бы стать большая прозрачность процесса сбора и анализа данных. Кроуфорд считает, что компании должны сообщать людям, какой информацией о них они обладают и как именно это влияет на их решения.

В этом есть смысл, но нужно заметить, что пример Кроуфорд — это лишь часть картины. Ничуть не реже использование «больших данных» приводит к совершенно иному эффекту.

В чём заключался смысл «политики красной черты»? Она представляла собой очень грубый и неточный способ оценки риска. Именно грубость, заставляющая стричь под одну гребёнку целые социальные группы, вела к дискриминации.

«Большие данные» решают эту проблему. Они позволяют оценить риск индивидуально и разобраться в особенностях каждого случая по отдельности. Так делает, к примеру, компания ZestFinance, о которой мы не так давно писали. Она предоставляет краткосрочные кредиты малообеспеченным людям с плохой кредитной историей:

Обычные кредиторы опасаются доверять деньги тем, кто не способен подтвердить свою платёжеспособность, но они не знают о своих потенциальных клиентах и половины того, что знает о них ZestFinance.

В отличие от конкурентов, которые по старинке оценивают риск, руководствуясь дюжиной простых и очевидных признаков, в ZestFinance принимают во внимание тысячи факторов. Влияние многих факторов на результат трудно объяснить, но данные свидетельствуют, что оно есть. В ZenCash делают ставку на технологии, которые позволяют увидеть в данных закономерности, которые незаметны и даже непонятны для человека.

Вот пример. Клиент, признавшийся в том, что он вряд ли успеет вернуть деньги в срок, в большинстве банков попадёт в списки неблагонадёжных. Логично? Да. Проблема в том, что логика в таких вопросах — плохой помощник. В ZestCash обнаружили, что в действительности такое признание не уменьшает, а увеличивает вероятность того, что кредит будет выплачен до конца.

Это полная противоположность «политике красной черты».

В конечном счёте всё сводится к тому, что у «больших данных», как и у любой другой важной технологии, есть две стороны. Они могут использоваться во вред людям (и, вероятно, используются). Но они могут использоваться и во благо (и это происходит как минимум не реже). Занимаясь борьбой с первым, не следует забывать о втором.
suare
+1
suare, 13 Октября 2013 , url
Кондитерское изделие первой необходимости: как сеть супермаркетов Walmart превратилась в технологическую компанию
«Walmart пользовался методами Big Data ещё до того, как это вошло в моду», — сказала не так давно информационный директор Wal-Mart Stores Кэринэнн Терелл, и это чистая правда. В самом начале девяностых компания вложила четыре миллиарда долларов в разработку системы Retail Link, с помощью которой поставщики магазинов могли в реальном времени контролировать темпы продаж и количество товаров на складе.

К 2004 году супермаркеты компании тщательно следили не только за товарами (это само собой), но и за покупателями. Информацию, с помощью которой можно идентифицировать людей, собирали по крупицам, занося в компьютерную систему номера с документов, счетов и платёжных карт.

Можно было не сомневаться, что точный ответ на вопрос, как меняется спрос на товары перед ураганом, уже содержится в дата-центре Walmart. Нужно лишь извлечь его.

Специалисты компании обработали данные об изменениях спроса, которые наблюдались перед ураганом, случившимся за несколько недель до того. Оказалось, что сильнее всего ожидание катастрофы повлияло на продажи печенья Pop-Tarts, причём не какого-нибудь, а с земляничным вкусом.

Из данных следовало, что перед бедствием посетители Walmart скупили в семь раз больше пачек с печеньем, чем обычно, а на первое место по продажам ураган вынес не товары первой необходимости, а пиво.

Как догадаться, что между печеньем с земляничным вкусом и стихией есть связь? Её наличие никак не укладывается в распространённые представления о том, что принято делать перед столкновением со стихией. В результате она остаётся незамеченной.

Данные любой крупной корпорации переполнены неочевидными зависимостями и закономерностями. Именно с этим связана изрядная доля ажиотажа вокруг «больших данных»: под шапкой этого термина скрываются технологии, которые проявляют невидимые связи.

Хотя в Walmart не могли объяснить, почему Pop-Tarts покупают перед ураганами, это не помешало использовать странное открытие. В супермаркеты успели завезти побольше печенья, а полки с ним перенесли поближе к другим товарам, которые могут быть полезны в экстренных случаях.

Девять лет спустя объём данных, накопленных Wal-Mart Stores, превысил 2,5 петабайта (петабайт в миллион раз больше гигабайта). 38 тысяч серверов компании обрабатывают более миллиона покупательских транзакций в час.

Если в 2004 году поиск особенностей в колебаниях спроса перед стихийными бедствиями представлял собой разовый проект, предпринятый по решению руководства компании, то теперь системы Walmart собирают и анализируют информацию в реальном времени.

С помощью сбора и обработки данных в Walmart пытаются заблаговременно улавливать и учитывать тенденции. В некоторых случаях не только поиск тенденций, но и реакция на них полностью автоматизированы: так, например, происходит коррекция цен и назначение скидок в интернет-магазине компании. Кроме того, данные помогают повысить эффективность и улавливать даже незначительные ошибки платёжных систем или банков.

источник: computerra.ru
Дата-центр Walmart (2006 год).
Пока основные усилия Walmart Labs направлены на развитие интернет-магазина. Технологическая основа Walmart.com учитывает всё — от поведения пользователей и финансовых показателей до действий конкурентов. На их основе она генерирует рекомендации для пользователей, назначает скидки, моделирует цены и готовит отчёты для аналитиков компании.

За десятилетия Walmart оброс разношёрстными и плохо совместимыми системами обработки данных. Walmart Labs унаследовала небольшой экспериментальный кластер Hadoop, состоящий из десятка узлов, и сборную солянку из решений Oracle, Greenplum и Netezza. В 2012 году произошла миграция на новый кластер Hadoop с 250 узлами и унифицированными решениями собственной разработки.

Один из наиболее интересных проектов Walmart Labs, по всей видимости, вырос из технологий Kosmix. Система Social Genome в реальном времени переваривает все публичные посты в социальных сетях, до которых ей удаётся дотянуться: Twitter, Facebook, даже Foursquare.

Посты подвергаются семантическому анализу. Social Genome способна по контексту обходить большинство ловушек, связанных с неоднозначностью естественного языка. Добытая информация помогает составлять пугающе точные рекомендации и персонализировать рекламные рассылки.
источник: computerra.ru
Скорость, с которой Social Genome перерабатывает данные, так велика, что даже Hadoop начал захлёбываться. В Walmart Labs пришли к выводу, что столкнулись с ограничением модели Map/Reduce, на которой основан Hadoop, и разработали собственное средство параллельной обработки информации, учитывающее специфические требования этой задачи.

Первые компании, сорвавшие куш на Big Data, зачастую были в той или иной степени связаны с технологиями и натолкнулись на золотую жилу случайно. С Walmart — совершенно другая история. Двадцать лет назад сеть супермаркетов вполне сознательно сделала ставку на «большие данные» и выиграла. Теперь Walmart пытается совершить новый технологический скачок. От того, удастся ли это, зависит, чем увенчаются следующие двадцать лет деятельности компании.
suare
+1
suare, 13 Октября 2013 , url
источник: computerra.ru
www.computerra.ru/bigdata/


Войдите или станьте участником, чтобы комментировать