Google Chrome отправляет контент страниц в индекс

отметили
100
человек
в архиве
Google Chrome отправляет контент страниц в индекс
Итак, жил-был сайт. Часть его страниц была закрытой админской зоной. Причем закрыта была не в robots.txt (а зачем?), а на уровне доступа «white list» — то есть зайти туда можно было только с офисных IP самой компании.

И как же было удивительно видеть часть этих страниц в выдаче Гугла, причем, (вот это уже За Гранью Добра) не только страниц, но и сниппетов и сохраненной копии.

В общем расследование показало:
— Робот Гугла, естественно, туда зайти не мог — получал 500-ю ошибку.
— Но — была куча заходов с реферером от офисного Google Chrome, причем даже от тех людей, вход которых не был предусмотрен служебными обязанностями.
— Анализ трафика показывает, что Хром не просто отправляет URL посещенных пользователем страниц, но и их содержимое (!). Вот откуда и сниппеты, и сохраненная копия.

Как результат:
— Ну в общем я понимаю, что персональные данные всем безразличны, но тут уже речь идет о корпоративной информации в публичном доступе. Неужели и ей готовы делиться с Империей Добра?
— Google Chrome в нашей организации объявлен Spyware и запрещен.

Первая мысль естественно была пойти в суд, но увы — я не в России, и у нас нет такого вкусного закона о персональной информации. Но мы размышляем над этим.

PS: Нотариально Заверенные Скриншоты и логи естественно есть, в паблик не могу выложить — не хочу светить компанию. Но Юре покажу по его просьбе.
PPS: Кстати, и robots.txt Гугль не соблюдает — прямо закрытые им страницы все равно будут в выдаче как найденные (по ссылке? Нет таких ссылок!), но уже без сниппета и сохраненной копии (и на том спасибо!) Примеры опять же есть.
Добавил X86 X86 31 Июля 2011
проблема (11)
Комментарии участников:
fakenews
+1
fakenews, 31 Июля 2011 , url
Причем закрыта была не в robots.txt (а зачем?), а на уровне доступа «white list» — то есть зайти туда можно было только с офисных IP самой компании.

FAIL
www.google.com/chrome/intl/en/privacy.html
d41d8cd98f00b2
0
d41d8cd98f00b2, 1 Августа 2011 , url
> Откуда он знает?

Почти на всех сайтах есть гугл-аналитика, яндекс-метрика и прочие следилки. Начните с установки ад-блока во все используемые браузеры. На андройд-планшете можно поставить блокировщик рекламы (забыл точное название в маркете) и стараться НЕ использовать стандартный браузер.

Далее, флеш-плеер также часто устанавливает собственные следящие «кукисы», которые называются LSO. Это своего рода бессмертные кукисы, ибо браузеры как правило их не отображают, не контроллируют. Вот тут есть понятная инфа об этом чуде.
X86
+5
X86, 31 Июля 2011 , url
ага, на roem такой коммент:
Вы тут все такие умные, кто защищает Империю Добра, творимого для всех сразу (тм), но я вот не поленился и посмотрел в соглашение:

www.google.com/chrome/intl/ru/eula_text.html

6. Конфиденциальность и личная информация

6.1. Информация о способах защиты данных, применяемых Google, изложена в политике конфиденциальности Google: www.google.ru/privacy.html и www.google.com/chrome/intl/ru/privacy.html. В этой политике описывается, как Google обрабатывает личную информацию и обеспечивает Вашу конфиденциальность при использовании Услуг.

6.2. Вы разрешаете использовать свои данные в соответствии с политикой конфиденциальности Google.

7. Содержание, используемое в Услугах

7.1. Вы осознаете, что за всю информацию (такую как файлы данных, текстовые материалы, программное обеспечение, музыка, аудиофайлы и другие аудиоматериалы, фотографии, видео и другие изображения), к которой Вы можете получить доступ в процессе использования Услуг, ответственность несет исключительно то лицо, от которого поступило это содержание. Вся подобная информация будет именоваться далее «Содержание».



7.3. Компания Google оставляет за собой право (но не берет на себя никаких обязательств) предварительно просматривать, помечать, фильтровать, изменять, отклонять или удалять Содержание (частично или полностью) из любых Услуг.…

www.google.com/chrome/intl/ru/privacy.html

Кроме того, некоторые функции браузера Google отправляют в компанию Google дополнительную информацию.

Символы, которые вы вводите при указании URL или запросов в адресной строке, отправляются в поисковую систему, выбранную вами по умолчанию. Благодаря этому функция подсказок может автоматически предлагать варианты поискового запроса или URL, которые могут вам пригодиться. Если вы выбрали Google в качестве поисковой системы, браузер Chrome будет связываться с Google при запуске, чтобы определить наилучший локальный адрес для отправки поисковых запросов. Если вы решите предоставлять Google статистику использования и примете предложенный запрос или URL-адрес, Google Chrome отправит в Google также и эту информацию.…



Если включена вспомогательная функция «Автозаполнение», Chrome отправляет в Google лишь некоторые данные о структуре страницы с веб-формами и сведения о самих веб-формах. Эта информация необходима для улучшения работы Автозаполнения на этой странице. Chrome может отправлять в Google информацию о том, заполнено ли то или иное поле, но сами введенные данные не отправляются. Исключение составляют случаи, когда вы разрешаете сохранять эти данные в своем аккаунте с помощью функции синхронизации Google Chrome.

Ели вы пользуетесь встроенной в Google Chrome функцией передачи данных о своем местоположении, браузер будет отправлять сведения о вашем сетевом подключении в службы определения местоположения Google, чтобы получить ваши приблизительные координаты. В зависимости от характеристик вашего устройства сведения о вашем сетевом подключении могут включать данные о ближайших маршрутизаторах WiFi, идентификаторы базовых станций сотовой связи, уровень сигнала и такие данные, как IP-адрес вашего устройства. Эти сведения используются для обработки запросов о местоположении, а также для работы, поддержки и улучшения Google Chrome и служб определения местоположения Google. Собранные сведения носят анонимный характер и агрегируются перед использованием разработчиками Google для создания новых и улучшения существующих функций, продуктов и служб.



Использование

Информация, которую получает компания Google, когда вы используете Google Chrome, необходима для обеспечения работы и совершенствования браузера Google Chrome и других служб Google.…
VAshot
0
VAshot, 1 Августа 2011 , url
из любых Услуг.…
Сами же написали. Что есть Услуги? Вот-вот. Содержание сторонних сайтов здесь ни при чем.
pda
+4
pda, 31 Июля 2011 , url
Это не первая тёмная история про хром.
rocknroll
+11
rocknroll, 31 Июля 2011 , url
для тех, кто не дочитал комменты на источнике:

даже количественный мониторинг трафика дыл бы многое: как ни крути, если бы хром отсылал тела страниц в штаб — пусть не всех, пусть даже со сжатием, — то он бы генерил подозрительно много исходящего трафика. так что хотя бы корреляции вроде «загрузили N страниц по X кб страниц и с вероятностью P от хрома ушло Y кб в гугл». если можно установить какую-то корреляцию между X и Y, то можно сказать что количество трафика, передаваемого в штаб зависит от размера просматриваемы страниц. это меряется элементарно. начать можно с этого, потом уже организовать MITM через самопальный CA для подтверждения. но, естественно, куда интереснее и продуктивнее начать с поста на роеме под альтерэгой: у гугла репутация есть и её можно испортить, даже если кричать полную ерунду, но громко — кто-то да поведтся. а у альтерэги репутации нет, так что терять нечего. профит!


X86
+3
X86, 31 Июля 2011 , url
даже количественный мониторинг трафика дыл бы многое: как ни крути, если бы хром отсылал тела страниц в штаб — пусть не всех, пусть даже со сжатием, — то он бы генерил подозрительно много исходящего трафика. так что хотя бы корреляции вроде «загрузили N страниц по X кб страниц и с вероятностью P от хрома ушло Y кб в гугл
Chrome может отправлять только недоступные страницы. А их не так много.
fStrange
+2
fStrange, 31 Июля 2011 , url
их мало у обычного юзера. Но к примеру у вебмастеров или админов тысячи. Этот траффик был бы заметен.
В первую очередь запалили бы в крупных компаниях имеющих закрытые разделы сайтов. Например в той же самой компании которая бредит в Роеме.
LiSergey
+3
LiSergey, 1 Августа 2011 , url
у крупных компаний очень много трафика, и входящего и исходящего.
и если тарифный план — анлим, то за ним вообще не следят.
на трафик могут обратить внимание, если чтото начинает тормозить, если какойто «особо продвинутый» сотрудник ставит на закачку торренты и засирает весь канал под завязку. и то — причину найдут, сотруднику вставят за торренты, и продолжат заниматься тем, чем до этого.

о каких корреляциях вы говорите, кто их меряет и замеряет??
fStrange
0
fStrange, 1 Августа 2011 , url
и если тарифный план — анлим, то за ним вообще не следят.
Смотря чем занимается компания. Я же говорю крупных компаний много. В некоторых следят исходя из соображений секурности. И был бы замечен соответствующий траффик.
LiSergey
0
LiSergey, 1 Августа 2011 , url
ну тогда это должны быть системы уровня Intrusion Prevention и очень интеллектуальные анализаторы сетевой активности.

насколько я знаю, железки эти стоят очень некислых денег, а также очень грамотных специалистов. сомневаюсь, что даже среди многих крупных компаний в России есть такие.

на более простом уровне анализа трафика — есть запросы на сайты гугля, и вот он исходящий на них трафик.
чтобы заметить, что в исходящем трафике содержится содержимое приватных страниц, нужно
1) или парсер исходящих http-запросов, и поиск на предмет охраняемых данных (не только набор слов, но и словосочетаний, причем распознающий разметку данных и умеющий ее исключать)
2) или команда админов, которая будет просматривать вручную исходящий трафик, и в тоннах говна выискивать те самые секурные страницы

во второе не верю в силу занятости админов, в первое не верится, т.к. это сложная система и опять же — оно требует ресурсов.
NoMagisterium
+5
NoMagisterium, 31 Июля 2011 , url
Яндекс решил сместить акценты с последних событий в сторону гугля, пинг-понг PR отдела?
fStrange
+9
fStrange, 31 Июля 2011 , url
Думаю бред. Скорее всего был ляп админов но давно, который сами и прикрыли.

Опять же подобное очень просто проверяется. У меня есть целый ряд сайтов со страницами с закрытым доступом. В Гугле их нет, хотя я тестировал их и с Хромом.
X86
+1
X86, 31 Июля 2011 , url
А если в хроме включить анонимную статистику?
fStrange
0
fStrange, 31 Июля 2011 , url
Не включал. Но думаю это проверили и без меня.
rocknroll
+9
rocknroll, 31 Июля 2011 , url
советую прочитать все комменты и забыть про эту тему, так как некоторые поля даже с синхронизируемыми доками могут отправляться, но доказательств, что отправляется вся страница и близко никто не видел, это ляп админов топикстартера
X86
+2
X86, 1 Августа 2011 , url
А если отправляется по одному элементу страницы с каждого такого пользователя, а потом Гуглем собирается воедино? :)
fStrange
0
fStrange, 1 Августа 2011 , url
… а если… Это конспирологическая модель мышления.

Надо отталкиваться от фактов, а не от «а если».
X86
0
X86, 1 Августа 2011 , url
Это была шутка юмора.
d41d8cd98f00b2
+19
d41d8cd98f00b2, 1 Августа 2011 , url
Ну чо, попоболь? Заметьте, никто в исходниках хромиума не смог найти указанного в новости добра. Даже самые изысканные любители анальных зондов уже сменили проприетарный хром на хромиум с сорцами, ибо зонд корпорации добра плохо притерается. А доказать суть новости или полностью опровергнуть невозможно, ибо исходников хрома в свободном доступе нет.

Подозреваю, что имеет место быть следующий сценарий:
1. Хомячки поднимают свой недосервер. Пока пилили-настраивали, естественно пользовались хромом с отсылкой анонимной статистики.
2. Гугл регулярно получал список посящеямых хомячками ссылок, естественно все URL были оперативно проиндексированы.
3. Потом хомячки решили, что всё готово и пора прикрыть доступ. Написали систему разграничения доступа на уровне HTTP-сервера, которая возвращает ошибку 500 при попытке захода извне. Ну ошибка 500 — это значит сервак упал. То есть прочитать RFC 2616 хомячкам в голову не пришло, настроить файрволл они тоже не смогли, поэтому они выставили 500 вместо положенного 403.
4. Гугл при попытках переиндексации получает 500 и думает, что сервак временно упал. Гугл не удаляет и не обновляет данные в базе поиска и в кеше, что совершенно верно в данной ситуации. Очевидно, что при получении ошибок типа 403/404 данные из баз гугла были бы уже удалены.
5. Хомячки плачут и винят гугл, хром, богов, птиц за окном, плохую погоду и холодное какао в стакане, но никак не подозревают о настоящей сути проблемы.

pomorin
+2
pomorin, 1 Августа 2011 , url
Пока свой коммент ниже писал, вы другую, примерно такую же версию расписали… :)
X86
0
X86, 1 Августа 2011 , url
За коммент плюс, аналитика хорошая, но с этим несогласен:
уже сменили проприетарный хром на хромиум с сорцами
насколько мне известно, в хромиуме тоже реализованы все tracking-штучки chrome. Там есть тот же сбор анонимной статистики, есть поиск из строки адреса с предложением вариантов и т.д. и т.п.
Пруф отчасти тут.
Выпилено это все в SRWare Iron и Chromeplus.
theifish
0
theifish, 1 Августа 2011 , url
В ChromePlus по умолчанию тоже не все шпионские штуки отключены (но таки можно отключить).
pomorin
+4
pomorin, 1 Августа 2011 , url
Чисто технический вопрос. А почему все решили, что это хром, а не какой — нибудь троян или шпион?
Ахренеть, хомячки в админах…
blogman
+4
blogman, 1 Августа 2011 , url
троян отправляет сохраненные копии страниц в выдачу гугла? Ну знаете… Тогда собственно чей троян то?
pomorin
0
pomorin, 1 Августа 2011 , url
Про выдачу гугла только сами хомячки и писали. Чисто голословно. В остальном — чисто вопиющий непроффесионализм, расписанный выше подробно.
Я бы еще добавил, что может быть и такой вариант, что после обнаружения своих «засекреченных» страниц в выдаче гугла и были предприняты неуклюжие попытки запретить к ним доступ поисковика через 500 ошибку и white list. И статья про «шпионство хрома» — как попытка обелиться перед начальством.
fakenews
+2
fakenews, 1 Августа 2011 , url
все правильно ) тоже со скептисом отношусь к подобным историям. никаких методик проверки представлено не было, зато стрелки перевели на хром.
theifish
+6
theifish, 1 Августа 2011 , url
Юзеры познают мир

Alexander
0
Alexander, 1 Августа 2011 , url
Историю про phpmyadmin я уже писал в комментах, но что и такие CEO бояны будут поднимать я не догадывался. ))) Даже FireFox после того как его стал распространять Гугл и появился гуглевская поисковая панель посылает на индекс любую страницу где он находится. И этой истории много-много лет.
GreyWolf
+1
GreyWolf, 1 Августа 2011 , url
Что-то мне подсказывает, что там стояла включеной «Offer to translate pages that aren't in a language I read». А google скорее всего сохраняет все, что проходит через translate…
X86
0
X86, 2 Августа 2011 , url
Кстати, интересная мысль. Причем translate включен по-умолчанию.


Войдите или станьте участником, чтобы комментировать