Н2 Теги/Регионы. Холивор за качество

отметили
34
человека
в архиве
Н2 Теги/Регионы. Холивор за качество
Коллеги.
Предлагаю вам тему для очередного Н2-холивора.
Я уже намекал в узких кругах, а с кем то и общался лично, так что для многих это не станет новостью. Тем не менее: Теги!

Итак, суть проблемы:
Не удивительно, что многие рисуют теги на свое усмотрение — разные ньсхантеры именуют одно и тоже разными именами (тегами, регионами), в результате чего суть тега как такового если и не теряется полностью, то снижается точно.

Примеры тегов-дубликатов:
1. германия и фрг
2. белоруссия и беларусь
3. сша и америка
4. россия и russia

Я брал примеры только из облака. Среди менее популярных — будет гораздо больше вариантов — за них можно взяться попозже.

Что я предлагаю:
— выбрать народный вариант по каждому перечисленному случаю
— "безжалостно" исправлять все новости с неправильным вариантом
— стучать в голову тем кто не внемлет

п.с. здесь же в теме можно будет обсуждать новые коллизии, по мере обнаружения.
Добавил comander comander 13 Июля 2010
Какой вариант более правильный?
comander германия, беларусь, сша, россия (12)
cyberlife пофигу (9)
Supreme косово и метохия (2)
Vlad2000Plus Надо писать все варианты по возможности (2)
Комментарии участников:
klinton11
+5
klinton11, 13 Июля 2010 , url
Хороший вариант, только не вижу смысла. Поисковик по сайту давно храпит
comander
+1
comander, 13 Июля 2010 , url
поисковик отдельно, теги отдельно )
я регулярно проверяю наличие новости или связных тем кликая по тегам. рекомендую
klinton11
+6
klinton11, 13 Июля 2010 , url
два — три десятка меток не заменят поисковик. куча новостей остается без связки, последнее время плюнул на это дело
comander
+2
comander, 13 Июля 2010 , url
плюнул — другим не мешай. скептиса я и без помощи могу излить столько что эту тему можно ыбло бы и не начинать
skrt
+1
skrt, 13 Июля 2010 , url
вот обязательное добавление со-новости сделать было бы хорошо…
skrt
+7
skrt, 13 Июля 2010 , url
одно время кликал по тегам, но понял, что использовать google, а после разбанивая и яндекс — проще

skrt
+2
skrt, 13 Июля 2010 , url
что касается тегов меньше 4 символов — для таких указывал аналог, как в примере: США, Америка
comander
0
comander, 13 Июля 2010 , url
по поводу америки — это континент. даже два. как правило речь в новостях идет исключительно о США, поэтому я считаю логичным использовать для штатовских новостей тег сша. а если будет что-то затрагивающее еще и канаду/мексику/латиносов — вот тогда и америка пригодится
skrt
0
skrt, 13 Июля 2010 , url
есть еще центральная :)
skrt
+1
skrt, 13 Июля 2010 , url
Кстати, если уж говорить об Америке, то в головах людей Америка и США связаны. Когда говоришь "Америка" никто не подумает на Канаду или Бразилию…
comander
0
comander, 13 Июля 2010 , url
пора развязать этот стереотип
skrt
+2
skrt, 13 Июля 2010 , url
comander — развязыватель стереотипов! Смотрите только на н2 новый ужастик 2010 года! ))))
comander
+1
comander, 13 Июля 2010 , url
тогда уж разрыватель шаблонов, а то как то мелочно ;)
skrt
0
skrt, 13 Июля 2010 , url
Не спешите: это будет сиквел ;)
ndg
+1
ndg, 13 Июля 2010 , url
тут уж скорее не разрыватель шаблонов, а наоборот борец за их установление
Alexei
+3
Alexei, 13 Июля 2010 , url
мне кажется, что без разницы — как назвать: германия или фрг) главное — выделить ключевые слова из текста: допустим, имя с фамилией героя, название какого-то населенного пункта и пр.
comander
0
comander, 13 Июля 2010 , url
ну ведь удобнее же когда все события из конкретной страны можно добыть в одной ленте
comander
+3
comander, 13 Июля 2010 , url
Отдельно хочется попинать Латпоста, Влада и Ника181
latpost
+1
latpost, 13 Июля 2010 , url
Давай мы тебя выпинаем в отпуск, а то что-то тебя торкнуло с этими тегами. =)
comander
+1
comander, 13 Июля 2010 , url
ну вот сейчас движуха увязнет в этой каше сонных мух и я сам уйду в рид-онли: Р
Bicycle
0
Bicycle, 13 Июля 2010 , url
не надо выбирать между "россия" и "russia". если берут сомнения, надо писать и то и другое — это ж тэги
comander
0
comander, 13 Июля 2010 , url
я предлагал латпосту вариант писать оба… он вроде принял мои доводы, но ленится :(
varya
+1
varya, 13 Июля 2010 , url
я тоже взывала к латпосту, безуспешно )
Bicycle
+1
Bicycle, 13 Июля 2010 , url
не буду тыкать пальцем, но некоторые топовые участники вообще теги игнорируют, а категории выбирают всякие несуразные, чтоб получить "статус эксперта" в них. уж очень смахивает на кармадрочерство
comander
+1
comander, 13 Июля 2010 , url
собсно никто не мешает вносить исправления, если в них есть смысл
а тема с категориями уже боян )
latpost
0
latpost, 13 Июля 2010 , url
не, стараюсь =)
MaksZzn
0
MaksZzn, 13 Июля 2010 , url
Вообще различных тегов, может быть уйма. Илья, ты предлагаешь их всех обсудить?
Предлагаю вариант — ориентироваться по Wiki.
Например вот что там про Белорусь. 3-и раза удаляли статью с таким именем.
И непосредственно сама статья Белоруссия
comander
+1
comander, 13 Июля 2010 , url
потому что по их мнению надо белАрусь. мне кажется уже проще один раз согласится
xiongmao
+2
xiongmao, 13 Июля 2010 , url
как видим Командер говорит о регионах, как о частном случае тегов
поэтому к консенсусу прийти не удасца, надо просто прикрутить полный список регионов\городов с возможностью выбора нескольких к форме создания\редактирования новости
работы на 20 минут и никаких споров
а рассуждать какой вариант лучше можно аж пока майтрея прийдет
xiongmao
0
xiongmao, 13 Июля 2010 , url
делюсь полезной ссылкой по этому вопросу
разного рода базы стран\регионов\городов на русском
xiongmao
0
xiongmao, 13 Июля 2010 , url
от не поленился!
вот вам и пример реализации, для ускорения процесса пару строк скопипиздить можно
comander
0
comander, 13 Июля 2010 , url
ну если ты считаешь что проще что-то прикрутить — значит ни разу не дискутировал с Григорием )
кстати решением многих проблем стал бы краудсорсинг движка, но хозяева на такое предложение не отреагировали. будешь лоббистом? :)
comander
0
comander, 13 Июля 2010 , url
примеры мультитега: авто/автомобиль/машина, мвд/менты/милиция и т.д. просто они в топовое облако попадают реже
latpost
+1
latpost, 13 Июля 2010 , url
надо просто прикрутить полный список регионов\городов с возможностью выбора нескольких к форме создания\редактирования новости
работы на 20 минут и никаких споров
Об этом Григорий мне говорил года 2 назад и ничего =)
latpost
0
latpost, 13 Июля 2010 , url
Например вот что там про Белорусь. 3-и раза удаляли статью с таким именем.
И непосредственно сама статья Белоруссия
Я раньше спорил по этому вопросу с Григорием. Он сказал что если я буду писать "Беларусь", то будет принимать ко мне меры. Так что многие за "Беларусь", а аминистрация против, вот вам и вопрос. Так что пусть каждый пишет как хочет или то и другое.
comander
0
comander, 13 Июля 2010 , url
я думаю мнением григория можно пренебречь в виду исключительной мифичности этой личности ;)
просто поставим его перед фактом
MonGeneral
+2
MonGeneral, 13 Июля 2010 , url
Главное, о чем Илья говорит, необходимость просто ставить теги ))
По геопривязке можно предложить простые правила — официальное название страны, используемое в РФ.
По иным тегам — исключить все, кроме существительных в единственном числе.
Однако согласен со Skrt — для поиска по сайту использую часто google.
u.nik.myopenid.com
+9
u.nik.myopenid.com, 13 Июля 2010 , url
Навести некий порядок в тегах было бы неплохо.
Но его не будет, пока теги вводятся только вручную, без возможности выбора из готового списка (но не ограничиваясь им).
Но я категорически против "безжалостного исправления" (поскольку это минус в рейтинг по текущему алгоритму, как я понимаю) и прочего стучания по голове. Интернет — зона свободы, не надо и сюда в сапогах приходить и по росту строить.

comander
0
comander, 13 Июля 2010 , url
но ведь можно просто договорится и обойтись без всяких санкций. или интернет следует читать как ЭГОнэт?
comander
+2
comander, 13 Июля 2010 , url
не знаю кому как, а мне комфортнее в веб2.0 где каждый вкладывает сколько хочет а _сообщество_ "нормализует" данные.
мы конечно не википедия, но что мешает нам к этому стремится?
latpost
+1
latpost, 13 Июля 2010 , url
Интернет — зона свободы, не надо и сюда в сапогах приходить и по росту строить.

но ведь можно просто договорится и обойтись без всяких санкций

Если не согласен по голове настучим, а если согласился, то будем считать что просто договорились в добровольно-принудительном порядке. =))
comander
0
comander, 13 Июля 2010 , url
ну вот я же уже с тобой лично месяц договариваюсь ) разве тебе кто-то по голове стукнул? :)
latpost
0
latpost, 13 Июля 2010 , url
разве тебе кто-то по голове стукнул? :)
угу =) Солнце!
comander
+1
comander, 13 Июля 2010 , url
точно. террорист №1 )
rocknroll
+2
rocknroll, 13 Июля 2010 , url
мое мнение, что не стоит коверкать русский езык:) белорусь это по белорусьськи, а по-русски белоруссия, точно так же как кигргизия вместо кыргызыы, алма-ата вместо алматы и так далее, а то мы тут скоро не только в тегах запутаемся:)
latpost
0
latpost, 13 Июля 2010 , url
белорусь это по белорусьськи
Правильно БелАрусь — это официальное название республики на русском языке. А белоруссия была при СССР и до официальной смены названия в Беларусии, но россияне продолжают ее так называть.
rocknroll
+1
rocknroll, 13 Июля 2010 , url
мое мнение, что зря стали коверкать русский язык! это то же самое. что "кофе" в среднем роде, к сожалению, сейчас времена баранов и коррупционеров, без изменений не вышло бы попилить бюджеты на новые справочники, а по сути эти люди — бараны тупые imho…
rocknroll
0
rocknroll, 13 Июля 2010 , url
это то же самое, что лужков забетонировал дома 18 века, теперь стоят как новенькие, но многие считают и будут считать его дебилом…
Alexei
0
Alexei, 13 Июля 2010 , url
что касается стран: можно сделать менюшку стран мира, как они официально называются МИДом, которая будет появляться перед ньюсхантером при постановке новости в разделе регионы
ramelito
+1
ramelito, 13 Июля 2010 , url
лучше вводить гпс координаты, по которым через апи гугла будет выбираться страна)))
latpost
0
latpost, 13 Июля 2010 , url
лучше вводить гпс координаты, по которым через апи гугла будет выбираться страна)))
Это рассказ про Н2 в 2030 году? ))
ramelito
0
ramelito, 13 Июля 2010 , url
надо еще 2012 пережить
Digg it
0
Digg it, 6 Марта 2011 , url
А как же Глонасс?
latpost
0
latpost, 13 Июля 2010 , url
Интересно кто это сделает и через сколько лет =)
Лиман
0
Лиман, 13 Июля 2010 , url
Игорь, это произойдет, когда вы будете на первом месте топа :)
latpost
0
latpost, 13 Июля 2010 , url
Как я понял такого никогда не будет. =)
Vlad2000Plus
+2
Vlad2000Plus, 13 Июля 2010 , url
Я считаю что если у страны есть несколько самых распространённых названий, то нужно в «регионах» ставить оба. Например США, Америка КНДР, Северная Корея и. т. д. Более того, я так и делаю. Кашу маслом не испортишь, а новость с помощью поиска сможет найти большеее количество читателей.
comander
+1
comander, 13 Июля 2010 , url
да. извини. я погорячился с претензиями в твой адрес
X86
+1
X86, 13 Июля 2010 , url
Не превращайте русский язык в математику! :)

Просто тэгов надо лепить как можно больше. Я в свои новости стараюсь побольше тэгов уместить, мешаю английские и русские названия и т.д.

Например, новость про Лукашенко, Беларусь и тракторы можно обозначить тэгами так:

Лукашенко, Батька, Белоруссия, Беларусь, Belarus, трактор, тракторы, производство.
comander
0
comander, 13 Июля 2010 , url
русский язык — это когда вообще без тегов )
Лиман
0
Лиман, 13 Июля 2010 , url
Я уже намекал в узких кругах, а с кем то и общался лично
Илья, если узкий клуб это те, с кем мы постоянно общаемся, заходя периодически в подвальчик с винцом, то возможно благие намеренья, так и останутся намереньями. Хотя возможно вы что-то и не договаривайте и общаетесь еще с теми, кого мы простые смертные, видеть не можем. :)
comander
+1
comander, 13 Июля 2010 , url
с алексеем и игорем я терки тер в приватных беседах. все остальное публично
LevM
+1
LevM, 13 Июля 2010 , url
Проблема с унификацией в том что она касается именно тех тэгов которые не эффективны, 'хвоста' дистрибуции. Ну кто в здравом уме будет искать по тегу 'Россия'. 2/3 новостей на н2 попадут в эту категорию.
Унифицировать менее полулярные тэги так-же бессмысленно, т.к. их немеряное мноество и половина из них вызовет холивар. Корея? Южная Корея? Республика Корея? или Майкрософт? МС? MS? масдай? Великое Зло? Мы никогда не сойдемся.

Однако, если проблема действительно жмет многим, могу предложить решение: можно имплементировать простенький алгоритм который по каждому тэгу выдаст ассоциированные с ним тэги. Если найдется желающий заняться веб-интерфейсом к проекту, могу взять на себя алгоритм и создать базу запросов-ответов. В принципе, можно автоматизировать это дело и скрыть этот элемент. Скажем, на запрос "пиндосия", база выдаст все ассоциации (от пиндостан до США) и сразу запустит поиск по н2. Но это уже геморрой того кто займется интерфейсом.

Кстати, самое интересное в этом пайлот-проекте — переход н2 на 'самообслуживание'. Инициативные пользователи могут сами позаботиться о дополнении сайта фичерами. Наверняка придумаем как интегрировать дополнительные фичи в н2. Григорий наверняка не будет против линка на вспомогательный сайт.
xiongmao
0
xiongmao, 13 Июля 2010 , url
например dev.news2.ru
в целом отлично сказано
comander
0
comander, 13 Июля 2010 , url
а нам его дадут? :)
LevM
0
LevM, 13 Июля 2010 , url
Это детали, но думаю да. Хостить можно даже у меня. Сервер не проблема. Проблема в том что лично меня не возбуждает разработка веб-приложения. А сделать табличку следуюшего формата — не проблема.

search_term, associated_term, weight

На каждый search_term может найтись несколько associated_term с разной "силой" севязи. Простенький алгоритм находящий эти ассоциации я тестировал по интересам и юзерам в ЖЖ. Работает на удивление хорошо (особенно учитывая примитивность алгоритма). В ЖЖ тэги — либо интерес, либо юзер. Задача найти схожие интересы, либо схожих юзеров.
Проблема ЖЖ — размер. Там основной гемор был обработать запрос за 100-200 мсек. Я вычисления делал в реальном времени. Тут, учитывая скромный размер базы данных можно пред-вычислить все запросы и складировать их в таблице.
comander
0
comander, 13 Июля 2010 , url
альтернативный сайт использующий базу Н2 — самое доступное решение при несговорчивых админах. но при этом и самое дорогое, как в плане ресурсов так и в плане раскрутки
а без раскрутки это извините нафиг никому не надо
nik191
+1
nik191, 15 Июля 2010 , url
Если речь идет только о наименованиях государств, предлагаю взять за основу ГОСТ 7.67-2003 Система стандартов по информации, библиотечному и издательскому делу. Коды названий стран
Когда-то уже приводил ссылку на него.


Войдите или станьте участником, чтобы комментировать