О блоге
Старье:
- Февраль 2010 (2)
- Январь 2010 (1)
- Декабрь 2009 (3)
- Ноябрь 2009 (3)
- Октябрь 2009 (5)
- Сентябрь 2009 (3)
- Август 2009 (3)
- Июль 2009 (6)
- Июнь 2009 (3)
- Май 2009 (5)
- Апрель 2009 (4)
- Март 2009 (7)
- Февраль 2009 (6)
Я читаю:
Кухня:
Счетчики
Подписка:
Опросы
Рубрики:
- Sale! (2)
- Идеи (2)
- Инвентаризация (6)
- Кризис (2)
- Мудаки (7)
- Полезняшки (4)
- Розыск (1)
- Свой опыт (19)
- Сделано за день (3)
- Чужой опыт (2)
- Яндекс алгоритмы (6)
Archive for the ‘Яндекс алгоритмы’ Category
Колыма: мой прогноз на новый алгоритм февраля 6, 2010
Интересное дело, многие заметели, что выдача яндекса стала как минимум “своеобразной”. В выдаче по многим запросам сидят народные сайты, каталоги статей с старыми беками, а совсем не те сайты, которые туда толкают оптимизаторы.
Не побоюсь сделать короткий анализ и прогноз на будущий алгоритм. Если кто-то не читал мадридский доклад яндекса, советую сделать это, потому что как раз сейчас мы видим в выдаче результаты работы алгоритмов с учетом поправок, о которых там говорилось. Если прочитали и непоняли, то резюмируя: Яша научился определять платные (seo) ссылки от естественных. Делается это не на основе способа простановки (помните, раньше многие паниковали по этому поводу) - ссылки могут быть проставлены хоть сапой, хоть руками, а на основе соответствия тематики страницы-донора и проставленной с нее ссылки. По сути страница, ссылающаяся не по теме, палится. Если сайт имеет множество таких страниц - сайт является сателлитом. Если сайт покупает такие ссылки - он продвигается платными ссылками.
По сути, чтобы не попасть под АГС нужно просто продавать ссылки по теме страницы. Википедия тому подтверждение - с нее проставлено сотни тысяч ссылок, но каждая из них по теме, то есть носит рекомендательный характер, а, следовательно, является естественной. Что касается оптимизаторов, то на них это скажется следующим образом: по некоммерческим запросам они отключили влияние seo ссылок. То есть появилось разделение коммерческих и некоммерческих запросов. Как бы для коммерческих запросов наличие платных ссылок вполне оправдано - фирмы тратят большие бабки, чтобы их сайт был в топе, а, следовательно, им есть что показать по этому запросу. Для некоммерческих запросов вполне логично оставить в топе информационные страницы разного качества. Для чего это сделано? Ответ прост: для того чтобы сделать более разнообразной. Возьмем пример “очищение организма”. В топе сейчас 8 каталогов статей и только пару сайтов коммерческой тематики, при этом все они продвигаются либо безанкорно, либо статьями. Сайты, продвигающиеся сапой (санатории), сидят на второй - третьей странице выдачи.
Таким образом, естественные ссылки - контекстные ссылки в сапе, других биржах, это ссылки со статей (миралинкс), ссылки без анкора или анкором вида site.ru.
SEO ссылки - обычная сапа с блоков ссылок, стоящая в футере. Вот и вся тема.
Кстати увеличилось влияние регионов доноров, так что если мы делаем качественное продвижение - то берем ссылки из контекста с доноров нашего региона. А если продаем ссылки - то снимаем блоки сапы и суем сайт в миралинкс и продаем ссылки из тела статьи
И еще появился бот, который режет страницу на блоки (хеадер, контент, меню, футер) и придает больше веса той или иной части страницы. А html 5 ему в этом только поможет.
Кстати, следующий город - Колыма? Как вы думаете?
Категории Яндекс алгоритмы | Комментарии (16)
Снежинск: искусственный интеллект рядом ноября 17, 2009
10 ноября Яндекс анонсировал новый поисковый алгоритм – «Снежинск». Алгоритм основан на методах, описанных в презентации доклада Яндекса «Greedy function optimization in learning to rank» на RuSSIR-2009. Презентация содержит много математики, которая понятна не всем оптимизаторам, и в этой статье я попробую кратко описать ситуацию со «Снежинском» более простыми словами.
Итак, задача Яндекса - найти такую функцию ранжирования, которая по любому запросу находит самые релевантные этому запросу ответы и выдает их пользователю в правильном порядке, по убыванию релевантности. Построить такую функцию ранжирования вручную не реально, как показала мировая практика, поэтому построение идет автоматически – функция каким-то образом обучается на заранее подготовленных данных. Для обучения «Снежинска» выбран жадный (greedy) алгоритм, особенности работы которого для оптимизатора не важны. Следует только отметить, что такое обучение теперь проходит очень быстро, даже на большом объеме данных относительно большинства других обучающих методов.
Рассмотрим сам процесс обучения. Строится обучающая выборка из пар «запрос-документ», каждой такой паре присваивается значение релевантности. В презентации Яндекса говорится, что это значение из интервала [0..1], но это не принципиально. Такое значение релевантности можно условно назвать «истинной» релевантностью. Как считают эти «истинные» релевантности яндексоиды – не суть важно. Например, самый простой способ получить «истинную» релевантность документа запросу – взять значение релевантности из текущей выдачи Яндекса, работающей по алгоритму «Арзамас». Но, скорее всего, она имеет другие корни, т.к. в противном случае выдача «Снежинска» мало отличалась бы от выдачи «Арзамаса», по крайней мере на обучающих запросах.
Любая функция ранжирования для запроса и документа должна выдать свое значение релевантности документа запросу. И задача обучения – подогнать параметры функции ранжирования так, чтобы выдаваемые функцией значения релевантности были как можно ближе к значениям «истинной» релевантности для всех пар «запрос-документ» из обучающего множества.
Для этого яндексоиды в «Снежинске» предложили такой подход: функция ранжирования строится как сумма очень большого числа других функций с некоторыми коэффициентами:
F = a1*f1 + a2*f2 + … + an*fn
Яндексоиды объявили, что n – несколько тысяч. Обучение в данном случае – это подгонка коэффициентов a1…an. Важными для оптимизатора в данном случае являются не столько коэффициенты ak (о них ниже), сколько сам вид функций fk.
В презентации Яндекса можно найти такой пример для функции F:
F = 3:14*log7(f9(q; d)) + ef66(q;d) + …
Из примера видно, что функции немного «странные». В этом и заключается одна из «фишек» метода – в набор функций включают абсолютно дикие экземпляры, важно, что этих функций очень много. Какой-то логики в этих функциях вообще крайне мало, важно, что любая из них вносит не очень большой вклад в общее значение релевантности. Например, для пары «запрос-документ» число прямых вхождений запроса в текст документа или в анкор-файл документа могут быть параметром в сотнях функций. Это говорит о том, что реальный вклад таких прямых вхождений для конкретного документа вычислить очень сложно даже разработчику алгоритма, тем более, что коэффициенты ak могут меняться после каждого обучения, да хоть и 10 раз в день.
Т.е. определить степень влияния например стат. веса отдельного документа на его место в топе по конкретному запросу – не тривиальная математическая задача даже для Сегаловича, Садовского и Расковалова вместе взятых. И это для отдельного документа, что уж говорить о выдаче в целом. Таким образом, все утверждения сео-аналитиков о том, что в «Снежинске» рулит «траст»|биржи|старые каталоги|возраст домена|статьи|текст документа и т.д. не имеют под собой оснований. Все теперь гораздо сложнее и просчитать влияние отдельных параметров документа на выдачу практически невозможно.
Пути решения проблемы теоретически есть. Для этого нужно создать свою большую обучающую выборку наборов «запрос-документ» и обучать ее на выдаче «Снежинска» на своем большом наборе функций. Такие функции будут, конечно же, сильно отличаться от функций из формулы ранжирования Яндекса, но это не критичный момент, при достаточном объеме обучающего множества задача имеет решения.
И еще несколько слов о перспективах «Снежинска» для Яндекса. В целом такой алгоритм обучения дает вполне приемлемые результаты, но это в целом, дьявол как всегда кроется в деталях. Наверняка есть большое количество запросов, выдача по которым оставляет желать лучшего. Проблема решается добавлением новых пар «запрос-документ» в обучающее множество и новой подгонкой коэффициентов. Если подгонка не дает приемлемого решения, добавляется кучка новых «странных» функций в формулу и обучение начинается снова. В итоге возможны варианты, когда несколько тысяч параметров вырастут со временем до нескольких десятков тысяч, причем вполне вероятна ситуация, когда ни какие танцы с бубном уже не дают улучшения релевантности. Время покажет, на сколько дееспособен такой подход к обучению.
В заключении стоит отметить любопытные свойства коэффициентов ak в формуле ранжирования. Так как на них не накладывается никаких ограничений, то они вполне могут быть отрицательными. То есть какие-то слагаемые в функции ранжирования могут давать отрицательный вклад в релевантность. Для примера положим, что для каждого значения тИЦ в формуле ранжирования есть функция, параметром которой будет количество ссылок на документ именно с этим значением тИЦ. И вполне может оказаться, что, скажем, у функции от тИЦ=375 вклад отрицательный. Не зависимо от качества доноров и прочих факторов.
Как я понял сейчас алгоритм основан на нейросетевой технологии:
-по сотням или тысячам критериев оцениваются сайты на соот. тем или иным запросам
-выявляются пары релевантные пары: страница-запрос
-которые попадают в обучающую выборку (назовем их эталоны или эксперты)
-на основе этих сайтов экспертов строится вся выдача (по сути это прогнозирование)
-таким образом им не надо писать ф-ию определения релевантности, после обучения нейронной сети они получают несколько готовых ф-ий ранжирования документов
-после чего выбирается из всего множества полученных функций одна с минимальными потерями
-для нее рассчитываются потери (насколько я понимаю - это вероятность или величина ошибки ранжирования)
-на след. итерациях уменьшаются потери и т.д.
Все понятно? Пока в выдаче доры, австралийские сайты, спам, думаю, подкрутят.
Категории Яндекс алгоритмы | Комментарии (11)
Блоки, теория кластеров, итоги АГС, суперсатт. Всего понемногу. октября 20, 2009
1. Спасибо всем, кто проголосовал по поводу фильтра АГС-17. Результаты можете глянуть сами. Первая причина, как выяснилось, – число продажных ссылок от трех, вторая – неуник, остальные факторы тоже влияют, но меньше.
2. Итак, наблюдения по последней движухе в алгоритмах.
А) Начиная с апдейта девятого октября начали проседать сайты, продвигаемые простым перечислением ключей. Причем они попадали не все, а лишь частично, следует вывод, что это только цветочки. Дальше будет весело. Пример такого продвижения:
Самое интересное тут – это то, что проседание не зависит от того, где расположен блок ключей – в тексте, сайдбаре или в футере. Оно и понятно – программно отличить блок ключевых (существительное + глагол) можно запросто. В данном случае нет связанного хоть с чем-то предложения, есть просто перечисление слов.
Б) Ссылки под АГС. Был период, когда ссылки с зафильтрованных ресурсов работали – действия по активному снятию этих ссылок привели к падению большого числа сайтов. Период этот длился от двух недель до месяца, потом их отрубили. Как я проверил – работают ли они или нет? Поставил на первый попавшийся сайт несколько ссылок с зафильтрованных ресурсов (10 страниц в индексе). Ссылки соответственно с уникальным бредоанкором. Ставились со страниц не в индексе. Если бы страницы передавали вес – мой сайт искался бы по этому бредослову с пометкой «найден по ссылке». Этого не происходит. Следовательно, они не передают вес вообще.
В) Прирост ссылок. Жил-был сайт и висел он на 11 месте. Горе оптимизатор купил 50 точных и 50 разбавленных ссылок по этому запросу, а сайт через два апа ушел с 11 на 78 место. Оптимизатор расстроился и снял все ссылки. Еще через два апа сайт вернулся на вторую страницу выдачи.
Г) ВЫБОРКА КЛАСТЕРНАЯ (ГНЕЗДОВАЯ) - метод извлечения выборки (см.), основанный на предварительном разделении генеральной совокупности (см.) на относительно компактные структурные части (кластеры, гнезда). Главным требованием является более широкая вариация основных изучаемых показателей внутри кластера по сравнению с их вариацией между кластерами [в отличие от выборки стратифицированной (см.), цель которой - выделение страт, в которых вариация основных показателей была бы минимальной]. Подробнее
Д) Кластер – есть некоторая сущность страниц, имеющих некие сходства и обладающая свойствами «сайта в сайте». Т.е. по моим наблюдениям, ссылки с разных кластеров не фильтруются как сквозные, а самое интересное – на кластер может быть наложен фильтр вплоть до неиндексации. Подробнее
Что получается? Делим страницу на примитивы: блоки или кластеры, называйте как нравиться, (шапку, навигационные меню, сайдбар, футер, контент). И в зависимости от того, в каком блоке стоит текст или ссылка (внешняя или внутренняя) – присваиваем им больший или меньший, вплоть до занижающего вес. На картинке ниже приведена простая разбивка на такие примитивы. К примеру, ссылка, проставленная из блока 3 , скорее всего, намного весомее ссылки из блоков 1 и 2.

Что из этого следует? Я пошел покупать контекстные ссылки, кто-нибудь помнит такую штуку в сапе? )))) А она там есть! Кстати, купленные тестовые ссылки из тела статьи проиндексировались за 1 ап сразу все! С момента простановки прошло 4 дня. Так же, видимо, пора переходить на статейное продвижение.
Теперь которотко про суперсатт.
Был вылет в сентябре, связанный с хостингом, щас все ок. Сайт никак не перевалит отметку в 10 000 проданных ссылок, доход сейчас 316 рублей в сутки.
З.Ы.: webmaster sape, линкмастер и yccy - хорошие проги, но мы написали скрипт, который проверяет разом 100 000 url на наличие в индексе Яндекса на автомате. Правда у него уходит на это 10 часов. Скрипт не дадим, просто если кто мучается с этим - знайте, это сделать можно!
З.Ы.2: 15 уникальных статей про форд мустанг, залитые на вордпресс - это не СДЛ, это хуйня на палочке.
Категории Свой опыт, Яндекс алгоритмы | Комментарии (11)
Яндекс: быстрые ссылки в снипете июля 31, 2009
Ура, в снипет сайта теперь можно подзапихать ссылки на внутренние страницы сайта, это круто.
Посмотреть, как работает, можно только в буках пока что. Правда геморно ходить в панель чтобы исправлять, но все равно хоть какая-то возможность править снипет, а тем паче вставлять туда ссылки со своими анкорами - круто. Пусть быстрей выкатывают. Вот письмо от Яши:
Добрый день!
На многих сайтах есть одна или несколько страниц, которые больше всего интересуют пользователя — это может быть прайс-лист, контактная информация, описание услуг или каталог товаров.
В скором времени для таких сайтов на странице результатов поиска Яндекса появятся “быстрые ссылки” — по сути, это разделы меню, вынесенные в поисковую выдачу. Чтобы перейти на нужный документ со страницы результатов поиска, человек затратит гораздо меньше времени.
Пока что вы можете увидеть “быстрые ссылки” на http://buki.yandex.ru.
Такие ссылки экономят время и трафик пользователей, но полезны они и для владельцев сайтов. Во-первых, ссылки помогут исправить ошибки в дизайне и навигации сайта. Во-вторых, посетитель получает дополнительную информацию о сайте.
В сервисе Яндекс.Вебмастер можно разрешить или запретить показ любой из “быстрых ссылок”, а также выбрать для них наиболее подходящие названия из предложенных. Для этого надо зайти в раздел “Инструменты” и выбрать раздел “Быстрые ссылки”.
Обновляться “быстрые ссылки” будут раз в неделю. Изменения в настройках вступают в силу при каждом следующем обновлении.
С уважением,
команда сервиса Я.Вебмастер
Категории Яндекс алгоритмы | Комментарии (2)
Еще один фильтр Яндекса июля 23, 2009
Раньше на некоторых сайтах мы ставили списки ссылок в футере в огромном количестве. Все ссылки вели на морду или внутренние страницы сайта, анкоры - ключевые слова. Ссылок много - штук по 30, а то и 50. Недавно это начало палиться, и на продвигаемых таким макаром ресурсах новый контент вообще перестал попадать в индекс. Делаешь хорошую статью - а Яша ее не хавает и все тут! После письма Платоше получаем ответ:
На Вашем сайте были проиндексированы страницы, содержащие списки поисковых запросов. В силу того, что по многим запросам Яндекс не может корректно отранжировать такие страницы, мы вынуждены частично исключить Ваш сайт из поисковой базы Яндекса. Если эти элементы страниц не являются жизненно важными для существования сайта, уберите их, пожалуйста, и напишите нам еще раз.
Фильтр довольно гнусный - сайты под ним как-то лениво продвигаются, а страниц в индексе может быть , например, 6 или 13 - как бог на душу положит. Так что не сразу и заметишь такую санкцию. Так-то. Теперь стараюсь делать упор на качественный текст без всяких ссылок и прочего спама, хотя так было намного проще.
Кстати, список тегов в том же вордпрессе смело может загнать сайт под такой фильтр - а может, это новый метод отличать сателлиты от сдл? Щас почти на всех сателлитах списки меток, которые легко тянут на поисковые запросы при определенном раскладе.
Категории Яндекс алгоритмы | Комментарии (10)
Арзамас 1.1 июня 25, 2009
Вчера яндекс выкатил Арзамас 1.1. Подкрутили региональную выдачу. На основной не сказалось. Буки закрыли. Работаем дальше, ждем нормальных апов.
Кстати, если мне кто-то пояснит, что такое эта рагиональная выдача, тому большой респект. Как я вижу, общероссийская выдача из Москвы и, например, Владимира абсолютно одинаковая. А различия видны только если из Москвы ставить в расширенной регион Владимир и ставить этот же регион из Владимира. Тогда разница небольшая есть. Собственно, поскольку расширенной пользуются только оптимизаторы и другие сеошники, особо эта региональная выдача никому нафиг не нужна. Так что алгоритм вроде как не изменился.
Категории Яндекс алгоритмы | Комментарии (7)
