Слив Google в 2024 году: что удалось узнать

Недавняя утечка документации Google API вызвала значительный резонанс в индустрии SEO и среди широкой общественности. Эти документы содержат важные сведения о внутренней работе поисковой системы Google, что проливает свет на методы и алгоритмы, которые до сих пор оставались закрытыми для внешних наблюдателей. Для специалистов по поисковой оптимизации (SEO) это открывает новые возможности для понимания, как именно Google оценивает и ранжирует сайты. Для широкой общественности утечка подтверждает многочисленные предположения и слухи о том, как собираются и обрабатываются их данные при использовании популярной поисковой системы.

Утечка произошла 5 мая, когда анонимный источник передал 2,500 страниц документации API, содержащей 14,014 атрибутов, утверждая, что эти документы получены из внутреннего хранилища данных Google. Источник заявил, что подлинность утечки была подтверждена несколькими бывшими сотрудниками Google, которые также предоставили дополнительную конфиденциальную информацию о работе поисковой системы.

После получения этой информации, многие провели серию проверок для подтверждения подлинности документов. Были привлечены технические эксперты и бывшие сотрудники Google, которые, по результатам анализа, подтвердили подлинность утечки. Один из экспертов,, детально изучил утекшие документы и подтвердил, что они содержат значительное количество ранее неизвестной информации о внутренней работе Google.

Таким образом, данная утечка не только подтверждена как подлинная, но и является крупнейшей в истории Google, предоставляя беспрецедентный доступ к внутренним механизмам работы самой популярной поисковой системы в мире.

Что удалось узнать из слива Google

NavBoost и её вспомогательная система Glue играют самую ключевую роль в алгоритмах ранжирования Google. Нашлось более 84 млн упоминаняйОсновная функция NavBoost заключается в сборе и анализе данных о поведении пользователей, включая:

  1. Клики на результаты поиска: NavBoost отслеживает количество кликов по каждому результату поиска, что позволяет Google определять популярность и релевантность страниц. Например, если пользователи часто кликают на определённый результат при поиске по конкретному запросу, эта страница может получить более высокую позицию в поисковой выдаче.
  2. Время на странице: Система учитывает, как долго пользователи остаются на странице после клика. Если пользователь быстро возвращается к результатам поиска, это может указывать на то, что страница не соответствовала его ожиданиям. Длительное пребывание на странице, напротив, сигнализирует о высокой полезности и релевантности контента.
  3. Последующие действия пользователей: NavBoost также анализирует поведение пользователей после просмотра страницы. Если пользователи возвращаются к поиску и изменяют запрос или кликают на другие результаты, это также учитывается в алгоритмах ранжирования.

Glue, как пояснил Наяк в своих показаниях, расширяет функции NavBoost, охватывая все элементы на странице результатов поиска, включая видеоролики, изображения и другие медиафайлы. Glue помогает интегрировать и оценивать эти элементы, обеспечивая более комплексное ранжирование.

Практическое использование NavBoost

Примером практического применения NavBoost является ситуация, когда пользователи ищут информацию о конкретном человеке или компании. Если при поиске по запросу “Rand Fishkin” пользователи не находят сайт SparkToro и затем повторно ищут “SparkToro”, кликая на официальный сайт компании, NavBoost может использовать эту информацию для повышения ранга сайта SparkToro по запросу “Rand Fishkin”.

Кроме того, NavBoost географически сегментирует данные о кликах, учитывая местоположение пользователя (страна, штат/провинция) и тип устройства (мобильное или настольное), чтобы улучшить локальную релевантность результатов поиска. Например, результаты для одного и того же запроса могут различаться для пользователей из разных регионов или при использовании разных типов устройств.

Таким образом, NavBoost и Glue представляют собой мощные инструменты, которые позволяют Google использовать поведение пользователей для улучшения качества поисковой выдачи и обеспечения более релевантных и полезных результатов для пользователей по всему миру.

Данные из Chrome: Как данные о кликах в браузере Chrome используются в поисковых алгоритмах Google

Одним из самых примечательных в сливе является подтверждение того, что Google активно использует данные о кликах пользователей, собираемые через браузер Chrome, для улучшения своих поисковых алгоритмов. Эти данные играют важную роль в различных аспектах работы поисковой системы, влияя на ранжирование результатов и определение релевантности контента.

Утекшая документация указывает на то, что одним из мотивов для создания Chrome было стремление Google получить доступ к полному потоку кликов (clickstream) значительной доли пользователей Интернета. Эти данные включают информацию о каждом посещённом URL, что позволяет Google собирать подробные сведения о предпочтениях и поведении пользователей.

Применение данных о кликах в алгоритмах поиска

Согласно утекшим документам, Google использует несколько типов метрик, основанных на данных о кликах в браузере Chrome, которые могут быть использованы  для анализа как отдельных страниц, так и целых доменов. Одним из примеров такого использования является функция определения “топ-URL”, которая оценивает популярность страниц на основе количества кликов, сделанных в браузере Chrome.

Примером может служить функция создания Sitelinks — дополнительных ссылок, которые появляются под основным результатом поиска. Документация показывает, что для определения наиболее важных URL на сайте используется количество кликов в браузере Chrome. Это помогает Google выбирать страницы, которые пользователи посещают чаще всего, и включать их в Sitelinks.

Песочница для новых сайтов

Песочница (sandbox) — это термин, используемый в SEO-сообществе для описания периода, в течение которого новый сайт может не получать высокий рейтинг в результатах поиска, несмотря на наличие качественного контента и хорошей оптимизации.

Согласно утекшим документам, Google действительно использует такой механизм для новых сайтов. В первые месяцы существования сайт может подвергаться более строгим проверкам и не долго не показываться в поисковой выдаче, что позволяет поисковой системе убедиться в его надежности и качестве. Это подтверждает, что песочница является реальным инструментом, используемым Google для защиты качества поиска.

Раздельное ранжирование субдоменов

Еще одним важным аспектом утечки является информация о раздельном ранжировании субдоменов. Google неоднократно утверждал, что субдомены рассматриваются как части основного домена и не имеют отдельного ранжирования. Однако утекшие документы показывают, что это не совсем так.

Субдомены могут ранжироваться отдельно от основного домена, что позволяет Google более точно оценивать и отображать релевантный контент для пользователей. Например, субдомены, предназначенные для определенных регионов или тем, могут получать свои собственные позиции в результатах поиска, независимо от основного домена.

Раздельное ранжирование субдоменов:
Dmitriy
Dmitriy
Задать вопрос
Рассмотрим пример крупного сайта с несколькими субдоменами, такими как "blog.example.com" и "shop.example.com". Утекшие документы показывают, что каждый из этих субдоменов может иметь свои собственные рейтинги и позиции в результатах поиска. Это означает, что если "blog.example.com" предоставляет высококачественный контент, он может ранжироваться высоко независимо от того, как ранжируется основной домен "example.com".

В целом, подтверждение существования песочницы для новых сайтов и раздельного ранжирования субдоменов дает более глубокое понимание того, как Google управляет качеством поиска и обеспечивает релевантность результатов. Эти откровения позволяют более эффективно разрабатывать стратегии SEO и улучшать видимость сайтов в поисковых системах.

Возраст домена

Ранее представители Google утверждали, что возраст домена не является важным фактором в ранжировании сайтов. Однако утекшие документы показывают, что Google действительно учитывает эту информацию при определении качества и релевантности сайта.

Google собирает данные о возрасте домена с момента его регистрации. Эти данные включают дату регистрации домена и его возраст на момент запроса. Эта информация помогает поисковой системе оценить стабильность и надежность сайта, так как более старые домены, как правило, считаются более авторитетными и заслуживающими доверия.

Domain authority

Google неоднократно заявлял, что они не используют “domain authority” как фактор ранжирования. Представители Google, такие как Гэри Иллз (Gary Illyes) и Джон Мюллер (John Mueller), публично утверждали, что Google не имеет метрики, аналогичной “Domain Authority” от Moz или других SEO-инструментов.

DA SEO

Несмотря на публичные заявления, утекшая внутренняя документация Google показывает, что они действительно используют метрику, схожую с “domain authority.” Документация указывает на наличие атрибута “siteAuthority,” который преобразован из “quality_nsr.SiteAuthority” и применяется в системе ранжирования Qstar.

Точно  неизвестно, как эта метрика рассчитывается или используется в процессе ранжирования, но она явно существует и задействована в одной из систем ранжирования Google

Белые списки сайтов для специализированных запросов

Утечка  подтвердила существование белых списков (whitelisting) для определенных типов контента, таких как Covid-19 и демократические выборы и путешествия . Эти списки предназначены для обеспечения достоверности и надежности информации, представляемой пользователям, особенно в периоды глобальных событий и кризисов.

  • COVID-19 Во время пандемии COVID-19 Google ввел белые списки для сайтов, предоставляющих достоверную и проверенную информацию о вирусе.
  • Выборы Во время демократических выборов Google также применял белые списки для сайтов, предоставляющих информацию о выборах. Это делалось для того, чтобы обеспечить пользователям доступ к проверенным и надежным источникам информации, минимизируя риск распространения фейковых новостей и дезинформации. Сайты, включенные в белые списки, имели преимущество в ранжировании, что позволяло им занимать верхние позиции в результатах поиска.
  • Путешествия Еще одна область, где Google использует белые списки, это сфера путешествий. Сайты, предоставляющие качественную информацию о путешествиях, такие как рекомендации по направлениям, отзывы о местах, и советы по планированию поездок, могут быть включены в белые списки.

Twiddlers

Twiddlers — это функции повторного ранжирования, которые применяются после основного алгоритма ранжирования (Ascorer). Они работают аналогично фильтрам и действиям в WordPress, где отображаемая информация изменяется непосредственно перед её представлением пользователю. Twiddlers могут корректировать оценку информационного поиска документа или изменять его позицию в выдаче. Эти функции играют важную роль в различных системах Google, таких как Panda и NavBoost.

Основные функции Twiddlers:

  • Рекатегоризация: Twiddlers могут ограничивать количество результатов определенного типа на странице поиска, что позволяет разнообразить выдачу.
  • Фильтрация: Twiddlers могут улучшать или понижать документы на основе дополнительных сигналов, таких как свежесть контента или пользовательский опыт.
  • Эксперименты: Twiddlers часто используются для проведения живых экспериментов по изменению ранжирования в реальном времени.

Пример важности Twiddlers можно увидеть в истории одного бывшего сотрудника Google, который случайно отключил Twiddlers и вызвал проблемы с поиском на YouTube.

Anchor Mismatch

Anchor Mismatch (несоответствие якорного текста) — это механизм, который используется Google для понижения ценности ссылок, если текст ссылки (якорный текст) не соответствует содержимому целевой страницы. Этот механизм помогает Google лучше оценивать качество ссылок и предотвращать манипуляции с помощью нерелевантных или спамных ссылок.

Как работает Anchor Mismatch

  • Анализ якорного текста: Google анализирует текст ссылки, который используется для перехода на целевую страницу. Якорный текст должен быть релевантен содержимому целевой страницы, то есть он должен точно описывать то, что пользователь найдет на целевой странице.
  • Сравнение с содержимым страницы: Алгоритмы Google сравнивают якорный текст с содержимым целевой страницы. Если якорный текст не соответствует основным ключевым словам и тематике целевой страницы, ссылка может быть понижена в ценности.
  • Определение несоответствия: Если несоответствие между якорным текстом и содержимым целевой страницы достаточно велико, Google может считать такую ссылку нерелевантной или спамной. Это может привести к снижению веса этой ссылки в общем оценивании ранжирования страницы.

Quality Raters

Еще одним важным аспектом утечки стала информация о системе оценок качества Google под названием EWOK. Данные, полученные от оценщиков качества, играют значительную роль в оценке сайтов и формировании результатов поиска.

EWOK — это внутренняя платформа Google, использующаяся для привлечения оценщиков качества (Quality Raters), которые вручную оценивают качество и релевантность сайтов. Эти оценщики работают на основе руководств и критериев, разработанных Google, чтобы предоставить объективные и последовательные оценки контента.

Вот основные направления, в которых оценки качества могут влиять на результаты поиска:

  1. Релевантность контента: Оценщики качества определяют, насколько контент на сайте соответствует запросам пользователей. Если сайт регулярно получает высокие оценки, его страницы могут получить более высокие позиции в результатах поиска.
  2. Достоверность и надежность: Сайты, предоставляющие достоверную и проверенную информацию, могут быть подняты в рейтинге благодаря высоким оценкам качества. Это особенно важно для тем, связанных с медициной, финансами и другими чувствительными областями.
  3. Пользовательский опыт: Оценщики также оценивают удобство использования сайта, включая навигацию, время загрузки страниц и отсутствие навязчивой рекламы. Высокие оценки за пользовательский опыт могут привести к улучшению позиций сайта в поисковой выдаче.
  4. Обратная связь: Оценщики могут предоставлять Google обратную связь о качестве результатов поиска. Эта информация используется для корректировки алгоритмов и улучшения релевантности выдачи.

Проверка заголовков на соответствие запросам

Документация из утечки указывает на существование метрики под названием “titlematchScore”, которая используется для оценки того, насколько хорошо заголовок страницы соответствует поисковому запросу пользователя. Это подтверждает давнее предположение специалистов по SEO, что правильно составленные заголовки могут существенно влиять на позиции страницы в результатах поиска.

Как это работает

  1. Релевантность заголовка: Когда пользователь вводит поисковый запрос, алгоритмы Google проверяют заголовок каждой страницы на соответствие введенному запросу. Чем ближе заголовок к запросу по смыслу и ключевым словам, тем выше вероятность, что страница получит более высокий “titlematchScore”.
  2. Позиционирование ключевых слов: Ключевые слова, расположенные ближе к началу заголовка, имеют больший вес. Это подчеркивает важность размещения основных ключевых слов в начале заголовка, чтобы повысить его релевантность для алгоритмов поиска.
  3. Точность и уникальность: Заголовки, которые точно и уникально описывают содержание страницы, получают более высокие оценки. Использование общих или шаблонных заголовков может негативно сказаться на “titlematchScore”.

Exact Match Domains (EMD)

В течение долгого времени считалось, что наличие ключевых слов в доменном имени помогает сайту занимать высокие позиции в результатах поиска. Однако Google использует специальные алгоритмы, чтобы уменьшить влияние доменных имен, состоящих из ключевых слов, на ранжирование. Этот метод известен как песимизация за Exact Match Domains (EMD).

Google понижает сайты, доменные имена которых полностью совпадают с популярными поисковыми запросами, если такие сайты не предоставляют качественного контента. Это сделано для борьбы с низкокачественными сайтами, которые пытаются манипулировать результатами поиска за счет доменных имен. Например, сайты с доменными именами вроде “best-cheap-laptops.com” или “buy-gold-jewelry.net” могут подвергаться демоции, если их содержание не соответствует высоким стандартам качества Google.

Другие важные моменты:.

  • Учет размера шрифта: Google учитывает средний размер шрифта терминов в документах и анкорных текстах.
  • Хранение данных о регистрации доменов: Google хранит информацию о регистрации доменов для документов, что может использоваться для определения песочницы для новых или измененных доменов.
  • Влияние домашней страницы: Ранг главной страницы сайта (homepagePagerankNs) учитывается для всех страниц.
  • Ранжирование короткого контента: Короткий контент оценивается на предмет оригинальности.
  • Дата создания контента: Указание даты на странице и согласованность с другими датами на странице, такими как метаданные и URL, важно для определения актуальности контента.

Ознакомиться с документацией можно по ссылке

 

 

Rate article