Документы Applebot с Applebot-Extended
Меню

Документы Applebot с Applebot-Extended

Опубликовано: 7 сентября, 2024 Обновлено: 7 сентября, 2024 Разработка ПО

Об Applebot

Данные, сканируемые Applebot, используются для различных функций, таких как технология поиска, которая интегрирована во многие пользовательские интерфейсы в экосистеме Apple, включая Spotlight, Siri и Safari. Включение Applebot в robots.txt позволяет отображать содержимое веб-сайта в результатах поиска для пользователей Apple по всему миру в этих продуктах.

Applebot получает доступ ко многим видам ресурсов с веб-серверов, включая, помимо прочего, robots.txt, карты сайта, RSS-каналы, HTML, подресурсы, необходимые для отображения страниц (например, JavaScript), запросы Ajax, изображения и многое другое.

Applebot-Extended


Идентификация Applebot

Трафик, исходящий от Applebot, обычно идентифицируется с помощью обратного DNS в домене *.applebot.apple.com.

Другой способ — сопоставить IP-адрес с префиксом CIDR, содержащимся в следующем файле JSON: Applebot IP CIDR.

Обратный DNS

Команда host может использоваться для определения того, является ли IP-адрес частью Applebot. В этих примерах показана команда host и ее результат:

$ host 17-58-101-179.applebot.apple.com 17-58-101-179.applebot.apple.com has address 17.58.101.179.

Команду host также можно использовать для проверки того, что DNS указывает на тот же IP-адрес:

$ host 17.58.101.179 179.101.58.17.in-addr.arpa domain name pointer 17-58-101-179.applebot.apple.com.

Юзер агент

Агент пользователя помогает веб-мастерам идентифицировать трафик краулера, чтобы они могли получать точные отчеты журнала доступа об активности краулера и контролировать доступ к сайту через robots.txt.

Applebot поддерживает несколько агентов пользователя, включая поиск и подкасты.

Поиск

Для сканирования и рендеринга поисковой сети Applebot использует следующий формат:

Строка агента пользователя содержит "Applebot" и другую информацию. Ниже приведен общий формат:

Mozilla/5.0 (Device; OS_version) AppleWebKit/WebKit_version (KHTML, like Gecko)Version/Safari_version [Mobile/Mobile_version] Safari/WebKit_version (Applebot/Applebot_version; +http://www.apple.com/go/applebot)

Пример для десктопа:

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15(KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)

Пример для мобильного устройства:

Mozilla/5.0 (iPhone; CPU iPhone OS 17_4_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4.1 Mobile/15E148 Safari/604.1 (Applebot/0.1; +http://www.apple.com/go/applebot)

Время от времени Applebot обновляет версию браузера, которую он рекламирует, оставаясь в общем формате, указанном выше.

Apple Podcasts

Трафик iTMS также может поступать с хостов applebot.apple.com и будет идентифицирован следующим пользовательским агентом:

User-Agent: iTMS

Пользовательский агент iTMS не следует robots.txt, поскольку он не является общим поисковым роботом. Он сканирует только URL-адреса, связанные с зарегистрированным контентом в Apple Podcasts.

Настройка правил robot.txt

Applebot соблюдает стандартные директивы robots.txt при общем поисковом сканировании, нацеленном на Applebot. В этом примере Applebot не пытается сканировать документы, которые находятся под /private/ или /not-allowed/:

Если в инструкциях для роботов не упоминается Applebot, но упоминается Googlebot, робот Apple будет следовать инструкциям Googlebot.

Отображение и правила для роботов

Applebot может отображать содержимое вашего веб-сайта в браузере. Если JavaScript, CSS и другие ресурсы заблокированы через robots.txt, он может не отобразить содержимое должным образом. Сюда входят XHR, JS и CSS, которые могут потребоваться странице.

Чтобы Applebot индексировал лучший контент для страницы, убедитесь, что все необходимое для отображения страницы пользователем доступно Applebot. В качестве альтернативы убедитесь, что веб-сайт отображается чисто, даже если все ресурсы недоступны. Это часто называют постепенной деградацией.

Настройка правил индексации для Applebot

Applebot поддерживает метатеги robots в документах HTML. Чтобы указать правила robots в метатегах, поместите теги в

<html><head> <meta name="robots" content="noindex"/> ... </head> <body>...</body> </html>

Applebot также поддерживает следующие директивы:

  • noindex: Applebot  не будет индексировать эту страницу, и она не будет отображаться в Spotlight или предложениях Siri;
  • nosnippet: Applebot  не будет генерировать описание или веб-ответ для страницы. Любые предложения посетить этот URL будут включать только заголовок страницы;
  • nofollow: Applebot  не будет переходить по ссылкам на странице;
  • none: Applebot  не будет индексировать, сниппетировать или переходить по ссылкам на странице, как описано выше;
  • all: Applebot предоставляет документ для предложений и сниппетирует содержимое, чтобы краткое описание страницы; могло отображаться рядом с репрезентативным изображением. Applebot может переходить по ссылкам на странице, чтобы предоставлять больше предложений.

Чтобы поместить несколько директив в один метатег, используйте список, разделенный запятыми, или несколько метатегов.

Пример:

<meta name="robots" content="nosnippet, noindex”> <meta name="robots" content=“noindex"> <meta name="robots" content=“nosnippet">

Контроль использования данных

Помимо соблюдения всех правил и директив robots.txt, у Apple есть вторичный пользовательский агент Applebot-Extended, который предоставляет веб-издателям дополнительный контроль над тем, как контент их веб-сайта может использоваться Apple.

С помощью Applebot-Extended веб-издатели могут отказаться от использования контента их веб-сайта для обучения базовых моделей Apple, обеспечивающих функции генеративного ИИ в продуктах Apple, включая Apple Intelligence, Services и Developer Tools.

Вы можете добавить правило в robots.txt, чтобы запретить Applebot-Extended, следующим образом:

User-agent: Applebot-Extended Disallow: /private/

Applebot-Extended не сканирует веб-страницы. Веб-страницы, которые запрещают Applebot-Extended, все равно могут быть включены в результаты поиска. Applebot-Extended используется только для определения того, как использовать данные, сканируемые пользовательским агентом Applebot.

Разрешение Applebot-Extended поможет улучшить возможности и качество генеративных моделей ИИ Apple с течением времени.


О рейтингах поиска

Apple Search может учитывать следующие факторы при ранжировании результатов веб-поиска:

  • Агрегированное взаимодействие пользователей с результатами поиска;
  • Релевантность и соответствие поисковых терминов темам и содержанию веб-страниц;
  • Количество и качество ссылок с других страниц в Интернете;
  • Сигналы, основанные на местоположении пользователя (приблизительные данные).

Характеристики дизайна веб-страницы

Результаты поиска могут использовать указанные выше факторы без (заранее определенной) важности рейтинга. Пользователи поиска подчиняются Политике конфиденциальности в Предложениях Siri, Поиске и Конфиденциальности.


 

Поделиться ссылкой

Похожие статьи