Данные, сканируемые Applebot, используются для различных функций, таких как технология поиска, которая интегрирована во многие пользовательские интерфейсы в экосистеме Apple, включая Spotlight, Siri и Safari. Включение Applebot в robots.txt позволяет отображать содержимое веб-сайта в результатах поиска для пользователей Apple по всему миру в этих продуктах.
Applebot получает доступ ко многим видам ресурсов с веб-серверов, включая, помимо прочего, robots.txt, карты сайта, RSS-каналы, HTML, подресурсы, необходимые для отображения страниц (например, JavaScript), запросы Ajax, изображения и многое другое.
Трафик, исходящий от Applebot, обычно идентифицируется с помощью обратного DNS в домене *.applebot.apple.com.
Другой способ — сопоставить IP-адрес с префиксом CIDR, содержащимся в следующем файле JSON: Applebot IP CIDR.
Команда host может использоваться для определения того, является ли IP-адрес частью Applebot. В этих примерах показана команда host и ее результат:
$ host 17-58-101-179.applebot.apple.com 17-58-101-179.applebot.apple.com has address 17.58.101.179.
Команду host также можно использовать для проверки того, что DNS указывает на тот же IP-адрес:
$ host 17.58.101.179 179.101.58.17.in-addr.arpa domain name pointer 17-58-101-179.applebot.apple.com.
Агент пользователя помогает веб-мастерам идентифицировать трафик краулера, чтобы они могли получать точные отчеты журнала доступа об активности краулера и контролировать доступ к сайту через robots.txt.
Applebot поддерживает несколько агентов пользователя, включая поиск и подкасты.
Для сканирования и рендеринга поисковой сети Applebot использует следующий формат:
Строка агента пользователя содержит "Applebot" и другую информацию. Ниже приведен общий формат:
Mozilla/5.0 (Device; OS_version) AppleWebKit/WebKit_version (KHTML, like Gecko)Version/Safari_version [Mobile/Mobile_version] Safari/WebKit_version (Applebot/Applebot_version; +http://www.apple.com/go/applebot)
Пример для десктопа:
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15(KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
Пример для мобильного устройства:
Mozilla/5.0 (iPhone; CPU iPhone OS 17_4_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4.1 Mobile/15E148 Safari/604.1 (Applebot/0.1; +http://www.apple.com/go/applebot)
Время от времени Applebot обновляет версию браузера, которую он рекламирует, оставаясь в общем формате, указанном выше.
Трафик iTMS также может поступать с хостов applebot.apple.com и будет идентифицирован следующим пользовательским агентом:
User-Agent: iTMS
Пользовательский агент iTMS не следует robots.txt, поскольку он не является общим поисковым роботом. Он сканирует только URL-адреса, связанные с зарегистрированным контентом в Apple Podcasts.
Applebot соблюдает стандартные директивы robots.txt при общем поисковом сканировании, нацеленном на Applebot. В этом примере Applebot не пытается сканировать документы, которые находятся под /private/ или /not-allowed/:
Если в инструкциях для роботов не упоминается Applebot, но упоминается Googlebot, робот Apple будет следовать инструкциям Googlebot.
Applebot может отображать содержимое вашего веб-сайта в браузере. Если JavaScript, CSS и другие ресурсы заблокированы через robots.txt, он может не отобразить содержимое должным образом. Сюда входят XHR, JS и CSS, которые могут потребоваться странице.
Чтобы Applebot индексировал лучший контент для страницы, убедитесь, что все необходимое для отображения страницы пользователем доступно Applebot. В качестве альтернативы убедитесь, что веб-сайт отображается чисто, даже если все ресурсы недоступны. Это часто называют постепенной деградацией.
Настройка правил индексации для Applebot
Applebot поддерживает метатеги robots в документах HTML. Чтобы указать правила robots в метатегах, поместите теги в
<html><head> <meta name="robots" content="noindex"/> ... </head> <body>...</body> </html>
Applebot также поддерживает следующие директивы:
noindex: Applebot
не будет индексировать эту страницу, и она не будет отображаться в Spotlight или предложениях Siri;nosnippet: Applebot
не будет генерировать описание или веб-ответ для страницы. Любые предложения посетить этот URL будут включать только заголовок страницы;nofollow: Applebot
не будет переходить по ссылкам на странице;none: Applebot
не будет индексировать, сниппетировать или переходить по ссылкам на странице, как описано выше;all: Applebot
предоставляет документ для предложений и сниппетирует содержимое, чтобы краткое описание страницы; могло отображаться рядом с репрезентативным изображением. Applebot может переходить по ссылкам на странице, чтобы предоставлять больше предложений.Чтобы поместить несколько директив в один метатег, используйте список, разделенный запятыми, или несколько метатегов.
Пример:
<meta name="robots" content="nosnippet, noindex”> <meta name="robots" content=“noindex"> <meta name="robots" content=“nosnippet">
Помимо соблюдения всех правил и директив robots.txt, у Apple есть вторичный пользовательский агент Applebot-Extended, который предоставляет веб-издателям дополнительный контроль над тем, как контент их веб-сайта может использоваться Apple.
С помощью Applebot-Extended веб-издатели могут отказаться от использования контента их веб-сайта для обучения базовых моделей Apple, обеспечивающих функции генеративного ИИ в продуктах Apple, включая Apple Intelligence, Services и Developer Tools.
Вы можете добавить правило в robots.txt, чтобы запретить Applebot-Extended, следующим образом:
User-agent: Applebot-Extended Disallow: /private/
Applebot-Extended не сканирует веб-страницы. Веб-страницы, которые запрещают Applebot-Extended, все равно могут быть включены в результаты поиска. Applebot-Extended используется только для определения того, как использовать данные, сканируемые пользовательским агентом Applebot.
Разрешение Applebot-Extended поможет улучшить возможности и качество генеративных моделей ИИ Apple с течением времени.
Apple Search может учитывать следующие факторы при ранжировании результатов веб-поиска:
Результаты поиска могут использовать указанные выше факторы без (заранее определенной) важности рейтинга. Пользователи поиска подчиняются Политике конфиденциальности в Предложениях Siri, Поиске и Конфиденциальности.