Как блокировать роботов-сканеров с помощью robots.txt

какОстановка роботов ИИНезависимо от того, являетесь ли вы создателем контента или блогером, вы зарабатываете на жизнь, создавая уникальный, высококачественный контент. Вы замечали, что платформы генеративного ИИ, такие как OpenAI или CCBot, используют ваш контент для обучения своих алгоритмов без вашего согласия? Не волнуйтесь! Вы можете использовать роботыФайл .txt блокирует доступ роботов ИИ к вашему веб-сайту или блогу.

Что такое файл robots.txt?

Файл robots.txt — это всего лишь текстовый файл, содержащий инструкции для роботов (например, поисковых роботов) о том, как сканировать и индексировать страницы вашего сайта. Вы можете блокировать/разрешать работу как полезных, так и вредоносных роботов, использующих ваш файл robots.txt. Синтаксис для блокировки одного робота с помощью user-agent следующий:

user-agent: {ИМЯ-БОТА-ЗДЕСЬ} disallow: /

Вот как разрешить определенным ботам сканировать ваш сайт с помощью пользовательского агента:

Пользовательский агент: {ИМЯ-БОТА-ЗДЕСЬ} Разрешить: /

Где разместить файл robots.txt?

Загрузите файл в корневую папку вашего сайта. URL-адрес будет выглядеть так:

https://example.com/robots.txt https://blog.example.com/robots.txt

Более подробную информацию о robots.txt можно найти в следующих ресурсах:

От GoogleВведение в robots.txt.
Что такое robots.txt? | Как работает файл robots.txt?В CloudflareРабота.

Как заблокировать роботов ИИ с помощью файлов robots.txt

Синтаксис тот же:

user-agent: {AI-Ccrawlers-Bot-Name-Here} запретить: /

Блокировка OpenAI с помощью файла robots.txt

Добавьте следующие четыре строки в robots.txt:

User-agent: GPTBot Disallow: / User-agent: ChatGPT-User Disallow: /

Обратите внимание, что OpenAI использует два отдельных пользовательских агента для сканирования и просмотра веб-страниц, каждый со своей собственной CIDR и диапазоном IP-адресов. Настройка перечисленных ниже правил брандмауэра требует глубокого понимания сетевых принципов и доступа root-уровня в Linux. Если у вас нет этих навыков, рассмотрите возможность привлечения системного администратора Linux, чтобы предотвратить доступ из постоянно меняющихся диапазонов IP-адресов. Это может превратиться в игру в кошки-мышки.

1:`ChatGPT-Пользователь`От ChatGPTплагиныиспользовать

Ниже представлен список пользовательских агентов, используемых сканерами и сборщиками OpenAI:, включая CIDR или диапазоны IP-адресов, для блокировки подключаемых ботов с искусственным интеллектом, которые можно использовать с брандмауэром вашего веб-сервера. Вы можете использовать команду ufw или iptables на вашем веб-сервере для блокировки.23.98.142.176/28 .Например, вот правило брандмауэра, которое блокирует диапазон CIDR или IP с помощью UFW:

sudo ufw deny proto tcp с 23.98.142.176/28 на любой порт 80 sudo ufw deny proto tcp с 23.98.142.176/28 на любой порт 443

2:`GPTBot`Используется ChatGPT

Ниже приведены пользовательские агенты, используемые сканерами и сборщиками OpenAI:Список, включая CIDRИли диапазоны IP-адресов для блокировки ботов с искусственным интеллектом, которые можно использовать с брандмауэром вашего веб-сервера. Опять же, вы можете заблокировать эти диапазоны с помощью команды ufw или iptables. Вот скрипт оболочки для блокировки этих диапазонов CIDR:

#!/bin/bash # Назначение: блокировка CIDR-бота OpenAI ChatGPT # Протестировано на: Debian и Ubuntu Linux # Автор: Вивек Гите {https://www.cyberciti.biz} по лицензии GPL v2.x+ # ------------------------------------------------------------------ file="/tmp/out.txt.$$" wget -q -O "$file" https://openai.com/gptbot-ranges.txt 2>/dev/null while IFS= read -r cidr do sudo ufw deny proto tcp from $cidr to any port 80 sudo ufw deny proto tcp from $cidr to any port 443 done < "$file" [ -f "$file" ] && rm -f "$file"

Блокировать Google AI (API-интерфейсы генерации Bard и Vertex AI)

Добавьте в robots.txt следующие две строки:

User-agent: Google-Extended Disallow: /

Дополнительную информацию см. в следующем списке пользовательских агентов, используемых поисковыми роботами и экстракторами Google. Однако Google не предоставляет CIDR, диапазоны IP-адресов или информацию об автономной системе (ASN) для блокировки ботов на базе искусственного интеллекта, которые можно использовать с брандмауэром вашего веб-сервера.

Блокировка CommonCrawl (CCBot) с помощью файла robots.txt

Добавьте в robots.txt следующие две строки:

Пользовательский агент: CCBot Disallow: /

Хотя Common Crawl являетсянекоммерческий фонд, но каждый из них использует данные для обучения своего ИИ через своего бота CCbot. Блокировка также важна. Однако, как и Google, они не предоставляют CIDR, диапазоны IP-адресов или информацию об автономной системе (ASN) для блокировки ИИ-ботов, которые можно было бы использовать с брандмауэром вашего веб-сервера.

Блокировка Perplexity AI с помощью файла robots.txt

Другой сервис может взять весь ваш контент и переписать его с помощью генеративного искусственного интеллекта. Вы можете заблокировать его следующим образом:

Пользовательский агент: PerplexityBot Disallow: /

Они также выпустилиДиапазон IP-адресов, вы можете заблокировать его с помощью брандмауэра WAF или веб-сервера.

Могут ли боты на базе искусственного интеллекта игнорировать мой файл robots.txt?

Такие известные компании, как Google и OpenAI, обычно соблюдают протокол robots.txt. Однако некоторые неудачно спроектированные боты на базе искусственного интеллекта могут игнорировать ваш robots.txt.

Можно ли использовать технологию AWS или Cloudflare WAF для блокировки ИИ-ботов?

Cloudflare недавно анонсировала, они представили новое правило брандмауэра, блокирующее ботов с искусственным интеллектом. Однако поисковые системы и другие боты по-прежнему могут использовать ваш сайт/блог через правила WAF. Важно помнить, что продукты WAF должны иметь полное представление о работе ботов и должны внедряться с осторожностью. В противном случае другие пользователи также могут быть заблокированы. Вот несколько советов по использованию Cloudflare Как WAF блокирует ИИ-ботов:

Как заблокировать роботов ИИ с помощью файла robots.txt-1

нажмите, чтобы увеличить

Обратите внимание, что я всё ещё оцениваю решение Cloudflare, но, по моим предварительным тестам, оно блокирует не менее 3,31% пользователей. 3,31% — это показатель CSR (Challenge Resolution Rate), который отражает количество пользователей, разгадавших CAPTCHA, предоставляемую Cloudflare. Это очень высокий показатель CSR. Мне нужно провести дополнительное тестирование. Я обновлю эту запись в блоге, когда начну использовать Cloudflare.

Могу ли я заблокировать доступ к коду и документации, размещенным на GitHub и других сайтах облачного хостинга?

Нет, я не знаю, возможно ли это.

Меня беспокоит использование GitHub, продукта Microsoft и крупнейшего инвестора OpenAI. Они потенциально могут использовать ваши данные для обучения ИИ через обновления условий обслуживания и другие уязвимости. Лучше всего, чтобы ваша компания или вы сами размещали сервер GitHub, чтобы предотвратить использование ваших данных и кода для обучения. Крупные компании, такие как Apple, запретили внутреннее использование ChatGPT и аналогичных продуктов из-за опасений по поводу потенциальной утечки кода и конфиденциальных данных.

Когда ИИ используется на благо человечества, этично ли препятствовать роботам ИИ получать данные для обучения?

Я скептически отношусь к использованию OpenAI, Google Bard, Microsoft Bing или любого другого ИИ на благо человечества. Похоже, это просто способ заработать, пока генеративный ИИ заменяет офисных работников. Однако, если у вас есть информация о том, как мои данные можно использовать для лечения рака (или чего-то подобного), пожалуйста, поделитесь ею в комментариях.

Моё личное мнение таково, что сейчас я не получаю никакой выгоды от OpenAI/Google/Bing AI, или любого другого ИИ, если уж на то пошло. Я усердно работал более 20 лет, и мне нужно защитить свою работу от прямой прибыли со стороны этих крупных технологических компаний. Вы не обязаны со мной соглашаться. Вы можете передать свой код и другие данные ИИ. Помните, это необязательно. Единственная причина, по которой они сейчас предлагают контроль над robots.txt, заключается в том, что несколько авторов книг и компаний подали на них в суд. Помимо этого, инструменты ИИ используются для создания спам-сайтов и электронных книг. См. следующие избранные материалы:

Действительно, ИИ уже использует большую часть ваших данных, но все, что вы создадите в будущем, может быть защищено этими технологиями.

Сложить

По мере роста популярности генеративного ИИ создатели контента всё чаще задаются вопросом о несанкционированном использовании данных компаниями, занимающимися разработкой ИИ, для обучения своих моделей. Они получают прибыль от кода, текстов, изображений и видео, созданных миллионами небольших независимых авторов, одновременно лишая их источников дохода. Некоторые, возможно, не будут возражать, но я знаю, что такой резкий шаг будет иметь разрушительные последствия для многих. Поэтому операторы веб-сайтов и создатели контента должны иметь возможность легко блокировать нежелательные ИИ-парсеры. Процесс должен быть простым.

Я обновлю эту страницу, поскольку больше ботов можно будет заблокировать с помощью robots.txt и с помощью облачных решений, предоставляемых сторонними компаниями, такими как Cloudflare.

Другие проекты с открытым исходным кодом для блокировки ботов

Nginx Bad Bot и User Agent Blocker
Фэйл2БанСканируйте файлы журналов, такие как /var/log/auth.log, и блокируйте IP-адреса, которые совершают слишком много неудачных попыток входа в систему.

1/5 - (2 голоса)