Sistemas antibot: Como eles funcionam e podem ser contornados?

Guias, Out-07-20245 minutos de leitura

Os sistemas antibot são tecnologias projetadas para proteger os sites contra interações automatizadas, como spam ou ataques DDoS. No entanto, nem todas as atividades automatizadas são prejudiciais: por exemplo, os bots às vezes são necessários para testes de segurança, criação de índices de pesquisa e coleta de dados de fontes abertas. Para executar essas tarefas sem ser bloqueado por sistemas antibot, você precisará de ferramentas especializadas.

Para poder contornar um sistema antibot, é essencial entender quais são os diferentes tipos de proteção e como eles funcionam.

Como os sistemas antibot detectam bots?

Os sistemas antibot coletam uma quantidade significativa de informações sobre cada visitante do site. Essas informações são analisadas e, se algum parâmetro não parecer característico de usuários humanos, o visitante suspeito poderá ser bloqueado ou solicitado a resolver um CAPTCHA para provar que é, de fato, de origem humana.

Essas informações geralmente são coletadas em três níveis: rede, comportamento e impressão digital do navegador.

  • O nível da rede: Os sistemas antibot analisam as solicitações, verificam a pontuação de spam dos endereços IP e inspecionam os cabeçalhos dos pacotes. Os visitantes cujos endereços IP aparecem em "listas negras", pertencem a centros de dados, estão associados à rede Tor ou parecem suspeitos de outras formas podem enfrentar um desafio de CAPTCHA. Você provavelmente já passou por isso em sua vida quando o Google o enviou para resolver um CAPTCHA só porque você estava usando um serviço de VPN gratuito.
  • Nível de impressão digital do navegador: Os sistemas antibot coletam informações sobre o navegador e o dispositivo usado para acessar o site, criando uma impressão digital do dispositivo correspondente. Essa impressão digital normalmente inclui o tipo, a versão e as configurações de idioma do navegador, a resolução da tela, o tamanho da janela, o ruído do hardware, as fontes do sistema, os dispositivos de mídia e muito mais.
  • Nível comportamental: Alguns sistemas avançados examinam a proximidade entre as ações de um usuário e o comportamento dos visitantes regulares do site.

Há muitos sistemas antibot, e as especificidades de cada um podem variar muito e mudar com o tempo. As soluções populares incluem:

  • Akamai
  • Cloudflare
  • Datadome
  • Incapsula
  • Casada
  • Perímetrox

Entender qual sistema antibot protege um site pode ser importante para escolher a melhor estratégia de desvio. Você encontrará seções inteiras dedicadas a contornar sistemas antibot específicos em fóruns especializados e canais do Discord. Por exemplo, essas informações podem ser encontradas no The Web Scraping Club.

Para identificar o sistema antibot que um site usa, você pode usar ferramentas como a extensão de navegador Wappalyzer.

Como contornar sistemas antibot?

Para evitar que o sistema detecte a automação, é necessário garantir um nível suficiente de mascaramento em cada nível de detecção. Isso pode ser obtido de várias maneiras:

  • Usando suas próprias soluções personalizadas e mantendo a infraestrutura de forma independente;
  • Usando serviços pagos como Apify, Scrapingbee, Browserless ou Surfsky;
  • Combinando proxies, solucionadores de CAPTCHA e navegadores antidetecção de alta qualidade;
  • Usando navegadores padrão no modo headless com patches antidetecção;
  • Ou usando muitas outras opções de complexidade variável.

Mascaramento em nível de rede

Para proteger um bot no nível da rede, é essencial usar proxies de alta qualidade. É claro que tarefas simples podem ser realizadas usando apenas seu próprio endereço IP, mas é improvável que essa abordagem seja viável se você pretende coletar uma quantidade significativa de dados. Você precisará de um bom endereço residencial ou móvel proxies que não tenha sido colocado em uma lista negra para enviar dezenas de milhares de solicitações regularmente.


Verificação do endereço IP usando o IPQualityScore

Ao escolher um proxy, preste atenção aos seguintes parâmetros:

  • Se seu endereço IP aparece em bancos de dados de spam. Isso pode ser verificado com ferramentas como o PixelScan ou consultando o banco de dados iplists.firehol.org.
  • Se há algum vazamento de DNS. Ao testar usando qualquer verificador adequado, como o DNS Leak Test, seu servidor real não deve aparecer na lista de servidores.
  • O tipo de provedor proxy . Proxies pertencentes a ISPs são menos suspeitos.

Você pode saber mais sobre como verificar a qualidade do proxy aqui.

O proxies rotativo também é útil para a Web scraping. Eles fornecem muitos endereços IP, em vez de apenas um, reduzindo a chance de um bot que coleta informações ser bloqueado, pois é mais difícil para o site encontrar padrões nas solicitações. O proxies rotativo distribui solicitações entre vários endereços IP, reduzindo os riscos de bloqueio devido a um grande número de solicitações de um único IP.

Mascaramento em nível de impressão digital

Os navegadores com várias contas (antidetecção) são perfeitos para falsificar as impressões digitais do navegador. Os de melhor qualidade, como o Octo Browser, falsificam a impressão digital no nível do kernel do navegador e permitem criar um grande número de perfis de navegador, cada um parecendo um usuário separado.

Configuração da impressão digital de um perfil do Octo Browser

Scraping A criação de perfis de dados com um navegador antidetecção pode ser feita com a ajuda de qualquer biblioteca ou estrutura conveniente de automação de navegador. Você pode criar o número desejado de perfis com as configurações de impressão digital necessárias, proxies, e cookies, sem precisar abrir o próprio navegador. Posteriormente, esses perfis podem ser usados no modo de automação ou manualmente.

Trabalhar com um navegador com várias contas não é muito diferente de usar um navegador comum no modo headless. O Octo Browser fornece documentação detalhada com instruções passo a passo sobre como se conectar à API para todas as linguagens de programação populares.

Um exemplo de criação de um perfil de navegador Octo usando Python

Os navegadores profissionais antidetecção permitem que você gerencie de forma conveniente um grande número de perfis de navegador, conecte-se a proxies e acesse dados que normalmente não estão disponíveis com os métodos padrão de scraping graças a um sistema avançado de falsificação de impressão digital.

Simulação de ações reais do usuário

Para contornar os sistemas antibot, também é necessário simular ações de usuários reais: atrasos, emulação de movimento do cursor, pressionamento rítmico de teclas, pausas aleatórias e padrões de comportamento irregulares. Com frequência, você precisará executar ações como autorização, clicar nos botões "Leia mais", seguir links, enviar formulários, percorrer feeds etc.

As ações do usuário podem ser simuladas usando soluções populares de código aberto para automação do navegador, como o Selenium, embora também existam outras opções, como o MechanicalSoup, o Nightmare JS e outros.

Para fazer com que o site scraping pareça mais natural para os sistemas antibot, é recomendável adicionar atrasos com intervalos irregulares às solicitações.

Conclusões

Os sistemas antibot protegem os sites contra interações automatizadas, analisando informações de rede, navegador e comportamento do usuário. Para contornar esses sistemas, cada um desses níveis exige um mascaramento adequado.

  • No nível da rede, você pode usar proxies de alta qualidade, especialmente os rotativos.
  • Para falsificar a impressão digital do navegador, você pode usar navegadores antidetecção com várias contas, como o Octo Browser.
  • Para simular ações reais do usuário, você pode usar ferramentas de automação do navegador, como o Selenium, incorporando adicionalmente atrasos irregulares e padrões de comportamento.

Deseja aumentar sua configuração da Web scraping com ferramentas antidetecção de primeira linha? 

O Octo Browser é sua solução ideal. Ele oferece spoofing de impressão digital de ponta e gerenciamento de várias contas sem esforço. 

Use o código promocional PROXYSCRAPE para obter uma assinatura básica gratuita de 4 dias do Octo Browser para novos usuários. Não perca essa oportunidade de melhorar seu jogo na Web scraping !

Feliz scraping!