dark proxyscrape logotipo

Web Scraping para geração de leads: Milhares de leads na ponta de seus dedos

Scraping, Mar-05-20215 minutos de leitura

Índice

Por que a geração de leads é importante

A geração de leads é uma parte essencial do crescimento de seus negócios. Se sua equipe de vendas não tiver leads para abordar, ela não poderá fazer seu trabalho. Ligar para os clientes em potencial raramente é eficaz, especialmente para marcas que vendem produtos de alto valor, em que há algum atrito com a ideia de fazer uma compra.

Toda venda começou como um lead

As vendas vêm dos leads. O relatório Technology Content Marketing: Benchmarks, Budgets and Trends, produzido pelo Content Marketing Institute e pela MarketingProfs, destaca que 77% dos profissionais de marketing de tecnologia usam leads qualificados pelo marketing para impulsionar as vendas (contra 64% em 2019).

Os leads qualificados são mais fáceis de converter porque são pessoas (ou empresas) que já expressaram interesse em seu produto ou serviço. Ao identificar seu público-alvo e concentrar seus esforços de marketing especificamente nessas pessoas, você economizará o tempo e a energia de sua equipe de vendas para que ela possa se concentrar nos clientes potenciais de maior qualidade.

O poder da Web na ponta de seus dedos

A geração de leads está mais fácil do que nunca. A comunicação instantânea, as opções de marketing de mídia social altamente direcionadas e o acesso a bancos de dados que contêm quase todas as informações imagináveis significam que os proprietários de pequenas empresas têm o poder de realizar tudo o que quiserem.

No passado, se você quisesse atingir um público-alvo específico, teria que pagar uma quantia enorme de dinheiro a uma empresa de marketing para poder enviar folhetos pelo correio para as empresas em seu banco de dados.

Hoje, isso não é necessário. Se você quiser encontrar uma lista de restaurantes mexicanos na costa leste ou de escolas de ensino fundamental e médio em seu estado, poderá encontrá-la on-line. As empresas que operam no espaço B2B podem criar um banco de dados de clientes potenciais de forma rápida e fácil, filtrar essa lista e enviar mensagens de marketing personalizadas.

Para entidades B2B que têm como alvo uma área geográfica relativamente pequena, uma simples pesquisa na Web pode ser suficiente para encontrar uma lista de clientes em potencial. No entanto, se a sua intenção for atingir empresas em todo o estado ou até mesmo em todo o país, a coleta manual de todos esses dados consumiria muito tempo.

A Web scraping pode poupar a você e à sua equipe de marketing uma quantidade significativa de tempo e dinheiro, reunindo os dados de que você precisa automaticamente.

O que é o site Scraping?

A Web Scraping é uma técnica automatizada para extrair dados de um site ou de vários sites, para que você possa usar os dados em outros aplicativos. Por exemplo, suponha que você queira criar uma lista de nomes e endereços de restaurantes em sua área, em vez de visitar manualmente cada restaurante local listado no Yelp ou no Tripadvisor. Nesse caso, você poderia usar um raspador da Web para percorrer essas páginas e extrair esses detalhes, criando uma lista que poderia ser usada para envio de e-mails.

A Web scraping pode economizar muito tempo e esforço para as empresas quando se trata de criar uma lista de marketing. Também é surpreendentemente fácil de fazer se você tiver as ferramentas certas ou o conhecimento de programação.

Como funcionam os Web Scrapers?

Os raspadores da Web funcionam carregando as páginas das quais você deseja extrair dados e, em seguida, lendo a página para procurar o tipo de informação que você está tentando encontrar. Essas informações podem ser:

  • Nomes de empresas
  • Números de telefone
  • Endereços de e-mail
  • Endereços postais
  • Endereços de sites

Quando um raspador da Web faz o download de uma página, ele lê o código-fonte para procurar padrões. Dependendo do site do qual você está extraindo os dados, ele pode simplesmente procurar algo que corresponda ao padrão 123-456-78901 de um número de telefone ou ao formato [email protected] de um endereço de e-mail.

Como alternativa, o desenvolvedor do raspador pode saber que, em um determinado site de diretório, os detalhes de contato estão cercados por um conjunto específico de tags no HTML e fazer com que o raspador extraia as informações entre essas tags.

Alguns softwares de raspagem podem ser configurados pelo usuário final, de modo que podem ser ensinados a entender praticamente qualquer site.

Desafios do uso de raspadores

Um problema com o uso de software de raspagem é que regulamentos como o GDPR da UE significam que os usuários precisam ser muito cuidadosos com os dados que coletam e como eles são usados. De acordo com o GDPR, uma organização deve ter a permissão de uma pessoa para manter ou processar dados sobre um indivíduo.

Alguns sites tentam proteger a privacidade dos usuários e os recursos de seus próprios servidores tentando bloquear os raspadores da Web. Há várias opções para fazer isso, incluindo a verificação do "agente do usuário" retornado pelo software cliente e a limitação do número de solicitações de páginas provenientes de um endereço IP específico.

Se quiser usar scrapers de forma eficaz, você precisará entender as regras de marketing do seu país, processar os dados coletados de forma responsável e saber como coletar dados das fontes escolhidas de forma eficiente e não destrutiva, para não ser banido do site.

Por exemplo, em ProxyScrape, oferecemos proxies residenciais que podem ser usados para fins de coleta de dados. Recomendamos que, se você estiver pensando em usar esses proxies, certifique-se de que seu scraper não emita um número excessivo de solicitações para um site de destino em um curto período de tempo. Scrape de forma responsável para não causar danos aos sites com os quais você está trabalhando.

Escolha de fontes de dados para obter leads de alta qualidade

O conteúdo scraping dá aos proprietários de empresas acesso a enormes quantidades de informações que, de outra forma, seriam difíceis de coletar, mas essas informações são tão úteis quanto a fonte de onde vieram.

Um dos desafios de coletar dados em scraping é ter certeza de que as informações estão atualizadas. Há milhares de diretórios na Web, e muitos deles são mal selecionados e estão desatualizados.

Se você coletar dados de uma fonte desatualizada e de baixa qualidade, na melhor das hipóteses, perderá tempo com e-mails que não serão lidos. Na pior das hipóteses, você pode se deparar com reclamações por fazer repetidas chamadas telefônicas não solicitadas para um número que não pertence mais à empresa que você achava que pertencia.

Então, como você pode aumentar as chances de os dados coletados serem úteis?

Escolha sua fonte de dados com cuidado

Antes de começar a coletar dados usando uma ferramenta scraping , examine manualmente o site com o qual você está pensando em trabalhar. Colete alguns leads manualmente e investigue-os.

As empresas ainda estão funcionando? Os detalhes de contato ainda estão corretos? Parece que o proprietário do diretório está verificando as informações antes de serem adicionadas?

Suponha que metade dos leads que você coleta manualmente seja offline, desatualizada ou potencialmente falsa. Nesse caso, há uma grande chance de que qualquer banco de dados que você crie por meio do site scraping seja de baixa qualidade.

Sites de diretórios maiores, como Tripadvisor, Yelp ou FourSquare, têm mais probabilidade de ter dados de qualidade do que diretórios menores e menos conhecidos, porque essas plataformas têm uma base muito maior de usuários que as atualizam.

Os diretórios de nicho podem ter valor se você estiver procurando comercializar para um grupo de interesse obscuro ou para um tipo de empresa altamente especializada, mas você deve esperar ter que fazer uma grande limpeza de dados antes de usar as informações coletadas para fins de marketing.

Considere os sites que exigem um login

Em muitos casos, você obterá dados muito mais valiosos se coletá-los de um site que exija login. O LinkedIn e o Twitter, por exemplo, podem ser extraídos se você usar um limitador de taxa para manter o número de solicitações que seu bot envia em um nível razoável e estiver conectado ao site quando estiver fazendo as solicitações.

Outra opção é usar uma API em vez de um simples raspador HTTP e coletar detalhes de um dos serviços populares de mapeamento. Por exemplo, o Google fornece uma API de pesquisa de empresas que pode ser usada para coletar informações sobre organizações incluídas no Google Maps, mas você deve concordar em cumprir os termos e condições do Google antes de acessar a API.

Em geral, se uma API estiver disponível, é melhor coletar seus dados usando essa API do que usar a Web scraping. Será muito menos provável que você tenha problemas com os proprietários de sites e será mais fácil limpar os dados fornecidos por meio de uma API.

Construa suas consultas adequadamente

Há um ditado na programação de computadores que diz "lixo entra, lixo sai", e isso certamente se aplica à coleta de dados. Certifique-se de construir cuidadosamente todas as pesquisas que realizar.

Por exemplo, se você quiser fazer marketing para construtores em Newcastle, não se esqueça de que há mais de uma Newcastle na Inglaterra e também há uma Newcastle na Austrália. Se você estiver pesquisando por "Newcastle" em proxy, a maioria dos sites tentará adivinhar a qual Newcastle você se refere, observando qual é a mais próxima da localização geográfica de proxy.

Tente restringir a pesquisa o máximo possível, fornecendo informações sobre a cidade, o estado e até mesmo o país, se o site de destino permitir. Isso o ajudará a evitar acabar com um banco de dados cheio de detalhes de contato de organizações a centenas de quilômetros de distância da área desejada.

O site scraping pode ser tão simples ou tão complexo quanto você desejar. Se estiver experimentando o scraping pela primeira vez, não há necessidade de gastar muito dinheiro com um software sofisticado.

Algumas boas opções incluem:

  • Raspador
  • ProWebScraper
  • Scrapy
O Scraper é uma extensão de navegador da Web que permite aos usuários extrair dados de páginas da Web de forma rápida e fácil. Se você quiser extrair informações de uma única página de resultados ou de um pequeno número de páginas, o Scraper é uma maneira simples e eficaz de fazer isso, e você pode achar que ele é muito mais fácil de usar do que um rastreador da Web mais sofisticado.
O ProWebScraper é uma ferramenta mais avançada que tem versões gratuita e premium. A ferramenta gratuita pode ser usada para scrape até 100 páginas, o que significa que deve ser suficiente para um negócio menor e de nicho. O ProWebScraper é relativamente fácil de usar para um software scraping , apresentando uma interface de apontar e clicar e regras predefinidas que permitem configurar o scraping mesmo que você não tenha confiança na parte técnica.

O ProWebScraper pode fazer o download de imagens e criar arquivos JSON, CSV ou XML. Ele pode até ser configurado para scrape sites em uma programação para que você possa coletar os dados e atualizar seus registros de marketing.

O Scrapy é uma estrutura da Web scraping gratuita e de código aberto. Essa ferramenta requer conhecimento técnico, mas é rápida, flexível e pode ser usada para scrape grandes quantidades de dados. O Scrapy pode ser executado em seu próprio computador Linux, OS X, Windows ou BSD ou em um servidor da Web.

Há uma comunidade ativa do Scrapy, incluindo bate-papo no IRC, Reddit e StackOverflow. Você pode buscar orientação da comunidade e aproveitar as vantagens de extensões ou módulos criados pela comunidade, liberando o poder do Scrapy mesmo que você não seja um desenvolvedor confiante.

Codificação de seu próprio raspador

Se você precisa coletar muitos dados ou planeja acessar scraping regularmente, as ferramentas gratuitas e as ferramentas baseadas em GUI podem não ser suficientemente eficientes para o seu caso de uso. Codificar seu próprio scraper ou contratar um desenvolvedor para fazer isso por você é uma boa opção.

Há várias estruturas gratuitas e de código aberto que podem ser usadas para codificar um raspador em linguagens populares, como Python, Perl, Java, R ou PHP.

Uma das bibliotecas mais populares para a Web scraping é a BeautifulSoup. Trata-se de uma ferramenta Python scraping capaz de extrair dados de arquivos HTML ou XML de forma rápida e fácil. Você precisará ter algum conhecimento de programação para usá-la, mas ela faz grande parte do trabalho detalhado de scraping para você, evitando que você tenha que reinventar a roda.
Depois de extrair os dados, você pode exportá-los como um arquivo CSV ou exibi-los em vários formatos usando uma biblioteca de processamento de dados, como o Pandas.

Os prós e contras de codificar seu próprio raspador

Codificar seu próprio scraper é uma boa ideia se você tiver algum conhecimento de programação. Também pode ser útil codificar seu próprio scraper se você precisar extrair muitos dados de uma página da Web incomum que as ferramentas gratuitas do scraping não conseguem processar.

Codificar seu próprio scraper ou pagar alguém para fazer isso por você pode ser uma boa ideia se você tiver necessidades específicas e sofisticadas. Um raspador codificado de forma personalizada pode ser projetado em torno de uma página de destino com mais eficiência do que uma ferramenta mais geral, portanto, é menos provável que você encontre bugs ou problemas ao lidar com os dados.

Por outro lado, os raspadores com código personalizado também são úteis para trabalhos menores e simples. Depois de escrever um scraper, você pode ajustar a rotina de análise e usar o mesmo script para extrair dados de outras páginas.

A desvantagem de usar um raspador com código personalizado é que leva tempo para escrever o raspador pela primeira vez e, se você não for um desenvolvedor experiente, poderá passar mais tempo lutando com a formatação de JSON ou tentando aprender uma nova biblioteca do que seria necessário apenas para ler o manual do ProWebScraper e configurá-lo.

Dependendo da tarefa, pode ser mais econômico pagar por uma ferramenta do que escrever uma ferramenta personalizada.

Além disso, se estiver planejando criar seu próprio scraper, precisará conhecer as práticas recomendadas e os problemas de codificação do site scraping , como

  • Uso de um User-Agent para identificar seu bot
  • Como você lida com a autenticação para sites que exigem um login
  • Conformidade com quaisquer termos e condições do site
  • Limitar a taxa de suas solicitações para evitar sobrecarregar o site
  • Envio de solicitações formadas corretamente
  • Uso (e rotação regular) proxies
  • Sanitização de qualquer informação retornada pelo servidor
  • Regras de proteção de dados para como e onde você armazena as informações retornadas
  • Solução de CAPTCHA

Escrever um pequeno raspador para extrair informações sobre algumas centenas ou alguns milhares de empresas faz muito sentido. Se estiver extraindo grandes quantidades de dados, talvez seja melhor procurar orientação ou trabalhar com um especialista para garantir que esteja em total conformidade com as normas de privacidade locais.

Regras de ouro para a Web Scraping

Se você decidir escrever seu próprio scraper, lembre-se de "ser gentil". Faça todo o possível para scrape de forma atenciosa, enviando solicitações corretamente formadas, scraping lentamente e usando um intervalo de endereços IP ao scrape.

Tente fazer com que seu raspador se pareça com um ser humano. Isso significa solicitar páginas lentamente e tentar não seguir um padrão fixo ao percorrer as páginas. Considere, por exemplo, obter uma lista de resultados de pesquisa, fazer uma lista dos links na página de resultados e, em seguida, acessar esses links em uma ordem aleatória, para que seja menos óbvio que você é um bot.

Não envie várias solicitações do mesmo IP ao mesmo tempo. As ferramentas antiscraping detectarão que você está colocando uma carga anormal no servidor.

Respeite as informações do arquivo Robots.txt do site. Se houver páginas, o webmaster não quer que sejam indexadas. Seria antiético se você ignorasse isso.

Considere o uso de uma biblioteca como a Selenium para fazer com que seu bot pareça mais humano, enviando cliques para a página ou interagindo de outra forma com ela. Algumas ferramentas ant-scraper mais sofisticadas procuram padrões de interação semelhantes aos de um bot e bloquearão um endereço IP se perceberem a falta de rolagem, cliques e outras interações.

Há uma corrida armamentista tecnológica entre os desenvolvedores de scrapers e aqueles que tentam bloquear os scrapers em seus sites. É muito difícil criar um scraper que possa coletar grandes volumes de dados sem ser detectado. No entanto, para projetos de pequeno ou médio porte, se você seguir as regras de ser gentil e não ser ganancioso, poderá obter os dados de que precisa com um scraper lento e constante e um pouco de proxies.

Lembre-se de que seu bot pode trabalhar 24 horas por dia, coletando dados em segundo plano, portanto, não há necessidade de baixar toda a lista de pequenas empresas no Yelp de uma só vez.

Solução de problemas com o raspador

Há vários problemas potenciais que você pode encontrar ao operar um scraper. Eles podem incluir:

  • Ter seu IP bloqueado pelo webmaster
  • Ter seu cliente scraping bloqueado pelo webmaster
  • Seu scraper fica confuso ao tentar navegar no site
  • Dados inúteis sendo coletados por meio de "honeypots" ocultos em sites
  • Limitação da taxa que impede que seu raspador trabalhe rapidamente
  • Alterações no design do site quebram um raspador que costumava funcionar

A boa notícia é que todos esses problemas podem ser resolvidos se você entender como os raspadores funcionam.

Os raspadores simples da Web seguem um padrão:

  1. O scraper envia uma solicitação HTTP para um site
  2. O site envia uma resposta, como faria para um navegador da Web normal
  3. O scraper lê a resposta, procurando um padrão no HTML
  4. O padrão é extraído e armazenado em um arquivo JSON para processamento posterior
  5. O scraper pode então continuar lendo a resposta em busca de mais padrões ou enviar sua próxima solicitação

Há algumas áreas em que as coisas podem dar errado.

O coletor de dados não está captando nenhum dado

Se o scraper não estiver captando nenhum dado, isso pode ser devido a um problema com a maneira como você configurou o analisador ou pode ser que o scraper não esteja vendo o mesmo site que você vê quando usa um navegador da Web.

Para descobrir o que deu errado, configure seu coletor de dados para gerar o HTML da página e compare-o com a saída normal do navegador.

Se você vir um erro ou uma página diferente, pode ser que seu cliente scraping tenha sido banido. O site pode ter banido seu endereço IP ou o software cliente do scraper.

Tente alterar o User-Agent que seu scraper identifica para um que faça com que ele se pareça com um navegador da Web moderno, como o Firefox ou o Chrome. Isso pode ajudá-lo a contornar restrições simples em alguns sites.
Se isso não funcionar, considere configurar seu scraper para usar um proxy para se conectar ao site em questão. Um proxy é um servidor que envia solicitações da Web em seu nome, de modo que o site não pode saber que elas estão vindo de sua conexão com a Internet.

Se você vir uma página "normal", é mais provável que o problema esteja na forma como você configurou o scraper para extrair dados. Cada programa scraping tem sua própria maneira de combinar padrões, embora a maioria use alguma variação de expressões regulares. Certifique-se de que não haja erros tipográficos na correspondência de padrões. Lembre-se de que o programa está fazendo exatamente o que você diz a ele, portanto, mesmo um pequeno erro quebrará completamente as regras de correspondência!

O raspador funciona por um tempo e depois para

Outro problema comum é um scraper funcionar por um curto período e depois parar de funcionar. Isso geralmente significa que o site bloqueou seu endereço IP, temporária ou permanentemente, porque você enviou muitas solicitações em um curto espaço de tempo.

Se isso acontecer, você poderá contornar a proibição usando um proxy. O Proxyscrape oferece tanto o proxies premium quanto o residencial para as pessoas usarem para dados scraping. O datacenter premium proxies é rápido e oferece largura de banda ilimitada, mas tem endereços IP que os webmasters podem reconhecer como sendo de um datacenter. Os proxies residenciais parecem ser para "usuários domésticos", mas a taxa de transferência disponível neles pode ser menor.

Considere a possibilidade de alterar o endereço proxy que você usa após algumas solicitações para reduzir o risco de um endereço IP do proxyser banido. Você também pode reduzir o risco de banimentos de IP reduzindo a velocidade com que seu scraper envia solicitações.

Lembre-se de que um raspador pode trabalhar em segundo plano, 24 horas por dia, sem intervalos. Mesmo que você limite a velocidade do raspador à análise de uma página a cada 15-30 segundos, ele trabalhará mais rapidamente do que um ser humano.

Lembre-se de que muitos sites, especialmente os menores, são hospedados em servidores que têm limites de velocidade e de quantidade de dados que podem transmitir a cada mês. Você pode achar que o seu bot scraping alguns dados não é irracional, mas se muitos outros usuários estiverem fazendo a mesma coisa, ou se o seu bot se "perder" e tentar baixar infinitamente as mesmas páginas repetidas vezes, você poderá prejudicar o desempenho do site para os usuários humanos ou custar dinheiro ao webmaster por consumir recursos excessivos.

O Scraper fica confuso e passa por um loop infinito de páginas

Outro problema comum que os profissionais de marketing encontram ao tentar usar um raspador da Web é o fato de o raspador ficar confuso e baixar páginas que não deveria.

Vamos imaginar que o plano do seu coletor de dados é encontrar uma lista de pedreiros em sua cidade e você o envia para um diretório onde ele faz a busca. O scraper deve:

  • Enviar uma solicitação HTTP contendo a string de pesquisa desejada
  • Faça o download da página de resultados
  • Analisar a página de resultados para encontrar um link para o primeiro resultado
  • Abra esse link
  • Extraia os detalhes do contato dessa nova página
  • Continue analisando a página de resultados para encontrar o segundo resultado
  • Abra esse link
  • E assim por diante...

Alguns sites são criados para incluir "honeypots" que prendem e confundem os bots. Esses honeypots são trechos de HTML definidos com uma tag de exibição que diz "display:none", de modo que não serão exibidos em um navegador normal. No entanto, os bots podem vê-los e, se não estiverem configurados para ignorá-los, eles os processarão como HTML normal.

É muito difícil programar um bot para ignorar completamente todo o HTML de armadilha de bots porque algumas dessas armadilhas são incrivelmente sofisticadas. O que você pode fazer, no entanto, é definir limites para o número de links que seu bot seguirá. Você também pode visualizar o código-fonte da página e procurar armadilhas óbvias para que possa configurar o bot para ignorá-las.

Marketing ético: Use seus leads raspados com sabedoria

A Web scraping é algo que muitos sites não aceitam e que os proprietários de empresas devem ter cuidado ao fazer. De acordo com o GDPR, é ilegal scrape as informações de um residente da UE sem seu consentimento, por exemplo.

Além disso, muitos sites que ocultam dados atrás de uma tela de login proíbem explicitamente a Web scraping em seus termos e condições. Isso significa que você corre o risco de ser banido desse site se for descoberto que está usando um scraper.

Se você decidir usar o scraping para obter leads, tente fazer isso de forma sensata. Pense no scraping como uma forma de economizar tempo ao reunir leads que você já teria reunido de qualquer maneira, e não como uma forma de montar uma campanha de marketing maciça.

Evite lançar uma rede muito grande com scraping. Pode ser tentador reunir os detalhes de contato de todas as empresas ou pessoas da sua área e das áreas próximas, na esperança de converter uma dessas empresas em cliente, mas uma campanha tão ampla e sem foco provavelmente terá um resultado negativo.

Limpar e manter seu banco de dados

Antes de iniciar sua campanha de marketing, faça algumas verificações nos dados coletados. Limpe o banco de dados para remover quaisquer dados obviamente incorretos, como empresas que fecharam, registros duplicados ou registros de pessoas que não estão na sua área-alvo.

Depois de iniciar a campanha, mantenha o banco de dados atualizado. Se um lead pedir para ser removido de seu banco de dados, exclua-o. Se você for legalmente capaz de fazer isso em sua jurisdição, retenha dados suficientes sobre eles para adicionar o e-mail ou o número de telefone a uma lista de "não entrar em contato" para que não possam ser adicionados novamente ao seu banco de dados de marketing na próxima vez que você acessar scraping.

Alguns outros aspectos a serem lembrados ao gerenciar suas campanhas de marketing incluem:

  • Limite o número de e-mails ou chamadas que você faz para leads frios
  • Fornecer informações de exclusão em todos os contatos que enviar
  • Respeitar as solicitações de opt-out e realizá-las prontamente
  • Se alguém responder ao seu marketing, atualize seus detalhes

Há uma linha tênue entre o marketing proativo e o spam agressivo. Os contatos repetidos dos profissionais de marketing fazem parte da jornada do cliente, e é importante manter contato com os clientes em potencial, mas o marketing excessivamente agressivo pode afastar os clientes em potencial e dar à sua marca uma má reputação.

Considere a possibilidade de importar os dados obtidos pelo site scraping para um sistema de CRM, para que você possa acompanhar cada cliente, em que estágio do processo de conversão ele se encontra e como ele tem respondido às mensagens de marketing.

Isso não só o ajudará a manter-se no topo dos clientes individuais, mas também facilitará a visualização do desempenho coletivo de suas campanhas de marketing para que você possa refinar suas mensagens.

O rastreamento da origem dos leads também pode ser útil, pois lhe dará uma ideia de quais fontes de dados contêm as informações de maior qualidade.