Ética na Web Scraping

Scraping, Jan-25-20225 minutos de leitura

A Web scraping não é um conceito novo, pois toda a Internet se baseia nela. Por exemplo, quando você compartilha o link de um vídeo do YouTube no Facebook, seus dados são extraídos para que as pessoas possam ver a miniatura do vídeo em sua publicação. Portanto, há inúmeras maneiras de usar os dados scraping para o benefício de todos. Mas há

Índice

A Web scraping não é um conceito novo, pois toda a Internet se baseia nela. Por exemplo, quando você compartilha o link de um vídeo do YouTube no Facebook, seus dados são extraídos para que as pessoas possam ver a miniatura do vídeo em sua publicação. Portanto, há inúmeras maneiras de usar os dados scraping para o benefício de todos. Mas há alguns aspectos éticos envolvidos em scraping dados da Web.

Suponha que você se inscreva em um plano de saúde e forneça suas informações pessoais ao provedor em troca do serviço prestado. Mas e se algum estranho fizer mágica na Web scraping com seus dados e usá-los para fins pessoais? As coisas podem começar a ficar inadequadas, certo? Aí vem a necessidade de praticar a ética na Web scraping. 

Neste artigo, discutiremos o código de conduta da Web scraping e as considerações legais e éticas.

Web Scraping Código de Conduta

Para praticar a web legal scraping, você precisa aderir às seguintes regras simples.

Não quebre a Internet - Você precisa saber que nem todos os sites podem suportar milhares de solicitações por segundo. Alguns sites permitem isso, mas outros podem bloqueá-lo se você enviar várias solicitações usando o mesmo endereço IP. Por exemplo, se você escrever um scraper que segue hiperlinks, deverá testá-lo em um conjunto de dados menor primeiro e garantir que ele faça o que deve fazer. Além disso, você precisa ajustar as configurações do seu scraper para permitir um atraso entre as solicitações. 

Visualizar o arquivo robots.txt - Os sites usam arquivos robots.txt para informar aos bots se o site pode ser rastreado ou não. Ao extrair dados da Web, você precisa entender e respeitar criticamente o arquivo robots.txt para evitar ramificações legais. 

Compartilhe o que puder - Se você obtiver permissão para scrape os dados em domínio público e scrape , poderá divulgá-los (por exemplo, no datahub.io) para que outras pessoas os reutilizem. Se você escrever um raspador da Web, poderá compartilhar seu código (por exemplo, no Github) para que outras pessoas possam se beneficiar dele. 

Não compartilhe ilegalmente o conteúdo baixado - Às vezes, não há problema em scrape os dados para fins pessoais, mesmo que as informações sejam protegidas por direitos autorais. Entretanto, é ilegal compartilhar dados sobre os quais você não tem o direito de compartilhar.

Você pode pedir gentilmente - Se precisar de dados de uma determinada organização para o seu projeto, você pode perguntar diretamente se ela pode fornecer os dados que você deseja. Além disso, você também pode usar as informações primárias da organização em seu site e evitar o trabalho de criar um web scraper. 

Web Scraping Considerações éticas

Você precisa ter em mente a ética abaixo ao acessar scraping dados da Web.

Não roube os dados

Você precisa saber que a Web scraping pode ser ilegal em determinadas circunstâncias. Se os termos e condições do site que queremos scrape proibirem os usuários de copiar e fazer download do conteúdo, então não devemos scrape esses dados e respeitar os termos desse site.

Não há problema em scrape os dados que não estão atrás do sistema de autenticação protegido por senha (dados publicamente disponíveis), tendo em mente que você não quebra o site. No entanto, pode ser um problema em potencial se você compartilhar os dados extraídos posteriormente. Por exemplo, se você baixar o conteúdo de um site e publicá-lo em outro site, seu scraping será considerado ilegal e constituirá uma violação de direitos autorais. 

Não quebre a Web

Sempre que você escreve um raspador da Web, consulta um site repetidamente e, possivelmente, acessa um grande número de páginas. Para cada página, uma solicitação é enviada ao servidor da Web que hospeda o site. O servidor processa a solicitação e envia uma resposta de volta ao computador que executa o código. As solicitações que enviamos consomem os recursos do servidor. Portanto, se enviarmos muitas solicitações em um curto período de tempo, poderemos impedir que os outros usuários comuns acessem o site durante esse período.

Os hackers geralmente fazem ataques de negação de serviço (DoS) para desligar a rede ou a máquina, tornando-a inacessível aos usuários pretendidos. Eles fazem isso enviando informações ao servidor que provocam uma falha ou inundando o site-alvo com tráfego. 

A maioria dos servidores da Web modernos inclui medidas para evitar o uso ilegítimo de seus recursos, pois os ataques de DoS são comuns na Internet. Eles ficam atentos a um grande número de solicitações provenientes de um único endereço IP. Eles podem bloquear esse endereço se ele enviar várias solicitações em um curto intervalo de tempo.

Pergunte e compartilhe

Vale a pena perguntar aos curadores ou aos proprietários dos dados que você planeja scrape, dependendo do escopo do seu projeto. Você pode perguntar se eles têm dados disponíveis em um formato estruturado que possa atender às necessidades do seu projeto. Se quiser usar os dados deles para fins de pesquisa de uma maneira que possa interessá-los, você poderá evitar o trabalho de escrever um raspador da Web. 

Você também pode evitar que outras pessoas tenham o trabalho de escrever um raspador da Web. Por exemplo, se você publicar seus dados ou documentação como parte do projeto de pesquisa, alguém poderá querer obter seus dados para uso. Se quiser, você pode fornecer a outras pessoas uma maneira de baixar seus dados brutos em um formato estruturado, poupando assim o trabalho de escrever um raspador da Web.

É melhor prevenir do que remediar

A legislação sobre privacidade de dados e direitos autorais difere de país para país. É necessário verificar as leis que se aplicam ao seu contexto. Por exemplo, em países como a Austrália, é ilegal scrape informações pessoais como números de telefone, endereços de e-mail e nomes, mesmo que estejam disponíveis publicamente.

Você deve aderir ao código de conduta da Web scraping para scrape dados para seu uso pessoal. No entanto, se quiser coletar grandes quantidades de dados para fins comerciais ou de pesquisa, provavelmente terá que procurar orientação jurídica.

Proxies Para a Ethical Web Scraping

Você sabe que o proxies tem uma grande variedade de aplicações. Seu principal objetivo é ocultar o endereço IP e a localização do usuário. O Proxies também permite que os usuários acessem conteúdo com restrição geográfica ao navegar na Internet. Assim, os usuários podem acessar as páginas ocultas, pois o proxies ignora o conteúdo e as restrições geográficas.

Você pode usar proxies para maximizar o resultado do scraper, pois eles reduzem as taxas de bloqueio. Sem eles, você pode scrape dados mínimos da Web. Isso ocorre porque o proxies ultrapassa as taxas de rastreamento, permitindo que os spiders extraiam mais dados. A taxa de rastreamento indica o número de solicitações que você pode enviar em um determinado período de tempo. Essa taxa varia de site para site. 

Escolhendo Proxies

Você pode escolher proxies dependendo dos requisitos de seu projeto. Você pode usar um proxy privado ou um proxy compartilhado.

  • O proxies privado é o melhor se seu projeto precisar de alto desempenho e conexão maximizada.
  • O proxies compartilhado tem um bom desempenho quando você realiza um projeto de pequena escala com um orçamento limitado.
  • O site gratuito proxies não é recomendado para extrair dados da Web. Isso ocorre porque eles estão abertos ao público e são frequentemente usados para atividades ilegais.

Você pode identificar as fontes de IP além de escolher proxies para seu projeto. Há três categorias de servidores proxy . 

Datacenter Proxies - Esses são os mais baratos e práticos proxies para a Web scraping. Esses IPs são criados em servidores independentes e usados com eficiência para realizar projetos scraping de grande escala.

Residencial Proxies - Podem ser difíceis de obter, pois são afiliados a terceiros. 

Mobile Proxies - São os mais caros e são ótimos para serem usados se você precisar coletar dados visíveis apenas em dispositivos móveis.

Conclusão sobre a ética na Web Scraping

Até agora, discutimos que você pode extrair dados da Internet tendo em mente as considerações legais e éticas. Por exemplo, você não deve roubar dados da Web. Você não pode compartilhar os dados sobre os quais não tem direito. Se precisar dos dados de uma organização para o seu projeto, você pode pedir gentilmente que ela compartilhe os dados brutos em um formato estruturado. Caso contrário, você pode escrever seu raspador da Web para extrair dados do site, se ele permitir. Além disso, discutimos que você pode escolher diferentes proxies dependendo das necessidades do seu projeto. Você pode usar o datacenter ou IPs residenciais, pois eles são amplamente usados para a Web scraping.