Como Scrape Reddit usando Python

Há cinco maneiras de acessar o scrape Reddit, e elas são:

Manual Scraping - É o método mais fácil, mas menos eficiente em termos de velocidade e custo. No entanto, ele produz dados com alta consistência.
Uso da API do Reddit - Você precisa de habilidades básicas de codificação para scrape o Reddit usando a API do Reddit. Ela fornece os dados, mas limita o número de postagens em qualquer tópico do Reddit a 1000.
APIs de terceiros com revestimento de açúcar - É uma abordagem eficaz e dimensionável, mas não é econômica.
Ferramentas da Web Scraping - Essas ferramentas são dimensionáveis e exigem apenas o conhecimento básico do uso de um mouse.
Scripts personalizados do Scraping - São altamente personalizáveis e dimensionáveis, mas exigem um alto nível de programação.

Vamos ver como podemos acessar scrape Reddit usando a API do Reddit com a ajuda das etapas a seguir.

Criar conta da API do Reddit

Você precisa criar uma conta no Reddit antes de prosseguir. Para usar o PRAW, você deve se registrar na API do Reddit seguindo este link.

Importar pacotes e módulos

Primeiro, importaremos os módulos internos do Pandas, ou seja, datetime, e dois módulos de terceiros, PRAW e Pandas, conforme mostrado abaixo:

import praw
import pandas as pd
import datetime as dt

Obtendo instâncias do Reddit e do subreddit

Você pode acessar os dados do Reddit usando o Praw, que significa Python Reddit API Wrapper. Primeiro, você precisa se conectar ao Reddit chamando a função praw.Reddit e armazenando-a em uma variável. Depois, você precisa passar os seguintes argumentos para a função.

reddit = praw.Reddit(client_id='PERSONAL_USE_SCRIPT_14_CHARS', \
                    client_secret='SECRET_KEY_27_CHARS', \
                    user_agent='YOUR_APP_NAME', \
                    username='YOUR_REDDIT_USER_NAME', \
                    password='YOUR_REDDIT_LOGIN_PASSWORD')

Agora, você pode obter o subreddit de sua escolha. Portanto, chame a instância .subreddit do reddit (variável) e passe o nome do subreddit que deseja acessar. Por exemplo, você pode usar o subreddit r/Nootropics.

subreddit = reddit.subreddit('Nootropics')

Acessar os tópicos

Cada subreddit tem as cinco maneiras diferentes abaixo para organizar os tópicos criados pelos Redditors:

.novo
.quente
.polêmico
.dourado
.topo

Você pode obter os tópicos mais votados como:

top_subreddit = subreddit.top()

Você obterá um objeto semelhante a uma lista com os 100 principais envios em r/Nootropics. No entanto, o limite de solicitações do Reddit é 1000, portanto, você pode controlar o tamanho da amostra passando um limite para .top as:

top_subreddit = subreddit.top(limit=600)

Analisar e baixar os dados

Você pode scrape os dados que desejar. No entanto, estaremos scraping as informações abaixo sobre os tópicos:

id
título
pontuação
data de criação
texto do corpo

Faremos isso armazenando nossos dados em um dicionário e, em seguida, usando um loop for, conforme mostrado abaixo.

topics_dict = { "title":[], \
                "score":[], \
                "id":[], "url":[], \
                "created": [], \
                "body":[]}

Agora, podemos acessar scrape os dados da API do Reddit. Anexaremos as informações ao nosso dicionário por meio da iteração do nosso objeto top_subreddit.

for submission in top_subreddit:
    topics_dict["id"].append(submission.id)
    resumo_tópicos["título"].append(submissão.título)
    resumo_tópicos["pontuação"].append(submissão.pontuação)
    resumo_tópicos["criado"].append(submissão.criado)
    topics_dict["body"].append(submission.selftext)

Agora, colocamos nossos dados em Dataframes do Pandas, pois os dicionários do Python não são fáceis de ler.

topics_data = pd.DataFrame(topics_dict)

Exportar CSV

É muito fácil criar arquivos de dados em vários formatos no Pandas, portanto, usamos as seguintes linhas de código para exportar nossos dados para um arquivo CSV.

topics_data.to_csv('FILENAME.csv', index=False)

Melhor Reddit Proxies de 2021

Você sabe que o Reddit não é um site muito rigoroso quando se trata de restrições de uso do proxy . Mas você pode ser pego e penalizado se automatizar suas ações no Reddit sem usar o proxies.

Então, vamos dar uma olhada em alguns dos melhores proxies para o Reddit que se enquadram em duas categorias:

Residencial Proxies - Esses são os endereços IP que o provedor de serviços de Internet (ISP) atribui a um dispositivo em um local físico específico. Esses proxies revelam a localização real do dispositivo que o usuário usa para fazer login em um site.

Datacenter proxies - Esses são vários endereços IP que não se originam de nenhum provedor de serviços de Internet. Nós os adquirimos de um provedor de serviços em nuvem.

Veja a seguir alguns dos principais sites residenciais e de data center proxies para o Reddit.

Smartproxy

O Smartproxy é um dos principais provedores residenciais premium de proxy , pois é eficaz para a automação do Reddit. Ele tem um amplo pool de IPs e fornece acesso a todos os IPs quando você assina o serviço.

Stormproxy

O preço e a largura de banda ilimitada dos Stormproxies fazem deles uma boa opção. Eles são acessíveis e baratos de usar. Eles têm proxies para vários casos de uso e oferecem o melhor proxies residencial para automação do Reddit.

ProxyScrape

ProxyScrape é um dos mais populares provedores de serviços proxy que se concentra em oferecer proxies para scraping. Ele também oferece o datacenter dedicado proxies juntamente com o datacenter compartilhado proxies. Ela tem mais de 40 mil datacenters proxies que você pode usar para scrape dados de sites na Internet.

ProxyScrape fornece três tipos de serviços a seus usuários, ou seja,..,

Centro de dados premium Proxies

Residencial Proxies

Dedicado Proxies

Proxies altas

Highproxies trabalham com o Reddit e têm as seguintes categorias de proxies:

Compartilhado proxies
Privado proxies
Sites classificados proxies
Emissão de bilhetes proxies
Mídia proxies

Proxies instantâneos

Você também pode usar Instantproxies para automação do Reddit, pois eles são muito seguros, confiáveis, rápidos e têm um tempo de atividade de cerca de 99,9%. Eles são os mais baratos de todos os datacenters proxies.

Por que usar o Reddit Proxies?

Você precisa do proxies quando estiver trabalhando com algumas ferramentas automáticas no Reddit. Isso ocorre porque o Reddit é um site muito sensível que detecta facilmente ações automáticas e bloqueia o acesso do seu IP à plataforma. Portanto, se você estiver automatizando algumas das tarefas, como votos, postagens, ingresso/descanso de grupos e gerenciamento de mais de uma conta, definitivamente precisará usar proxies para evitar resultados ruins.

Soluções alternativas para Scrape Reddit

Você pode optar pelo scraping manual se os requisitos do Reddit scraping forem pequenos. Mas se os requisitos forem grandes, você terá de aproveitar as metodologias scraping automatizadas, como as ferramentas scraping da Web e os scripts personalizados. Os raspadores da Web provam ser eficientes em termos de custo e recursos quando seus requisitos diários de scraping estão dentro de alguns milhões de posts.

Portanto, vamos dar uma olhada em alguns dos melhores raspadores do Reddit como a melhor solução para scrape grandes quantidades de dados do Reddit.

Scrapestrom

O Scrapestorm é uma das melhores ferramentas de scraping disponíveis no mercado, pois funciona muito bem quando se trata de scraping Reddit. Ele usa inteligência artificial para identificar automaticamente os principais pontos de dados na página da Web.

Raspador do Reddit da Apify

O raspador do Reddit da Apify facilita a extração de dados sem usar a API do Reddit. Isso significa que você não precisa de um token de API de desenvolvedor e de autorização do Reddit para baixar os dados para uso comercial. Você também pode otimizar seu scraping usando o serviço proxy integrado da plataforma Apify.

Conclusão

Discutimos cinco maneiras de scrape os dados do Reddit, e a mais fácil delas é usar a API do Reddit, pois requer apenas habilidades básicas de codificação. O PRAW é um wrapper Python para a API do Reddit que permite que você use uma API do Reddit com uma interface Python limpa. Mas quando você tiver grandes requisitos do Reddit scraping , poderá extrair dados disponíveis publicamente do site do Reddit com a ajuda de raspadores do Reddit. Para automatizar suas ações no site do Reddit, você precisa usar um datacenter ou um proxies residencial.

Por: ProxyScrape

Como Scrape Reddit usando Python

Índice

Por que você precisa acessar Scrape Reddit?

Desafios do Scraping Reddit