O que é? Será legal? Qual a melhor linguagem?

O que é webscraping?

A possibilidade de aceder a uma página web e ler o seu conteúdo chama-se webscraping.
As vantagens na utilização deste técnica são grandes. A partir do momento que podem ler o conteúdo de um site, podemos usar esses elementos em nosso proveito.
É por isso que há empresas que acompanham preços de produtos ao longo do ano para verificar se determinadas descidas (BlackFriday, por exemplo) são descidas
reais ou ficticias.

O webscrap é legal?

É possível fazer webscrap na maior parte das linguagens. O autor já o fez em Python, Asp.net, PHP, Delphi, FreePascal. É por isso um recurso fornecido pela
maior parte das linguagens de programação. Analisemos o ponto de vista ético com um exemplo:
A ética do webscrap
Imagine um site que produz noticias e que o seu site captura as noticias apresentando-as como suas, sem qualquer referência à fonte. Éticamente este
procedimento não parece correto, mas não é mais nem menos do que aquilo que a Google faz: lê os sites ( de noticias e outros) e toma posse do seu conteúdo.
Por outro lado o caso das

lojas online

Neste caso suponha que vende produtos na sua loja online que compra a um determinado fornecedor. Necessita de saber as oscilações de preços no seu fornecedor
para que os possa refletir na sua loja online. A forma de ter acesso a esta informação é fazendo webscrap à página do fornecedor. Será que o fornecedor
perde alguma coisa com este negócio? Não nos parece apenas pode ter

Problemas de perfomance da parte do servidor

Na verdade o webscrap faz um acesso ao servidor de forma continua para ler a informação que necessita e isto pode resultar em prejuízo de perfomance do servidor.
Mas este webscrap pode ser programado para ser executado a determinadas horas em que se acredita o servidor esteja mais disponível:por exemplo durante a noite.
Existe no windows o

Programador de tarefas

programador-tarefas-windows
fig1- programador de tarefas do windows

Este sistema permite executar determinado programa nos dias e horas que quisermos de forma totalmente automática. Permite a criação de
uma agenda com datas e horas de execução e a partir daí basta o computador estar ligado que o programa é executado às horas escolhidas. Conclui-se, portanto,
que o prejuízo de perfomance pode ser evitado. A partir daqui trata-se de saber

Qual a melhor linguagem para webscrap?

De entre todas as linguagens apresentadas há uma delas que parece ter sido desenvolvida para esta tarefa. Essa linguagem é o Python, que conta
com vários pacotes para scrap, sendo o mais conhecido e utilizado o Beautifulsoup. Mas:

Como se faz webscrap?

O segredo do webscrap é estudar o site e procurar uma particularidade. Por exemplo no OLX: e no CustoJusto
A partir do momento que detetamos o que procuramos, basta fazer um programa que nos devolva o valor.Não há segredos apenas é necessário estudar a estrutura
do site e procurar a chave do que queremos. Claro que os websites não podem mudar para evitar o we porque isso equivaleria a mudar a sua imagem (o que
não é aconselhável) além de um investimento enorme em recursos de programação para nada, porque acharíamos outras chaves e bastava mudar o programa base.

Caso prático OLX

Imaginemos que procuramos obter um preço de um produto publicitado no OLX. Este produto tem um determinado endereço e o código em Python é o seguinte:

import requests
from bs4 import BeautifulSoup
pagina=requests.get("https://endereco-do-anuncio-no-olx")
soup=BeautifulSoup(pagina.content,"html.parser")
procura="strong.xxxx-large"
onde=soup.select_one(procura)
print(onde.text)

da mesma forma podemos imaginar um
caso prático CustoJusto

Eis o código que permite obter um determinado preço de um artigo no custojusto:

import requests
from bs4 import BeautifulSoup
pagina=requests.get("https://endereco-do-anuncio-custo-justo")
soup=BeautifulSoup(pagina.content,"html.parser")
procura="span.real-price"
preco=soup.select_one(procura)
print(preco.text.strip())

Claro que o mesmo pode ser feito para as lojas online como FNAC, WORTEN etc.

Em resumo

O uso de webscrap é muito importante sobretudo para quem possui lojas online e necessita de consultar o catálogo do fornecedor. Ou o fornecedor fornece o
catálogo em formato digital (com uma frequência semanal, por exemplo) ou terá que usar webscrap para que os seus produtos estejam sempre de acordo com os do fornecedor.

No caso do Catálogo digital

O catálogo digital normalmente é fornecido em formato Excel ou CSV e a base de dados da loja online é alimentada a partir deste ficheiro. Mesmo aqui o
Python acaba por ser a melhor solução para esta tarefa tanto pela sua rapidez como pelas bibliotecas que permitem que esta tarefa seja feita de forma fácil.

Quer contatar-nos?

Desenvolvemos software à medida tanto para Internet, como para windows. 
Se procura um serviço de programação consulte-nos. Os orçamentos são gratuitos e quem sabe se após a nossa consulta não encontra uma proposta diferente para o seu problema.

Estamos ligados à empresa de comercialização de soluções de hardware Urupema. Consulte os nossos preços e condições.