Completed

Web scrapping news

Published on the January 23, 2020 in IT & Programming

About this project

Open

I need to “scrap” all the news published in the following sites:

www.lanacion.com.ar
www.clarin.com
www.lapoliticaonline.com
www.letrap.com.ar
www.perfil.com.ar

I need them to do the following: Record a screen of every news and and transform it into a PDF file. I’m currently using this site: https://www.site-shot.com/ ), and then using Adobe Acrobat Pro to transform it to PDF, but I need the JPG to be cropped to adjust to the news only, I attached two .jpf files (cropped.jpg and uncropped.jpg) as example.

Then I need the news text (and the news text only, not the comments, not the publicity, not all the other text in the website) to be transform to a Word archive.

Lastly, (but this feature can be ignored if it's too complex) I need the information of the news (date, time, section of the newspaper -economy,spectacles,politics,security,etc-, title,  link, and author) to be copy into a spreedssheet so I can visualize all the information about the news published any day in an easy way.

_________________________________________________________________________________________________________________

Necesito extraer todas las noticias publicadas en los siguientes sitios:

www.lanacion.com.ar
www.clarin.com
www.lapoliticaonline.com
www.letrap.com.ar
www.perfil.com.ar

Necesito que las noticias sean guardadas en 2 formatos: en jpg y en word/pdf. Hasta el momento venía utilizando la aplicación https://www.site-shot.com para tomar screenshots de cada noticia, pero estas capturas toman todo el sitio con información innecesaria (anuncios, comentarios, etcétera) y yo solo necesito tener el texto de la noticia, adjunto dos archivos .jpg (uncropped y cropped .jpg)  como ejemplo de qué partes de la captura necesito y cuales no.

Por último necesito que la información de la noticia (hora y fecha de publicación, título, sección del diario al que pertenece -economía,política,seguridad,espectáculos-, autor y link). Esta última función puede ser desechada si es demasiado compleja, no es realmente importante.

Project overview

The idea is to generate a database of the most important media in Argentina. The .JPG image must be saved in case the newspaper shut down in the future and the link can no longer be accessed, in order to have a record that it was actually published. The Word or PDF document is necessary to generate libraries where you can quickly search by terms. Finally the spreadsheet would be to have a more friendly and efficient access to the news published daily; on a common day a newspaper like La Nación publishes approximately 100 news, but browsing the newspaper can take a lot of time (for all the ads, images , etc. That surround the news), however, in an excel spreadsheet they can be reviewed just in a few minutes. _________________________________________________________________________________________________________________ La idea es generar una base de datos de los medios más importantes de Argentina. La imagen .JPG es necesario guardarla por si en un futuro el diario da de baja la noticia y ya no se puede acceder al link, para tener un registro de que realmente se publicó. El documento Word o PDF es necesario para generar bibliotecas donde se puedan realizar búsquedas rápidamente por términos. Por último la planilla excel sería para tener un acceso más amistoso y eficiente a las noticias publicadas diariamente, en un día común un diario como La Nación publica aproximadamente 100 noticias, pero browsear por el diario puede tomar muchisimo tiempo (por todos los anuncios, imagenes, etc que rodean a las noticias), en cambio en una planilla excel se pueden revisar apenas en unos minutos.

Category IT & Programming
Subcategory Other
Project size Large
Is this a project or a position? Project
I currently have I have an idea
Required availability As needed
API Integrations Other (Other APIs)

Delivery term: Not specified

Skills needed