Evaluating bids

Extração e organização de dados de Pdfs e htmls

Published on the September 08, 2019 in IT & Programming

About this project

Open

O trabalho consiste em duas atividades, que podem ser feitas sequencialmente ou de forma independente, aplicadas a um conjunto de arquivos html e/ou PDF que foram extraídos de páginas dos Diários Oficiais no site www.escavador.com . Especificamente:

- (preparação necessária, trivial): extrair os textos dos arquivos e salvar em txt.

- Atividade 1: Reorganizar os textos dos arquivos, identificando e separando as publicações dentro de cada um;

- Atividade 2: Varrer os arquivos, reconhecer certas informações e montar uma base de dados a ser utilizada em pesquisa para tese de doutorado.
As informações são de alunos concluintes do Ensino Médio e, em geral, estão da seguinte forma: “O Diretor do Colégio xxx, mantido pela xxx, município xxx, publica a relação dos concluintes ensino médio ano xxxx: nome1, nome2, ..., NomeN.”  Há algumas variações em cima desse padrão, e por isso, o uso de expressões regulares é necessário.
Gostaríamos que o código fosse feito em python ou em R.
Como produto, queremos: (a) o código utilizado e (b) uma base de dados em CSV com cada linha contendo um estudante e colunas contendo (i) nome, (ii) nome da escola, (iii) modalidade de ensino, (iv) ano de conclusão, (v) data da publicação e algumas outras variáveis que serão encontradas no texto.

Category IT & Programming
Subcategory Web development
What is the scope of the project? Medium-sized change
Is this a project or a position? Project
I currently have I have specifications
Required availability As needed
Roles needed Developer

Delivery term: September 22, 2019

Skills needed