Evaluando propuestas

Extração e organização de dados de Pdfs e htmls

Publicado el 08 Septiembre, 2019 en Programación y Tecnología

Sobre este proyecto

Abierto

O trabalho consiste em duas atividades, que podem ser feitas sequencialmente ou de forma independente, aplicadas a um conjunto de arquivos html e/ou PDF que foram extraídos de páginas dos Diários Oficiais no site www.escavador.com . Especificamente:

- (preparação necessária, trivial): extrair os textos dos arquivos e salvar em txt.

- Atividade 1: Reorganizar os textos dos arquivos, identificando e separando as publicações dentro de cada um;

- Atividade 2: Varrer os arquivos, reconhecer certas informações e montar uma base de dados a ser utilizada em pesquisa para tese de doutorado.
As informações são de alunos concluintes do Ensino Médio e, em geral, estão da seguinte forma: “O Diretor do Colégio xxx, mantido pela xxx, município xxx, publica a relação dos concluintes ensino médio ano xxxx: nome1, nome2, ..., NomeN.”  Há algumas variações em cima desse padrão, e por isso, o uso de expressões regulares é necessário.
Gostaríamos que o código fosse feito em python ou em R.
Como produto, queremos: (a) o código utilizado e (b) uma base de dados em CSV com cada linha contendo um estudante e colunas contendo (i) nome, (ii) nome da escola, (iii) modalidade de ensino, (iv) ano de conclusão, (v) data da publicação e algumas outras variáveis que serão encontradas no texto.

Categoría Programación y Tecnología
Subcategoría Programación Web
¿Cuál es el alcance del proyecto? Cambio mediano
¿Es un proyecto o una posición? Un proyecto
Actualmente tengo Tengo las especificaciones
Disponibilidad requerida Según se necesite
Roles necesarios Programador

Plazo de Entrega: 22 Septiembre, 2019

Habilidades necesarias