Sobre este projeto
it-programming / web-development
Aberto
O projeto consiste no desenvolvimento de um script automatizado, preferencialmente em Python, para interagir com um site público específico. O objetivo principal é realizar o download de documentos públicos, com foco em arquivos PDF. Após o download, o script deverá organizar esses arquivos em uma estrutura lógica, utilizando categorias e/ou datas para facilitar a gestão. Uma funcionalidade crucial será a capacidade de extrair o texto contido nos PDFs, sempre que tecnicamente possível. Finalmente, o script deve gerar arquivos estruturados que contenham o texto extraído, juntamente com metadados essenciais como data, título e tipo de documento, garantindo que as informações sejam facilmente acessíveis e utilizáveis.
Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Criar um novo site personalizado
Prazo de Entrega: Não estabelecido
Habilidades necessárias