O projeto visa automatizar o processo de extração, padronização e geração de relatórios de dados de vendas a partir de planilhas (xls) e documentos pdf. Atualmente, o processo é manual e envolve a revisão de cada relatório para identificar a loja, o produto e a quantidade vendida. Em seguida, é gerado um relatório consolidado e os produtos são classificados com base em padrões específicos por estado (Ouro, Prata, Bronze, Diamante para São Paulo; Profissional, Comercial, Dermo para Rio de Janeiro).
O principal desafio reside na inconsistência dos nomes dos produtos entre os diferentes relatórios (ex: 'Tinta burguesinha 6.66' vs. 'Tinta Burg 6.66'), o que exige uma verificação visual manual. Além disso, será necessário padronizar cada produto com seu respectivo código EAN, utilizando uma planilha de referência já existente.
O objetivo é desenvolver uma solução que permita o envio de arquivos (xls ou pdf) e que automaticamente realize as seguintes etapas:
1. Leitura e extração de dados dos relatórios, independentemente do formato (xls ou pdf, o que pode exigir tecnologia ocr para pdfs).
2. Padronização dos nomes dos produtos, utilizando a planilha de códigos EAN como base para mapeamento e correção de variações.
3. Extração de informações chave: nome do produto, quantidade vendida, nome da loja, código da loja e código EAN.
4. Aplicação de regras de classificação para cada produto com base no estado de venda (São Paulo ou Rio de Janeiro) e nos padrões definidos (Ouro, Prata, Bronze, Diamante ou Profissional, Comercial, Dermo).
5. Geração de um relatório final consolidado e estruturado com todas as informações processadas.
Busca-se uma solução robusta e escalável que elimine a necessidade de intervenção manual, garantindo precisão e eficiência na análise dos dados de vendas.
https://drive.google.com/drive/folders/1Z2pDKuKJm-p87VJUMqBzIOBOGdndOnyT
Prazo de Entrega: Não estabelecido