Sobre este proyecto
it-programming / data-science-1
Abierto
Se requiere el desarrollo de un script de transformación de datos para automatizar la corrección y estandarización de listados de productos recibidos en formato Excel. El objetivo principal es agilizar los procesos de cotización de materiales para obras de procesos industriales, tales como tuberías, válvulas, conexiones de tubería e instrumentos de medición.
El script deberá procesar los conceptos de productos, que a menudo contienen errores de escritura, omisiones de información o variaciones en el orden de las características. La salida esperada del script debe incluir cuatro columnas por cada concepto de producto:
1. Concepto Original: El texto tal como fue recibido.
2. Errores Encontrados: Una lista o descripción de los errores detectados en el concepto original.
3. Omisiones y/o Asunciones: Detalles sobre la información faltante o las inferencias realizadas para completar el concepto.
4. Concepto Estandarizado: La descripción del producto corregida y formateada de manera consistente, siguiendo un orden predefinido de características y un estilo de escritura uniforme.
Se busca una solución robusta que pueda manejar la variabilidad de los datos de entrada y aplicar reglas de negocio para la estandarización. Se valorará la experiencia en procesamiento de datos, limpieza de texto y, si es posible, técnicas de machine learning para mejorar la precisión de la estandarización. Se intentó una solución previa con ChatGPT 5 sin éxito, por lo que se busca un desarrollo a medida y fiable.
Categoría Programación y Tecnología
Subcategoría Data Science
Tamaño del proyecto Medio
Plazo de Entrega: No definido
Habilidades necesarias