Evaluando propuestas

Regex dos Diários da Justiça (Expressões Regulares)

Publicado el 13 Noviembre, 2015 en Programación y Tecnología

Sobre este proyecto

Abierto

Primeira etapa
publicações a serem consideradas:
·        diário da justiça do stf
·        diário da justiça do stj

resultado esperado:
·        excel com as fórmulas regex, conforme especificações abaixo.
·        Uma planilha por publicação

Formato/Modelo do Resultado
1.      Aba [Recorte]
a.      Coluna [Start] --> Fórmula RegEx --> Procura por texto que marca o início de um bloco que será recortado.

b.      Coluna [Stop] --> Fórmula RegEx --> Procura por texto que marca o término de um bloco. Preenchido somente quando tratar-se de um bloco complexo (que será subdividido e compartilha prefixo e sufixo entre os sub-blocos).
c.      Coluna [Before] --> Fórmula RegEx --> Procura por texto que valida a coluna [Start]. Isso ocorre quando [Start] só será válido quando for precedido deste texto específico.
d.      Coluna [NotBefore] --> Fórmula RegEx --> Procura por texto que invalida a coluna [Start]. Isso ocorre quando [Start] não será válido quando for precedido deste texto específico.
e.      Coluna [CutOut] --> Fórmula RegEx --> Procura um texto específico que desejamos ignorar, ou seja, remover do resultado sem alterar inicio/fim de bloco.
2.      Aba [Títulos]
a.      Coluna [Titulo1] --> Fórmula RegEx --> Procura por texto que representa um título, no nível 1
b.      Coluna [Titulo2] --> Fórmula RegEx --> Procura por texto que representa um título, no nível 2, que é subordinado ao nível 1
c.
      Coluna [Titulo3] --> Fórmula RegEx --> Procura por texto que representa um título, no nível 3, que é subordinado ao nível 2

Observações Importantes:
1.      No momento da execução das fórmulas da Aba [Recorte] o sistema acrescenta automaticamente o modificador de "Insensibilidade de Caso" as fórmulas, o que neste caso significa que serão todas "Case Insensitive".
2.      No momento da execução das fórmulas da Aba [Títulos] o sistema NÃO acrescenta o modificador de "Caso" as fórmulas, o que neste caso significa que serão todas "Case Sensitive", isso se não tenha sido explicitamente tratado o assunto dentro da fórmula.
3.      As formulas serão executadas pelo motor do Framework .Net da Microsoft, o que pode exigir atenção em pequenas diferenças de sintaxe em relação aos demais motores (Java ou PHP por exemplo).
4.      Deve-se considerar sempre que o texto pesquisado no momento é um paragrafo ou uma tabela. Não se deve partir do pressuposto que será uma linha ou a pagina.
5.      As formulas da aba [Recorte] NÃO devem ter grupo de captura, servindo apenas para testar o MATCH.
6.      As formulas da aba [Títulos] devem definir um único grupo de captura que retornará exatamente o título esperado.
7.      Os titulos, de qualquer nível, podem ser qualquer informação, seja ela significativa ou não. A intenção é somente manter a estrutura do documento original.
8.      Depois que um bloco é iniciado o sistema inclui o texto que se seguir neste mesmo bloco até que uma das seguintes situações ocorra:

            i.      Achar o inicio de um novo bloco (MATCH da coluna [Start]), ou;
          ii.      Achar um texto que ocorra MATCH na coluna [Stop] (no caso de blocos complexos), ou;
          iii.
    Achar um texto que ocorra MATCH em qualquer das colunas de Título.

Passaremos esclarecimentos por telefone.

Categoría Programación y Tecnología
Subcategoría Aplicaciones de escritorio
¿Es un proyecto o una posición? Un proyecto
Actualmente tengo Tengo las especificaciones
Disponibilidad requerida Según se necesite
Experiencia en este tipo de proyectos Sí (He administrado este tipo de proyectos anteriormente)
Plataformas requeridas Windows

Plazo de Entrega: No definido

Habilidades necesarias

Otros proyectos publicados por P. R.