Evaluating bids

Regex dos Diários da Justiça (Expressões Regulares)

Published on the November 13, 2015 in IT & Programming

About this project

Open

Primeira etapa
publicações a serem consideradas:
·        diário da justiça do stf
·        diário da justiça do stj

resultado esperado:
·        excel com as fórmulas regex, conforme especificações abaixo.
·        Uma planilha por publicação

Formato/Modelo do Resultado
1.      Aba [Recorte]
a.      Coluna [Start] --> Fórmula RegEx --> Procura por texto que marca o início de um bloco que será recortado.

b.      Coluna [Stop] --> Fórmula RegEx --> Procura por texto que marca o término de um bloco. Preenchido somente quando tratar-se de um bloco complexo (que será subdividido e compartilha prefixo e sufixo entre os sub-blocos).
c.      Coluna [Before] --> Fórmula RegEx --> Procura por texto que valida a coluna [Start]. Isso ocorre quando [Start] só será válido quando for precedido deste texto específico.
d.      Coluna [NotBefore] --> Fórmula RegEx --> Procura por texto que invalida a coluna [Start]. Isso ocorre quando [Start] não será válido quando for precedido deste texto específico.
e.      Coluna [CutOut] --> Fórmula RegEx --> Procura um texto específico que desejamos ignorar, ou seja, remover do resultado sem alterar inicio/fim de bloco.
2.      Aba [Títulos]
a.      Coluna [Titulo1] --> Fórmula RegEx --> Procura por texto que representa um título, no nível 1
b.      Coluna [Titulo2] --> Fórmula RegEx --> Procura por texto que representa um título, no nível 2, que é subordinado ao nível 1
c.
      Coluna [Titulo3] --> Fórmula RegEx --> Procura por texto que representa um título, no nível 3, que é subordinado ao nível 2

Observações Importantes:
1.      No momento da execução das fórmulas da Aba [Recorte] o sistema acrescenta automaticamente o modificador de "Insensibilidade de Caso" as fórmulas, o que neste caso significa que serão todas "Case Insensitive".
2.      No momento da execução das fórmulas da Aba [Títulos] o sistema NÃO acrescenta o modificador de "Caso" as fórmulas, o que neste caso significa que serão todas "Case Sensitive", isso se não tenha sido explicitamente tratado o assunto dentro da fórmula.
3.      As formulas serão executadas pelo motor do Framework .Net da Microsoft, o que pode exigir atenção em pequenas diferenças de sintaxe em relação aos demais motores (Java ou PHP por exemplo).
4.      Deve-se considerar sempre que o texto pesquisado no momento é um paragrafo ou uma tabela. Não se deve partir do pressuposto que será uma linha ou a pagina.
5.      As formulas da aba [Recorte] NÃO devem ter grupo de captura, servindo apenas para testar o MATCH.
6.      As formulas da aba [Títulos] devem definir um único grupo de captura que retornará exatamente o título esperado.
7.      Os titulos, de qualquer nível, podem ser qualquer informação, seja ela significativa ou não. A intenção é somente manter a estrutura do documento original.
8.      Depois que um bloco é iniciado o sistema inclui o texto que se seguir neste mesmo bloco até que uma das seguintes situações ocorra:

            i.      Achar o inicio de um novo bloco (MATCH da coluna [Start]), ou;
          ii.      Achar um texto que ocorra MATCH na coluna [Stop] (no caso de blocos complexos), ou;
          iii.
    Achar um texto que ocorra MATCH em qualquer das colunas de Título.

Passaremos esclarecimentos por telefone.

Category IT & Programming
Subcategory Desktop apps
Is this a project or a position? Project
I currently have I have specifications
Required availability As needed
Experience in this type of projects Yes (I have managed this kind of project before)
Required platforms Windows

Delivery term: Not specified

Skills needed

Other projects posted by P. R.