Recentemente, o acervo da TV ****** ficou disponível, permitindo que pessoas baixassem terá bytes de arquivos de vídeo. Um total de 3 mil programas cadastrados no acervo, mais de 128 mil vídeos hospedados no acervo, mais infelizmente a tv ****** desativou o servidor. Deixando os links inativos para visualizar e baixar os conteúdos hospedados no acervo.
Estou tentando ter acesso novamente ao acervo da tv ******, estou validando a arquitetura e a viabilidade de acesso estruturado aos dados. Tentar fazer uma engenharia reversa, script, autenticação para baixar os vídeos do acervo.
Eu consegui mapear boa parte do funcionamento desse sistema. Pelo que levantei, ele é dividido basicamente em três camadas:
Catálogo lógico IDs de programas (ex: 0367, 0416, 0158, etc.) Tenho uma lista completa com esses IDs e nomes dos programas
Estrutura de arquivos
Existe um padrão consistente de nomenclatura: [ID do programa] + P + [sequencial] Exemplo: 0367P000001 Antes isso apontava direto para arquivos no servidor (lowres), que hoje não está mais acessível |
http://lowres.tv******
.com.br/0939P000001.mp4
Sistema interno (MAM) Cada item possui um MediaId (ex: 2327472101) Esse ID parece ser a chave real dentro do sistema Ele está ligado a título, duração, blocos, etc. Tenho PDFs exportados do sistema interno com esses dados
Hoje o acesso funciona via interface web (tipo intranet), onde:
você pesquisa o conteúdo o sistema resolve isso internamente (provavelmente via API) mas não expõe diretamente a estrutura
Entender como esse sistema resolve esses dados internamente Mapear a relação entre:
program_id (ex: 0367)
estrutura de arquivo (ex: 0367P000001)
MediaId Ver se existe alguma forma de reproduzir esse fluxo de forma estruturada (sem depender manualmente da interface)
Eu tenho:
Planilhas com geração de links antigos (lowres) Lista completa de programas cadastrados no acervo da TV ******. PDFs com MediaId, títulos e metadados.
Complementando o que te falei, tem um ponto importante que pode ajudar bastante na análise:
Existe um endpoint público ainda ativo relacionado ao acervo:
https://tv******
.com.br/50anos/55
Percebi que esse link funciona baseado em um ID numérico no final. Se você altera esse número (ex: /50anos/51, /52, /53...), A página carrega conteúdos diferentes ou seja, existe um padrão de indexação sequencial.
Pelo comportamento, parece que:
O frontend está consumindo algum endpoint interno baseado nesse ID
Cada ID retorna um conteúdo específico do acervo
Ainda hoje é possível visualizar alguns materiais através dessa estrutura
Prazo de Entrega: Não estabelecido