Description
Como é que três décadas de história da Web portuguesa podem ser usadas para investigação, inovação tecnológica e para treinar modelos de Inteligência Artificial? Nesta sessão do Arquivo.pt nas Jornadas da FCCN vamos mostrar, de forma prática e acessível, como o acervo preservado está hoje a ganhar nova vida — desde projetos de IA generativa ao desenvolvimento de ferramentas abertas para toda a comunidade académica.
A sessão está dividida em cinco momentos principais, cada um focado em novidades concretas e casos de uso reais:
1. Amália AI: IA treinada com dados do Arquivo.pt – inspiração, métodos e resultados
Vamos revelar como os dados históricos do Arquivo.pt foram utilizados no desenvolvimento do Amália, um LLM para a língua portuguesa.
Será explicado o processo de preparação dos dados, os desafios específicos da Web portuguesa e exemplos do que o modelo consegue gerar quando se apoia em décadas de memória digital nacional.
Uma apresentação inspiradora para quem quer perceber o impacto real de coleções web arquivadas em projetos de IA.
2. Nova pesquisa de texto com Apache Solr: mais rápida, moderna e escalável
Em redesenhámos todo o sistema de pesquisa textual do Arquivo.pt.
Nesta parte da sessão mostramos:
- como funciona internamente um motor de pesquisa para páginas antigas;
- que desafios existem quando se indexam biliões de páginas;
- e como a nova arquitetura com Apache Solr abre caminho para pesquisas mais completas, rápidas e flexíveis.
Ideal para equipas técnicas, investigadores e curiosos da engenharia por trás da pesquisa histórica.
3. Uso de IA para geração de código
Mostramos como a utilização de Inteligência Artificial para gerar código está a acelerar significativamente o desenvolvimento do Arquivo.pt.
O que antes começava como uma “melhoria incógnita” passa agora rapidamente a uma tarefa concreta no plano de trabalho, graças à capacidade da IA em propor soluções, estruturar código e apoiar a automação de processos.
Apresentamos também as melhorias no sistema de reprodução de páginas (replay), agora baseado em ZipNum, tecnologias que reduzem de forma drástica o tempo de acesso a conteúdos arquivados — mesmo quando se tratam de biliões de registos.
O recurso a IA permite-nos implementar estas otimizações mais rapidamente, aumentar a qualidade do código produzido e libertar tempo da equipa para áreas de maior inovação e investigação.
Se tem curiosidade em como acelerar o seu trabalho.
4. Arquive o seu site na hora
Uma demonstração prática e interativa onde qualquer participante pode experimentar:
- arquivar uma página diretamente para o Arquivo.pt, em segundos com ArchivePageNow;
- gravar conteúdos no próprio computador em formato WARC com Webrecorder;
- compreender como estes ficheiros podem ser reutilizados, analisados ou preservados a longo prazo.
Se tem um site, um projeto que saiu nos media ou publicações em redes sociais que quer guardar, esta sessão vai mostrar-lhe como fazê-lo.
5. Coleções temáticas: preservar a sua memória
Do ambiente às eleições, da ciência à cultura digital, o Arquivo.pt produz regularmente coleções temáticas para preservar momentos importantes da sociedade.
Nesta apresentação mostramos como são definidas, curadas e preservadas estas recolhas especiais e como podem ser exploradas para ensino, investigação ou simples curiosidade histórica.
Se tem curiosidade em saber como fazer uma coleção sobre a sua instituição.
Sobre o Arquivo.pt:
O Arquivo.pt é um serviço público da FCT, através da FCCN, que preserva conteúdos da Internet portuguesa desde os anos 90.
Conta com mais de 1,6 PB de informação histórica, recolhe a Web portuguesa trimestralmente e produz recolhas especiais temáticas e em momentos de relevância nacional.
Público‑alvo:
Estudantes, Investigadores, Profissionais das BES, Equipas de IT e todos os interessados em preservação digital, memória da Web e aplicações de IA sobre dados históricos.
Oradores:
- Ivo Branco, Gestor do Arquivo.pt
- Pedro Gomes, Encarregado das Recolhas
- Vasco Rato, Desenvolvedor Web
- Ricardo Basílio, Curador Digital