5–7 May 2026
Faculdade de Economia da Universidade do Porto
Europe/Lisbon timezone

Jornadas FCCN

Session

Arquivo.pt - Como o arquivo da Internet está a ser usado para a investigação, IA e LLMs

5 May 2026, 16:30
Sala 218 (Faculdade de Economia da Universidade do Porto)

Sala 218

Faculdade de Economia da Universidade do Porto

Rua Dr. Roberto Frias, 4200-464 Porto

Description

Como é que três décadas de história da Web portuguesa podem ser usadas para investigação, inovação tecnológica e para treinar modelos de Inteligência Artificial? Nesta sessão do Arquivo.pt nas Jornadas da FCCN vamos mostrar, de forma prática e acessível, como o acervo preservado está hoje a ganhar nova vida — desde projetos de IA generativa ao desenvolvimento de ferramentas abertas para toda a comunidade académica.
A sessão está dividida em cinco momentos principais, cada um focado em novidades concretas e casos de uso reais:

1. Amália AI: IA treinada com dados do Arquivo.pt – inspiração, métodos e resultados

Vamos revelar como os dados históricos do Arquivo.pt foram utilizados no desenvolvimento do Amália, um LLM para a língua portuguesa.
Será explicado o processo de preparação dos dados, os desafios específicos da Web portuguesa e exemplos do que o modelo consegue gerar quando se apoia em décadas de memória digital nacional.
Uma apresentação inspiradora para quem quer perceber o impacto real de coleções web arquivadas em projetos de IA.

2. Nova pesquisa de texto com Apache Solr: mais rápida, moderna e escalável

Em redesenhámos todo o sistema de pesquisa textual do Arquivo.pt.
Nesta parte da sessão mostramos:

  • como funciona internamente um motor de pesquisa para páginas antigas;
  • que desafios existem quando se indexam biliões de páginas;
  • e como a nova arquitetura com Apache Solr abre caminho para pesquisas mais completas, rápidas e flexíveis.

Ideal para equipas técnicas, investigadores e curiosos da engenharia por trás da pesquisa histórica.

3. Uso de IA para geração de código

Mostramos como a utilização de Inteligência Artificial para gerar código está a acelerar significativamente o desenvolvimento do Arquivo.pt.
O que antes começava como uma “melhoria incógnita” passa agora rapidamente a uma tarefa concreta no plano de trabalho, graças à capacidade da IA em propor soluções, estruturar código e apoiar a automação de processos.
Apresentamos também as melhorias no sistema de reprodução de páginas (replay), agora baseado em ZipNum, tecnologias que reduzem de forma drástica o tempo de acesso a conteúdos arquivados — mesmo quando se tratam de biliões de registos.
O recurso a IA permite-nos implementar estas otimizações mais rapidamente, aumentar a qualidade do código produzido e libertar tempo da equipa para áreas de maior inovação e investigação.

Se tem curiosidade em como acelerar o seu trabalho.

4. Arquive o seu site na hora

Uma demonstração prática e interativa onde qualquer participante pode experimentar:

  • arquivar uma página diretamente para o Arquivo.pt, em segundos com ArchivePageNow;
  • gravar conteúdos no próprio computador em formato WARC com Webrecorder;
  • compreender como estes ficheiros podem ser reutilizados, analisados ou preservados a longo prazo.

Se tem um site, um projeto que saiu nos media ou publicações em redes sociais que quer guardar, esta sessão vai mostrar-lhe como fazê-lo.

5. Coleções temáticas: preservar a sua memória

Do ambiente às eleições, da ciência à cultura digital, o Arquivo.pt produz regularmente coleções temáticas para preservar momentos importantes da sociedade.
Nesta apresentação mostramos como são definidas, curadas e preservadas estas recolhas especiais e como podem ser exploradas para ensino, investigação ou simples curiosidade histórica.

Se tem curiosidade em saber como fazer uma coleção sobre a sua instituição.

Sobre o Arquivo.pt:

O Arquivo.pt é um serviço público da FCT, através da FCCN, que preserva conteúdos da Internet portuguesa desde os anos 90.
Conta com mais de 1,6 PB de informação histórica, recolhe a Web portuguesa trimestralmente e produz recolhas especiais temáticas e em momentos de relevância nacional.

Público‑alvo:

Estudantes, Investigadores, Profissionais das BES, Equipas de IT e todos os interessados em preservação digital, memória da Web e aplicações de IA sobre dados históricos.

Oradores:

  • Ivo Branco, Gestor do Arquivo.pt
  • Pedro Gomes, Encarregado das Recolhas
  • Vasco Rato, Desenvolvedor Web
  • Ricardo Basílio, Curador Digital

Presentation materials

There are no materials yet.

Building timetable...