A agência Lusa mantém uma parceria com a Faculdade de Ciências da Universidade do Porto, INESC-TEC, para investigação na extração de narrativas automáticas a partir de textos.
As universidades estão empenhadas em desenvolver o potencial da Inteligência Artificial, procurando soluções para os problemas que existem, e são muitos.
Os vários projetos académicos desenvolvidos pelo INESC-TEC em parceria com a agência Lusa, que disponibilizou vários conjuntos de notícias que constituíram diversos Dataset que serviram de base à investigação:
Artigo no LREC’2024:
https://aclanthology.org/2024.lrec-main.1370/
Recurso Text2Story:
https://rdm.inesctec.pt/dataset/cs-2023-015 + https://rdm.inesctec.pt/dataset/cs-2023-018
Artigo no ECIR’26:
https://arxiv.org/abs/2601.19490 (pre-print. A versão final vai estar disponível apenas em Abril de 2026.)
Recurso ClaimPT:
https://rdm.inesctec.pt/dataset/cs-2025-008 + https://github.com/LIAAD/ClaimPT
Um resumo da primeira fase do projeto:
Text2Story: Extrair narrativas jornalísticas de textos e representá-las numa linguagem de modelação narrativa.
Atualmente, os conteúdos jornalísticos são distribuídos em múltiplos formatos, principalmente através da Web e de aplicações específicas baseadas na Internet aplicações específicas baseadas na Internet que funcionam em smartphones e tablets. O texto é um formato muito importante, mas os leitores (ou, mais precisamente, utilizadores ou consumidores de informação) dependem fortemente de imagens, vídeos, apresentações de diapositivos, gráficos e infografias.
O conteúdo textual continua a ser a principal representação da informação. Qualquer assunto jornalístico (por exemplo, Trump e Rússia) é descrito num ou mais textos produzidos por jornalistas e possivelmente comentados pelos leitores. Muitos desses temas são seguidos durante dias, semanas ou meses. Para apreender um conjunto possivelmente vasto e algo complexo conjunto de artigos noticiosos interligados, os leitores beneficiariam muito com ferramentas que resumissem esses artigos mostrando os principais atores, a sua interação e as suas trajetórias no tempo e no espaço, as suas motivações, os principais eventos, relações causais de eventos e resultados. Por outras palavras, ferramentas que extraiam elementos narrativos e os e os reapresentam em formatos que transmitem a história essencial, mas que são mais eficientemente consumidos pelos utilizadores.
Esta vibrante linha de investigação coloca muitos problemas difíceis na extração de informação e na produção automática de conteúdos multimédia. Neste projeto, queremos ser capazes de extrair narrativas/estórias de artigos noticiosos ou coleções de artigos noticiosos relacionados (dados não estruturados) sobre o mesmo assunto (ou relacionado), representando essas narrativas em estruturas de dados intermédias (dados estruturados) e disponibilizá-las a processos subsequentes de (geração semi-automática de apresentações de diapositivos, infografias e outras visualizações, sequências de vídeo, jogos, etc.).
Em suma, o nosso objetivo no projeto Text2Story é desenvolver um quadro concetual e uma operacional para a extração de narrativas a partir de fontes textuais.
O projeto centra-se no processamento automático de textos jornalísticos em português escrito. A apresentação de visualizações com base em coleções de textos.
Numa segunda fase, nasceu o StorySense:
StorySense: Alcançar as camadas semânticas das histórias no texto
(2023-2026)
O atual boom da Inteligência Artificial (IA) e do Processamento de Linguagem Natural (PNL) assenta em poderosos métodos preditivos que são capazes de descobrir eficientemente funções complexas que relacionam entradas observadas com resultados conhecidos.
Por muito eficazes que sejam, sabemos que esses métodos são essencialmente superficiais e têm dificuldade em explorar ou expor quaisquer ligações significativas mais profundas entre os dados observados (os sinais) e as suas origens, significados e causas.
O caminho para colmatar o fosso entre sinais e significado é muito longo, mas alguns mas estão a ser dados alguns passos promissores e práticos pelos investigadores de IA e de PNL.
Na PNL, recursos gerais como a Wikipedia, DBPedia, WordNet, ConceptNet e ontologias específicas de um domínio, como a UMLS (Unified Medical Language System) em medicina, estão a ser utilizados para enriquecer a camada semântica da PNL em aplicações importantes, como a sumarização de registos de saúde, a recuperação de informação (RI) de arquivos da Web, sistemas de recomendação, rastreio de histórias no jornalismo e nas redes sociais. A extração de narrativas e a compreensão de histórias baseiam-se nos progressos do PLN para obter automaticamente uma visão global da narrativa a partir de texto livre.
Projectos como o Text2Story são um contributo importante para resolver alguns dos desafios que a extração de narrativas automáticas a partir de textos. Apesar dos avanços recentes, há ainda uma clara falta de corpora anotados no domínio da narrativa.
Tais limitações resultam principalmente do facto de a anotação densa ser e de faltarem simplesmente quadros de anotação abrangentes para as narrativas. No entanto, as atuais computacionais atuais para a extração de narrativas (incluindo as baseadas em ML) têm contribuído com um fluxo de soluções dispersas para a extração dos componentes narrativos mais relevantes: participantes, eventos tempo, espaço e relações entre eles.
O tema tem sido objeto de atenção por parte da comunidade científica.
A série Text2Story@ECIR, e o AI4Narratives@IJCAI2020, ambos organizados pela nossa equipa, e o Narrative Understanding ou o Financial Narrative Processing, são alguns dos exemplos de workshops recentes neste domínio.
Muitos dos desafios enfrentados na extração de narrativas e na compreensão de histórias resultam da relativa semântica das ferramentas de PNL. Por um lado, sem uma melhor compreensão daquilo a que a história se refere, é muito difícil caraterizar corretamente os participantes ou identificar as sequências de acontecimentos no tempo e no espaço.
Por outro lado, embora os actuais quadros de anotação incorporem muitas etiquetas semânticas que permitem que permitem aos anotadores incluir informações valiosas, essa anotação semântica finamente digitada é muito difícil de automatizar devido à falta de conhecimentos de base nas ferramentas de extração de narrativas.
Por conseguinte, é muito importante explorar metodologias automáticas para ligar componentes narrativos a entradas de bases de dados (como na wikificação) e objetos de ontologia. Além disso, em domínios técnicos como a medicina, já existem recursos ontológicos padrão como o UMLS, já existem e devem ser melhor explorados.
Neste projeto, trabalharemos no pipeline desde o texto até à compreensão da história. O nosso objetivo é ir mais longe do que no projeto Text2Story, introduzindo uma camada semântica que nos permite inferir o significado e o sentido da história.
O grande desafio de alto nível para o qual pretendemos contribuir é a compreensão da narrativa. Isto envolve, não só o desenvolvimento de métodos automáticos adequados para extrair relações semânticas complexas entre os componentes narrativos e os diferentes níveis narrativos, mas também para enriquecer a sua representação formal com ligações a conhecimentos e ontologias. O objetivo final é modelar uma representação computacional de uma narrativa sob a forma de uma ontologia narrativa.