El problema cuadrático de la atención

El mecanismo de atención inventado en el paper "Attention is All You Need" tiene un problema fundamental: su coste computacional crece cuadráticamente con la longitud del contexto.

RetroAttention: atención con memoria aproximada

El paper del MIT propone RetroAttention, que mantiene un banco de memoria comprimido de tokens pasados.

Resultados en benchmarks

En LongBench, RetroAttention alcanza el 94.7% del rendimiento de la atención completa usando solo el 18% del cómputo para contextos de 128K tokens.