El problema cuadrático de la atención
El mecanismo de atención inventado en el paper "Attention is All You Need" tiene un problema fundamental: su coste computacional crece cuadráticamente con la longitud del contexto.
RetroAttention: atención con memoria aproximada
El paper del MIT propone RetroAttention, que mantiene un banco de memoria comprimido de tokens pasados.
Resultados en benchmarks
En LongBench, RetroAttention alcanza el 94.7% del rendimiento de la atención completa usando solo el 18% del cómputo para contextos de 128K tokens.




