Dos caminos para escalar sin crecer: separar lo barato de lo costoso
analisisEscalar LLMs parece sinónimo de multiplicar parámetros, pero dos papers recientes cuestionan esa ecuación desde ángulos radicalmente distintos. EGGROLL (Oxford/NVIDIA) reinterpreta la optimización sustituyendo backprop por perturbaciones baratas; Engram (DeepSeek-AI/PKU) reinterpreta la memoria externalizando conocimiento estático en lookup tables. Ambos atacan el mismo problema — el costo creciente de escalar modelos densos — desde frentes opuestos. Lo notable es que, sin coordinarse, convergen en la misma intuición: no todo en un modelo merece el mismo presupuesto computacional. Escalar bien significa diferenciar, no uniformizar.
EGGROLL (Evolution Guided GeneRal Optimisation via Low-rank Learning) reemplaza la estimación de gradientes con perturbaciones rank-1. En lugar de perturbar cada peso individualmente — el cuello de botella clásico de Evolution Strategies — construye la perturbación como producto externo B @ A^T, convirtiendo batched matmul en batched vector-vector multiply. El resultado: ~100x de aceleración frente a ES naive, alcanzando 91% del throughput de inference pura. Esto importa porque backprop no atraviesa int8 puro ni truncamientos de cuantización limpiamente. Lo demostraron preentrenando RWKV-7 en int8 end-to-end, competitivo con GRPO en tareas de reasoning.
Los maticios son imprescindibles. El “100x” es frente a ES naive — ya ineficiente de entrada —, no frente a Adam. Los experimentos cubren solo RWKV-7 en 1.5B y 7B. Las poblaciones requeridas son masivas (2²⁰ individuos). El paper se presenta explícitamente como “early research checkpoint”. La recepción comunitaria lo refleja: interesante pero incremental (~657 upvotes en Reddit, distribución 60/30/10).
Engram toma un camino distinto: “memoria condicional” mediante lookup tables indexadas por N-grams con hashing determinista O(1), complementarias a MoE. Un gating context-aware con conv1D depthwise controla el acceso. La idea: el modelo no recomputa conocimiento factual capa tras capa; lo recupera por dirección directa. Los resultados iso-FLOPs a 27B son sólidos — MMLU +3.0, NIAH de 84.2 a 97.0, gains de +3 a +5 puntos en benchmarks adicionales—. Las tablas son enormes (5.7B–18.5B parámetros) pero se descargan a CPU DRAM con prefetching asíncrono, manteniendo overhead <3%. El análisis mecanicista sugiere que libera las capas tempranas de reconstruir conocimiento estático, permitiendo que la red profundice su razonamiento.
Las limitaciones pesan. No comparan contra PKM, PEER, UltraMem ni RETRO — alternativas de memoria externa directamente comparables. Engram-40B no domina a 27B en todos los benchmarks, lo que sugiere subentrenamiento. Las hash collisions no están cuantificadas. Los resultados son exclusivamente de pretraining. Y hay una discrepancia de métricas: el abstract reporta +3.4 en MMLU (métrica Redux, más favorable) mientras la tabla muestra +3.0 (5-shot estándar). La comunidad, no obstante, lo recibe como potencial breakthrough (~2,100+ upvotes, 4,185 GitHub stars, distribución 80/15/5).
La conexión entre ambos es estructural, no superficial. EGGROLL separa optimización de gradient computation: perturbaciones rank-1 baratas vs backprop costoso. Engram separa conocimiento estático de razonamiento dinámico: lookup tables baratas vs cómputo neural costoso. Ambos reconocen que la clave no es más cómputo uniforme sino cómputo diferenciado. Si esto generalize, el diseño de arquitecturas futuras podría pasar de “todo denso” a módulos con presupuesto computacional heterogéneo — donde cada componente recibe exactamente los FLOPs que justifica.
Si esta dirección madura, el futuro no es solo hacer modelos más grandes — es hacerlos más inteligentes por diseño. EGGROLL y Engram sugieren que el próximo salto en capabilities vendrá de arquitecturas que discriminan, no de las que simplemente escalan.
Fuentes
- EGGROLL: Evolution Strategies as a Scalable Alternative to Reinforcement Learning for Training Large Language Models — perturbaciones rank-1 que aceleran ES ~100x vs naive, competitivo con GRPO en reasoning
- Engram: Fast and Expressive Permanent Memory for LLMs — lookup tables condicionales por N-grams, +3.0 a +5.0 en benchmarks iso-FLOPs a 27B
- Repo DeepSeek-AI/Engram — implementación oficial, 4,185 estrellas