● Lansare · 11 iunie 2026 · 6 min

DiffusionGemma: Google lansează un model AI de 4 ori mai rapid, care rulează pe calculatorul tău

de MassAI · publicat 11 iunie 2026

Pe 10 iunie, Google DeepMind a lansat DiffusionGemma — un model experimental open care nu mai scrie textul cuvânt cu cuvânt, ci îl „developează" în blocuri întregi, în paralel. Rezultatul: generare de până la 4 ori mai rapidă, pe un GPU obișnuit, cu licență permisivă Apache 2.0. Cum funcționează, ce compromisuri face și ce înseamnă pentru firmele care vor AI fără să-și trimită datele în cloud.

Ce e DiffusionGemma

DiffusionGemma e construit pe arhitectura Gemma 4 — familia de modele open de la Google — dar înlocuiește metoda clasică de generare cu una nouă pentru modelele de limbaj: difuzia de text. Tehnic, e un model Mixture-of-Experts de 26 de miliarde de parametri, din care doar 3,8 miliarde sunt activi la fiecare răspuns — de aceea poate rula pe hardware accesibil. Cuantizat, încape în 18 GB de memorie video, adică în limitele unei plăci video de consum de top (RTX 4090/5090). Greutățile sunt publice pe Hugging Face, sub licență Apache 2.0 — utilizabile gratuit, inclusiv comercial.

Cum funcționează „difuzia de text"

Modelele clasice — GPT, Claude, Gemma standard — scriu un cuvânt, apoi următorul, apoi următorul; fiecare pas așteaptă pasul dinainte. DiffusionGemma pornește în schimb de la o „pânză" de 256 de tokeni-substituent și o rafinează iterativ, în paralel, până când tot blocul de text devine coerent — apoi trece la blocul următor. E același principiu pe care îl folosesc generatoarele de imagini, aplicat la text.

Două efecte practice ies de aici. Primul: pentru că fiecare poziție „vede" tot blocul (atenție bidirecțională), modelul își poate corecta din mers greșelile făcute mai devreme — o formă nativă de auto-corecție în timp real. Al doilea: blocurile se calculează în paralel pe GPU, deci viteza nu mai e limitată de lățimea de bandă a memoriei, ci de puterea de calcul — exact resursa din abundență pe plăcile moderne.

Cât de rapid e, în cifre

Până la 4x mai rapid decât generarea clasică, după măsurătorile Google: peste 700 de tokeni pe secundă pe o placă de consum RTX 5090 și peste 1.000 de tokeni pe secundă pe un GPU de server H100. Pentru comparație, la vitezele astea un raport de câteva pagini se generează în 2–3 secunde.

Context de 262.144 de tokeni — echivalentul a câteva sute de pagini de documente procesate într-o singură sesiune — și suport pentru peste 140 de limbi.

Compromisul: viteză contra calitate

Google e transparent aici: calitatea brută a răspunsurilor e sub cea a modelului Gemma 4 standard. DiffusionGemma e gândit pentru sarcinile unde viteza și latența contează mai mult decât nuanța maximă — asistenți interactivi, text structurat, prelucrări în volum mare. Pentru calitate maximă de producție, Google recomandă în continuare Gemma 4 clasic.

Interesant e ce se întâmplă după specializare (fine-tuning) pe sarcini cu reguli clare: pe un test de Sudoku, modelul ajustat a rezolvat 80% din grile — față de aproape 0% pentru modelul de bază — și în 12 pași în loc de 48. Semnalul pentru business: pe probleme bine delimitate, specializarea transformă viteza brută în precizie.

Unde îl găsești

Greutățile modelului sunt pe Hugging Face, sub Apache 2.0. Suport din prima zi în uneltele standard: vLLM, Hugging Face Transformers, SGLang și MLX (pentru Mac). Pentru specializare: Unsloth, NVIDIA NeMo și Hackable Diffusion (JAX). În cloud, e disponibil prin Google Cloud Model Garden și NVIDIA NIM.

De ce contează pentru afaceri

Datele rămân în firmă. Un model competent care rulează pe propriul hardware înseamnă documente, contracte și date de clienți procesate fără să părăsească rețeaua companiei — un argument direct pentru GDPR și confidențialitate.

Cost per utilizare: zero. După investiția în hardware, nu mai există cost per token. Pentru volume mari de procesare repetitivă — clasificare, extragere de date, rezumate — calculul economic se schimbă fundamental.

Semnalul strategic. Google împinge tot mai apăsat a doua direcție mare a momentului: AI capabil pe hardware local, nu doar în cloud. Pentru majoritatea firmelor, cloud-ul rămâne calea practică — modelele de top acolo trăiesc. Dar arhitectura hibridă — modele mari în cloud pentru sarcinile grele, modele locale rapide pentru date sensibile și volume mari — devine cu fiecare astfel de lansare mai realistă. Merită urmărită.

Surse: ↗ Google Developers Blog · ↗ NVIDIA Blog

Vrei să vezi ce automatizări sunt posibile la tine?
Vezi ce pot face agenții MassAI →