L’IA non “vive” solo nei laboratori: oggi la parte più energivora non è sempre l’addestramento, ma l’uso continuo, cioè le risposte generate su richiesta degli utenti. Ogni domanda, ogni riassunto, ogni testo “ragionato” significa calcolo su GPU e produzione di token, quindi elettricità. Il punto critico è che i modelli più moderni non si limitano a rispondere: spesso elaborano passo dopo passo, generando molte più parole di quelle che vediamo in output, e questa verbosità si traduce in un consumo energetico che può crescere in modo sorprendente.
In pratica, la stessa richiesta può “costare” molto di più se viene soddisfatta con un modello che attiva modalità di ragionamento estesa, oppure se viene posta in modo da far produrre catene lunghe e dettagliate. È qui che nasce l’allarme: se la domanda globale di IA aumenta e, nello stesso tempo, aumentano anche i token medi per risposta, l’impronta energetica può impennarsi più rapidamente del previsto.
IA Energy Score: la metrica che misura quanta energia serve per rispondere
Per capire e confrontare i consumi, ricercatori e aziende stanno cercando standard più chiari. Il progetto AI Energy Score nasce proprio con questo obiettivo: misurare in modo comparabile l’energia utilizzata dai modelli durante l’inferenza, cioè quando rispondono alle richieste. La metrica centrale è l’energia su GPU espressa in watt-ora per 1.000 query, calcolata su più compiti e più run, con procedure ripetibili. L’idea è simile a un’etichetta energetica: rendere visibile un costo che di solito resta nascosto, così da spingere verso scelte più efficienti.
Secondo la documentazione del progetto, ogni modello viene valutato su un set di task standardizzati e il consumo viene misurato nelle diverse fasi (preprocess, prefill, decode) per arrivare a un totale comparabile. Il risultato è una classifica e una base comune per parlare di efficienza energetica senza affidarsi a impressioni o stime generiche.
IA e ragionamento: quando la modalità step by step moltiplica i watt
La scoperta che sta facendo discutere riguarda proprio i modelli di ragionamento: quando “pensano” generando molti passaggi intermedi, possono consumare enormemente di più rispetto alla versione senza ragionamento esteso. Nei benchmark collegati al progetto, in alcuni casi l’attivazione della modalità di reasoning ha portato aumenti di energia di decine o centinaia di volte, fino a ordini di grandezza impressionanti in determinate condizioni. Questo accade perché, per un LLM, produrre testo è lavoro: più token vengono generati, più cicli di calcolo servono, più energia viene assorbita.
Il tema è delicato perché questi modelli spesso offrono un salto reale in capacità: risolvono problemi complessi, riducono errori, gestiscono catene logiche articolate. Il prezzo è che la loro “forza” nasce anche da una maggiore produzione di token, e quindi da un maggior consumo.
Non è solo la dimensione del modello: contano token e verbosità
Per anni si è pensato che il consumo dipendesse soprattutto dalla dimensione: più parametri, più energia. Con i modelli di ragionamento entra in gioco un fattore che a volte pesa anche di più: quanti token vengono generati per arrivare alla risposta. Due modelli di taglia simile possono avere impatti molto diversi se uno tende a produrre passaggi lunghi e ripetitivi e l’altro è progettato per essere conciso. In altre parole, il “costo” non è solo chi risponde, ma quanto parla per rispondere.
Questo spiega perché alcune richieste, soprattutto quelle che spingono l’IA a spiegare tutto nel dettaglio, possono diventare energeticamente più pesanti delle domande semplici e dirette.
Accuracy vs sostenibilità: cosa emerge dagli studi sulle emissioni
Un filone di ricerca parallelo sta misurando anche l’impatto in CO₂ equivalente legato a query e output. Uno studio pubblicato su Frontiers in Communication ha confrontato più modelli valutando prestazioni, token e impatto ambientale, evidenziando che approcci con ragionamento esplicito possono produrre emissioni molto più alte rispetto a modelli che rispondono in modo conciso, soprattutto quando la domanda richiede risposte complesse o molto articolate.
Il punto che colpisce di più è il compromesso: i modelli più accurati tendono spesso a consumare di più, e rientrare sotto certe soglie di emissioni riduce la probabilità di mantenere livelli di accuratezza elevati su batterie di domande ampie. Questo non significa rinunciare ai modelli migliori, significa usarli dove servono davvero.
Come usare l’IA in modo più efficiente senza perdere qualità
- Chiedi risposte più corte: se ti basta l’essenziale, specifica 5 punti, 10 righe, o solo istruzioni operative.
- Evita il ragionamento esteso quando non serve: per definizioni, traduzioni, testi brevi o riassunti, un modello “conciso” è spesso sufficiente.
- Riduci i giri di revisione: una richiesta più chiara all’inizio evita 3-4 prompt correttivi dopo.
- Separa i compiti: prima chiedi una bozza breve, poi approfondisci solo la parte che ti serve davvero.
- Limita formati pesanti: tabelle enormi, elenchi lunghissimi e output ridondanti aumentano token e consumo.
Trasparenza e scelte: perché una “etichetta energetica” dell’IA cambia il gioco
Standard come AI Energy Score puntano a rendere confrontabili i modelli e a spostare la scelta da “solo qualità” a qualità per watt. Se sviluppatori e utenti iniziano a selezionare modelli efficienti per le attività quotidiane, riservando i reasoning model ai casi complessi, l’impatto totale può scendere senza sacrificare i benefici dell’IA. In questa direzione è utile leggere anche l’aggiornamento del progetto e della metodologia nella pagina v2, che racconta l’estensione dei benchmark e l’attenzione specifica ai carichi di ragionamento.
La sfida ora è far diventare queste metriche parte delle decisioni reali: nelle aziende, nei prodotti, nelle piattaforme, e anche nell’uso quotidiano di chi fa una domanda al chatbot e non immagina quanta energia ci sia dietro quella risposta











