Innovazione

Il vero nodo dell’IA è l’inference. Cosa bolle in pentola nel settore

09
Gennaio 2026
Di Giuliana Mastri

Negli ultimi anni il dibattito sull’intelligenza artificiale si è concentrato quasi esclusivamente sulla fase di addestramento dei modelli. È lì che si collocano le immagini più iconiche della corsa all’AI: enormi data center, migliaia di GPU, consumi energetici paragonabili a quelli di intere città. Tuttavia, mentre il training resta un passaggio cruciale, oggi non è più il vero nodo strutturale. Il problema si è spostato a valle, nella fase di inference, cioè nel momento in cui i modelli vengono utilizzati per generare risposte, testi, immagini o decisioni in tempo reale.

A differenza dell’addestramento, che è un processo concentrato nel tempo, l’inference è continua. Ogni richiesta di un utente, ogni chiamata API, ogni utilizzo aziendale passa da qui. È questo utilizzo ripetuto, su scala globale, a far emergere i limiti dell’infrastruttura attuale. Diverse analisi indicano che l’inference rappresenta ormai la parte largamente prevalente dei costi complessivi di un modello, soprattutto in termini di consumo energetico e di capacità di calcolo. In altre parole, non è tanto difficile “creare” un modello, quanto farlo funzionare miliardi di volte al giorno in modo sostenibile.

Il contesto infrastrutturale in cui questa fase avviene non è neutrale. I grandi hyperscaler hanno costruito negli anni data center pensati per il cloud generalista: servizi flessibili, carichi di lavoro eterogenei, architetture adattabili. L’AI generativa, però, impone un carico costante, intensivo e altamente prevedibile, che mette sotto stress sistemi progettati per altro. La crescita della domanda di elettricità dei data center, trainata in larga parte dall’AI, è diventata uno dei principali fattori di pressione sul sistema energetico globale.

È in questo scenario che stanno emergendo approcci alternativi, che non si limitano a migliorare l’esistente ma cercano di ripensare il problema dalle fondamenta. Due casi spesso citati nel dibattito tecnologico recente sono quelli di Crusoe e Groq, che affrontano lo stesso nodo — l’inference — partendo però da presupposti diversi.

Crusoe interviene innanzitutto sulla geografia dell’infrastruttura. L’idea di fondo è che, se l’inference è un’attività energivora e non sempre sensibile alla latenza, ha poco senso concentrare i data center vicino ai grandi centri urbani. Il modello prevede invece di collocare capacità di calcolo direttamente in prossimità delle fonti energetiche, riducendo costi, perdite di rete e vincoli ambientali. In questo schema, il dato viaggia più dell’energia. È un’impostazione che risponde a un’esigenza strutturale: rendere sostenibile un uso dell’AI che non è più episodico ma permanente.

Groq, invece, affronta il problema dal punto di vista tecnologico. La sua impostazione parte da una critica alle architetture oggi dominanti: chip progettati principalmente per il training vengono utilizzati anche per l’inference, pur non essendo ottimizzati per questo compito. La risposta è lo sviluppo di processori dedicati esclusivamente all’inference, costruiti per massimizzare velocità di risposta ed efficienza energetica, riducendo al minimo i colli di bottiglia legati alla memoria e ai trasferimenti di dati. In questo approccio, l’obiettivo non è aumentare la potenza complessiva, ma abbassare drasticamente il costo per singola operazione.

Questi due percorsi mostrano come la sfida dell’AI stia cambiando natura. I dati sui costi dell’inference indicano una forte deflazione del prezzo per token, dovuta alla combinazione di nuovi chip, ottimizzazioni software e maggiore concorrenza. Allo stesso tempo, però, il volume complessivo di utilizzo cresce più rapidamente della riduzione dei costi unitari, spingendo aziende e sistemi pubblici a investire sempre più risorse nel funzionamento quotidiano dei modelli.

Il risultato è uno spostamento della competizione. Non conta solo chi sviluppa il modello più avanzato, ma chi riesce a farlo operare meglio, più a lungo e con minori costi sistemici. L’inference diventa così il vero banco di prova dell’AI contemporanea: un terreno in cui si incrociano tecnologia, energia, sostenibilità e strategia industriale.

In questo quadro, i casi di Crusoe e Groq non vanno letti come eccezioni, ma come segnali di una transizione più ampia. L’AI del futuro non sarà definita soltanto dalla dimensione dei modelli, ma dalla capacità delle infrastrutture di sostenerne l’uso quotidiano. Se il training stabilisce cosa un sistema può fare, è l’inference a decidere se quel sistema potrà davvero funzionare su scala globale.