MILANO – Poiché l’adozione dell’intelligenza artificiale generativa (IA) cresce a velocità record1 e le richieste di elaborazione aumentano2, l’elaborazione ibrida è più importante che mai. Ma proprio come l’informatica tradizionale si è evoluta da mainframe e thin client all’attuale mix di cloud e dispositivi edge, l’elaborazione dell’IA deve essere distribuita tra cloud e dispositivi affinché l’IA possa scalare e raggiungere il suo pieno potenziale.
Un’architettura di IA ibrida distribuisce e coordina i carichi di lavoro dell’IA tra cloud e dispositivi edge, anziché elaborare solo nel cloud. Il cloud e i dispositivi edge – smartphone, automobili, personal computer e dispositivi Internet of Things (IoT) – lavorano insieme per offrire un’IA più potente, efficiente e altamente ottimizzata.
La motivazione principale è la riduzione dei costi. Ad esempio, si stima che il costo della ricerca basata sull’IA generativa per ogni query aumenti di 10 volte rispetto ai metodi di ricerca tradizionali3 – e questa è solo una delle tante applicazioni dell’IA generativa.
L’IA ibrida consentirà agli sviluppatori e ai fornitori di IA generativa di sfruttare le capacità di calcolo disponibili nei dispositivi edge per ridurre i costi. Un’architettura di IA ibrida (o l’esecuzione dell’IA solo sul dispositivo) offre i vantaggi aggiuntivi di prestazioni, personalizzazione, privacy e sicurezza su scala globale.
Queste architetture possono avere diverse opzioni di offload per distribuire l’elaborazione tra cloud e dispositivi, a seconda di fattori quali la complessità del modello e della query. Ad esempio, se le dimensioni del modello, la richiesta e la lunghezza della generazione sono inferiori a una certa soglia e forniscono un’accuratezza accettabile, l’inferenza può essere eseguita completamente sul dispositivo. Se il compito è più complesso, il modello può essere eseguito su cloud e dispositivi.
L’IA ibrida consente persino ai dispositivi e al cloud di eseguire i modelli in modo simultaneo, con i dispositivi che eseguono versioni leggere del modello mentre il cloud elabora più token del modello completo in parallelo e corregge le risposte del dispositivo, se necessario.
SCALARE L’IA GENERATIVA CON I DISPOSITIVI EDGE
Il potenziale dell’IA ibrida cresce ulteriormente man mano che i potenti modelli di IA generativa diventano più piccoli, mentre le capacità di elaborazione sui dispositivi continuano a migliorare. Modelli di IA con più di 1 miliardo di parametri sono già in esecuzione sui telefoni con prestazioni e livelli di accuratezza simili a quelli del cloud, e modelli con 10 miliardi di parametri o più sono destinati a essere eseguiti sui dispositivi nel prossimo futuro.
L’approccio all’IA ibrida è applicabile praticamente a tutte le applicazioni di IA generativa e a tutti i segmenti di dispositivi, compresi telefoni, laptop, cuffie per la realtà estesa, automobili e IoT. Questo approccio è fondamentale affinché l’IA generativa possa scalare e soddisfare le esigenze delle imprese e dei consumatori a livello globale.