Fabio Pascali, Regional Vice President Italy di Cloudera analizza i principali trend che hanno guidato nell’ultimo decennio il settore dei dati. Tra il ruolo della Apache Software Foundation come principale canale di innovazione, l’adozione del cloud computing e la diffusione di storage distribuito a basso costo, sono emersi modelli convergenti e che rappresentano un chiaro valore competitivo per vendor e clienti, nel segno dell’open source.
L’open source nel prossimo decennio
Nato principalmente come soluzione ideata dagli sviluppatori per risolvere i problemi di altri loro colleghi, l’open source è oggi è ampiamente riconosciuto come una fonte primaria di innovazione, in grado di lasciare il suo segno presso aziende e organizzazioni di tutto il mondo.
Guardando al prossimo decennio di trasformazioni, è prevedibile che l’innovazione open source si orienterà lungo tre dimensioni principali: progetto, architettura e sistema, nell’ottica di una sempre crescente industrializzazione della gestione e analisi dati.
L’innovazione di progetto per i motori di gestione dati, archiviazione, machine learning, formati dei dati, tabelle o motori di orchestrazione dei workload è stata ed è tuttora fondamentale per il movimento open source.
L’innovazione architetturale ha rappresentato la seconda ondata di evoluzione. Mentre gli esperti mostravano la loro esperienza nel fornire soluzioni a problemi puntuali, si è aperta la necessità di costruire soluzioni avanzate in grado di offrire interoperabilità, sicurezza e governance per l’intero ciclo di vita dei dati, sia on-premise che nel cloud.
L’innovazione di sistema è il prossimo passo evolutivo dell’open source. Man mano che le aziende si rendono conto del valore del suo utilizzo nella gestione della propria organizzazione, gli esperti del settore sono impegnati a considerare e studiare la parte integrante delle funzionalità del sistema quali retrocompatibilità, aggiornamenti e conformità alle norme di sicurezza informatica. Il prossimo decennio imporrà l’innovazione di sistema, quella che tutti conosciamo come entreprise Readiness, come uno dei principi fondamentali dello sviluppo open source.
Vediamo adesso questo tre tipologie più nel dettaglio:
- Innovazione di progetto
L’innovazione a livello di progetto che ha portato alla nascita di prodotti come Apache Hadoop, Apache Spark e Apache Kafka è il livello ingegneristico più alto. Sviluppatori di diverse aziende si sono uniti per formare comunità che hanno promosso l’innovazione, che si trattasse di formati di dati, formati di tabelle, motori di interrogazione o esecuzione di carichi di lavoro ETL per le grandi quantità di dati che potevano essere archiviate in HDFS. L’innovazione è stata legata a una manciata di casi d’uso “di partenza” che hanno dato il via alla creazione di questi progetti. Costruiti in una società meritocratica in cui la disponibilità a impegnare il codice era il biglietto d’ingresso per l’innovazione, questi progetti offrivano varietà e differenziazione tali che, anche con le difficoltà di adottare questi prodotti per applicazioni su scala industriale, rivelavano il loro valore. Oggi vediamo una serie di nuovi progetti innovativi che affrontano diversi aspetti dell’ecosistema dei dati, compresi quelli che Cloudera ha portato alla luce e che ha sostenuto con successo, come Apache Ozone e Apache YuniKorn. Come hanno dimostrato eventi come l’exploit zero-day di Log4J, le comunità devono concentrarsi sulla sicurezza della catena di approvvigionamento open source che alimenta questi progetti. Inoltre, devono assicurarsi che le loro centinaia di librerie siano prive di CVE e che quelle obsolete vengano eliminate come naturale evoluzione del prodotto. Una delle decisioni più critiche per il futuro di qualsiasi progetto open source dovrebbe essere la decisione di introdurre nel prodotto una dipendenza reputazionale di terze parti.
- Innovazione architetturale
L’innovazione architetturale considera l’open source come veicolo per portare standard e interoperabilità tra prodotti indipendenti, favorendone l’adozione, fornendo alle aziende più opzioni e facilitando l’innovazione continua, con l’obiettivo finale di ridurre la complessità inter-ingegneristica e diminuire il TCO per i professionisti e le imprese. Si tratta di un passaggio fondamentale nella creazione di valore che le comunità open source saranno chiamate a fornire in modo coerente.
In passato, Cloudera ha promosso innovazioni come Parquet o ORC per creare interoperabilità tra i sistemi. E prodotti come Apache Ranger e Apache Atlas sono stati adottati come standard di settore per sicurezza e governance. Più di recente, i leader di mercato hanno collaborato per promuovere l’adozione di Apache Iceberg come standard di settore per i big data, aggiungendo il supporto per motori come Hive e Impala. Ci aspettiamo una convergenza da parte di un’ampia componente della comunità verso le funzionalità che trasformeranno Apache Iceberg nel sistema di riferimento per i carichi di lavoro SQL, sia nel cloud che on-premise.
Un esempio recente di innovazione architetturale nell’open source è la possibilità di utilizzare componenti 100% open source per costruire un data lakehouse aperto che sia sicuro e governato. Ciò è estremamente positivo per le imprese, che possono così sfruttare diverse soluzioni aziendali basate su questa architettura.
- Innovazione di sistema
La riduzione da parte delle aziende del time-to-value, indipendentemente dal fatto che siano on-premise o nel cloud, è la proposta per eccellenza per ogni CIO, ed è proprio qui che interviene l’innovazione di sistema. La creazione di prodotti con contratti API molto chiari e stabili consentirà ai prodotti di terze parti di certificarsi una sola volta, di funzionare ovunque e di risolvere eventuali problemi di retrocompatibilità. L’innovazione di sistema consiste nella collaborazione tra progetti e nella protezione della catena di fornitura open source, in modo che il sistema nel suo complesso sia sicuro fin dall’inizio e possa essere risolto in modo semplice e completo.
Un esempio di innovazione di sistema sta nel modo in cui il settore si sta avvicinando al data mesh. Per far sì che il data mesh diventi più di uno slogan, l’attenzione deve spostarsi sull’insieme dei dati. Saranno necessari diversi progetti open source per aiutare a definire, curare, mantenere e fornire un accesso sicuro a un set di dati per tutta la sua durata. Questa è un’area in cui Cloudera ha esperienze e prospettive significative per contribuire alla comunità open source. Abbiamo la fiducia delle aziende più grandi e più regolamentate del mondo e questo è un enorme vantaggio all’interno di un mondo di innovazione di sistema.
Competere nel nuovo decennio
Per i clienti, l’open source facilita la collaborazione a livello di mercato per una continua innovazione sui dati. Dopo averne sperimentato i vantaggi, è improbabile che le aziende si orientino ancora verso piattaforme caratterizzate da codici chiusi e proprietari, con prestazioni o con un ecosistema limitato, o costruite da un fornitore unico senza un’ampia base di contribuzione. Le società di software che possono sfruttare più sistemi open source per fornire soluzioni ibride, multi-cloud e che offrono la massima scelta ai clienti avranno sicuramente un vantaggio in termini di innovazione continua. Un vecchio adagio in tema di trading finanziario lega la continua ricerca della velocità nelle operazioni alla creazione di valore, indipendentemente dal fatto di quale elemento promuova l’altro. Le aziende vogliono dedicare più tempo a risolvere i loro problemi aziendali e meno a preoccuparsi dei componenti interni del prodotto, e i fornitori che rispondono a questa esigenza saranno premiati per la loro velocità d’esecuzione.
Guardare avanti
L’ultimo decennio è stato un periodo particolarmente vivace in tema di sviluppo del software, che ha gradualmente conquistato il mondo. La trasformazione digitale ha rimescolato le carte a ogni livello, creando di fatto nuovi leader e nuovi follower. Il prossimo decennio promette di essere ancora più ricco e imprevedibile, poiché lo sviluppo di software open source verrà industrializzato su scala gigantesca con l’avvento dell’innovazione di sistema. Cloudera ha insegnato al mondo il valore dei dati, indipendentemente dalla loro collocazione, e sta utilizzando questa esperienza per essere in prima linea nella prossima ondata, guidando una nuova generazione di esperti di open source nelle loro future iniziative.