Programma
Se l’analisi di grossi quantitativi di dati sta diventando sempre di più una necessità, non solo nel campo del marketing, ma anche di settori come la medicina e la diagnostica, da alcuni anni ci si sta ponendo il problema di quali siano le metodologie migliori per trarre quanta più informazione utile possibile dai grandi dataset che possono essere reperiti in vari modi su internet (ad esempio nel caso di analisi di social media) o fanno parte del patrimonio di un’azienda.
Di conseguenza, anche dal lato dell’organizzazione dei dati sono nati dei framework particolari per la gestione di queste grosse quantità di dati, il più recente dei quali è Spark.
Spark può essere utilizzato con molti linguaggi di programmazione, dei quali R è il più recente, e per questa ragione molte possibili analisi dati possono venire implementate tramite i due pacchetti per la gestione di Spark in linguaggio R, che sono SparkR e sparklyr.
Obiettivi
In questo corso impareremo a lavorare con i Big Data utilizzando Spark, il framework per il calcolo distribuito più popolare al mondo, usato in produzione da giganti come Amazon, Microsoft, Oracle, Verizon e Cisco.
Durata
Questo corso ha una durata complessiva di 12 ore test di apprendimento esclusi.