Hadoop. Gestire l’archiviazione e l’elaborazione di grandi quantità di dati

-
- Advertising -

Hadoop — di Shivangi Seth — Consulente Snr – Gestione delle relazioni con i clienti e delle consegne presso HUQUO

Hadoop è un framework open source basato su Java che gestisce l’archiviazione e l’elaborazione di grandi quantità di dati per le applicazioni. Hadoop utilizza l’archiviazione distribuita e l’elaborazione parallela per gestire lavori di big data e analisi, suddividendo i carichi di lavoro in carichi di lavoro più piccoli che possono essere eseguiti contemporaneamente.

- Advertising -

Quattro moduli comprendono il framework Hadoop primario e lavorano collettivamente per formare l’ecosistema Hadoop:
Hadoop Distributed File System (HDFS): in quanto componente principale dell’ecosistema Hadoop, HDFS è un file system distribuito in cui i singoli nodi Hadoop operano sui dati che risiedono nel loro spazio di archiviazione locale. Ciò rimuove la latenza della rete, fornendo un accesso a throughput elevato ai dati dell’applicazione. Inoltre, gli amministratori non hanno bisogno di definire gli schemi in anticipo.
Yet Another Resource Negotiator (YARN): YARN è una piattaforma di gestione delle risorse responsabile della gestione delle risorse di elaborazione nei cluster e del loro utilizzo per pianificare le applicazioni degli utenti. Esegue la pianificazione e l’allocazione delle risorse nel sistema Hadoop.
MapReduce: MapReduce è un modello di programmazione per l’elaborazione dei dati su larga scala. Nel modello MapReduce, sottoinsiemi di set di dati più grandi e istruzioni per l’elaborazione dei sottoinsiemi vengono inviati a più nodi diversi, dove ciascun sottoinsieme viene elaborato da un nodo in parallelo con altri processi di elaborazione. Dopo l’elaborazione dei risultati, i singoli sottoinsiemi vengono combinati in un set di dati più piccolo e più gestibile.
Hadoop Common: Hadoop Common include le librerie e le utilità utilizzate e condivise da altri moduli Hadoop.

L’intero ecosistema open source

Oltre a HDFS, YARN e MapReduce, l’intero ecosistema open source Hadoop continua a crescere e include molti strumenti e applicazioni per aiutare a raccogliere, archiviare, elaborare, analizzare e gestire i big data. Questi includono Apache Pig, Apache Hive, Apache HBase, Apache Spark, Presto e Apache Zeppelin.

- Advertising -

Come funziona Hadoop?

Hadoop consente la distribuzione di set di dati su un cluster di hardware di base. L’elaborazione viene eseguita in parallelo su più server contemporaneamente.
I client software inseriscono i dati in Hadoop. HDFS gestisce i metadati e il file system distribuito. MapReduce quindi elabora e converte i dati. Infine, YARN divide i lavori nel cluster informatico.
Tutti i moduli Hadoop sono progettati partendo dal presupposto fondamentale che i guasti hardware di singole macchine o rack di macchine sono comuni e dovrebbero essere gestiti automaticamente nel software dal framework.

Quali sono i vantaggi di Hadoop?

Scalabilità Hadoop è importante in quanto uno degli strumenti principali per archiviare ed elaborare rapidamente enormi quantità di dati. Lo fa utilizzando un modello di calcolo distribuito che consente la rapida elaborazione dei dati che possono essere rapidamente scalati aggiungendo nodi di calcolo.
Basso costo Essendo un framework open source che può essere eseguito su hardware di base e dispone di un ampio ecosistema di strumenti, Hadoop è un’opzione a basso costo per l’archiviazione e la gestione dei big data.
Flessibilità Hadoop consente flessibilità nell’archiviazione dei dati poiché i dati non richiedono la preelaborazione prima di archiviarli, il che significa che un’organizzazione può archiviare tutti i dati che desidera e utilizzarli in un secondo momento.