Hadoop. Gestire l’archiviazione e l’elaborazione di grandi quantità di dati

Paolo Brambilla - 25/08/2023 08:38:44

- Advertising -

Hadoop — di Shivangi Seth — Consulente Snr – Gestione delle relazioni con i clienti e delle consegne presso HUQUO

Hadoop è un framework open source basato su Java che gestisce l’archiviazione e l’elaborazione di grandi quantità di dati per le applicazioni. Hadoop utilizza l’archiviazione distribuita e l’elaborazione parallela per gestire lavori di big data e analisi, suddividendo i carichi di lavoro in carichi di lavoro più piccoli che possono essere eseguiti contemporaneamente.

- Advertising -

Quattro moduli comprendono il framework Hadoop primario e lavorano collettivamente per formare l’ecosistema Hadoop:
Hadoop Distributed File System (HDFS): in quanto componente principale dell’ecosistema Hadoop, HDFS è un file system distribuito in cui i singoli nodi Hadoop operano sui dati che risiedono nel loro spazio di archiviazione locale. Ciò rimuove la latenza della rete, fornendo un accesso a throughput elevato ai dati dell’applicazione. Inoltre, gli amministratori non hanno bisogno di definire gli schemi in anticipo.
Yet Another Resource Negotiator (YARN): YARN è una piattaforma di gestione delle risorse responsabile della gestione delle risorse di elaborazione nei cluster e del loro utilizzo per pianificare le applicazioni degli utenti. Esegue la pianificazione e l’allocazione delle risorse nel sistema Hadoop.
MapReduce: MapReduce è un modello di programmazione per l’elaborazione dei dati su larga scala. Nel modello MapReduce, sottoinsiemi di set di dati più grandi e istruzioni per l’elaborazione dei sottoinsiemi vengono inviati a più nodi diversi, dove ciascun sottoinsieme viene elaborato da un nodo in parallelo con altri processi di elaborazione. Dopo l’elaborazione dei risultati, i singoli sottoinsiemi vengono combinati in un set di dati più piccolo e più gestibile.
Hadoop Common: Hadoop Common include le librerie e le utilità utilizzate e condivise da altri moduli Hadoop.

L’intero ecosistema open source

Oltre a HDFS, YARN e MapReduce, l’intero ecosistema open source Hadoop continua a crescere e include molti strumenti e applicazioni per aiutare a raccogliere, archiviare, elaborare, analizzare e gestire i big data. Questi includono Apache Pig, Apache Hive, Apache HBase, Apache Spark, Presto e Apache Zeppelin.

- Advertising -

Come funziona Hadoop?

Hadoop consente la distribuzione di set di dati su un cluster di hardware di base. L’elaborazione viene eseguita in parallelo su più server contemporaneamente.
I client software inseriscono i dati in Hadoop. HDFS gestisce i metadati e il file system distribuito. MapReduce quindi elabora e converte i dati. Infine, YARN divide i lavori nel cluster informatico.
Tutti i moduli Hadoop sono progettati partendo dal presupposto fondamentale che i guasti hardware di singole macchine o rack di macchine sono comuni e dovrebbero essere gestiti automaticamente nel software dal framework.

Quali sono i vantaggi di Hadoop?

Scalabilità Hadoop è importante in quanto uno degli strumenti principali per archiviare ed elaborare rapidamente enormi quantità di dati. Lo fa utilizzando un modello di calcolo distribuito che consente la rapida elaborazione dei dati che possono essere rapidamente scalati aggiungendo nodi di calcolo.
Basso costo Essendo un framework open source che può essere eseguito su hardware di base e dispone di un ampio ecosistema di strumenti, Hadoop è un’opzione a basso costo per l’archiviazione e la gestione dei big data.
Flessibilità Hadoop consente flessibilità nell’archiviazione dei dati poiché i dati non richiedono la preelaborazione prima di archiviarli, il che significa che un’organizzazione può archiviare tutti i dati che desidera e utilizzarli in un secondo momento.

Hadoop. Gestire l’archiviazione e l’elaborazione di grandi quantità di dati

L’intero ecosistema open source

Come funziona Hadoop?

Quali sono i vantaggi di Hadoop?

Cristina MelchiorriMente e denaro

7 consigli essenziali di Leadership

Naviga le onde del pregiudizio: le donne consulenti finanziarie sono autorevoli?

I Due Lupi nell’anima della finanza

L’impazienza della mente che getta benzina sul fuoco in tempo di crisi

Allena la tua Money Mind con Warren Buffet

LMF Crypto Agorà

L’ascesa dei token BRC-20

L’introduzione dei Bitcoin Ordinals ha acceso un ecosistema fiorente

Gli Ordinal su Bitcoin hanno introdotto un nuovo modo per identificare e contrassegnare in via univoca i dati sui singoli Satoshi

Inscriptions, Satoshi, Ordinals

La svizzera Hashgraph ha annunciato il lancio del “Deeptech Venture Studio”

Sala Stampa

Il private equity non teme l’intelligenza artificiale

Zurich: solida crescita nel primo trimestre 2024

Edileco lancia una campagna di lending crowdfunding su Opstart. Obiettivo: 1,2 mln di euro per riqualificare un edificio storico di Biella

Comunicati stampa

Case Green, l’indagine sulle regioni italiane: Valle d’Aosta al primo posto, bene anche la Basilicata

Invesco punta a 500 milioni di dollari per il fondo sull’adattamento al cambiamento climatico

Italtel presenta il bilancio di sostenibilita’ 2023