Home»IN EVIDENZA»My BIG Fat Netflix DATA

My BIG Fat Netflix DATA

L'importanza del Big Data tra difficoltà di stoccaggio e risorsa per la produzione.

0
Shares
Pinterest Google+

Ci siamo lasciati nella seconda parte di questo articolo parlando di Netflix e del suo metodo di produzione, non più basato sulla puntata pilota ma sulla creazione e l’immissione sul mercato di una intera serie (potete rileggere l’articolo qua). Questo è possibile grazie all’orientamento di Netflix alla lettura delle preferenze degli utenti, sfruttando proficuamente quella grande mole di dati a cui ha accesso, che si presenta come una massa informe e che va analizzata, osservata e scremata attentamente.

Il 27 giugno del 2013, durante l’Hadoop SummitJeff Magnusson, ex manager presso la sezione Data Platform Architecture di NetflixCharles Smith, ingegnere informatico, hanno presentato un panel proprio dedicato allo stoccaggio e al trattamento dei dati da parte di Netflix. Ne sono emersi quelli che sono i tre principi fondamentali della filosofia che la compagnia ha adottato sull’importanza dei dati:

  1. i dati devono essere accessibili, facili da reperire e da esaminare;
  2. essere in grado di visualizzare in modo comprensibile il dataset lo rende più facile da interpretare;
  3. più tempo è necessario per reperire i dati, minore sarà il loro valore.

Per Netflix l’importanza del Big Data copre ogni aspetto della produzione di contenuti, dal titolo, all’utilizzo dei colori, alle copertine. Attraverso esso è in grado di aggregare ed estrarre una grande quantità di informazioni riguardanti gli utenti: i generi preferiti, le abitudini di visione, le tendenze del momento e molto altro. Allo stesso tempo può offrire al proprio consumatore il massimo grado di personalizzazione della visione.

netflix_archive

L’infrastruttura dell’archivio dati di Netflix

Come fare per archiviare, rendere reperibili e facilmente leggibili tutti quei dati? Netflix utilizza un sistema piuttosto complesso, basato principalmente sul software Hadoop, che è in grado di immagazzinare terabyte di petabyte di informazioni. L’archivio di Netflix è strutturato in modo da poter contenere in cloud una scala infinita di informazioni. Invece di immagazzinarle nell’Hadoop Distributed File System (HDFS), il detentore finale di questo archivio è l’Amazon’s Storage Service (S3), che è anche il nucleo principale su cui è basata l’architettura di Netflix. Le motivazioni di questa scelta sono molteplici, la prima è l’elasticità e l’illimitatezza di questa infrastruttura cloud-based; in secondo luogo la piattaforma fornisce degli efficienti sistemi di protezione e recupero dei dati persi. 

Netflix_big_data_storage

Hadoop permette di archiviare le informazioni in cluster divisi per ambiti di lavoro diversi attraverso l’Amazon’s Elastic MapReduce (EMR), questi cluster servono ad analisti e programmatori per svolgere alcune operazione come rendere le informazioni cercabili attraverso query oppure estrarre, trasformare e caricare (ETL) i dati. Si può avere accesso ai cluster attraverso il numero di gateway, gli sviluppatori inoltre utilizzano vari tool per creare delle ricerche ad hoc o per ottenere degli analytics.

Infine non si può parlare di Big Data di Netflix senza parlare di Genie, un software che consente agli amministratori di mettere in contatto le risorse back-end di Hadoop con gli utilizzatori finali, è un service indispensabile per avviare Hadoop, Hive e Pig (i tool utilizzati dagli sviluppatori per gestire rispettivamente query/analytics e ETL/algoritmi) da qualsiasi client, senza dover ogni volta installare tutto il pacchetto software di Hadoop. Questo permette che tutte le operazioni si svolgano come un flusso continuo.

L’articolo in questione è solo una piccola finestra sul processo di trattamento dei dati da parte di Netflix. Questo è un ambito in progressiva evoluzione ed è oggetto di una continua ricerca e innovazione da parte della compagnia, che ne ha rimarcato più volte l’importanza per il proprio modello di business.

Fonti www.techblog.netflix.com; www.wired.com

Previous post

Cosa guardi in tv?

Next post

Netflix investe nell'effetto nostalgia