Définition - Que signifie l'analyse de données parallèle?
L'analyse de données parallèle est une méthode d'analyse des données à l'aide de processus parallèles qui s'exécutent simultanément sur plusieurs ordinateurs.
Le processus est utilisé dans l'analyse de grands ensembles de données tels que de grands enregistrements d'appels téléphoniques, des journaux de réseau et des référentiels Web pour des documents texte qui peuvent être trop volumineux pour être placés dans une seule base de données relationnelle. La méthode est souvent utilisée dans le Big Data Analytics et l'analyse générale des données.
Definir Tech explique l'analyse de données parallèle
Le concept principal derrière l'analyse de données parallèles est le parallélisme, défini en informatique comme l'exécution simultanée de processus.
Ceci est souvent réalisé en utilisant plusieurs processeurs ou même plusieurs ordinateurs et est une pratique courante en informatique distribuée. Dans l'analyse parallèle des données, différents ordinateurs exécutant différents aspects de l'analyse des données exécutent simultanément ces processus, puis consolident ensuite les résultats dans un seul grand rapport.
La raison de ce parallélisme est principalement de rendre l'analyse plus rapide, mais c'est aussi parce que certains ensembles de données peuvent être trop dynamiques, trop volumineux ou simplement trop lourds pour être placés efficacement dans une seule base de données relationnelle. Le résultat serait que ces ensembles de données sont hébergés dans différentes bases de données optimisées pour ce type de données et dans différentes machines, de sorte que l'analyse linéaire ne sera tout simplement pas une option efficace.