Skip to main content
Skip to "About government"
Language selection
English
Gouvernement du Canada /
Government of Canada
Recherche
Chercher dans le site Web
Recherche
Menu
Menu
principal
Emplois et milieu de travail
Immigration et citoyenneté
Voyage et tourisme
Entreprises et industrie
Prestations
Santé
Impôts
Environnement et ressources naturelles
Sécurité nationale et défense
Culture, histoire et sport
Services de police, justice et urgences
Transport et infrastructure
Canada et le monde
Argent et finances
Science et innovation
You are here:
Canada.ca
Bibliothèque et Archives Canada
Services
Services aux bibliothèques, archives et musées
Thèses Canada
Item – Thèses Canada
Contenu de la page
Item – Thèses Canada
Numéro d'OCLC
1032919370
Lien(s) vers le texte intégral
Exemplaire de BAC
Auteur
Im, Jean-François.
Titre
Visualization of large amounts of multidimensional multivariate business-oriented data.
Diplôme
Mémoire -- École de technologie supérieure, 2014
Éditeur
Montréal : École de technologie supérieure, 2014.
Description
1 online resource
Notes
Includes bibliographical references.
Résumé
Plusieurs grandes entreprises stockent des volumes importants de données d'affaires dans des entrepôts de données. Ces entrepôts de données contiennent des tables de faits, qui elles mêmes contiennent des rangées représentant des évènements d'affaires, comme une vente ou une livraison. Ces données comprennent plusieurs dimensions (variables indépendantes et catégoriques) et fréquemment plusieurs mesures (variables dépendantes et habituellement continues), ce qui rend ardue la tâche d'analyser et de visualiser ces types de données par des utilisateurs non-experts. Nous proposons deux techniques, GPLOM et VisReduce, qui gèrent respectivement la visualisation de jeux de données complexes et le traitement nécessaire à la visualisation de jeux de données volumineux. Les matrices de nuages de points (Scatter PLOt Matrices, ou SPLOMs), les coordonnées parallèles et les glyphes peuvent être utilisés pour visualiser plusieurs mesures dans les jeux de données multidimensionnels multivariés. Cependant, ces techniques ne sont pas efficaces pour la visualisation de plusieurs dimensions. Pour visualiser plusieurs dimensions, des axes hiérarchiques qui imbriquent les dimensions ont été utilisés dans des systèmes comme Polaris et Tableau. Cependant, cette approche fonctionne mal lorsqu'appliquée à plus que quelques dimensions. Emerson et al. (2013) étend le paradigme de la SPLOM pour visualiser simultanément plusieurs variables catégoriques et continues, affichant plusieurs types de graphiques dans la matrice selon la combinaison de variables impliquées. Nous proposons une variante de leur technique, appelée la matrice de graphiques généralisée (Generalized PLOt Matrix, ou GPLOM). La GPLOM restreint la technique d'Emerson et al. (2013) pour n'utiliser que trois types de graphiques (des nuages de points pour les paires de variables continues, des thermogrammes pour les paires de variables catégoriques et des graphiques à bâtons pour les paires de variables continues et catégoriques) afin de la rendre plus accessible à des utilisateurs non-experts. En même temps, la GPLOM augmente le travail d'Emerson et al. (2013) en démontrant des techniques d'interaction appropriées à la matrice de graphiques. Nous discutons du design visuel et des fonctionnalités interactives de notre prototype de la GPLOM, entre autres une fonctionnalité de recherche textuelle qui permet aux utilisateurs de chercher des valeurs et des variables par nom. Nous présentons aussi une expérience contrôlée avec des utilisateurs qui compare la performance de Tableau et de notre prototype de la GPLOM qui démontre que la GPLOM est significativement plus rapide dans certains cas et non significativement plus lente dans d'autres cas. Aussi, la performance et la rapidité de réponse des systèmes d'analyse visuels pour l'exploration de jeux de données volumineux est un problème connu et identifié comme un problème imporX tant pour la communauté de visualisation, problème auquel la GPLOM n'échappe pas. Nous proposons alors une technique appelée VisReduce qui calcule une visualisation de façon incrémentale et distribuée en combinant un algorithme similaire à MapReduce avec un engin de stockage compressé orienté colonne, résultant en des améliorations significatives de performance et de temps de réponse pour la construction de graphiques fréquemment utilisés, comme les graphiques à bâtons, les nuages de points, les thermogrammes, les cartogrammes et les graphiques à coordonnées parallèles. Nous comparons notre méthode avec une qui interroge trois systèmes de gestion de bases de données et systèmes d'entrepôts de données statu quo -- PostgreSQL, Cloudera Impala et Apache Hive -- pour construire des visualisations. Nous démontrons que VisReduce permet une meilleure performance et un temps de réponse garanti, même pour des requêtes volumineuses ayant un long temps d'exécution.
Autre lien(s)
espace.etsmtl.ca
Sujet
Visualisation de l'information Logiciels.
Données volumineuses.
Bases de données multidimensionnelles.
Entrepôts de données (Informatique)
Gestion Informatique.
matrice de nuages de points, SPLOM, matrice de graphiques généralisées, GPLOM, VisReduce, MapReduce, visualisation incrementale.
Date de modification :
2022-09-01