Version accessible
  • fr
  • en


Recherche rapide
  • Aide
  • Recherche avancée
  • Nouveautés
Naviguer par :
  • Accueil
  • Mémoires
    • Nouveautés
      Recherche de nouveautés dans les ressources documentaires
    • Par master
      Recherche par master
    • Recherche avancée
      Recherche de ressources documentaires
    • Tous les mémoires
  • Thèses
    • Nouveautés
      Recherche de nouveautés dans les thèses
    • Recherche avancée
      Recherche de ressources
    • Par auteur
      Recherche par auteur
    • Par année
      Recherche par année de soutenance
    • Par laboratoire
      Recherche par laboratoire
    • Par thème
      Recherche thématique
    • Par école doctorale
      Recherche par école doctorale
    • Toutes les thèses
  • Publications de recherche
    • Nouveautés
      Recherche de nouveautés dans les ressources documentaires
    • Par laboratoire de recherche
      Recherche par laboratoire
    • Recherche avancée
      Recherche de publication de recherche
    • Toutes les publications de recherche
  • Tous les documents
    • Nouveautés
      Recherche des nouveautés
    • Recherche avancée
      Recherche avancée sur plusieurs formats
    • Toutes les ressources


Fiche descriptive

  • Vous êtes ici :
  • Accueil
  • »
  • Fiche descriptive
???menu.description..???

  • Imprimer
  • Version PDF
  • Version XML
  • Ajouter à ma sélection
  • Partager
  • Courriel
  • Twitter
  • Facebook
  • del.icio.us
  • BlogMarks
  • Viadeo
  • LinkedIn

Composantes géantes sur des flux de données (Document en Français)
Accès au(x) document(s)
Accéder au(x) document(s) :
  • https://docassas.u-paris2.fr/nuxeo/site/esupversions/168437e4-5286-497c-b22d-34b3212ba9d1Lien brisé : nonDroits d'accès : non autorisé
Ce document est protégé en vertu du Code de la Propriété Intellectuelle.

Modalités de diffusion de la thèse :
  • Thèse consultable sur internet, en texte intégral.
 
Informations sur les contributeurs
Auteur : Lassoued Achraf
Lassoued, Achraf

Nom
Lassoued

Prénom
Achraf

Nationalité
Français



Date de soutenance : 16-11-2020

Directeur(s) de thèse : Rougemont Michel de
Rougemont, Michel de

Nom
Rougemont

Prénom
Michel de




Etablissement de soutenance : Paris 2
Paris 2

Nom
Paris 2



Ecole doctorale : École doctorale des sciences économiques et gestion, sciences de l'information et de la communication (Paris)
École doctorale des sciences économiques et gestion, sciences de l'information et de la communication (Paris)

Nom
École doctorale des sciences économiques et gestion, sciences de l'information et de la communication (Paris)



 
Informations générales
Discipline : Sciences de l'information
Classification : Droit

Mots-clés libres : Algorithmes de streaming, Approximation, Online Analytical Processing, Clustering, Graphes dynamiques, Traitement automatique des langues, Morphologie linguistique, Préférences
Mots-clés :
  • Modèles mathématiques
  • Analyse des données
  • Algorithmes de streaming (télécommunications)
  • Graphes dynamiques
  • OLAP (informatique)
Résumé : Nous étudions des données de nature diverse sous forme de flux, en particulier: • Base de données,• Réseaux sociaux, • Données de texte. Pour une base de données qui suit un schéma relationnel, un schéma d’analyse OLAP (Online Analytical Processing) définit une des tables de la base de données comme une table d’analyse. Nous supposons que les tuples de la table d'analyse arrivent sous forme d’un flux. Nous étudions l’approximation des requêtes OLAP, en échantillonnant de manière non uniforme les tuples du flux sans stocker les données d’analyse et donnons un modèle de préférence dans ce cadre. Dans le cas du réseau social Twitter, nous observons un flux de tweets qui contiennent un tag donné et le transformons en un flux d’arêtes d’un graphe. Nous souhaitons étudier l’existence des grands clusters dans le graphe ainsi obtenu. Nous proposons une méthode d’échantillonnage uniforme qui va associer au graphe un sous-graphe aléatoire et étudions les composantes géantes de ce sous-graphe aléatoire comme témoin des grands clusters du graphe d’origine. Pour un flux de texte, nous considérons les paires de mots dans une phrase lemmatisée comme des arêtes d’un graphe où les nœuds sont les mots. Nous transformons le flux de texte en flux d’arêtes. Nous échantillonnons les arêtes proportionnellement à la similarité Word2vec des mots. Nous analysons ensuite les composantes géantes. Nous étendons les vecteurs Word2vec en prenant en compte la morphologie d'une langue, en particulier la structure des préfixes et des suffixes d'un mot. Les nouveaux vecteurs d'un mot ont 3 composantes : un vecteur pour le préfixe, un vecteur pour la racine et un vecteur pour le suffixe. Nous définissons un vecteur probabiliste pour les phrases. Sur les trois types de données, nous avons échantillonné selon des distributions précises. Les résultats principaux de cette thèse montrent comment approcher les propriétés de ces données avec ces échantillons.
 
Informations techniques
Type de contenu : Text
Format : PDF
 
Informations complémentaires
Entrepôt d'origine : STAR : dépôt national des thèses électroniques françaises
Identifiant : 2020PA020068
Type de ressource : Thèse




À propos Aide
ORI-OAI-search 2.0.7 - © 2006-2014 ORI-OAI