Assas Recherche | Thèses > Par directeur

Recherche en cours

Par directeur = Rougemont Michel de

Attention : l'accès aux ressources peut être restreint, soit pour des raisons juridiques, soit par la volonté de l'auteur.

STAR : dépôt national des thèses électroniques françaises

Approximation dynamique de clusters dans un graphe social : méthodes et applications

Description : Nous étudions comment détecter des clusters dans un graphe défini par un flux d’arêtes, sans stocker l'ensemble du graphe. Nous montrons comment détecter de gros clusters de l'ordre de √n dans des graphes qui ont m = O(n log(n)) arêtes, tout en stockant √n.log(n) arêtes. Les graphes sociaux suivent ...

Nous étudions comment détecter des clusters dans un graphe défini par un flux d’arêtes, sans stocker l'ensemble du graphe. Nous montrons comment détecter de gros clusters de l'ordre de √n dans des graphes qui ont m = O(n log(n)) arêtes, tout en stockant √n.log(n) arêtes. Les graphes sociaux suivent le régime où m satisfait cette condition. Nous étendons notre approche aux graphes dynamiques définis par les arêtes les plus récentes du flux et à plusieurs flux. Nous proposons des méthodes simples et robustes afin de détecter ces clusters de manière approchée.Nous définissons la corrélation de contenu de deux flux ρ(t) par la similarité de Jaccard de leurs clusters, dans les fenêtres au temps t. Nous proposons une méthode simple et efficace pour approcher cette corrélation en ligne et montrons que pour les graphes aléatoires dynamiques qui suivent une loi de puissance, nous pouvons garantir une bonne approximation.Une des applications est l’analyse des flux Twitter. Nous calculons les corrélations de contenu de ces flux en ligne. Nous proposons ensuite une recherche par corrélation où les réponses aux ensembles de mots-clés sont entièrement basées sur les petites corrélations des flux. Les réponses sont ordonnées par les corrélations, et les explications peuvent être tracées avec les clusters stockés.

Mots clés : Graphes dynamiques, Algorithmes, Approximation, Théorie de l', Grilles informatiques, Analyse des données

Auteur : Vimont Guillaume

Année de soutenance : 2019

Directeur : Rougemont Michel de

Établissement de soutenance : Paris 2

Discipline : Informatique

Thème : Informatique

Laboratoire : Université Panthéon-Assas (Paris). Centre de recherches en économie du droit

École doctorale : École doctorale des sciences économiques et gestion, sciences de l'information et de la communication (Paris)

https://docassas.u-paris2.fr/nuxeo/site/esupversions/0b8fac0c-9239-4fc4-8046-430a74690e70

Composantes géantes sur des flux de données

Description : Nous étudions des données de nature diverse sous forme de flux, en particulier: • Base de données,• Réseaux sociaux, • Données de texte. Pour une base de données qui suit un schéma relationnel, un schéma d’analyse OLAP (Online Analytical Processing) définit une des tables de la base de données comme ...

Nous étudions des données de nature diverse sous forme de flux, en particulier: • Base de données,• Réseaux sociaux, • Données de texte. Pour une base de données qui suit un schéma relationnel, un schéma d’analyse OLAP (Online Analytical Processing) définit une des tables de la base de données comme une table d’analyse. Nous supposons que les tuples de la table d'analyse arrivent sous forme d’un flux. Nous étudions l’approximation des requêtes OLAP, en échantillonnant de manière non uniforme les tuples du flux sans stocker les données d’analyse et donnons un modèle de préférence dans ce cadre. Dans le cas du réseau social Twitter, nous observons un flux de tweets qui contiennent un tag donné et le transformons en un flux d’arêtes d’un graphe. Nous souhaitons étudier l’existence des grands clusters dans le graphe ainsi obtenu. Nous proposons une méthode d’échantillonnage uniforme qui va associer au graphe un sous-graphe aléatoire et étudions les composantes géantes de ce sous-graphe aléatoire comme témoin des grands clusters du graphe d’origine. Pour un flux de texte, nous considérons les paires de mots dans une phrase lemmatisée comme des arêtes d’un graphe où les nœuds sont les mots. Nous transformons le flux de texte en flux d’arêtes. Nous échantillonnons les arêtes proportionnellement à la similarité Word2vec des mots. Nous analysons ensuite les composantes géantes. Nous étendons les vecteurs Word2vec en prenant en compte la morphologie d'une langue, en particulier la structure des préfixes et des suffixes d'un mot. Les nouveaux vecteurs d'un mot ont 3 composantes : un vecteur pour le préfixe, un vecteur pour la racine et un vecteur pour le suffixe. Nous définissons un vecteur probabiliste pour les phrases. Sur les trois types de données, nous avons échantillonné selon des distributions précises. Les résultats principaux de cette thèse montrent comment approcher les propriétés de ces données avec ces échantillons.

Mots clés : Modèles mathématiques, Analyse des données, Algorithmes de streaming (télécommunications), Graphes dynamiques, OLAP (informatique)

Auteur : Lassoued Achraf

Année de soutenance : 2020

Directeur : Rougemont Michel de

Établissement de soutenance : Paris 2

Discipline : Sciences de l'information

Thème : Droit

École doctorale : École doctorale des sciences économiques et gestion, sciences de l'information et de la communication (Paris)

https://docassas.u-paris2.fr/nuxeo/site/esupversions/168437e4-5286-497c-b22d-34b3212ba9d1