DANA : Data Mining at scale

Mots clés

Analyse de mégadonnées (Big Data Analytics), données spatio-temporelles, fouille de données structurées ou non structurées, analyse de concepts formels, séries temporelles

 

Responsable / Co-Responsable
Mohamed QUAFAFOU / Alain CASALI
 

Membres

CASALI Alain  Enseignant-Chercheur / Chercheur
CICCHETTI Rosine  Enseignant-Chercheur / Chercheur
DURAND Nicolas  Enseignant-Chercheur / Chercheur
LAKHAL Lotfi  Enseignant-Chercheur / Chercheur
MARTIN-NEVOT Mickael  Doctorant
NEDJAR Sebastien  Enseignant-Chercheur / Chercheur
PHANLUONG Viet  Enseignant-Chercheur / Chercheur
QUAFAFOU Mohamed  Enseignant-Chercheur / Chercheur

 

Objectif scientifique

Les objectifs scientifiques de l’équipe DANA portent sur les aspects théoriques et pratiques de l’analyse de mégadonnées. De nos jours, cette problématique représente un enjeu majeur au niveau scientifique, économique et sociétal. Dans ce contexte, nous proposerons des méthodes et des algorithmes en se focalisant plus particulièrement sur les points suivants :

Motifs et Modèles thématiques probabilistes : D’une part, les motifs représentent des relations entre items dont la cooccurrence est observée de façon significative. D’autre part, les modèles thématiques permettent d’expliciter des distributions de probabilités (thèmes) rendant les données observées probables.

Analyse de Concepts Formels (ACF) et Approximation : les algorithmes classiques de construction et de recherche dans les treillis de concepts sont inopérants ou bien leurs performances se dégradent de façon significative lorsqu’ils sont appliqués sur des mégadonnées. Ce problème est un challenge auquel s’attaque l’équipe DANA.

Analyse de données spatio-temporelles : Cette problématique est à la fois cruciale et d’actualité à laquelle toutes les grandes conférences importantes de notre communauté (rang A*-KDD, ECML/PKDD, ICDM, IJCAI) réservent une session dédiée aux données spatiales et /ou temporelles.

 

Publications récentes de l’équipe



28 documents

Articles dans une revue

  • Soufiane Lyaqini, Mohamed Quafafou, Mourad Nachaoui, Abdelkrim Chakib. Supervised learning as an inverse problem based on non-smooth loss function. Knowledge and Information Systems (KAIS), Springer, In press. ⟨hal-02459466⟩
  • Feda Almuhisen, Nicolas Durand, Mohamed Quafafou. Detecting behavior types of moving object trajectories. International Journal of Data Science and Analytics, Springer Verlag, 2018, 5 (2-3), pp.169-187. ⟨10.1007/s41060-017-0076-8⟩. ⟨hal-01693308⟩
  • Lotfi Lakhal, Sébastien Nedjar, Rosine Cicchetti. Multidimensional skyline analysis based on agree concept lattices. Intelligent Data Analysis, IOS Press, 2017, 21 (5), pp.1245-1265. ⟨10.3233/IDA-163111⟩. ⟨hal-02446935⟩
  • Youssef Hmamouche, Piotr Przymus, Alain Casali, Lotfi Lakhal. GFSM: a Feature Selection Method for Improving Time Series Forecasting. International Journal On Advances in Systems and Measurements, IARIA, 2017. ⟨hal-02448277⟩

Communications dans un congrès

  • Hana Alouaoui, Lotfi Lakhal, Rosine Cicchetti, Alain Casali. CoSky: A Practical Method for Ranking Skylines in Databases. 11th International Conference on Knowledge Discovery and Information Retrieval, Sep 2019, Vienna, Austria. pp.508-515, ⟨10.5220/0008363005080515⟩. ⟨hal-02445524⟩
  • Meryem Bendella, Mohamed Quafafou. Patterns Based Query Expansion for Enhanced Search on Twitter Data. Supplementary Proceedings of International Conference on Formal Concept Analysis (ICFCA) Conference and Workshops, BigFCA Workshops, Jun 2019, Frankfurt, Germany. ⟨hal-02438614⟩
  • Agus Raharjo, Mohamed Quafafou. Dynamic Reliable Voting in Ensemble Learning. 15th IFIP International Conference on Artificial Intelligence Applications and Innovations (AIAI), May 2019, Hersonissos, Greece. pp.178-187, ⟨10.1007/978-3-030-19823-7_14⟩. ⟨hal-02331314⟩
  • Meryem Bendella, Mohamed Quafafou. Expansion de requêtes à base de motifs et de Word Embeddings pour améliorer la recherche de microblogs. COnférence en Recherche d'Informations et Applications - CORIA 2019, 16th French Information Retrieval Conference, Mar 2019, Lyon, France. ⟨hal-02090899⟩
  • Feda Almuhisen, Nicolas Durand, Mohamed Quafafou. Sequential Formal Concepts over Time for Trajectory Analysis. IEEE/WIC/ACM International Conference on Web Intelligence (WI 2018), Dec 2018, Santiago, Chile. ⟨hal-01952227⟩
  • Youssef Hmamouche, Lotfi Lakhal, Alain Casali. Predictors Extraction in Time Series Using Authorities-Hubs Ranking. 2018 IEEE International Conference on Data Mining Workshops (ICDMW), Nov 2018, Singapore, France. pp.1070-1079, ⟨10.1109/ICDMW.2018.00155⟩. ⟨hal-02096133⟩
  • Viet Phan-Luong. First-Half Index Base For Querying Data Cube. Intelligent Systems Conference 2018, Sep 2018, London, United Kingdom. ⟨10.1007/978-3-030-01054-6_78⟩. ⟨hal-02081549⟩
  • Meryem Bendella, Quafafou Mohamed. Classification probabiliste des Tweets Suspects. 25 èmes Rencontres de la Société Francophone de Classification, Sep 2018, Paris, France. ⟨hal-02091005⟩
  • Feda Almuhisen, Nicolas Durand, Leonardo Brenner, Quafafou Mohamed. Prédiction de l'état du trafic routier basée sur les motifs et les chaînes de Markov. 25èmes Rencontres de la Société Francophone de Classification (SFC 2018), Sep 2018, Paris, France. ⟨hal-01858562⟩
  • Meryem Bendella, Feda Almuhisen, Mohamed Quafafou. Geo-FUZZ: Fuzzy-based algorithm for suspicious geo-tagged tweets detection. 2018 IEEE International Conference on Fuzzy Systems (FUZZ-IEEE), Jul 2018, Rio de Janeiro, Brazil. ⟨10.1109/FUZZ-IEEE.2018.8491533⟩. ⟨hal-01916832⟩
  • Piotr Przymus, Youssef Hmamouche, Alain Casali, Lotfi Lakhal. Improving Multivariate Time Series Forecasting with Random Walks with Restarts on Causality Graphs. 2017 IEEE International Conference on Data Mining Workshops (ICDMW), Nov 2017, New Orleans, United States. pp.924-931, ⟨10.1109/ICDMW.2017.127⟩. ⟨hal-02445536⟩
  • Agus Budi Raharjo, Quafafou Mohamed. The Combination of Decision in Crowds When the Number of Reliable Annotator Is Scarce. Advances in Intelligent Data Analysis XVI, Oct 2017, London, United Kingdom. ⟨hal-01796290⟩
  • Meryem Bendella, Mohamed Quafafou, Saad Mekkaoui. Leveraging uncertainty modeling for suspicious tweets detection. 2017 IEEE International Conference on Fuzzy Systems (FUZZ-IEEE), Jul 2017, Naples, France. ⟨10.1109/FUZZ-IEEE.2017.8015729⟩. ⟨hal-01772114⟩
  • Meryem Bendella, Mohamed Quafafou. Modèles de mélange pour l’analyse des données spatio-temporelles sur Twitter. 24èmes Rencontres de la Société Francophone de Classification (SFC 2017), Jun 2017, Lyon, France. ⟨hal-01772356⟩
  • Mohamed Quafafou, Nicolas Durand. Classification orientée perceptions. 24èmes Rencontres de la Société Francophone de Classification (SFC 2017), Jun 2017, Lyon, France. ⟨hal-01627396⟩
  • Feda Almuhisen, Nicolas Durand, Mohamed Quafafou. Multi-label Classification of Moving Object Trajectories based on Frequent Behavior Type Detection. 24èmes Rencontres de la Société Francophone de Classification (SFC 2017), Société Francophone de Classification, Jun 2017, Lyon, France. ⟨hal-01627398⟩
  • Agus Budi Raharjo, Mohamed Quafafou, Faicel Chamroukhi. On Reliability of Majority Voting. Le 24th conférence de la Société Francophone de Classification (SFC 2017), Jun 2017, Lyon, France. ⟨hal-01796289⟩
  • Youssef Hmamouche, Alain Casali, Lotfi Lakhal. A Causality Based Feature Selection Approach for Multivariate Time Series Forecasting. DBKDA 2017, The Ninth International Conference on Advances in Databases, Knowledge, and Data Applications, May 2017, Barcelone, Spain. ⟨hal-01467523⟩
  • Viet Phan-Luong. Searching Data Cube for Submerging and Emerging Cuboids. 2017 IEEE 31st International Conference on Advanced Information Networking and Applications (AINA), Mar 2017, Taipei, France. ⟨10.1109/AINA.2017.77⟩. ⟨hal-01796021⟩

Chapitres d'ouvrage

  • Youssef Hmamouche, Piotr Marian Przymus, Hana Alouaoui, Alain Casali, Lotfi Lakhal. Large Multivariate Time Series Forecasting: Survey on Methods and Scalability. Utilizing Big Data Paradigms for Business, pp.170-197, 2019. ⟨hal-02122849⟩
  • Mickaël Martin-Nevot, Sébastien Nedjar, Lotfi Lakhal, Rosine Cicchetti. C-Idea - A Fast Algorithm for Computing Emerging Closed Datacubes.. Utilizing Big Data Paradigms for Business Intelligence, pp.129-169, 2019, ⟨10.4018/978-1-5225-4963-5.ch005⟩. ⟨hal-02446921⟩

Thèses

  • Youssef Hmamouche. Prédiction des Séries Temporelles Larges. Algorithme et structure de données [cs.DS]. AMU - Aix Marseille Université, 2018. Français. ⟨tel-02448325⟩
  • Feda Almuhisen. Leveraging formal concept analysis and pattern mining for moving object trajectory analysis. Machine Learning [cs.LG]. Aix-Marseille Université, 2018. English. ⟨tel-02438259⟩
  • Hafida Naim. Réseaux de service web : construction, analyse et applications. Apprentissage [cs.LG]. Aix-Marseille Université, 2017. Français. ⟨tel-02438407⟩