Est-ce que les tops du leaderboard se spécialisent

Est-ce que les tops du leaderboard se spécialisent ?

Cette partie a été réalisée par : Ascari Yannick - Groupe G.

Sommaire

  1. Introduction
  2. Méthodologie
  3. Mis en œuvre
  4. Résultats
  5. Conclusion
  6. Limites
  7. Notions acquises
  8. Références

Introduction

Kaggle est une plateforme, permettant aux data scientists de pouvoir s’affronter dans des compétitions d’intelligence artificielle (IA). Cette plateforme permet aux data scientists de se mesurer et ainsi, de trouver de nouvelles idées pour améliorer l’écriture de code, pour avoir des meilleurs modèles tout en restant très performants. Kaggle met à disposition ces compétitions à tout le monde, en libre-service, et aussi depuis une API pour pouvoir étudier plus en profondeur tout les aspects de chaque compétition.

On peut alors s’intéresser, si à travers toutes ces compétitions, on peut observer si dans chaque compétition, les meilleurs compétiteurs se spécialisent dans un domaine spécifique précis, et donc si cette stratégie de spécialisation est payante pour être dans le podium.

La question que l’on se pose est donc : Est-ce que les tops du leaderboard se spécialisent ?

Hypothèse

L’hypothèse principale, est que la focalisation dans un domaine précis de compétition *Kaggle est une stratégie gagnante pour être dans le podium*.

Méthodologie

Afin de répondre à cette question, nous allons suivre la méthodologie suivante, dans l’ordre chronologique.

Une fois que nous avons bien défini notre méthodologie, on peut passer à la prochaine étape, qui consiste à la mise en œuvre de celle-ci.

Mise en œuvre

Afin de mettre la méthodologie en œuvre, on a suivi les points suivants :

Résultats

Après avoir mis en place le système de traitement des données et généré les visualisations, voici les résultats obtenus. Pour chaque visualisation, on peut observer les tendances suivantes :

  1. Heatmap de spécialisation des meilleurs compétiteurs : La heatmap montre clairement que les meilleurs compétiteurs ont tendance à se spécialiser dans certains domaines, parmis les 3 domaines que j’ai sélectionnés (NLP, Tabulaire, Time Series Analysis), on peut voir qu’il y a un forte concentration de compétiteur qui se spécialisent dans le domaine du tabulaire. Ce qui suggère que la spécialisation est une stratégie gagnante pour être dans le podium.


Heatmap des meilleurs compétiteurs

  1. Distribution des taux de spécialisation : Pour chaque histogramme par catégorie, parmi les 3 catégories, on peut observer que les compétiteurs ont tendance à se spécialiser plutôt dans le domaine du tabulaire, avec une majorité de compétiteurs ayant un taux de spécialisation élevé dans ce domaine en moyenne avec $74.9\%$. Ce qui confirme encore une fois que les compétiteurs se spécialisent et se focalisent beaucoup dans ce domaine. Pour ce qui est des autres domaines, on à un taux de $15.0 \%$ pour le domaine du NLP, et $10.1\%$ pour le domaine des séries temporelles. Ce qui est nettement moins élevé que le domaine du tabulaire.


Distribution des taux de spécialisation

  1. Taux de spécialisation moyen par domaine : Le graphique à barres montre que le taux de spécialisation moyen est le plus élevé dans le domaine du tabulaire, avec une moyenne de $74.9\%$. Ce qui est nettement plus élevé que les autres domaines, avec $15.0\%$ pour le NLP et $10.1\%$ pour les séries temporelles. Cela suggère que les compétiteurs qui se spécialisent dans le domaine du tabulaire ont un avantage significatif pour être dans le podium.


Taux de spécialisation moyen par domaine

  1. Comparaison entre les meilleurs compétiteurs et le reste : Le graphique comparant les meilleurs compétiteurs au reste montre que les meilleurs compétiteurs ont un taux de spécialisation significativement plus élevé que les autres. En moyenne, les meilleurs compétiteurs ont un taux de spécialisation très élevé de $82.4\%$ contre $74.8\%$ dans le domaine du tabulaire. Ce qui confirme encore une fois que la spécialisation est une stratégie gagnante pour être dans le podium.


Comparaison des taux de spécialisation

Reproductibilité

À savoir que ce code à été écrit de manière à être reproductible, c’est-à-dire que n’importe qui peut exécuter ce code pour obtenir les mêmes résultats. En outre, le code est aussi écrit de manière générique, ce qui permet de facilement modifier les paramètres, comme par exemple les domaines de spécialisation, ou le nombre de meilleurs compétiteurs à analyser.

Une fois avoir analysé ces résultats, on peut en tirer une conclusion pertinente.

Conclusion

Après avoir analysé les résultats obtenus, on peut conclure que les meilleurs compétiteurs sur Kaggle ont tendance à se spécialiser dans certains domaines précis, notamment dans le domaine du tabulaire. La spécialisation semble être une stratégie gagnante pour être dans le podium, avec des taux de spécialisation significativement plus élevés parmi les meilleurs compétiteurs. Cependant, il est important de noter que cette spécialisation n’est pas exclusive, et que certains compétiteurs peuvent également participer à des compétitions dans d’autres domaines. On le voit bien avec les résultats obtenus, qui montrent une tendance claire à la spécialisation avec $\simeq 75\%$.

Donc au final, on peut répondre à la question initiale : Est-ce que les tops du leaderboard se spécialisent ?

Par un relatif oui, les tops du leaderboard ont bien tendance à se spécialiser, notamment dans le domaine du tabulaire, mais cette spécialisation n’est pas absolue, et il y a toujours une part de compétiteurs qui participent à des compétitions dans d’autres domaines. La spécialisation est donc une stratégie gagnante, mais elle n’est pas la seule voie vers le succès sur Kaggle.

Limites

Cependant, il est important de noter certaines limites dans cette analyse :

Notions acquises

Grace à ce travail de rétro-ingénierie et d’analyse du système Kaggle, j’ai pu acquérir plusieurs notions importantes :

Références

Voici les quelques références utilisées pour ce travail :

  1. Competing AI: How does competitoon feedback affect machine learning ? (Stanford HAI). Article - Étude qui démontre que lorsque des algos d’IA entrent en compétition, ils se spécialisent pour des sous-populations d’utilisateurs.
  2. Learnings from Kaggle’s Forecasting Competitions (arXiv, 2020). Article - Analyse les stratégies gagnantes dans les compétitions Kaggle, l’essor de XGBoost et des ensembles de modèles.
  3. The Ladder: A Reliable Leaderboard for Machine Learning Competitions (MLR Press). Article - Traite la méthodologie d’analyse des leaderboards et des analyses post-compétitions, confirmant la méthodologie utilisée dans ce travail.
  4. Data competition design and analysis (arXiv, 2019). Article - Discute des stratégies de conception et d’analyses des compétitions de data science.

février 2026

Authors

We are four students in M2 or in last year of Polytech’ Nice-Sophia specialized in Software Architecture :

I. Research context /Project

Préciser ici votre contexte et Pourquoi il est intéressant. **

II. Observations/General question

  1. Commencez par formuler une question sur quelque chose que vous observez ou constatez ou encore une idée émergente.

  2. Préciser pourquoi cette question est intéressante de votre point de vue.

Attention pour répondre à cette question, vous devrez être capable d’émettre des hypothèses vérifiables, de quantifier vos réponses, …

 :bulb: Cette première étape nécessite beaucoup de réflexion pour définir la bonne question qui permet de diriger la suite de vos travaux.

III. Information gathering

Préciser vos zones de recherches en fonction de votre projet, les informations dont vous disposez, …

Voici quelques pistes :

  1. les articles ou documents utiles à votre projet
  2. les outils que vous souhaitez utiliser
  3. les jeux de données/codes que vous allez utiliser, pourquoi ceux-ci, …

    :bulb: Cette étape est fortement liée à la suivante. Vous ne pouvez émettre d’hypothèses à vérifier que si vous avez les informations. inversement, vous cherchez à recueillir des informations en fonction de vos hypothèses.

IV. Hypothesis & Experiences

  1. Il s’agit ici d’énoncer sous forme d’hypothèses ce que vous allez chercher à démontrer. Vous devez définir vos hypothèses de façon à pouvoir les mesurer/vérifier facilement. Bien sûr, votre hypothèse devrait être construite de manière à vous aider à répondre à votre question initiale. Explicitez ces différents points.
  2. Vous explicitez les expérimentations que vous allez mener pour vérifier si vos hypothèses sont vraies ou fausses. Il y a forcément des choix, des limites, explicitez-les.

    :bulb: Structurez cette partie à votre convenance : Par exemples : Pour Hypothèse 1 => Nous ferons les Expériences suivantes pour la démontrer Pour Hypothèse 2 => Expériences

     ou Vous présentez l'ensemble des hypothèses puis vous expliquer comment les expériences prévues permettront de démontrer vos hypothèses.
    

V. Result Analysis and Conclusion

  1. Présentation des résultats
  2. Interprétation/Analyse des résultats en fonction de vos hypothèses
  3. Construction d’une conclusion

    :bulb: Vos résultats et donc votre analyse sont nécessairement limités. Préciser bien ces limites : par exemple, jeux de données insuffisants, analyse réduite à quelques critères, dépendance aux projets analysés, …

VI. Tools (facultatif)

Précisez votre utilisation des outils ou les développements (e.g. scripts) réalisés pour atteindre vos objectifs. Ce chapitre doit viser à (1) pouvoir reproduire vos expérimentations, (2) partager/expliquer à d’autres l’usage des outils.

Figure 1: Logo UCA, exemple, vous pouvez l'enlever

VI. References

[Debret 2020] Debret, J. (2020) La démarche scientifique : tout ce que vous devez savoir ! Available at: https://www.scribbr.fr/article-scientifique/demarche-scientifique/ (Accessed: 18 November 2022).