Analyse des données associées aux courses hippiques

add

\bullet Présentation

Premier projet à voir le jour sur ce site, l’exploitation des données associées aux courses hippiques m’a été inspirée par mon pauvre papounet qui, malgré des années d’expérience, n’a jamais été capable de gagner deux courses d’affilées (quoi que je ne vais pas nier qu’il soit arrivé à faire quelques très très bons coups, aussi je me laisse aller à la caricature par plaisir et méchanceté gratuite). Mais ça ce n’est pas grave, n’importe quel ouvrage sur les paris sportifs vous prouvera par A + B que la fortune aux jeux de hasard n’est réservée qu’à une poignée de chanceux défiant toutes les règles mathématiques à jamais établies et qui, pour la plupart, ne l’ont pas fait exprès.

Non, ce qui est plus déroutant c’est qu’après autant de jeux étudiés, jamais il n’ait songé à construire une base de données pour, au moins, essayer de comprendre pourquoi sa stratégie ne marche pas à tous les coups ou plutôt de savoir avec quel probabilité de réussite il peut la tenter.

Ce projet est prévu pour être en perpétuelle évolution d’une année à l’autre puisqu’il s’agira de commencer par une première approche, en sortir les résultats, faire une critique de la démarche et lancer une seconde approche avec pour objectif de faire mieux pour l’année t que pour l’année t-1.

\bullet Démarche

Depuis le 1er janvier 2017, les données du site: zoneturf.fr sont reccueillies jour par jour pour les courses dont la distance est comprise entre 800 et 1600 mètres. La récolte des données durera jusqu’au 31 décembre 2017 et cet article sera mis à jour en fonction des résultats trouvés avec une discussion axée méthodologique et plus statistique que contextuelle.

Le projet pourra aboutir sur des résultats innovants (ce dont je doute) ou sur des résultats inutiles (ce dont je ne doute pas). Mais justement, en cas d’absence de résultats probant, il sera intéressant de mettre en lumière que finalement les données proposées par le site web officiel des courses hippiques n’est qu’un leurre visant à faire dépenser inconsciemment son argent au joueur et que la banque est gagnante dans 99,99999 \% des cas. Après tout, comme nous le disons en statistique, l’absence d’information est une information.

Les variables considérées (caractéristiques) pour cette première version des analyses sont:

– Le numéro d’enregistrement pour la course,

– Le nom du cheval,

– Le genre,

– L’âge,

– Le poids,

– Le nom du jockey,

– Le nom de l’entraineur,

– Le nom du propriétaire,

– Les gains cumulés,

– La valeur attribuée au cheval par le handicapeur,

– La côte probable du cheval,

– Les dernières performances,

– La côte fixée par le PMU.

La variable à discriminer est le classement final du cheval. Elle sera considérée selon un format binaire: « a fini dans les cinq premiers » versus « n’a pas fini dans les cinq premiers ».

De plus, les informations liées à la course ont également été récupérées:

– Type de terrain,

– Moment de la journée où a eu lieu la course,

– La distance précise.

Outre la base d’origine, nous procéderons à trois déclinaisons:

– La base restructurée par chevaux où nous avons, pour un cheval considéré, en ligne ses classements aux divers courses auxquelles il a participé, la déclinaison de ses caractéristiques à cet instant T et les paramètres de la course en colonne.

– la base restructurée par jockey où nous avons, pour un jockey considéré, en ligne ses classements aux divers courses auxquelles il a participé, la déclinaison des caractéristiques à cet instant T du chwal et les paramètres de la course en colonne.

– la base restructurée par propriétaire où nous avons, pour un propriétaire considéré en ligne ses classements aux divers courses auxquelles il a participé, les caractéristiques à cet instant T de son poulain et les paramètres de la course.

La réelle difficulté d’un tel projet n’est pas vraiment de balancer des analyses comme ça puisqu’un premier constat que nous pouvons faire est que la variabilité des paramètres d’une course à l’autre change énormément. Le principal enjeu sera de proposer dans un premier temps une mesure de la relativité (différence entre les caractéristiques et la tendance générale de la course étudiée) et faire en sorte que cette mesure soit généralisable. L’Avantage d’une telle mesure sera également de mettre en avant l’aspect psychologique entre les chevaux lors d’une course hippiques.

\bullet Analyse

Rendez-vous le 31/12/2017!!!