Reconnaissance automatique des exercices de musculation par capteurs

Sep 8 / Arnaud BRUCHARD -⏱️ 7 MIN -
Bilan approfondi, limites méthodologiques et guide d’implantation pour la pratique clinique

La revue systématique de Brennan et al. (recherche jusqu’au 25/10/2024) rassemble 44 études et 49 modèles consacrés à la classification automatique d’exercices de résistance à partir de capteurs (IMU, EMG, caméra, capteurs embarqués). Les résultats en laboratoire sont souvent excellents (précisions souvent >90 %), mais la majorité des travaux souffre de biais, d’échantillons restreints et d’un manque de validations externes — ce qui limite la transposabilité en cabinet. Cet article développe les résultats, explique les limites pratiques et propose une feuille de route concrète pour les kinés et staffs sportifs.


Introduction

La rééducation moderne s’appuie de plus en plus sur la quantification : charge réelle, volume, répétitions réalisées à domicile, qualité du mouvement. Pouvoir automatiser l’identification d’un exercice (par ex. squat vs fente), compter les répétitions sans saisie manuelle et détecter des écarts techniques est prometteur pour améliorer l’adhérence, documenter la progression et optimiser la charge thérapeutique. Pour autant, l’intégration de ces technologies en cabinet exige une lecture critique de la littérature — c’est l’objet de la revue de Brennan et al. et de cette synthèse approfondie à destination des praticiens. 

Ce que la revue a fait — méthode et corpus

Brennan et al. ont conduit une recherche systématique sur quatre bases jusqu’au 25 octobre 2024 et ont retenu 44 études qui proposaient et/ou validaient des modèles de classification d’exercices. Au total, les auteurs recensent 49 modèles différents. Ils ont appliqué des outils méthodologiques adaptés aux modèles prédictifs (CHARMS / PROBAST) pour évaluer le risque de biais, la qualité du reporting et la robustesse des validations. Les technologies évaluées vont des unités inertielle (IMU) aux dispositifs EMG, en passant par la capture vidéo (RGB) et des capteurs embarqués dans les charges (haltères « smart »).

Résultats détaillés — que disent exactement les études ?

 Types de capteurs et placements

La modalité la plus utilisée est l’IMU (accéléromètre + gyroscope), souvent portée au poignet. D’autres placements étudiés incluent la ceinture lombaire, le sternum, la cheville et les appareils intégrés aux objets (barre, haltère). L’EMG de surface et la capture vidéo apparaissent comme des approches complémentaires — elles donnent davantage d’information qualitative (activation musculaire, angle articulaire), mais elles sont plus coûteuses et complexes à déployer.

 Algorithmes employés

Les études recourent à des méthodes classiques (random forest, SVM, k-NN), mais aussi à des architectures profondes (CNN, LSTM) pour apprendre des patterns temporels. La combinaison IMU + CNN/LSTM est fréquente dans les travaux qui rapportent des performances élevées. Les publications varient cependant sur les détails (fenêtrage temporel, features extraits), ce qui complique les comparaisons directes.

 Performances rapportées

De nombreuses études indiquent des accuracies souvent supérieures à 90 %, certaines approchant voire dépassant 95 % pour des jeux d’exercices limités et bien distincts. Les métriques rapportées restent toutefois hétérogènes : beaucoup se contentent d’une accuracy globale sans présenter les matrices de confusion, la sensibilité par exercice, ni les courbes ROC. Lorsque ces éléments sont fournis, on voit que certaines classes sont systématiquement confondues (ex. variantes de bench press ou de rowing), ce qui a une importance clinique.

 Validations externes et robustesse

Sur les 49 modèles recensés, les validations externes indépendantes sont rares. La plupart des études utilisent des validations internes (cross-validation, hold-out) sur des échantillons restreints. L’absence de tests « in the wild » (séances non standardisées, circuits, patients avec amplitude réduite) est une faille majeure identifiée par les auteurs.

Pourquoi les chiffres élevés en labo peuvent être trompeurs — analyses des limites

 Petits échantillons → risque d’overfitting

Beaucoup d’études incluent moins de 30 participants ; certaines se contentent de 10 ou moins. Un modèle entraîné sur peu de sujets et sur des mouvements « parfaits » risque d’apprendre des artefacts propres au groupe (tempo, amplitude, usage de vêtements, comportement) plutôt que des caractéristiques généralisables du mouvement.

 Distribution de classes et biais de reporting

Des jeux contenant peu d’exercices distincts favorisent des accuracies élevées ; inversement, quand le nombre d’exercices à classer augmente (certains travaux évaluent jusqu’à 44 mouvements), la tâche devient nettement plus difficile et l’accuracy chute. Par ailleurs, l’omission de matrices de confusion empêche d’évaluer quelles erreurs sont cliniquement pertinentes.

 Protocole contrôlé vs réalité clinique

La majorité des acquisitions sont faites dans des conditions strictement contrôlées : tempo imposé, pas d’interruption, équipement identique. En rééducation, on modifie les exercices en fonction de la douleur, on réalise des circuits, on adapte la cadence — les algorithmes n’ont généralement pas été confrontés à ces variantes.

 Prétraitement et transparence manquants

De nombreuses études ne détaillent pas le prétraitement (filtrage, normalisation, fenêtres temporelles) ni les critères d’exclusion. Cette opacité empêche la reproduction et l’évaluation critique d’un modèle.

Conséquences cliniques : ce qu’un kiné doit retenir avant d’adopter

La première conséquence est une mise en garde : ne pas confondre détection et décision clinique. Un capteur peut efficacement compter des répétitions sur des exercices standardisés, ce qui est utile pour le suivi de l’adhérence. Mais il ne doit pas être le seul juge pour décider d’augmenter une charge, modifier la technique ou délivrer un protocole de reprise sportive — la lecture clinique (douleur, qualité de mouvement, amplitude) reste irremplaçable.

Deuxième conséquence : privilégier un déploiement progressif et ciblé. Les usages aujourd’hui raisonnables sont le comptage des répétitions, l’archivage automatique du volume (séries × répétitions × charge déclarée par patient) et la détection grossière de quel exercice a été réalisé (pour des exercices clairement distincts). Les usages avancés (détection fine de compensations, prédiction de risque de blessure) restent expérimentaux.

Guide pratique : comment tester et intégrer une solution en cabinet

Choix d’achat : checklist détaillée pour le cabinet

  1. Preuve externe : existe-t-il une publication indépendante validant l’appareil ?
  2. Transparence technique : l’éditeur documente-t-il le prétraitement, l’algorithme et la population d’entraînement du modèle ?
  3. Métriques complètes : matrices de confusion, sensibilité/spécificité par exercice, stabilité temporelle.
  4. Interopérabilité : export CSV/JSON et import possible dans le dossier patient.
  5. Sécurité & conformité : chiffrement, gestion du consentement, hébergement des données.
  6. Coût total : matériel + abonnement cloud + maintenance + formation du personnel.
  7. Facilité d’usage : temps d’installation, ergonomie, robustesse du capteur (batterie, étanchéité). 

Implications pour la rééducation :

3 cadres synthétiques

Validation locale avant déploiement

Avant toute intégration, testez la solution sur un petit échantillon représentatif (≈10–20 patients) : comparez les sorties (exercice identifié, compteur de répétitions) à une référence vidéo annotée, calculez accuracy, matrices de confusion et erreur moyenne de comptage. Ce cadrage permet d’objectiver les forces/faiblesses (ex. quelles paires d’exercices sont confondues) et d’adapter l’usage (p. ex. comptage seulement pour certains exercices). En pratique : définir les exercices « couverts », standardiser le placement du capteur, documenter les conditions de mesure et décider d’un seuil d’acceptation clinique avant mise en routine.

Usage ciblé pour quantification de la charge

Utilisez la technologie d’abord pour des tâches précises et fiables : comptage automatique des répétitions, mesure du volume (séries × répétitions) et suivi longitudinal de l’adhérence au programme. Intégrer ces métriques dans le dossier patient permet d’objectiver la progression sans remplacer l’examen clinique. Important : limitez l’application aux exercices pour lesquels la validation locale a montré une performance acceptable (p. ex. accuracy >85 % et erreur de comptage <1 rép. moyenne) et évitez de tirer des conclusions sur la qualité technique sans vérification humaine

Décision clinique augmentée, pas automatisée

Les données issues des capteurs doivent alimenter la décision du kiné — elles n’y substituent pas. Construisez un protocole où les alertes automatiques (chute d’adhérence, baisse du volume, asymétrie de répétitions) déclenchent une revue clinique (vidéo, évaluation douleur/amplitude, tests fonctionnels). Définissez seuils d’alerte opérationnels (ex. baisse de volume >25 % sur 2 semaines, erreur de comptage persistante >1 rép./série) et procédures de réponse (contact patient, réévaluation technique, ajustement de charge). Ce cadre garantit sécurité, traçabilité et responsabilité clinique tout en tirant parti de l’objectivation fournie par les capteurs.


Ce que cette étude nous enseigne


La technologie fonctionne — en labo.
Les unités inertielle (IMU), surtout portées au poignet, permettent de classifier des exercices avec des précisions souvent >90 % (parfois ≈95 %) dans des protocoles contrôlés — preuve que le problème technique est solvable.


La littérature reste immature pour la clinique.
La revue recense 44 études et 49 modèles, mais la majorité présente un risque de biais élevé (petits échantillons, reporting incomplet) et peu de validations externes : les performances rapportées sont donc probablement optimistes pour des patients réels.


Applications cliniques réalistes aujourd’hui : quantification, pas diagnostic.
Les usages fiables et immédiatement utiles sont le comptage automatique des répétitions, l’estimation du volume (séries × reps) et le suivi de l’adhérence à domicile. La détection fine des compensations ou le remplacement du jugement thérapeutique restent prématurés.

Avant déploiement : valider localement et garder la supervision clinique.
Toute solution doit être testée sur 10–20 patients représentatifs (validation vidéo), avec matrices de confusion et métriques par exercice. Les alertes automatiques doivent déclencher une revue clinique — la technologie doit augmenter la décision, pas la substituer.

CONCLUSION

La littérature montre que la classification d’exercices par capteurs fonctionne techniquement dans des contextes contrôlés (accuracies souvent >90 %), et que l’IMU poignet est la solution la plus pragmatique pour débuter. En revanche, le passage à une utilisation clinique sûre exige : validations externes, tests « in the wild », protocoles locaux de validation, et gouvernance des données. Pour le kiné, la meilleure stratégie consiste à adopter ces outils progressivement — pour objectiver le volume et l’adhérence — tout en maintenant la supervision clinique pour les décisions thérapeutiques et l’évaluation qualitative du geste

L'ARTICLE

Brennan TR, Weakley J, Johnston RD, Creaby MW. Exercise Classification in Resistance Training: A Systematic Review of Technological Approaches. Sports Medicine. Accepted 29 June 2025. doi:10.1007/s40279-025-02281-8