La rééducation moderne s’appuie de plus en plus sur la quantification : charge réelle, volume, répétitions réalisées à domicile, qualité du mouvement. Pouvoir automatiser l’identification d’un exercice (par ex. squat vs fente), compter les répétitions sans saisie manuelle et détecter des écarts techniques est prometteur pour améliorer l’adhérence, documenter la progression et optimiser la charge thérapeutique. Pour autant, l’intégration de ces technologies en cabinet exige une lecture critique de la littérature — c’est l’objet de la revue de Brennan et al. et de cette synthèse approfondie à destination des praticiens.
Brennan et al. ont conduit une recherche systématique sur quatre bases jusqu’au 25 octobre 2024 et ont retenu 44 études qui proposaient et/ou validaient des modèles de classification d’exercices. Au total, les auteurs recensent 49 modèles différents. Ils ont appliqué des outils méthodologiques adaptés aux modèles prédictifs (CHARMS / PROBAST) pour évaluer le risque de biais, la qualité du reporting et la robustesse des validations. Les technologies évaluées vont des unités inertielle (IMU) aux dispositifs EMG, en passant par la capture vidéo (RGB) et des capteurs embarqués dans les charges (haltères « smart »).
Types de capteurs et placements
La modalité la plus utilisée est l’IMU (accéléromètre + gyroscope), souvent portée au poignet. D’autres placements étudiés incluent la ceinture lombaire, le sternum, la cheville et les appareils intégrés aux objets (barre, haltère). L’EMG de surface et la capture vidéo apparaissent comme des approches complémentaires — elles donnent davantage d’information qualitative (activation musculaire, angle articulaire), mais elles sont plus coûteuses et complexes à déployer.
Algorithmes employés
Les études recourent à des méthodes classiques (random forest, SVM, k-NN), mais aussi à des architectures profondes (CNN, LSTM) pour apprendre des patterns temporels. La combinaison IMU + CNN/LSTM est fréquente dans les travaux qui rapportent des performances élevées. Les publications varient cependant sur les détails (fenêtrage temporel, features extraits), ce qui complique les comparaisons directes.
Performances rapportées
De nombreuses études indiquent des accuracies souvent supérieures à 90 %, certaines approchant voire dépassant 95 % pour des jeux d’exercices limités et bien distincts. Les métriques rapportées restent toutefois hétérogènes : beaucoup se contentent d’une accuracy globale sans présenter les matrices de confusion, la sensibilité par exercice, ni les courbes ROC. Lorsque ces éléments sont fournis, on voit que certaines classes sont systématiquement confondues (ex. variantes de bench press ou de rowing), ce qui a une importance clinique.
Validations externes et robustesse
Sur les 49 modèles recensés, les validations externes indépendantes sont rares. La plupart des études utilisent des validations internes (cross-validation, hold-out) sur des échantillons restreints. L’absence de tests « in the wild » (séances non standardisées, circuits, patients avec amplitude réduite) est une faille majeure identifiée par les auteurs.
Petits échantillons → risque d’overfitting
Beaucoup d’études incluent moins de 30 participants ; certaines se contentent de 10 ou moins. Un modèle entraîné sur peu de sujets et sur des mouvements « parfaits » risque d’apprendre des artefacts propres au groupe (tempo, amplitude, usage de vêtements, comportement) plutôt que des caractéristiques généralisables du mouvement.
Distribution de classes et biais de reporting
Des jeux contenant peu d’exercices distincts favorisent des accuracies élevées ; inversement, quand le nombre d’exercices à classer augmente (certains travaux évaluent jusqu’à 44 mouvements), la tâche devient nettement plus difficile et l’accuracy chute. Par ailleurs, l’omission de matrices de confusion empêche d’évaluer quelles erreurs sont cliniquement pertinentes.
Protocole contrôlé vs réalité clinique
La majorité des acquisitions sont faites dans des conditions strictement contrôlées : tempo imposé, pas d’interruption, équipement identique. En rééducation, on modifie les exercices en fonction de la douleur, on réalise des circuits, on adapte la cadence — les algorithmes n’ont généralement pas été confrontés à ces variantes.
Prétraitement et transparence manquants
De nombreuses études ne détaillent pas le prétraitement (filtrage, normalisation, fenêtres temporelles) ni les critères d’exclusion. Cette opacité empêche la reproduction et l’évaluation critique d’un modèle.
La première conséquence est une mise en garde : ne pas confondre détection et décision clinique. Un capteur peut efficacement compter des répétitions sur des exercices standardisés, ce qui est utile pour le suivi de l’adhérence. Mais il ne doit pas être le seul juge pour décider d’augmenter une charge, modifier la technique ou délivrer un protocole de reprise sportive — la lecture clinique (douleur, qualité de mouvement, amplitude) reste irremplaçable.
Deuxième conséquence : privilégier un déploiement progressif et ciblé. Les usages aujourd’hui raisonnables sont le comptage des répétitions, l’archivage automatique du volume (séries × répétitions × charge déclarée par patient) et la détection grossière de quel exercice a été réalisé (pour des exercices clairement distincts). Les usages avancés (détection fine de compensations, prédiction de risque de blessure) restent expérimentaux.
Voulez-vous compter les répétitions à domicile ? Mesurer l’adhérence ? Détecter que le patient exécute bien les exercices prescrits ? Limitez l’usage initial à 1–2 cas d’usage mesurables.
Pour la majorité des cabinets, une IMU poignet (montre scientifique / bracelet) représente le meilleur compromis (coût, ergonomie, précision dans la littérature). Si l’objectif est d’analyser la forme ou l’activation, considérer EMG ou caméra, mais accepter des contraintes logistiques.
- Population test : 10–20 patients représentatifs (variations d’âge, douleur, amplitude).
- Référence : vidéo annotée manuellement par un opérateur (gold standard).
- Métriques à calculer : accuracy globale, matrices de confusion, sensibilité & spécificité par exercice, erreur moyenne de comptage (rép ± écart-type), F1-score.
- Critères d’acceptation minimale : accuracy >85 % pour les exercices ciblés, erreur de comptage moyenne <1 répétition par série, identification stable en circuit simple. Ajustez selon tolérance clinique.
- Documenter position du capteur, conditions de mesure (habillage, heure, charge).
- Préciser exercices « couverts » (liste limitée) et informer le patient des limites.
- Mettre en place procédure de revue régulière (1×/mois) des logs pour détecter dérives.
Assurer conformité RGPD/local, stockage sécurisé, politique d’export des données et consentement éclairé du patient.
- Preuve externe : existe-t-il une publication indépendante validant l’appareil ?
- Transparence technique : l’éditeur documente-t-il le prétraitement, l’algorithme et la population d’entraînement du modèle ?
- Métriques complètes : matrices de confusion, sensibilité/spécificité par exercice, stabilité temporelle.
- Interopérabilité : export CSV/JSON et import possible dans le dossier patient.
- Sécurité & conformité : chiffrement, gestion du consentement, hébergement des données.
- Coût total : matériel + abonnement cloud + maintenance + formation du personnel.
- Facilité d’usage : temps d’installation, ergonomie, robustesse du capteur (batterie, étanchéité).
Avant toute intégration, testez la solution sur un petit échantillon représentatif (≈10–20 patients) : comparez les sorties (exercice identifié, compteur de répétitions) à une référence vidéo annotée, calculez accuracy, matrices de confusion et erreur moyenne de comptage. Ce cadrage permet d’objectiver les forces/faiblesses (ex. quelles paires d’exercices sont confondues) et d’adapter l’usage (p. ex. comptage seulement pour certains exercices). En pratique : définir les exercices « couverts », standardiser le placement du capteur, documenter les conditions de mesure et décider d’un seuil d’acceptation clinique avant mise en routine.
Utilisez la technologie d’abord pour des tâches précises et fiables : comptage automatique des répétitions, mesure du volume (séries × répétitions) et suivi longitudinal de l’adhérence au programme. Intégrer ces métriques dans le dossier patient permet d’objectiver la progression sans remplacer l’examen clinique. Important : limitez l’application aux exercices pour lesquels la validation locale a montré une performance acceptable (p. ex. accuracy >85 % et erreur de comptage <1 rép. moyenne) et évitez de tirer des conclusions sur la qualité technique sans vérification humaine
Les données issues des capteurs doivent alimenter la décision du kiné — elles n’y substituent pas. Construisez un protocole où les alertes automatiques (chute d’adhérence, baisse du volume, asymétrie de répétitions) déclenchent une revue clinique (vidéo, évaluation douleur/amplitude, tests fonctionnels). Définissez seuils d’alerte opérationnels (ex. baisse de volume >25 % sur 2 semaines, erreur de comptage persistante >1 rép./série) et procédures de réponse (contact patient, réévaluation technique, ajustement de charge). Ce cadre garantit sécurité, traçabilité et responsabilité clinique tout en tirant parti de l’objectivation fournie par les capteurs.
La technologie fonctionne — en labo.
Les unités inertielle (IMU), surtout portées au poignet, permettent de classifier des exercices avec des précisions souvent >90 % (parfois ≈95 %) dans des protocoles contrôlés — preuve que le problème technique est solvable.
La littérature reste immature pour la clinique.
La revue recense 44 études et 49 modèles, mais la majorité présente un risque de biais élevé (petits échantillons, reporting incomplet) et peu de validations externes : les performances rapportées sont donc probablement optimistes pour des patients réels.
Applications cliniques réalistes aujourd’hui : quantification, pas diagnostic.
Les usages fiables et immédiatement utiles sont le comptage automatique des répétitions, l’estimation du volume (séries × reps) et le suivi de l’adhérence à domicile. La détection fine des compensations ou le remplacement du jugement thérapeutique restent prématurés.
Avant déploiement : valider localement et garder la supervision clinique.
Toute solution doit être testée sur 10–20 patients représentatifs (validation vidéo), avec matrices de confusion et métriques par exercice. Les alertes automatiques doivent déclencher une revue clinique — la technologie doit augmenter la décision, pas la substituer.