Des mathématiques dans le monde réel |
|
Bernard Beauzamy, P.D.G., S.C.M., S.A, |
|
La première activité de la Société de Calcul Mathématique, SA, concerne ce qu'on appelle la "modélisation". Modéliser, c'est convertir un problème concret, issu du monde réel, en termes de nature mathématique. C'est transformer un besoin, plus ou moins bien exprimé, en équations, en essayant de rendre compte de toutes les contraintes.
Le mathématicien, qui ne voit que l'aspect mathématique, s'imagine toujours que la modélisation est chose facile ; pour lui, l'étape glorieuse est la résolution du problème mathématique une fois formalisé. Mais cette conception des choses est absolument erronée : c'est l'étape de modélisation qui est la plus délicate, la plus longue, et la plus périlleuse. Elle relève plus de l'art que de la science ; il faut parvenir, par de nombreuses discussions avec les utilisateurs, à bien comprendre leurs problèmes. On leur soumet un premier modèle, qui en général ne répond pas à leurs attentes, et on le modifie petit à petit, jusqu'à y parvenir aussi complètement que possible. Si on ne s'occupe pas de l'étape de modélisation, si on la néglige, si on la bâcle, et qu'on se précipite sur la résolution, on parvient immanquablement à "une excellente solution à un mauvais problème", et l'utilisateur est rarement prêt à payer pour une solution qui ne répond pas à ses attentes.
Je vais décrire une situation où nous avons réalisé une modélisation, et montrer comment les choses se passent. La situation en question est de nature théorique ; c'est plus facile, car il n'y a pas de contraintes immédiates d'exploitation.
L'étude proposée concernait la poursuite automatique de cibles. Un avion, ou un hélicoptère, survole une région, et une caméra s'efforce de la suivre constamment, sans intervention humaine. Le contrat nous a été notifié par la Délégation Générale pour l'Armement, mais les besoins civils sont tout aussi importants (que l'on pense aux contrôleurs de la navigationaérienne ou au suivi de véhicules terrestres).
Précisons un peu le dispositif. La caméra est un appareil opto-électronique. L'image reçue est constituée de petits carrés élémentaires appelés ``pixels'', qui peuvent être soit noirs soit blancs. La cible, selon sa taille, apparaît donc comme un ensemble de points noirs sur fond blanc (ou l'inverse, peu importe) ; il peut n'y avoir qu'un seul point noir si la cible est petite ou éloignée.
Bien sûr, le premier problème qui se pose est celui de l'identification de la cible : décider qu'on veut pister celle-là. Nous n'en parlerons pas ici. Le second problème est celui de l'appariement des cibles : si 35 cibles ont été détectées à l'instant t et 35 autres à l'instant t + 1, comment apparier les plots de l'instant t + 1 à ceux de l'instant t ? C'est typiquement le problème du contrôle aérien, et nous n'en parlerons pas non plus. Pour nous, l'espace aérien est entièrement vierge, sauf un point, et il s'agit de suivre ce point dans ses déplacements.
Revenons à notre problème de suivi automatique, que nous appellerons simplement ``pistage''. Comment cela fonctionne-t-il ? Un ordinateur traite les signaux reçus par la caméra et dit par exemple ``la cible se trouve au pixel x = 10, y = 7'' (convenons que le pixel central est 0,0). En fonction de cette information, un ordre est transmis à un moteur, qui agit sur l'orientation de la caméra pour faire dévier celle-ci de tant de radians vers la droite et de tant de radians vers le haut, si bien que la cible se retrouve au centre. C'est très simple : si l'ordinateur va assez vite, et si la cible se déplace lentement et régulièrement, on n'a aucune raison de la perdre.
Dans la réalité, la cible ne se déplace ni lentement ni régulièrement, et, s'il s'agit d'un contexte militaire, elle n'a aucune raison de se laisser pister. Ajoutons à ceci les erreurs de mesure, inhérentes au dispositif optique. Il y a donc une certaine probabilité que la cible soit perdue.
Concrètement, on représente ceci en disant que le mouvement de la cible comporte deux termes : un terme déterministe, pris linéaire par commodité et un terme aléatoire, pris gaussien par commodité. Le choix ``linéaire'' est justifié, au moins sur une courte période ; le choix ``gaussien'' est arbitraire, mais ce n'est pas très important : nous savons faire les calculs avec d'autres lois, issues de retours d'expérience.
Le mouvement de la cible est évidemment continu, mais (et ceci est très important) il est connu par une loi discrète (par opposition à continue). La caméra observe en permanence, mais elle est ``vidée'' en direction de l'ordinateur à des intervalles de temps fixes, et le traitement informatique prend lui même un certain temps. On dispose donc d'une suite d'observations, à des instants t0, t1, ..., tk, ....
Pour répondre à la préoccupation liée à l'irrégularité du mouvement, on introduit la notion de modèle. Après la première détection, on réalise une identification partielle de la cible (avion ? hélicoptère ? missile ?), ce qui permet de ``caler'' approximativement certains paramètres dans le mouvement supposé de cette cible, et donc de disposer d'un premier modèle pour cette cible. Avec ce modèle, on réalise une première poursuite (grossière) et l'on affine le modèle, et la poursuite, au fur et à mesure des observations. Il peut arriver, bien sûr, que la cible soit perdue, ce qui peut indiquer que le modèle retenu (faute d'informations suffisantes) n'était pas le bon.
1. La modélisation du problème
On note x(t) la position du système-cible. Comme on l'a dit, on considère que son mouvement est la superposition de deux mouvements : le premier est déterministe, et le second est aléatoire. Cela revient à le représenter par une équation de la forme :
|
(1) |
La détermination précise des matrices A et B dépend du type de cible, et donc du modèle choisi, comme expliqué plus haut. w est une variable aléatoire ; on prend généralement un mouvement Brownien vectoriel. Cela rend compte du fait que la trajectoire est nécessairement continue, mais peut être très irrégulière.
Lorsqu'une observation Yt est prise par la caméra au temps t, cette observation elle-même n'est pas complètement déterministe à partir de x(t) ; elle est faite de deux parties :
|
(2) |
Lorsqu'une observation est prise au temps tn, on cherche à l'utiliser au mieux, ainsi que toutes les précédentes, pour avoir la meilleure estimation possible de x(t), position de la cible aux instants ultérieurs. Ce dont l'observateur dispose, ce sont les observations Y(t1), ... , Y(tn) ; il cherche à les utiliser au mieux pour déterminer x(t), t > tn. Comme la connaissance exacte de x(t) n'est pas possible, on cherche une connaissance moyenne. En langage probabiliste, en d'autres termes, on cherche à évaluer l'espérance conditionnelle
|
(3) |
Cependant, traiter l'information reçue par la caméra prend un certain temps, et on ne peut pas commencer le traitement de la n + 1-ème observation avant d'avoir terminé celui de la n-ème.
Le temps de traitement augmente avec la taille de l'image analysée (nous verrons plus loin une formule précise) et aussi avec la résolution adoptée : plus le grain de l'image est fin, et plus le traitement prend de temps. Le temps de traitement augmente donc avec la variance sur la position de la cible. Plus cette variance est grande, et moins est précise notre connaissance sur la position de la cible. Donc, la zone l'on doit chercher la cible est plus grande, et traiter cette zone plus vaste prend plus de temps. Cette augmentation peut être rapide ou lente (cela dépend du type de traitement utilisé), mais, comme l'a montré C. Olivier [2], dès que le temps de traitement croît plus vite que le logarithme de la variance, toutes choses étant constantes par ailleurs, la poursuite ne peut être assurée.
Il est très difficile de concevoir un système dont le temps de calcul cro^ itrait moins vite que le logarithme de la variance ! Dans le cas d'une image 2D, par exemple, si la variance est multipliée par 2, la taille de l'image à traiter sera multipliée par 4, et le temps de calcul aussi : il sera proportionnel au carré de la variance.
En pratique, cela veut dire qu'il est nécessaire de pouvoir jouer sur d'autres paramètres, que nous introduisons maintenant :
- la taille de la fenêtre où se fait l'observation. En effet, il est licite de réduire le traitement à une sous-fenêtre de la fenêtre initiale. Plus cette sous-fenêtre sera petite, et plus court sera le temps de calcul correspondant. Mais on court le risque évident que la cible ne soit plus dans la sous-fenêtre. La taille de celle-ci est donc caractérisée par une probabilité pn : probabilité que la cible se trouve dans la sous-fenêtre à l'instant de la n-ème mesure (et donc 1 - pn est la probabilité que la cible ne s'y trouve pas). La taille de la sous-fenêtre apparaît explicitement dans le temps de calcul et implicitement dans cette probabilité.
- La résolution qui est adoptée pour le traitement. Il est en effet licite d'agréger plusieurs pixels ensemble, par exemple par carrés de 4, de 9, etc, et de traiter chaque carré de manière indivisible. Le temps de calcul sera réduit d'autant, mais la précision obtenue quant à la position de la cible sera évidemment inférieure.
On se place ici dans le cas mono-dimensionnel ; dans le cas général la variance est remplacée par une matrice de covariances. L'équation fondamentale (1) devient
|
(4) |
L'équation d'observation s'écrit, après réductions et simplifications :
|
(5) |
La variance de cette erreur d'observation est réglable à volonté ; c'est ce que nous appellerons l'imprécision ; la résolution, notée r, est l'inverse 1/r : plus cette résolution est élevée, et plus la précision de l'observation est grande.
Le temps de calcul, noté t, pour une fenêtre donnée, est une fonction croissante de la taille de l'image traitée et une fonction croissante de la résolution (plus le pixel élémentaire est gros, et moins il y aura de calculs à faire). La forme exacte de la fonction t(A , r) dépend évidemment des appareils ; nous allons maintenant voir des formes précises plus en détail.
2. Modèles quantitatifs pour le temps de calcul
Supposons que notre fenêtre de vision (centrée sur la position supposée de la cible) s'étende de -A à A ; elle est donc de largeur 2A. Comme la cible a une loi connue (en l'occurence gaussienne centrée de variance v), la probabilité que la cible soit dans la fenêtre, qui est notre paramètre p, est donnée par la formule
|
Voyons maintenant le lien entre le nombre de pixels traités et l'imprécision. Si nous cherchons à détecter la cible dans un segment de taille x, l'imprécision est x. Avec nos notations précédentes, l'imprécision est Ö{r} (r représente une variance, donc Ö{r} est un écart-type, c'est à dire une longueur). Donc la taille du pixel élémentaire est Ö{r}, et le nombre de pixels dans le segment de taille 2A est N = 2A/ Ö{r} .
Le temps de calcul est une fonction croissante du nombre de pixels traités, par une formule du type
|
L'exposant a caractérise la performance de l'appareil lorsque N est grand, c'est à dire lorsque le nombre de pixels à traiter est important. Plus a est grand, et moins l'appareil est performant, plus a est petit, et mieux l'appareil se comporte en présence d'une forte charge de travail. Selon les indications qui nous ont été données, une estimation du type 1 £ a £ 2 est réaliste, et convient à la plupart des configurations.
Reportant l'estimation de N, on obtient
|
(6) |
3. Les équations d'évolution de la variance
Les équations d'évolution de la variance s'écrivent (voir C. Olivier [2]) :
|
(7) |
La première équation correspond au cas où la cible a été trouvée dans la sous-fenêtre que l'on a choisie ; la seconde équation au cas où elle ne s'y trouve pas. Dans le premier cas, la variance diminue, dans le second elle augmente.
Les paramètres W2, l, rencontrés précédemment, ont la signification suivante : plus W2 est grand et plus la cible est ``stochastique'' ; le cas W = 0 correspondrait à une cible complètement déterministe. A l'inverse, le paramètre l, rencontré dans (4), rend compte de la partie déterministe du mouvement. Posons w = W2/2l : plus w est petit, plus la cible est déterministe (prévisible), plus w est grand, et plus la cible est aléatoire (imprévisible). Ces paramètres, W et l, sont caractéristiques du modèle adopté, et doivent être ``calés'' : soit par des connaissances a priori du type de cible (avion, hélicoptère, etc), soit grâce à l'utilisation des observations précédentes.
4. Observabilité
L'observabilité de la cible caractérise évidemment le fait que la variance sur la position doit rester bornée, ou plus exactement doit, après un certain nombre d'observations initiales, rester cantonnée dans des limites acceptables : après k0 observations, on doit avoir, pour tout k, vk £ M, où M est une constante aussi petite que possible. Mais cette variance est elle-même une variable aléatoire, et imposer constamment une inégalité du type vk £ M pour tout k ³ k0 est peu plausible : il est acceptable que la variance se dégrade de temps en temps, pourvu qu'elle revienne, aussi souvent que possible, dans des limites fixées. La définition prise par C. Olivier d'un processus R.T.O. (``Real Time Observability'') est qu'il existe une valeur M telle que
|
(8) |
Concrètement, cela veut dire : il existe une valeur M telle que la variance repassera une infinité de fois au-dessous de cette valeur.
Sur un plan pratique, nous retiendrons ceci : cette définition de RTO est nécessaire ; elle n'est pas suffisante. Elle est nécessaire, car si un système n'y satisfait pas, cela veut dire que la variance sur la position se dégrade avec le temps, et il est inutile de chercher à l'observer. Elle n'est pas suffisante, du moins sous la forme (8) : il faut en outre avoir des informations quantitatives sur la valeur de M (et pouvoir la choisir la plus petite possible) et des informations, également quantitatives, sur le temps de retour dans la bande {y £ M} : si ces temps sont trop lacunaires, trop rares, il y aura trop d'instants où la cible sera perdue. Pour faire comprendre ceci, imaginons un exemple numérique, où vk £ M ne se produit qu'aux instants k = 10, 20, 30... : cela signifie qu'une seule observation sur 10 nous renseigne sur la position de la cible ; le reste du temps elle est perdue, ce qui n'est pas acceptable en pratique. Nous voulons donc obtenir des estimations quant au temps de retour dans la bande {y £ M}.
Notons aussi que la seconde des équations (7) conduit toujours à une dégradation de la précision (la cible ayant été perdue) ; cette dégradation est d'autant plus grande que le temps écoulé a été plus long. La première équation ne conduit à une augmentation de la précision que si la résolution rk -1 est assez grande (et donc la précision est assez bonne), sans que le temps de calcul tk - 1 en soit trop affecté ; c'est évident si l'on écrit (7a) sous la forme :
|
(9) |
Nous avons donc fini la description du problème. Passons à la solution. J'ai sollicité l'aide de mon ami Don Burkholder, professeur l'Université d'Illinois à Urbana-Champaign, et spécialiste de la théorie des martingales. Il m'a mis en rapport avec l'un de ses étudiants en thèse, Robert Bauer, et nous avons travaillé ensemble sur ce problème. Dans un premier temps, les résultats obtenus reposaient sur des outils de théorie des martingales, mais je me suis aperçu qu'ils fournissaient des estimations numériques peu satisfaisantes : ils sont trop généraux. J'ai repris tous les calculs en y substituant des estimations reposant sur le théorème central limite, qui sont bien meilleures. Voici le type de résultat qu'on obtient :
Il existe un choix optimal, tant pour la taille de l'image que pour la résolution, et ce choix optimal permet de contrôler au mieux la variance vk sur la position de la cible. Il obéit aux deux règles suivantes :
Première règle : La valeur optimale de la résolution est donnée par la formule
|
Seconde Règle (lorque la variance est grande) :
- La taille optimale de l'image est proportionnelle à Öv,
- la résolution optimale est inversement proportionnelle à v.
Le résultat peut se résumer ainsi :
Si le calage des paramètres est effectué de manière optimale et si les appareils sont assez puissants, la poursuite sera effectuée de manière très satisfaisante. Plus précisément, il existe une valeur critique M, entièrement calculable à partir de la valeur des paramètres, pour laquelle on est assuré que la variance sur la position de la cible dépassera très rarement cette valeur. On sait mesurer la probabilité de ces dépassements ; la probabilité de chacun d'eux est faible et la probabilité qu'ils soient nombreux décro^ it exponentiellement avec le nombre d'occurrences.
Le lecteur intéressé par les démonstrations et les calculs peut consulter l'article Bauer-Beauzamy [1].
Je mentionne cette publication parce qu'elle me dispense de reprendre le détail des calculs. Mais j'en profite pour mentionner ce fait très important, ignoré du monde académique : les publications ne sont pas l'objectif de la recherche. Par leur contenu, leur langage, leur diffusion, les publications ne sont accessibles qu'à un très petit cercle d'initiés. Elles sont nécessaires, car elles permettent la circulation des idées et la critique, mais elle ne constituent pas une fin en soi. L'objectif de la recherche est l'acquisition de nouvelles connaissances, de nouvelles idées, de nouvelles techniques, et la mise à disposition auprès de ceux qui peuvent en avoir besoin : sur ce dernier point, les publications échouent totalement.
Finissons avec la poursuite de cibles. Tout le monde a été content. Bauer, qui a écrit deux articles (l'un constitue le premier chapitre de sa thèse à l'Université d'Illinois) et a reçu une rémunération ; Burkholder, qui a contribué à l'étude ; Christian Olivier, l'ingénieur de la DGA qui nous avait soumis la question à l'origine, a fait sa thèse et deux articles ; la DGA, qui a reçu une réponse précise à une question précise, et la S.C.M., qui a traité un contrat très intéressant.
Est-ce un cas unique de ``success story'' ? Nullement : tous les contrats que nous traitons sont de ce type. Ils concernent tous des mathématiques fondamentales, des questions sur lesquelles il faut créer de nouveaux outils conceptuels. La trajectographie revient souvent (y compris sous la forme de recherche opérationnelle, telle l'organisation de tournées ou le routage de communications), mais il y a bien d'autres sujets. Nous avons travaillé sur le problème du codage de l'information dans le système nerveux central, sur la détection des arythmies cardiaques ; nous travaillons avec EdF sur le contrôle non destructif : analyse de signaux fortement atténués. Mentionnons aussi, dans d'autres registres, la cartographie sous-marine et la conception de ``rétines'', calculateurs ultra-rapides pour le traitement de l'image.
De manière systématique, c'est la modélisation qui pose problème. On n'attend pas de nous la mise en oeuvre d'une technique mathématique toute faite, prise sur étagère, à un problème qui s'est en quelque sorte posé tout seul. On attend de nous que nous sachions poser le problème. C'est ce qui est difficile, et c'est ce qui est ignoré dans l'enseignement, tant des Grandes Ecoles que de l'Université. Les cours de mathématiques enseignent des outils, que ce soit le calcul intégral ou la géométrie différentielle, plus ou moins sophistiqués. Au mieux, à la fin du chapitre, on trouve un exemple d'application, toujours de nature académique. Mais quand peut-on utiliser ces outils ? Quel est leur domaine d'application ? Mystère pour les étudiants...
La distinction que fait le monde académique entre recherche fondamentale et recherche appliquée n'existe pas. Livrer du lait au magasin d'en face requiert, si l'on cherche à modéliser le processus, des outils de nature fondamentale qui, la plupart du temps, n'existent pas encore, si bien que l'on procède de manière empirique. La distinction juste serait entre recherche gratuite (l'objet de la recherche n'est pas précisé) et recherche finalisée. La recherche finalisée peut et doit être fondamentale ; elle n'a pas de raison d'être à courte vue. On pourrait parfaitement, à l'heure actuelle, concevoir un programme de recherche sur 15 ans, destiné à améliorer les outils de commande optimale, à l'heure actuelle très insatisfaisants.
Très peu de gens ont l'idée de se dire que les mathématiques peuvent leur être utiles : ils en sont restés à de vagues souvenirs scolaires, en général désagréables. Au travers des journaux, ils ont quelquefois vent d'une certaine activité mathématique : des jeux, des théorèmes du genre Fermat, dont ils ne voient pas en quoi ils pourraient les concerner professionnellement.
La SCM a donc adopté une attitude définie par les besoins, et non par les outils. Nous essayons de comprendre les besoins et nous proposons des solutions. Comment ces solutions ont été obtenues ne concerne pas les donneurs d'ordre, et, en général, ne les intéresse pas. Je ne crois pas qu'il existe d'alternative à cette organisation.
Bernard Beauzamy
Référence