Après Colorful physics où je vous avait parlé d'iridescence, d'opalescence, d'incandescence et de la couleur du café; me voici lancé pour vous expliquer comment les ordinateurs voient le monde, ou plus exactement quels trésors d'astuce les humains développent  pour qu'un tas de silicium arrive à voir plus vite et mieux que nous (dans certaines situations). Vous allez voir qu'il y a du Strange et du Funky à la pelle.

On commence avec cette vidéo qui vous montre qu'il est possible d'amplifier certains changements au cours d'une vidéo pour révéler des choses invisibles à l’œil nu. Par exemple, la façon dont notre visage rougis et palis subtilement à chaque battement de cœur.



Transcription simplifiée de la fin de la vidéo (à partir de 1min 24s) : Par exemple, le pouls. Nous sélectionnons et amplifions une bande de fréquences proche de la fréquence cardiaque humaine, ce qui révèle les variations de rougeur lorsque le sang circule à travers le visage. Cette méthode s’accommode des différentes couleurs de peau et de légers mouvements. La fréquence cardiaque peut ainsi être extraite d'une vidéo, par exemple celle d'un nouveau-né, comparée à l'enregistrement de l'électrocardiogramme. Il est aussi possible d'amplifier les mouvements [explications techniques], par exemple la pulsation d'une artère, ou la respiration d'un bébé, ou pour rendre les mouvements d'une vidéo de tous les jours plus apparents. Nous pouvons ajuster l'amplification sur celle de telle ou telle corde d'une guitare, observer les variations dans un paysage, ou de détecter les mouvements d'un appareil photo reflex dû aux mouvements de son miroir.

Maintenant que vous avez vu que cette technique est vraiment funky, vous pouvez revenir au tout début de la vidéo où le monsieur du MIT vous dit : Cet article présente notre amplification Eulerienne de vidéo, une méthode pour amplifier des variations temporelles difficiles à percevoir à l’œil nu. Notre méthode combine traitements spatial et temporel pour mettre en avant de subtils changements temporels. Nous prenons en entrée une vidéo, que nous décomposons en fréquences spatiales. Ensuite nous prenons la variation d'intensité de chaque pixel au cours du temps et sélectionnons la bande de fréquence temporelle qui nous intéresse. Le résultat est amplifié et ajouté au signal de départ. Les fréquences spatiales sont ensuite recombinées pour obtenir la vidéo de sortie. Notre technique peut s'appliquer en temps réel pour agir comme une sort de microscope pour les variations temporelles. [...]

J'ai laissé un mot technique dans cette transcription : décomposer en fréquences spatiales. C'est pour mieux te l'expliquer mon enfant. Prenons pour exemple une image d'arbre comme celle-ci (collection personnelle) :

Le plus gros Ginko du Japon



L’œil et le cerveau humain, travaillant de concert, arrivent assez vite à analyser les différentes échelles de cette image : il y a un arbre qui prend la majorité du centre de l'image. L'arbre est composé de plusieurs branches maitresses

Branche maîtresse Ginko



qui apparaissent comme des ensembles de branches plus petites qui apparaissent elles mêmes somme des guirlandes de feuilles.

branche Ginko



Certains vous diront que c'est fractal, pour faire style. Moi je vous dirais que c'est surtout difficile de comprendre qu'il s'agit du plus gros Ginko Biloba du Japon si on se concentre sur la mauvaise échelle. L'échelle des feuilles vous apprendra qu'il s'agit d'un Ginko Biloba, l'échelle du petit temple à côté vous donnera un point de comparaison avec l'échelle totale de l'arbre et vous indiquera qu'il est énorme. Bref, c'est une fois bien séparées que les échelles nous donnent des informations utiles. Voilà ce que veut dire décomposer en fréquences spatiales et je vous expliquerai peut-être un jour comment ça se fait concrètement.


Pour revenir au traitement vidéo, ce qu'il faut bien comprendre, c'est que sélectionner directement une bande de fréquence temporelle dans la vidéo de départ ne donnera rien ou pas grand chose. La seule chose qui sortirait serait les variations à la plus petite échelle, c'est à dire le pixel. Et à ce niveau là il faut bien dire qu'il y a surtout du bruit. Par contre, une fois les échelles de l'image séparées, quand un pixel à l'échelle d'une feuille bouge, c'est que la feuille bouge ; quand un pixel à l'échelle d'une branche bouge, c'est qu'une branche bouge ; quand un pixel à l'échelle de l'arbre bouge, c'est que l'arbre bouge ; quand un pixel à l'échelle du temple bouge, c'est qu'il y a un séisme ou que le photographe a un Parkinson.

Référence:

  • Hao-Yu Wu, Michael Rubinstein, Eugene Shih, John Guttag, Frédo Durand and William T. Freeman,Eulerian Video Magnification for Revealing Subtle Changes in the World. ACM Trans. Graph. (Proceedings SIGGRAPH 2012), 31, 4 (2012)

P.S. : vous avez remarqué les mouvements de tête que semblent faire les personnes filmées pour mesurer leur fréquence cardiaque ? Certes, ces mouvements sont amplifiés par le traitement, mais ces mouvements existent bien. Notre cœur nous fait vibrer au sens propre.