3D+t dense motion trajectories as kinematics primitives to recognize gestures on depth video sequences

dc.creatorMartínez Carrillo, Fabio
dc.creatorCastillo, Fabián
dc.creatorBautista, Lola
dc.date2019-07-31
dc.date.accessioned2023-06-29T13:33:53Z
dc.date.available2023-06-29T13:33:53Z
dc.descriptionRGB-D sensors have allowed attacking many classical problems in computer vision such as segmentation, scene representations and human interaction, among many others. Regarding motion characterization, typical RGB-D strategies are limited to namely analyze global shape changes and capture scene flow fields to describe local motions in depth sequences. Nevertheless, such strategies only recover motion information among a couple of frames, limiting the analysis of coherent large displacements along time. This work presents a novel strategy to compute 3D+t dense and long motion trajectories as fundamental kinematic primitives to represent video sequences. Each motion trajectory models kinematic words primitives that together can describe complex gestures developed along videos. Such kinematic words were processed into a bag-of-kinematic-words framework to obtain an occurrence video descriptor. The novel video descriptor based on 3D+t motion trajectories achieved an average accuracy of 80% in a dataset of 5 gestures and 100 videos.Los sensores RGB-D han permitido atacar de forma novedosa muchos de los problemas clásicos en visión por computador, tales como la segmentación, la representación de escenas, la interacción humano-computador, entre otros. Con respecto a la caracterización de movimiento, las estrategias típicas en RGB-D están limitadas al análisis dinámico de formas globales y a la captura de flujos de escena. Estas estrategias, sin embargo, solo recuperan información dinámica entre cuadros consecutivos, limitando  el análisis de largos desplazamientos.  Este trabajo presenta una estrategia para el cálculo de trayectorias (3D+t), las cuales son fundamentales para la descripción cinemática local, permitiendo una descripción densa de movimiento. Cada trayectoria permite modelar palabras cinemáticas, las cuales en conjunto, describen gestos complejos en los videos. Estas palabras cinemáticas fueron procesadas dentro de un esquema de bolsa-de-palabras para obtener un descriptor basado ocurrencias. Este descriptor de trayectorias logró una exactitud del 80% en 5 gestos y 100 videos.en-US
dc.descriptionLos sensores RGB-D han permitido atacar de forma novedosa muchos de los problemas clásicos en visión por computador, tales como la segmentación, la representación de escenas, la interacción humano-computador, entre otros. Con respecto a la caracterización de movimiento, las estrategias típicas en RGB-D están limitadas al análisis dinámico de formas globales y a la captura de flujos de escena. Estas estrategias, sin embargo, solo recuperan información dinámica entre cuadros consecutivos, limitando  el análisis de largos desplazamientos.  Este trabajo presenta una estrategia para el cálculo de trayectorias (3D+t), las cuales son fundamentales para la descripción cinemática local, permitiendo una descripción densa de movimiento. Cada trayectoria permite modelar palabras cinemáticas, las cuales en conjunto, describen gestos complejos en los videos. Estas palabras cinemáticas fueron procesadas dentro de un esquema de bolsa-de-palabras para obtener un descriptor basado ocurrencias. Este descriptor de trayectorias logró una exactitud del 80% en 5 gestos y 100 videos.RGB-D sensors have allowed attacking many classical problems in computer vision such as segmentation, scene representations and human interaction, among many others. Regarding motion characterization, typical RGB-D strategies are limited to namely analyze global shape changes and capture scene flow fields to describe local motions in depth sequences. Nevertheless, such strategies only recover motion information among a couple of frames, limiting the analysis of coherent large displacements along time. This work presents a novel strategy to compute 3D+t dense and long motion trajectories as fundamental kinematic primitives to represent video sequences. Each motion trajectory models kinematic words primitives that together can describe complex gestures developed along videos. Such kinematic words were processed into a bag-of-kinematic-words framework to obtain an occurrence video descriptor. The novel video descriptor based on 3D+t motion trajectories achieved an average accuracy of 80% in a dataset of 5 gestures and 100 videos. es-ES
dc.formattext/html
dc.formatapplication/pdf
dc.formatapplication/xml
dc.identifierhttps://revistas.elpoli.edu.co/index.php/pol/article/view/1505
dc.identifier10.33571/rpolitec.v15n29a7
dc.identifier.urihttps://repositorio.elpoli.edu.co/handle/123456789/1034
dc.languageeng
dc.publisherPolitécnico Colombiano Jaime Isaza Cadavides-ES
dc.relationhttps://revistas.elpoli.edu.co/index.php/pol/article/view/1505/1226
dc.relationhttps://revistas.elpoli.edu.co/index.php/pol/article/view/1505/1216
dc.relationhttps://revistas.elpoli.edu.co/index.php/pol/article/view/1505/1252
dc.sourceRevista Politécnica; Vol. 15 No. 29: Julio-Diciembre, 2019; 82-94en-US
dc.sourceRevista Politécnica; Vol. 15 Núm. 29: Julio-Diciembre, 2019; 82-94es-ES
dc.sourceRevista Politécnica; v. 15 n. 29: Julio-Diciembre, 2019; 82-94pt-BR
dc.source2256-5353
dc.source1900-2351
dc.subjectRGB-Den-US
dc.subjectscene flowsen-US
dc.subjectdense motion trajectoriesen-US
dc.subjecttrackingen-US
dc.subjectkinematic featuresen-US
dc.subjectRGB-Des-ES
dc.subjectscene flowses-ES
dc.subjectdense motion trajectorieses-ES
dc.subjecttrackinges-ES
dc.subjectkinematic featureses-ES
dc.title3D+t dense motion trajectories as kinematics primitives to recognize gestures on depth video sequencesen-US
dc.titleTrayectorias de movimiento densas 3d+t como primitivas cinemáticas para el análisis de secuencias de video de profundidades-ES
dc.typeinfo:eu-repo/semantics/article
dc.typeinfo:eu-repo/semantics/publishedVersion
Files