Real-time Hand Gesture Detection and Classification Using Convolutional Neural Networks [2019-07-03]

# Real-time Hand Gesture Detection and Classification Using Convolutional Neural Networks

https://arxiv.org/pdf/1901.10323.pdf

## Task: 

实时手势动作识别

## Framework:
首先对输入的视频用滑动窗（t, t+8)取8帧作为一段，放入网络中，得到Detector的输出（二维），大于0.5则该段有动作，以同样的起始时间取32帧作为一段（t, t+32), 放入网络得到Classifier的输出（84维：83个动作和None）。Classifier的输出按规则取最大值，即为该段的动作类别。提出Post-processing和Single-time Activation的方法来解决一些针对性的问题，使得模型更准确。
![36b8957291e59a9d566e4fe1f777d48](https://user-images.githubusercontent.com/30540446/60589337-d93baf00-9dcb-11e9-9eb7-59d527733389.png)

### Sliding window fashion

滑动窗取视频段

* Detector（scale: 8, stride: 1)

* Classifier (scale: 32, stride: 1)

### A Detector + A Classifier

* Detector（ResNet-10）:  二分类（有无手势）；同时作为Classifier的触发器（检测到有手势出现则进入分类器，无手势则进入下一段视频）

* Classifier（ResNeXt-101）：softmax(pre) 判断出现的手势属于哪一类 

### Detector 具体（Post-processing）

* 解决问题： 在实时识别手势的过程中，可能会存在动作幅度太大跑出画面的情况，此时依然是在手势动作的过程中，但Detector输出的confidence score很低。

* 方案： 提出Post-processing，保留之前段落预测的confidence score（文中保留4个值）和当前confidence score共同组成一个五位的数组，取中位数作为最终判断是否存在手势动作的预测值（二分类argmax(pre)=1则有动作，反之没有）。

### Classifier 具体（Single-time Activation）

* 解决问题： 一个完整的手势动作可分为三个过程（准备期preparation, 峰值期nucleus，结束期retraction），在准备期时Detector已检测出动作并送入Classifier，但许多动作在preparation期往往是很相似的（如下图），会产生CS值很高的错误预测。
![b391b13a7517d7248ee58859395b52e](https://user-images.githubusercontent.com/30540446/60589415-09834d80-9dcc-11e9-8466-1aa4c167bffd.png)

* 方案： 对不同时期的预测采用不同的权重。

公式:  

首先定义一个常量t:

![0aacc19876d55322958bf3b49dacaee](https://user-images.githubusercontent.com/30540446/60590370-65e76c80-9dce-11e9-9543-06ea52e8a8d3.png)

 
其中t是常量，u代表平均的ground truth动作时长（Ego数据集该值为38），s为步长，这里通过移动的步长来判断到第几个位置。论文中s取1，4文章没有解释，我认为这里的4是将每个动作时长分成四段，前四分之一表示准备期。因此需要s与之对应，例如果s取2，则4应改为取2.

其次对当前所取动作状态加权，权值为：

![506b098cec6d5b05d2da3e5ca7b605f](https://user-images.githubusercontent.com/30540446/60589553-6252e600-9dcc-11e9-8895-71cbd0182b23.png)

其中j是指检测到一个动作状态下的时间索引，当首次检测到动作时，为0,之后j递加，直到动作状态结束j重新赋值为0。该公式中t为定义好的常量（9），权值W随j的增加而增大，j=t时权值为0.5。

当检测到出整个段落后，将权值与预测结果相乘取平均，在均值中取最大的两个值，若这两个值的差大于某个阈值，则输出得分高的动作，作为该段的手势动作类别。如果遍历完j段依然不满足这个要求，则取出最大的值，该值大于0.15则将其作为最终的分类结果。


![7a0a4cbd6a413750a28baf79d54fa77](https://user-images.githubusercontent.com/30540446/60590738-59174880-9dcf-11e9-8fa8-7b3439a2519f.png)

## 实验结果

### EgoGesture dataset

train: 1239 videos  14416gesture
val: 411 videos 4768gesture
test: 431 videos 4977gesture 

![40bf5d8a7daca2697b7c41de49a9b6f](https://user-images.githubusercontent.com/30540446/60633115-cc56a400-9e3b-11e9-9371-534bc09a3118.png)

![15bf06a19944408529318fb692af061](https://user-images.githubusercontent.com/30540446/60633123-d2e51b80-9e3b-11e9-953b-55527cc84294.png)

![c9a6990e983a3445bc321e27d5c7d9b](https://user-images.githubusercontent.com/30540446/60633126-d7113900-9e3b-11e9-9f08-4d2cf3e749e6.png)

![81a089f1984325095942afd3f335766](https://user-images.githubusercontent.com/30540446/60633135-daa4c000-9e3b-11e9-9a63-23e230bdd258.png)

实验结果分析：

1），Depth图效果更好，解释：Depth图filter out背景信息，可以更focus在手势上。

2），检测器8帧效果最好，解释：该模型下Detector的设计至关重要，不能有遗漏取值应尽可能的小。

## 复现细节
待更新

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Real-time Hand Gesture Detection and Classification Using Convolutional Neural Networks [2019-07-03] #7

Real-time Hand Gesture Detection and Classification Using Convolutional Neural Networks

Task:

Framework:

Sliding window fashion

A Detector + A Classifier

Detector 具体（Post-processing）

Classifier 具体（Single-time Activation）

实验结果

EgoGesture dataset

复现细节

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Real-time Hand Gesture Detection and Classification Using Convolutional Neural Networks [2019-07-03] #7

Description

Real-time Hand Gesture Detection and Classification Using Convolutional Neural Networks

Task:

Framework:

Sliding window fashion

A Detector + A Classifier

Detector 具体（Post-processing）

Classifier 具体（Single-time Activation）

实验结果

EgoGesture dataset

复现细节

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions