Full-Gradient Representation for Neural Network Visualization

## 一言でいうと
Grad-CAMに代表される、モデルの入力に対する注意箇所の可視化(saliency map)に関する研究。
saliency mapにはcompletenessとweak dependenceの２つが要求されるが、同時に解決することは困難であった。
提案手法であるFullGradは初めてこの問題に取り組み、従来手法と比べ改善を示した。
### 論文リンク
https://arxiv.org/abs/1905.00780
### 著者/所属機関
Suraj Srinivas, François Fleuret
* Idiap Research Institute & EPFL
### 投稿日付(yyyy/MM/dd)
2019/12/03
## 概要
<ul>
<li> 顕著性マップ(Saliency Map)</li>
<ul>
<li>画像の中で人が見たときに特に注目するであろう箇所を、色付けで可視化したもの。 
<img src="https://user-images.githubusercontent.com/32826608/70879412-93d10e00-2008-11ea-85f9-b8868cc56a4c.png" width=50%> 
特に深層学習の文脈では、画像クラス分類モデルの判断根拠を示し、ネットワークの解釈妥当性を検証するために登場することが多い。
</li>
</ul>
</ul>

<ul>
<li> completeness と weak dependence </li>
<ul>
<li>顕著性マップには直観的に要求される事項が２つある。（しかし、既存のモデルではその２つの要求を同時に解決したものは存在しない！）
 
まず１つ目の性質は、「もし入力の一部がその値を変えていったとき、モデルの出力に大きな影響を及ぼすならばその箇所は重要であると見なされる」といった事実から導かれ、これをlocal attributionという。 
 
２つ目は「顕著性マップはモデルの出力を完全に説明する性質をもつべきであり、この視点ではモデルの数値的な出力は、入力の各特徴量に分配され得ると考えられる（出力は入力の各特徴量重要度の足し合わせと言い換えてもいい）」という知見から得られたglobal attributionという考えである。 
（注釈：出力の数値を入力に再分配するということは、CNNでは逆伝搬でdeconvを作用させる的なことに相当し、入力の大域的な特徴の重要度を捉えることが可能なためglobalと言っているのだと思う。）
 
そもそも顕著性マップにおいて難しいのはピクセル単位では捉えきれない重要度が存在することである。
例えば、自転車の画像においてドット抜けがあったところで、さしたる問題にはならないがフレームやタイヤがまるごと抜け落ちたときはおそらくモデルの解釈性に問題をきたす。これを、ピクセルの集合としての重要性という。
 
saliency mapをつくるとき、入力自体を考えるとピクセル単位になってしまうが、中間層のニューロンに注目すると大域的な入力の特徴量について考慮できる。
本研究ではlocal attributionとglobal attributionの双方を扱った full-gradientsという仕組みを導入した。
</li> 
<li>
本研究の貢献は大きく分けて３つ 
1. 直観的な知見としてのlocal attributionとglobal attributionを、それぞれweak dependenceとcompletenessとして定式化した。そして数式的な帰結として、saliency mapではこれら２つを同時に解決することはできないことを示した。 
2. saliency mapsよりも表現力があり、前述した２つの要求を同時に満たすことのできるfull-gradientsを導入した。また、CNNにおいてfull-gradientsを近似してsaliency mapをつくるための手法としてFullGradを提案した。 
3. pixel perturbation とremove-and-retrainと呼ばれる評価法を利用して、FullGradが既存のsaliency map手法よりも優れていることを定量的に示した。
</li>
</ul>
</ul>

## 手法
<ul>
<li> Local vs. Global Attribution </li>
<ul>
<li> 
local attributionとglobal attributionを同時に満足するようなsaliency mapが存在しないことを示す。 
ニューラルネットワークf : R^D -> R with inputs x ∈ R^D（D次元入力に対し１次元の出力を与える）を考える。 
ここで、モデル fと入力 xについてのsaliency mapはS(x) = σ(f, x)と表せる。 
線形モデルを仮定するとf(x) = w^T x + bであり、wそのものがsaliency mapになるがこれは入力 xに依存しない。 そこで、入力が属す集合によってパラメータが変わるような関数を線形モデルの寄せ集めで表現することを考える。 
<img class="manImg" src=https://user-images.githubusercontent.com/32826608/70908314-44adcc00-204e-11ea-8915-4e69d1124e30.png width=80%> 
これはlocal importanceの線形モデルにおける一般化表現になっている。 
（入力 x自体に Sは依存しないが、 x がどの集合 Uiに属すかには依存するといった間接的な依存が生じている。）
 </li><li>
次にcompletenessの数学的な定義を確認してみる。 
<img class="manImg" src=https://user-images.githubusercontent.com/32826608/70909041-f39ed780-204f-11ea-9248-cd20dd97120c.png width=90%> 
ざっくり言えば、S(x)はモデル fの計算を完全に捉えた表現になっていなければならないこと、すなわちsaliency map S(x) と入力 xによって fが復元されることを保証するものがcompleteness(完全性)である。 </li><li>
上記の数学的な表現を駆使すると、weak dependenceとcompletenessを同時に満たすsaliency mapは存在しないことを示せる（らしい）。 
実際に既存手法である<a href="https://arxiv.org/abs/1703.01365">integrated gradients</a>, <a href="https://www.researchgate.net/publication/322437945_Deep_Taylor_Decomposition_of_Neural_Networks">deep Taylor decomposition</a>, <a href="https://arxiv.org/abs/1704.02685">DeepLIFT</a>はcompletenessのみを満たすものとして存在している。 
そもそもsaliency mapは性能が非常に限定されており、線形モデルのweightとbiasを同時に反映させることすらできない。そのため、このように２つの要求を同時に満たすことができないジレンマを抱えている。 
逆に言うと、saliency mapにおいてbiasが無視される問題を解決できればこのジレンマを解決できるのではないかという観点が生じ、これがニューラルネットワークのbiasを考慮したfull-gradientsという仕組みに繋がる。
</li>
</ul>
</ul>
<ul>
<li> Full-Gradient Representation </li>
<ul>
<li> 
例として、活性化関数にReLUを含んだニューラルネットワークをみてみると、
<img src="https://user-images.githubusercontent.com/32826608/70911217-c1dc3f80-2054-11ea-9af2-702f04c49bb1.png" width=90%> 
のような関係式が得られる。 
ここでバイアスbには陽に表されるexplicit biasと陰に表されるimplicit bias（e.g. Batchnormの移動平均）の２種類が存在することに留意されたい。しばしば、implicit biasの方が量的に大きく、ネットワークの中ではexplicit biasよりも重要な存在になるケースが多い。 </li><li>
さて、non-ReLUな活性化関数を含むネットワークについては微分形でimplicit biasが現れないため、上で見た式の拡張を考える必要がある。 
y = σ(x) の x周りの１次近似をすると、
<img src ="https://user-images.githubusercontent.com/32826608/70959082-85ddc480-20be-11ea-9723-c6e375f7a750.png" width = 100px>という式が得られる。b_σはimplicit biasであり微分形では現れない(もちろんReLUではb_σ = 0)。すなわちReLUで得られた関係式の bに b_σを加えれば一般的な非線形関数への表現が得られることになる。 
input-gradients<img src ="https://user-images.githubusercontent.com/32826608/70959508-d7d31a00-20bf-11ea-8b3c-68096b0c565b.png" width = 60px>と、bias-gradients<img src ="https://user-images.githubusercontent.com/32826608/70959575-fd602380-20bf-11ea-8f06-0d80b67eb453.png" width = 80px>を組み合わせたものが full-gradientsになる。 </li><li>
以下にそれぞれの可視化を示す。 
<img src="https://user-images.githubusercontent.com/32826608/70959759-6778c880-20c0-11ea-9c18-6f33e3a2c5a1.png" width=90%> 
</li>
</ul>
</ul>
</ul>
<ul>
<li> Properties of Full-Gradients </li>
<ul>
<li> 
長くなってしまうので、本文では解説しない。 
（Full-Gradientsの性質について既存手法と比較しながら述べられていて、bias-gradientsがなぜ重要なのか、どのように機能するのかについても例を挙げながら説明されている。興味がある場合は論文を参照のこと。） 
</li>
</ul>
</ul>
<ul>
<li> FullGrad: Full-Gradient Saliency Maps for Convolutional Nets </li>
<ul>
<li> 
bias-gradientsの可視化は容易で、理由は<img src="https://user-images.githubusercontent.com/32826608/70960894-a9573e00-20c3-11ea-9357-b55faa824872.png" width=120px>は入力 xと同じD次元になるため。 
さて、full-gradientsをもとにした関数 fと入力 xに対するsaliency map(FullGradと呼称
)は以下のようになる。 
<img src="https://user-images.githubusercontent.com/32826608/70961059-1c60b480-20c4-11ea-994a-303b7a0fec19.png" width=50%> 
ここで、 ψ(·)はアップサンプリングやリスケールなどを含んだ後処理である。式を見てわかるようにbias-gradientsはチャンネルごとに総和を取ったものからさらに層ごとに足し合わせることでマッピングしている。なお、CNNにおける全結合層は無視されconvolution層のみが上式に含まれる。 </li><li>
注意したいのは、FullGradはfull-gradientsの近似表現になっていることである。 
full-gradientsは<img src="https://user-images.githubusercontent.com/32826608/70961588-96de0400-20c5-11ea-8083-0ac83832071d.png" width=120px>というようにF+D次元になっており、FullGradはサイズの調整を行ってわざわざ入力画像と同じ次元となるような表現を得たものに過ぎない。 したがってcompleteness と weak dependenceが同時に達成されることはない。ただ、上式のsaliency mapの作り方を変える( ⦿ xの除去や ψ(·)の調整)ことでどちらか片方の性質を強めることができ、筆者らの実験では上式の表現が最もシャープなmapを作れたそうである。
</li>
</ul>
</ul>

## 結果
 評価方法は大きく分けて２つ。
1. Imagenet 2012 datasetでpixel perturbation
2. CIFAR100 datasetでremove and retrain procedure

### Pixel perturbation
saliency mapから最も強度の強い kピクセルを取り除く手法。 
この手法によって、良いsaliency mapであればネットワークの出力に大きく影響を及ぼすピクセルを取り除く（黒で置き換える）ことになると考えられる。しかし筆者らは、重要なピクセルを黒で置き換える方法では正確にsaliency mapの性能を測れない（実際にランダムにピクセルを置き換えたときのほうがモデルの性能には悪影響であるという結果になった）とし、saliency mapの**強度が小さい k個**を取り除くことを提案した。 
VGG-16をモデルに採用し、[gradCAM](https://arxiv.org/abs/1610.02391), [input-gradients](https://arxiv.org/abs/1312.6034), [smooth-grad](https://arxiv.org/abs/1706.03825)と integrated gradientsについて比較した結果が下図(a)である。 
<img src="https://user-images.githubusercontent.com/32826608/70962894-09e97980-20ca-11ea-80ff-39d29bfb99f8.png" width=90%> 

### RemOve And Retrain (ROAR)
saliency mapのtop-kピクセルを取り除いた画像データセットをつくり、モデルを訓練し直す手法。
もし重要度の高いピクセルを捉えることに成功していたら、より訓練したモデルの性能が悪くなるはずであるという仮定にもとづく（ただ、重要なピクセルの位置が情報として残ってしまうなどの欠点のある手法ではある）。 
Pixel perturbationでは重要度の低いピクセルに注目していたので、重要度の高いピクセルに焦点をあてた本手法と合わせることで両面的に評価することができる。 
VGG-16をモデルに採用し、データセットはCIFAR-100でgradCAM, input-gradients, [smooth grad squared](https://research.google/pubs/pub47088/)と integrated gradientsについて比較した結果が上図(b)である。 

### Visual Inspection
<img src="https://user-images.githubusercontent.com/32826608/70963408-af511d00-20cb-11ea-9234-491611d64293.png" width=90%>

## コメント

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Full-Gradient Representation for Neural Network Visualization #18

一言でいうと

論文リンク

著者/所属機関

投稿日付(yyyy/MM/dd)

概要

手法

結果

Pixel perturbation

RemOve And Retrain (ROAR)

Visual Inspection

コメント

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Full-Gradient Representation for Neural Network Visualization #18

Description

一言でいうと

論文リンク

著者/所属機関

投稿日付(yyyy/MM/dd)

概要

手法

結果

Pixel perturbation

RemOve And Retrain (ROAR)

Visual Inspection

コメント

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions