タグ

CNNに関するsugyanのブックマーク (7)

  • MobileNet(v1/2)、ShuffleNet等の高速なモデルの構成要素と何故高速なのかの解説 - Qiita

    はじめに MobileNet系の高速なモデルアーキテクチャに利用される構成要素と、それらを利用したモデルについて、何故高速なのか観点と、空間方向の畳み込みとチャネル方向の畳み込みがどのようになされているかという観点で整理を行う。 高速なモデルアーキテクチャに利用される構成要素 まず、高速なモデルに利用される畳み込み構成要素について、計算量と、空間方向の畳み込みとチャネル方向の畳み込みがどのようになっているかを説明する。 まず、一般的な畳み込みの計算量を確認する。 入力特徴マップのサイズを$H \times W$、入力チャネル数を$N$、カーネルサイズを$K \times K$、出力チャネル数を$M$とすると、一般的な畳み込み層の計算量は、$H W N K^2 M$となる。 これは、入力特徴マップの1箇所につき畳み込みのコストが$K^2 N$で、これを入力特徴マップの$H W$箇所に適用する

    MobileNet(v1/2)、ShuffleNet等の高速なモデルの構成要素と何故高速なのかの解説 - Qiita
  • 深層学習は画像のどこを見ている!? CNNで「お好み焼き」と「ピザ」の違いを検証 - Platinum Data Blog by BrainPad

    記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 こんにちは、AI開発部の伊藤です。 今回のブログは、「深層学習はいったい画像のどこを見て判断しているのか」という素朴な疑問に答えてくれる技術として、昨年提唱された「Grad-CAM」という技術を紹介します。 目次 目次 1. はじめに 2. Grad-CAMの紹介 Grad-CAMの仕組み: 3. 適用例 3-1. 画像キャプション生成(Image Captioning) 3-2. VQA(Visual Question Answering) 3-3. 学習用データのバイアス 4. 実施例(お好み焼きとピザを分類) 4-1. 画像データについて: 4-2. CNNの構築: 4-3. Grad-CAMの実装: 4-4. 実施結果の評価 お好み焼き画像でCNNの判定が当たっているケース: ピザ

    深層学習は画像のどこを見ている!? CNNで「お好み焼き」と「ピザ」の違いを検証 - Platinum Data Blog by BrainPad
  • Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization

    We propose a technique for producing "visual explanations" for decisions from a large class of CNN-based models, making them more transparent. Our approach - Gradient-weighted Class Activation Mapping (Grad-CAM), uses the gradients of any target concept, flowing into the final convolutional layer to produce a coarse localization map highlighting important regions in the image for predicting the co

  • Grad-CAM: Why did you say that? · Issue #66 · arXivTimes/arXivTimes

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    Grad-CAM: Why did you say that? · Issue #66 · arXivTimes/arXivTimes
  • 畳み込みニューラルネットワークの可視化 - 人工知能に関する断創録

    Deep Learningの学習結果(重み)はブラックボックスで、隠れ層のユニット(特に深い層の!)が一体何を学習したのかがよくわからないと長年言われてきた。しかし、今回紹介する方法を使うとニューラルネットが何を学習したのか目で見える形で表現できる。 畳み込みニューラルネットで学習したフィルタの可視化というと以前やったように学習した第1層のフィルタの重みを直接画像として可視化する方法がある。 しかし、畳み込みフィルタのサイズは基的に数ピクセル(MNISTの例では5x5ピクセル程度)のとても小さな画像なのでこれを直接可視化しても何が学習されたか把握するのはとても難しい。たとえば、MNISTを学習した畳み込みニューラルネット(2016/11/20)のフィルタを可視化しても各フィルタがどの方向に反応しやすいかがわかる程度だ。 各フィルタが何を学習したかを可視化する別のアプローチとして各フィルタ

    畳み込みニューラルネットワークの可視化 - 人工知能に関する断創録
    sugyan
    sugyan 2017/02/17
    面白い。アイドル顔識別器で騙すのは試したけどキレイな入力つくるの出来なかったからまたやってみるか…
  • Kerasで学ぶ転移学習

    前回記事では、KaggleのFacial Keypoints Detectionを題材にして、単純なニューラルネットワークから転移学習まで解説しました。 事前に学習した重みを読み込んだ後、全ての層で学習するのではなく、一部の層をフリーズさせることもできるという話を最後に少しだけしました。ちょうどその後、転移学習について詳細に解説しているKerasの公式ブログ記事が公開されましたこともあり、今回はこの記事を参考にしつつ、転移学習をメインに解説していきます。間違いがあれば指摘してください。今回もFacial Keypoints Detectionのデータを使って解説していくので、前回記事も是非合わせて読んでみてください。 また、Keras 1.0.4が公開されたのでまだの人はアップデートしておくと良いかと思います。 目次 転移学習 可視化 全結合層のみ学習(前回モデル) 全結合層+一部の畳み込

    Kerasで学ぶ転移学習
    sugyan
    sugyan 2016/06/23
    コードはKerasだけど説明がとても丁寧だし前回のと合わせて面白い
  • ニューラルネットワークを活用した文字認識のプロセスを三次元で可視化した WebGL デモがすごい! - WebGL 総本山

    手書き文字の認識が違った意味でよく見える! 今回ご紹介するのは、ニューラルネットワークを活用し二次元平面上に描かれた模様から、数字として認識される様子を可視化した、面白いデモンストレーションです。 私は残念ながらこの手の学がまったく無く、正確に解説することが難しいのですが、Convolutional Neural Network というものを使って文字を認識するような、特殊なアルゴリズムを可視化しているのだと思います。 階層構造になった状態に、どのようなつながりがあるのかを可視化するのには三次元表現がうってつけですね。 数字を描いてみるだけでも楽しめる 先に触れたとおり、私はこういった学問の知識がないのでものすごく初歩的なことや、間違ったことを書いているかもしれません。その点はご了承ください。 今回のデモを見ると、文字認識のためのニューラルネットワークが、どのように機能しているのか、その一

    ニューラルネットワークを活用した文字認識のプロセスを三次元で可視化した WebGL デモがすごい! - WebGL 総本山
  • 1