社内のCV輪講で使用した資料です。 2017年以降に発表されたDeep Learningを用いたVisual Odometryの手法についてまとめました。
はじめに バンドル調整(Bundle Adjustment)は、複数のカメラからの画像データを使用して、カメラの位置と姿勢と三次元点の位置を同時に最適化する手法です。最初の論文は、1958年にD. C. Brownによって提案された1、かなり長い歴史を持つ技術です。 当時はアメリカ空軍が航空写真からの環境復元するための研究でしたが、近年では、visual-SLAMやSfMの普及とともに、より身近なところで使われるようになりました。 有名なvisual-SLAM(例:orb-slam2やVINS-Mono)は、ceresやgtsam、g2oなどのグラフ最適化ライブラリを利用してバンドル調整問題を解いています。しかし、内部の原理をちゃんと理解しないと、課題の改善ができない、独自の研究や発展につながらない可能性が高いです。 この記事では、初心者に向けバンドル調整の理論の紹介と式の導出を行いながら
1. torchdataとは torchdataとは,従来のdatasetを拡張するpytorchのモジュールです. torchdata is a library of common modular data loading primitives for easily constructing flexible and performant data pipelines. 2022/Aug時点で,まだベータ段階なのでAPIは今後変更がありますが,以下ではあまり変化がないと思われる利用方法を紹介します. インストールはpipから. Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/ Collecting torchdata Downloading
第9回全日本コンピュータビジョン勉強会にて「StyleNeRF: A Style-based 3D Aware Generator for High-resolution Image Synthesisについてわりかし徹底解説を行う資料になっています。
概要 画像分類では認識したい対象だけのクリーンな画像が欲しいですが、提供データには不要なオブジェクトが多く写ります。また、分類対象が小さくしか写っていないこともあります。 大量の画像データを手動で切り抜くには時間がかかるので、必要部分のみ切り抜く処理をCNNとopenCVで教師データありで自動化します。 目的 Kaggleのintel子宮頚部癌スクリーニングコンペに参加し、22位でした。 Intel & MobileODT Cervical Cancer Screening | Kaggle このコンペでは4000pxを超える高解像度のデータが8000枚ほど提供されました。 画像は専用の医療機器で撮ったものからデジカメで撮ったようなものまで、対象の形状や色も違い、医療器具の映り込みもありました。 CNNでの画像分類はメモリの制約上、224pxや299pxなど縮小したものを利用します。 認識
目的 ポケモンの対戦ログツールは色々とあるんだけど、相手パーティの内容を自分で入力しないといけないのがかったるすぎるので自動で判別してくれるようなものを作りたかった。 HOG特徴量を使ってみたかった。 実装済みのものは記事の一番下に置いてあります。 ※今回のバージョンは偽トロキャプチャなどを使ってモニタなどに映された画面を対象としてます。 HOG特徴量について HOG (Histgram Of Gradient) は画像中の輝度勾配の分布みたいな感じです。 輝度が大きく変化する場所を検出できるので、おおまかに言って画像のエッジ分布を取得できます。 ここの説明がわかりやすかった。 画像で表現すると、 こんな感じになります。 (画像の出典は琴葉姉妹 立ち絵素材(各30種)) 利用できるデータの背景色と判別対象となるゲーム画面での背景色が異なる ゲーム画面の方では位置によって背景色が異なる の2
はじめに Image EncoderにCNN系のモデルであるConvNeXtを使用した、ConvLLaVAが提案されました。 本記事はConvLLaVAを使って768x768の画像が入力可能な日本語VLMを学習してみました。 また、学習したモデルを日本語ベンチマークを使用して他のモデルとの比較も行いました。 モデルの重みは以下で公開しています。 ConvLLaVAについて ConvLLaVAはConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Modelsで提案された手法です。 前述したとおりImage EncoderにConvNeXtを使用しているのが特徴ですが他にも以下の2つの工夫点があります。 工夫点1 ConvNeXtにStage 5を追加することで解像度が高い画像を入力しても画像トークン
はじめに 画像生成だけでなく、3Dモデル生成の品質もかなり上がってきました。特にtext-to-3Dモデルは、驚異的な進歩を見せています。 一番左のDreamFusion(2022年9月公開)から、一番右のProlificDreamer(2023年5月公開)まで、僅か8ヶ月しか経っていません。 研究者であれ開発者であれクリエイターであれ経営者であれ、このぐらいの技術進歩速度は予見して行動すべきでしょうし、少なくとも追従できる必要があると思います。 幸いなことにProlificDreamerの論文公開3日後には、技術解説記事が公開されています。 また、幸いなことに論文公開当日には、3Dモデル生成のライブラリであるthreestudioで非公式実装が公開されています。 公開当初から品質が改善され、昨日2023/6/3時点では以下のような生成ができるようです。 本記事では、threestudio
問題設定と評価指標 既存の手法 ノンパラメトリックな手法 パラメトリックな手法 提案手法 概要 詳細 ステップ1 ステップ2 これを基にした画風変換 参考文献 自分の研究が画像処理系の機械学習と関係ないのでやや適当です。 問題設定と評価指標 [Gatys2015]より。 ある画風の画像を入力して、その画風を持った見た目が自然な画像を出力する。 画風の元になった画像が認識できない状態を保って成功とする。つまり画像のつぎはぎが目立つ、といったケースは問題にしない。 CNNを用いた画風変換の元になったモデル。 既存の手法 パラメトリック、ノンパラメトリックと大きく二つの方針に分かれている。 ノンパラメトリックな手法 画風の元になる画像を指定して、そこから画風(を表してると思われるもの)をうまくサンプリングして新しい画像や物体に適用する。 画風変換で検索すると、もはやCNNベースの手法しか検索で出
【論文読解】NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo CollectionsDeepLearning 概要 画像集合をもとに新しい視点からの画像を合成する技術であるNeRF in the Wild(NeRF-W)について紹介します。 例えば、Photo Tourism Datasetには、ある特定のランドマークを様々な位置から撮影した写真が多数含まれています。そのような画像集合から、ランドマークの3次元的な形状を把握し、写真集合には含まれない新しい視点から見たときの合成画像を作成することができる、というのが目的となります。新しい視点からの合成結果をつなぎ合わせると、公式のプロジェクトページ内にあるような動画も生成することができます。 先行手法として、もともと提案されていたNeRF1という手法がありました
[1703.06211] Deformable Convolutional Networks メタ情報 ICCV 2017 oral paper Microsoft Research Asia 著者実装 日本語による解説 (見つけられた範囲で) Deformable Convolutional Networks Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution― 機械学習論文読みメモ_108 - Qiita 概要 本質的に、CNN はその構造上、幾何的な 1 変換処理に制限されている その欠点を克服するために、 deformable convolution と deformable RoI pooling を提案する 物体検出と semantic segmentation のタスクで結果を検証する 導入
アメリカ気象局の天気図の前線描画を学習させたSemantic Segmentationのニューラルネットワークに、日本付近の前線を自動解析させるまでPythonDeepLearningWeathergrib2SemanticSegmentation アメリカ気象局の天気図の前線描画を学習させたSemantic Segmentationのニューラルネットワークに、日本付近の前線描画をさせるまで 1. はじめに しばらくアメリカ暮らしをすることになりました。日本で使っていたパソコンも無事移設することが出来ましたので、せっかくの機会ですからアメリカの気象データを使って機械学習をやってみました。まずは「気象可視化画像から前線を自動描画する」を試しました。また、このネットワークに日本付近の前線解析をさせてみました。アメリカ流の気象データ解析(前線を検知して描画する)を学習して、日本のデータを解析して
はじめに 測定中の装置の様子をウェブカメラなどを使ってリモートで監視しているときに、せっかく監視してるんだからくディスプレイに表示されている数字くらい記録しておきたいと思うことがあります1。これを実現する最も簡単な方法は一定時間ごとの画像取得です。しかし、残された大量の画像から異常や特定期間の様子を探し出すのは少し骨が折れます。「うまいこと数字を抽出してログデータにできたらな…」と一度くらいは思ったことのある方が多いのではないでしょうか。固定視点の画像からたった10種類の数字を判別するだけです。数字の位置を定義して0-9までの雛形のどれに当てはまるか判定していけばできそうです。機械学習など必要ないでしょう。しかし、実際やるとなるといろいろと細かい点でつまずきそうで、なかなか手を出しにくいタスクではあります。この記事では、Pythonを使って非常に単純な仕組みで大量の固定視点画像から数字を抽
「SFMをやります!」と言いながらだいぶ基礎的なエントリになるのですが, 「SFMをやる!」 ー>「特徴点はSFMの基礎だから,SIFTとAKAZEくらいは抑えておこう.」 ー>「まてよ,Scale Space ってなんや?」 という流れで,フィルタリングを簡単にまとめておくことにしました.「SFMシリーズ!」としてエントリをまとめてみようと思ったのですが,そうするとだいぶ先まで見通してエントリを書かないといけないので,小出しに個別のエントリを書くことにしました.一通りやりきることができたら,あとでリライトします. ということで,国際通りの3次元復元まで,道のりは遠いですね... Gaussian Filter とは. テンプレートマッチングや機械学習するときに,画像の前処理としてフィルタリングをすることもあると思います.自分はこのあたりあまり考えず,「ちょっと画像暈したいなあ.」とかって
はじめに Reactを使ったWebアプリケーションでカメラ撮影する機能について調べてみました。 ただ撮影するだけではなく、サーバーに撮った画像を送信するところまでやってみました。 Reactでカメラを使う Reactでカメラを使用する場合、現状(2023/10月現在)だと以下のライブラリが候補になります。 react-webcam https://github.com/mozmorris/react-webcam react-html5-camera-photo https://github.com/mabelanger/react-html5-camera-photo react-camera-pro https://github.com/purple-technology/react-camera-pro ダウンロード数、GitHubのスター数などreact-webcamが圧倒している
ArcFaceはメトリックスラーニングという仕組みを使用しており、通常のClassificationタスクにSoftmax Lossを置き換えるAngular Mergin Lossを導入することで、距離学習をClassificationタスクで解くことができるようになっています。 顔同士の距離はCos距離を用いています。Cos距離は検索エンジンでも使用される方法で、正規化された2つのベクトルの内積で計算できます。2つのベクトルが同じであればθが0になりcosθ=1、直行していればθがπ/2になりcosθ=0になります。そのため、類似度として使用できます。 (出典:https://arxiv.org/abs/1801.07698)通常のClassificationタスクでは、Featureを計算した後、FC層でFeatureとWeightの内積を取り、出力にSoftmaxを適用します。 A
目的 ImageNet について考える (1) — Tiny ImageNet で Tiny ImageNet を調べたので、実際に分類モデルを訓練してみたい。 やること VGG16 の転移学習ベースで訓練する。ImageNet について考える (1) — Tiny ImageNet でも触れた ImageClassificationProject-IITK が分かりやすいので、これをベースとする。また VGGNet and Tiny ImageNet という記事も参考になる部分が多かったので、一部適用している。 実装には PyTorch を用いて、val acc=0.5 程度で満足することにした。これくらいの画質で簡単なアーキテクチャで 1/2 の確率で 200 クラスの中から正解を引けるなら御の字であろう。 データセット tiny-imagenet-200.zip を展開すると tin
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く