並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 8554件

新着順 人気順

機械学習の検索結果1 - 40 件 / 8554件

  • 入力線画を全く変えずに画像生成AIに色塗りさせる方法

    タイトル通り、入力線画を(基本的には)1pixelも変えずに画像生成AIに色塗りをさせる方法について解説していきます。 本題に入る前に そもそも画像生成AIによる色塗り(着彩)について知らない方向けに、既存技術でAIに色塗りをさせるとはどのような事を指すか?またどのような課題があるか?について一度整理します。 画像生成AIによる着彩 テキストから画像を生成できるという事で一躍有名になった画像生成AIですが、テキストだけでは生成したい画像を詳細に指示することが困難であるという課題を抱えていました。 そこで、テキストと比較してより具体的に生成したい画像を指示する方法として。ControlNetを用いた画像とテキストを入力して新たな画像を生成する手法が現れます。 この応用として、色塗りがされていない線画と指示テキストを入力することで、入力した線画に対し色を塗った状態の画像を生成するという方法が存

      入力線画を全く変えずに画像生成AIに色塗りさせる方法
    • 話題のLLMローコード構築ツールDifyをAWSのマネージドサービスで構築してみた - エムスリーテックブログ

      こんにちは。エムスリーエンジニアリンググループのコンシューマチームに所属している園田です。 普段の業務では AWS やサーバーサイド、フロントエンドで遊んでいるのですが、最近はもっぱら OpenAI や Claude3 で遊んでます。 今回は、最近巷で話題の LLM ローコード構築ツールである Dify の OSS 版を AWS のマネージドサービスのみを使って構築してみました。 DifyとはオープンソースのLLMアプリ開発プラットフォームで、様々なLLMを使用してChatGPTのGPTsのようなものがノーコードで簡単に作れます。 引用元: DifyでSEO記事作成を試してみる|掛谷知秀 試しにAskDoctorsのガイドラインHTMLをナレッジ登録してみた ローカル環境で Dify を構築する記事はたくさん見かけますが、AWS のマネージドサービスで構築する内容は見かけなかった*1ので公

        話題のLLMローコード構築ツールDifyをAWSのマネージドサービスで構築してみた - エムスリーテックブログ
      • 【西川和久の不定期コラム】 初心者も簡単!ついにPCで104BのLLMも動かせるようになった!そして巷を騒がせるマルチモーダルも試した

          【西川和久の不定期コラム】 初心者も簡単!ついにPCで104BのLLMも動かせるようになった!そして巷を騒がせるマルチモーダルも試した
        • 実録:AIで描く漫画の実際 ~AIで今風の手描きっぽい漫画を作ってみる (1/6)

          こんにちは、漫画界の生き恥こと野火城と申します。 「画像AI使ってみた/AI漫画実験企画」第2回です! ■第1回はこちら 実録:AIで描く漫画の実際 ~体験して見えた、その実力と課題!! その成り立ちから様々な議論を呼んでいる画像生成AIですが、少なくとも2024年3月現在日本の法律では使用が許可されており、存在を完全に無視する事はできません。かといって全てを肯定して受け入れるのも難しい。 だからこそ、必要以上に恐れず、実際にどのような事が出来るのか、具体的に検証する――それが画像AIとの誠実な向き合い方なのではないでしょうか。 「画像AIの技術がすごいという賞賛記事はよく見るが、それは本当に創作活動で実戦的に使えるものなのか? 『AIに仕事を奪われる』と『今のAIは実戦では使い物にならない』という真逆の意見を多数見るが、この二つは両立しないのでは? 実際はどっちなんだ?」「画像AIを試し

            実録:AIで描く漫画の実際 ~AIで今風の手描きっぽい漫画を作ってみる (1/6)
          • テキスト生成 AI 利活用におけるリスクへの対策ガイドブック(α版)

            テキスト生成 AI 利活用におけるリスクへの対策ガイ ドブック(α版) 2024(令和 6)年 5 月 29 日 デジタル庁 〔ドキュメントの位置付け〕 参考資料。今後、デジタル社会推進標準ガイドラインへの編入を検討予定 〔キーワード〕 テキスト生成 AI、生成 AI、サービス開発者、サービス提供者 〔概要〕 テキスト生成 AI を利活用し、行政サービスや職員業務の改善の重要度が高まる中、リ スクを特定し、そのリスクを受容できるレベルまでに軽減する対応もまた重要になってい る。テキスト生成 AI に関連するリスクは多岐にわたるが、その多くはテキスト生成 AI 固有 でない AI システム全般に共通するものである。そこで、本文書では政府情報システムを対 象に、テキスト生成 AI 固有と見られるリスクに焦点をあて、留意点を紹介する。現段階 (2024 年 5 月現在)では、実践的なフレームワー

            • AI搭載エディタCursorの紹介と機械学習コンペでの使用レビュー

              社内の技術共有会での発表資料です。 AI搭載エディタCursorの機能の紹介とKaggle等の機械学習コンペで使ってみて役立った点などを共有します

                AI搭載エディタCursorの紹介と機械学習コンペでの使用レビュー
              • 東京都の生成AI活用事例集にツッコミを入れてみる|saip(さいぴ)

                こんにちは、saip (@_saip_) です。 生成AIを利用した事業をしている株式会社TrippyでCTOを務めています。 Xで話題になっていたところてんさんの以下のポストから、「都職員のアイデアが詰まった文章生成AI活用事例集」という資料が公開されていることを知りました。 東京都もMarkdownとは言ってなくて、ハッシュタグと言ってる…… どうみてもMarkdownの見出しによる強調なんだが……https://t.co/hJMDyjIz7J https://t.co/Vqjr93kkxd pic.twitter.com/Sg9HF6iF6F — ところてん (@tokoroten) May 28, 2024 PDFはこちらのリンクから閲覧することができます。 この資料には都職員の方々の創意工夫や実際の業務での活用事例が掲載されており、大変勉強になりました。 一方で、冒頭のように、プ

                  東京都の生成AI活用事例集にツッコミを入れてみる|saip(さいぴ)
                • ミンコフスキー距離(Minkowski distance)/Lpノルムとは?

                  ミンコフスキー距離(Minkowski distance)/Lpノルムとは?:AI・機械学習の用語辞典 用語「ミンコフスキー距離」について説明。2点間の距離を計測する方法の一つで、マンハッタン距離(L1ノルム)やユークリッド距離(L2ノルム)、チェビシェフ距離(L∞ノルム)などを一般化したもの。パラメーター「p」の値を調整することで柔軟に距離を表現できる。 連載目次 用語解説 数学/統計学/機械学習におけるミンコフスキー距離(Minkowski distance)とは、n次元ベクトルで表現される2点(例えばx=[x1,x2,...,xn]とy=[y1,y2,...,yn])間の「距離(ノルム)」を計算するための方法の一つである(具体的な計算方法は後述する)。マンハッタン距離(L1ノルム)や、ユークリッド距離(L2ノルム)、チェビシェフ距離(L∞ノルム)の計算を一般化したものとも見なせる。ミ

                    ミンコフスキー距離(Minkowski distance)/Lpノルムとは?
                  • AIによるコードレビュー "PR-Agent" を導入した効果と課題について

                    モノレポ環境にPR-Agentを導入した効果と課題について書いています。 導入結果としては、AIによるコードレビューが効果がある一方で、現時点では全てのレビューがAIに置き換えることはないことが分かりました。 この記事では、PR-Agentの具体的な効果、実際に感じた課題、課題に対する横断チームの対応策などを掘り下げています。

                      AIによるコードレビュー "PR-Agent" を導入した効果と課題について
                    • 生成AI、知的財産権の学習なら原則規制せず 創作物は「人の発明」 - 日本経済新聞

                      内閣府は28日、生成AI(人工知能)と知的財産保護のあり方を議論する「AI時代の知的財産権検討会」の中間とりまとめを公表した。知財権についてAIに学習させる段階では原則、権利侵害は発生しないと整理した。法規制の強化でなく、技術対策や対価還元と組み合わせて権利者を守る考えを示した。クリエーターなどには実効性を疑問視する意見もある。データ入力などの学習段階と、画像・音声・文章などを出力する生成・

                        生成AI、知的財産権の学習なら原則規制せず 創作物は「人の発明」 - 日本経済新聞
                      • 特化型モデルが日本の生成A開発の勝ち筋

                        こんにちは、シバタアキラです。5月は皆様にとってもイベントの多い月間だと思いますが、私も日韓のAI Expoに出展、各所での講演、そして今週は日本人工知能学会の大会にて論文の発表も控えております。イベント参加は時間も取られますが、生の情報に触れるいい機会でもあり、今回は直近のAI業界の状況について私が学んだことを中心にご共有します。 出口の見えない日本のLLM開発に光? 昨年末MetaとIBMが手を組んでアナウンスされたThe AI Alliance は、「オープンAI開発を推進する」と大義を謳ってLinux Foundationとも手を組み、今月日本でカンファレンス及びディナーがありました。これまであまり話題になってこなかった団体という印象を持っていましたが、ビッグネームなメンバー企業・団体が着実に増えており、かなりモメンタムが増している印象を受けました。 私も東工大の岡崎先生と、NII

                          特化型モデルが日本の生成A開発の勝ち筋
                        • IC Light - a Hugging Face Space by lllyasviel

                          Discover amazing ML apps made by the community

                            IC Light - a Hugging Face Space by lllyasviel
                          • 複数時系列データ × Transformerの実装と評価

                            目次 本記事の動機 時系列解析とTransformerに対する先行研究のまとめ 複数時系列データの解析に対する課題を解決した改善モデル iTransformer iTransformerモデルの実装 実装環境と学習データ データの前処理 iTransformerモデル実装と最適パラメータ探索 数値実験と考察 本記事のまとめ 参考文献 本記事の動機 近年ではビックデータの利活用が活発になっており、データを蓄積・分析することが多くなっています。その際、機械学習やAIの実装をしてデータの分析を行う場合、データ数が鍵となっています。しかしながら、データの項目数が多いと、各項目のデータ数が少なくなる可能性があります。例えば、ある市場で売られている品種が複数あった場合、受注数の差だけではなく、受注のデータ数にも差が生じ、結果的に分析に使用可能なデータ数が少なくなり、分析の精度が低下することが考えられま

                              複数時系列データ × Transformerの実装と評価
                            • 画像生成AIに照明革命 日本と世界で同時に“神ツール”登場 (1/3)

                              この連載ではおなじみのキャラクター「明日来子さん」に右側からライトを当ててみた。左がIC-Lightを適用したもので、右がオリジナル。環境はWebUI Forge用の拡張機能を使用 5月8日に、「ControlNet」など画像生成AI関連の著名研究者であるイリヤスフィール(lllyasviel)さんが発表した「ICライト(Imposing Consistent Light、印象的な一貫的なライト)」が盛り上がりました。入力した画像をもとに、後から指定した照明効果を踏まえた画像を生成する技術です。 画像生成AIで照明効果がつけられる「ICライト(IC-Light)」 発表された学習済みモデルは、「ライトを指定すると、キャラクターのデータに合わせてテキストのプロンプトに合わせて独自に背景を生成するもの」「キャラクターとライトの影響を加味して、別の背景画像と合成するもの」の2種類があります。これ

                                画像生成AIに照明革命 日本と世界で同時に“神ツール”登場 (1/3)
                              • 自分がどれくらいニューラルネットワークを理解しているかを確かめられるゲーム「Graph Game」

                                「Graph Game」はニューラルネットワークの構造をグラフで作成するゲームです。AI技術の発展と共に頻繁に目にするようになった「ニューラルネットワーク」をどの程度理解しているか試せるゲームとのことなので、実際にプレイしてみました。 Graph Game - By Sabrina Ramonov https://graphgame.sabrina.dev/ サイトにアクセスするとこんな感じ。「RNN」「LSTM Cell」「GRU Cell」「ResNet Block」「Deep RNN」という5つのステージが用意されています。まずは「RNN」をクリックしてみます。 「x_t」「h_t」「y_t」という3つの箱が出現しました。それぞれの箱はデータを表しており、上が出力で下が入力となっています。「x_t」の上の○をクリックし、ドラッグして「h_t」の下に接続します。 緑の線で接続が表示され

                                  自分がどれくらいニューラルネットワークを理解しているかを確かめられるゲーム「Graph Game」
                                • AI作曲「Suno」新バージョンがWAV高音質化、最長4分の曲を一発でエンディングまで完成。無修正で良曲量産可能に(CloseBox) | テクノエッジ TechnoEdge

                                  このところUdioやSonautoの新機能搭載で押され気味だったAI作曲サービスの「Suno」が反撃に出ました。 バージョン3.5のEarly Access版(有料プランユーザーのみに提供)を利用すると、これまでの2分間制限が最長4分まで拡大。延長時間も従来の1分を2分に伸ばしています。これだけの長さがあれば大抵のポピュラー曲はエンディングまでいけます。 4分の曲をUdioで生成しようとすると、8回の命令が必要になります。さらに、生成に要する時間はUdioの方がはるかに長くかかるので、全体としての作業時間には大きな差が生じます。それがSuno 3.5ならば数秒でできてしまうのです。 また、Style of Musicのキーワードがサジェストされるようになっていて便利です。文字数制限は相変わらずきついですけど。 さらにうれしいのは、日本語歌詞の読み方が、従来は間違いが多かったのが、ほぼ問題な

                                    AI作曲「Suno」新バージョンがWAV高音質化、最長4分の曲を一発でエンディングまで完成。無修正で良曲量産可能に(CloseBox) | テクノエッジ TechnoEdge
                                  • Kenn Ejima on X: "LLMはチャットUIの誕生でブレイクスルーを起こしたが、今はチャットUIに呪われている。 2022年末にChatGPTが誕生し、史上最速で10億人が使うサービスになったことは記憶に新しい。 しかし、その後は急速に飽和し、GPT-4ローンチ後はずっと15億前後で停滞している。 https://t.co/N7mDwzbwyb" / X

                                    • Faster WhisperとAWS SageMakerを活用してGPUでの高速文字起こしエンドポイントを構築する

                                      概要 最近の音声認識技術の進歩はすごいですね! 特にOpenAIの最新モデルであるWhisper large-v3は、日本語の音声データでもかなりの高精度で文字起こしを行うことができ、APIも公開されています。 ただし簡単に使用でき汎用性も高い一方で、大量に使用する場合の高コストやプライバシーの懸念もあるため、ローカル環境で効率よく高精度な文字起こしを実現するモデルが多数開発されています。 今回は、その中でもGPUを使用した高速推論が可能な「Faster Whisper」を用いて、AWS SageMakerでカスタム文字起こしエンドポイントを構築してみたので、手順を解説していきたいと思います。 実装コードは以下のリポジトリにあります。 順番通りJupyterNotebookを実行すると問題なく動作するはずです。 Faster Whisperとは Faster WhisperはOpenAIの

                                        Faster WhisperとAWS SageMakerを活用してGPUでの高速文字起こしエンドポイントを構築する
                                      • 日本のアニメなどから収集したデータセット「Sakuga-42M」 国際研究チームが公開 「学術研究でのみ使用可能」【更新済み】

                                        このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。 X: @shiropen2 【更新履歴:2024年5月24日 午後1時50分更新 同時刻時点で論文は取り下げられ、GitHubのリポジトリ非公開となったことを確認しました。 カナダのアルバータ大学や中国の四川音楽学院に所属する研究者らが発表した論文「Sakuga-42M Dataset: Scaling Up Cartoon Research」は、AIモデルのトレーニング用に作成したアニメ動画データセットを提案した研究報告である。 Sakuga-42Mは、GitHubにおいてリポジトリが公開されており、学術研究の目的でのみ使用可能。また、データセット内の画像やビデオの著

                                          日本のアニメなどから収集したデータセット「Sakuga-42M」 国際研究チームが公開 「学術研究でのみ使用可能」【更新済み】
                                        • ⾃⼰教師あり学習によるビジョン基盤モデルの事前学習

                                          ロボット工学セミナー:「ロボットのためのLLM・VLM 利活用」 2024年5月23日 ⾃⼰教師あり学習は,ラベルなしデータを⽤いた事前学習法である.⾃⼰教師あり学習では,データから正解ラベルを⾃動で作成できるプレテキストタスクにより事前学習を⾏い,様々な下流タスクに効果的な特徴表現を獲得する.対照学習に基づく⼿法が教師あり事前学習法と同程度以上の学習効果が⽰されて以降,対照学習の派⽣⼿法が数多く提案された.また,Vision Transformer (ViT) の台頭以降は,ViT の構造に合わせた⽅法として Masked Image Modeling が提案され,現在に⾄るまで盛んに研究が⾏われている.本チュートリアルではまず⾃⼰教師あり学習の概要と代表的な評価⽅法について紹介し,対照学習と Masked Image Modeling ⼿法について解説する.

                                            ⾃⼰教師あり学習によるビジョン基盤モデルの事前学習
                                          • AnswerCarefully Dataset – RIKEN-AIP, LIAT

                                            新着情報 AnswerCarefully Dataset バージョン1.0を公開 (2024/4/30) 概要 日本語LLM 出力の安全性・適切性に特化したインストラクション・データAnswerCarefully(AC)データセットVersion 1 を公開します。このデータセットは、英語の要注意回答を集めたDo-Not-Answer データセット の包括的なカテゴリ分類に基づき、人手で質問・回答ともに日本語サンプルを集めたオリジナルのデータセットです。 データセットの特徴 5つのリスクタイプ(大分類)、12の有害カテゴリ(中分類)、61のサブカテゴリ(小分類)をカバーしています。Version 1は各サブカテゴリにつき10から20のサンプルを含む計945件からなっています。 このうち各サブカテゴリから3件ずつ、計183件をテストデータ、残り762件をを開発データとして2つのファイルに分け

                                            • Microsoft、「AI Toolkit for VS Code」を発表/既存の「Windows AI Studio」をクロスプラットフォーム拡充、発展させる

                                                Microsoft、「AI Toolkit for VS Code」を発表/既存の「Windows AI Studio」をクロスプラットフォーム拡充、発展させる
                                              • 新Surfaceが「Copilot+ PC」で変えるPCの姿 MacBook Airへの対抗

                                                  新Surfaceが「Copilot+ PC」で変えるPCの姿 MacBook Airへの対抗
                                                • ベクトルデータの容量を96%削減するBinary Embedding

                                                  導入 こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、LLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。 RAGのシステムの中では、どんな情報にアクセスするかを決定する際に、Embeddingと呼ばれる文章をベクトル化する技術が使用されています。そして多くの場合では小数(float)の多次元ベクトルが採用されています。 しかし、Embeddingの中には各ベクトルの数値を1Bitのデータとして扱うBinary Embeddingというものが存在します。 本記事では、Embeddingの手法の一つであるそのBinary Embeddingについて解説と検証を行います。 サマリー Binary Embeddingを採用することで以下のような効果を得ることができます。 保管するベクトルデータの容量を96%ほど削減で

                                                    ベクトルデータの容量を96%削減するBinary Embedding
                                                  • 最近ローカルLLMがアツいらしい

                                                    最近、ローカルLLMがアツくなっているという話をtwitterでチラホラ見かける。 ローカルLLMって何じゃ?というと、オープンに公開されているモデルのウエイトをDLしてきて手元のPC上で推論させる事である。 オープンなAIモデルとは逆の存在として、モデルがDLできないクローズなAIモデルもある。 OpenAIやAnthropicのような最先端AI企業のクローズなAIモデルに比べて、オープンに公開されているオープンなAIモデルの性能は今でもかなり後れを取っている。 だから去年の間はあくまでAIの本命はChatGPTのようなクローズモデルであって、オープンなAIモデルなんて眼中にありませんみたいな風潮が無くはなかった。だが最近は風向きが少々変わってきている。 GPTのAPI高い問題 & OpenAIがAIベンチャー皆殺しにしてしまう問題 まず「結局GPTのAPIを叩いてサービス運営して成功し

                                                    • Chat VectorでLLaVAを日本語対応させる

                                                      import torch from transformers import AutoTokenizer, AutoModelForCausalLM from llava.model.builder import load_pretrained_model if __name__ == "__main__": vlm_model_name = "liuhaotian/llava-v1.5-7b" vlm_tokenizer, vlm_model, image_processor, context_len = load_pretrained_model( model_path=vlm_model_name, model_base=None, model_name="llava-v1.5-7b", load_bf16=True, device_map="cpu", device="cpu" )

                                                        Chat VectorでLLaVAを日本語対応させる
                                                      • GeminiがYouTube動画を一瞬で要約してくれるようになった(しかも無料) | ライフハッカー・ジャパン

                                                        YouTubeにアップされている何十億もの動画のうち、あなたが一生に目にするのはごく一部でしょう。 重要なポイントだけを知りたいのに、そこにたどり着くまでにたくさんのことに目を通さなければならない動画もあります。それは無駄な時間です。 もし、視聴する動画の重要な情報を要約することで、視聴時間を短縮できるとしたらどうでしょう? 幸いなことに、GoogleのAIチャットボットであるGeminiには、YouTubeの拡張機能が組み込まれており、デフォルトで有効になっています。

                                                          GeminiがYouTube動画を一瞬で要約してくれるようになった(しかも無料) | ライフハッカー・ジャパン
                                                        • AI企業がオープンソースという言葉を都合よく利用する「オープンウォッシング」の問題をNew York Timesも取り上げる - YAMDAS現更新履歴

                                                          www.nytimes.com 一部の AI 企業が「オープンソース」の看板をユルユルに使っていることに対する批判を取り上げた記事だが、まさにワタシが WirelessWire News 連載やこのブログで以前に取り上げた問題ですね。 オープンソース AI の支持者たちは、その方が社会にとってより公平で安全だと言うが、一方で反対者たちは悪意をもって悪用される可能性が高いと言う。この議論にはひとつ大きな問題がある。オープンソース AI が正味のところ何なのか合意された定義が存在しないのだ。それに AI 企業を――「オープンソース」という言葉を使って自分たちを不誠実にもよく見せようとする――「オープンウォッシング(openwashing)」と非難する声もある(オープンウォッシングという非難は、オープンソースの看板をあまりにも緩く使ったコーディングプロジェクトに向けられたことがある)。 ようやく

                                                            AI企業がオープンソースという言葉を都合よく利用する「オープンウォッシング」の問題をNew York Timesも取り上げる - YAMDAS現更新履歴
                                                          • グーグル「Geminiの時代」宣言の意味 OSやサービスを持つ強さ【西田宗千佳のイマトミライ】

                                                              グーグル「Geminiの時代」宣言の意味 OSやサービスを持つ強さ【西田宗千佳のイマトミライ】
                                                            • Pythonによるベイズ最適化を使った効率的な制御系設計 - Qiita

                                                              はじめに 機械学習の世界ではベイズ最適化を活用した効率的なハイパーパラメータチューニングが当たり前のように使われております。例えば、2015年には東京大学の佐藤先生がベイズ最適化を上手くを活用した実践的な研究成果をご発表されております この発表で解説されている通り、ハイパーパラメータの選定作業すら機械に任せてしまうことができるため、これ以降もベイズ最適化が昨今の機械学習ブームのさらなる飛躍に貢献していきました。ベイズ最適化が機械学習のハイパーパラメータ選定に使われる理由は大まかに下記の点であるといわれています。 1.ブラックボックス関数(コスト関数)の最大化・最小化を実現できる。 2.グリッドサーチよりもパラメータ調整のための試行回数を大幅に削減できる。 3.確率モデルに基づく方法のため、推定結果の不確かさもモデリングできる。 特に、1番と2番の利点は複雑なコスト関数・対象に対して,なるべ

                                                                Pythonによるベイズ最適化を使った効率的な制御系設計 - Qiita
                                                              • 大規模言語モデル研究の最近の潮流(?)と実験研究への展開可能性について | ドクセル

                                                                スライド概要 2024年5,6月頃に行う諸々の発表のためのスライドです。 5月17日にプレプリントサーバーに投稿した、ロボット化学実験 with GPT-4に関する解説も含まれています(スライド後半)。 https://doi.org/10.26434/chemrxiv-2024-zfwxg イントロ部分は、筆者の主観がかなり入っています。

                                                                  大規模言語モデル研究の最近の潮流(?)と実験研究への展開可能性について | ドクセル
                                                                • GPT-4oを使って2Dの図面から3DのCADモデルを作る

                                                                  はじめに 株式会社ファースト・オートメーションCTOの田中(しろくま)です! 先日、 OpenAIからGPT-4oがリリース されました。 いろいろGPT-4oに関して調べていると、スピードが速くなっていたり、音声も直接扱えてマルチモーダル化が進んでいたりするようなのですが、画像に関して GPT-4-turboに比べ、認識やOCRの精度が向上している ようです。 製造業という観点からすると、これは 設計図面などに活かせるようになるのでは? と思いました。 機械部品などの設計図面は以下のように、特定の方向から部品を2次元上に落とし込んだ形で書かれるのですが、部品本体を描いている図以外に、寸法や名称といった文字も含まれた画像になっています。 このような 図と文字の複合データにおいて、GPT-4oの進化は有効なのではないか と考えました。 ※画像元URL: http://cad.wp.xdoma

                                                                    GPT-4oを使って2Dの図面から3DのCADモデルを作る
                                                                  • M1MacでOllamaを試したら爆速で驚いた

                                                                    はじめに いつもNVIDIAが載っているWindowsで楽しくLLMを動かしたり生成AIライフを楽しんでいますが、今回はMacOSでOllamaを入れてLlama3を動かしてみました。 スペック: Apple M1 Pro(16 GB) 少し前だとCUDAのないMacでは推論は難しい感じだったと思いますが、今ではOllamaのおかげでMacでもLLMが動くと口コミを見かけるようになりました。 ずっと気になっていたのでついに私のM1 Macでも動くかどうかやってみました! 結論、爆速で推論できていたのでとても驚きました。OSS開発に感謝です! Ollamaとは OllamaとはローカルでLLMを動かすことができるアプリケーションです。 以下からダウンロードできます。 MacOSとLinuxで使うことができます。Windowsもプレビュー版があるみたいです。 #いざ推論 ダウロードができたらシ

                                                                      M1MacでOllamaを試したら爆速で驚いた
                                                                    • 【AWS SageMaker】SageMaker Ground Truthで手持ちの画像をラベリングしてみた - Qiita

                                                                      背景 AWS SageMakerについて勉強していたところ、SageMaker Ground Truthは画像にラベリングを行うものとあったので、実際に触ってみました。 試した事(概要) 漫画家の矢吹健太郎先生の作品である「ToLoveる-ダークネス-」のヒロインキャラクター画像に対して、キャラクター名をラベリングしてみました。 例えば、 これは「ヤミ」のラベルを付けて、 これは「モモ」のラベルを付けてみる形です。 試した事(詳細) 1. S3にラベリングを行いたい画像をアップロード 今回は12枚の画像(pngファイル)をアップロードしました。 2. SageMaker Ground Truthにて、ラベリングジョブを作成 どこに保存されている画像に、どのようなラベリングを行うのか、作業者は誰か、等の設定をしたジョブを作成します。 まずは、マネジメントコンソールのSageMaker画面の左

                                                                        【AWS SageMaker】SageMaker Ground Truthで手持ちの画像をラベリングしてみた - Qiita
                                                                      • 【2024年版】WSL2+Ubuntu24.04+Docker+GPUでつくる機械学習環境

                                                                        はじめに WSL2(Windows Subsystem for Linux 2)は、Microsoft Windows上でLinuxカーネルを直接実行できるようにする機能です。 この記事ではWSL2環境にDockerを導入しGPUを用いた機械学習環境を構築する手順を紹介します。 構築イメージは以下の図の通りです。NvidiaGPUを搭載したマシンにWSL2環境を構築します。Dockerを用いてコンテナを用意し、CUDAは各コンテナ内のCUDA Toolkitを用いて利用します。 今回開発するPCのスペックは以下の通りです。 Windows 11 Windows version: 22H2 GPU:NVIDIA Geforce RTX 3060 12GB 設定 1. WSL2を有効化 デフォルトではWSL2環境が無効化されている可能性があるので、始めに有効化しておきましょう。 「コントロール

                                                                          【2024年版】WSL2+Ubuntu24.04+Docker+GPUでつくる機械学習環境
                                                                        • How LotteON built a personalized recommendation system using Amazon SageMaker and MLOps | Amazon Web Services

                                                                          AWS Machine Learning Blog How LotteON built a personalized recommendation system using Amazon SageMaker and MLOps This post is co-written with HyeKyung Yang, Jieun Lim, and SeungBum Shim from LotteON. LotteON aims to be a platform that not only sells products, but also provides a personalized recommendation experience tailored to your preferred lifestyle. LotteON operates various specialty stores,

                                                                            How LotteON built a personalized recommendation system using Amazon SageMaker and MLOps | Amazon Web Services
                                                                          • ニューラルかな漢字変換エンジン「Zenzai」をazooKey on macOSに搭載します

                                                                            こんにちは。iOSの日本語入力アプリである「azooKey」を開発しているMiwaです。 azooKeyは最近macOS版の開発が進んでいます。このazooKey on macOSに、完全にローカルで動作するニューラルかな漢字変換エンジンである「Zenzai」を開発し、搭載します。この記事ではZenzaiの技術を解説します。 Zenzaiを搭載したazooKey on macOSは現在アルファ版としてリリースしています。macOSをご利用の方はぜひ入れて試してみてください! Zenzaiの概要 日本語入力に欠かせないかな漢字変換ですが、その歴史は長く、50年にも及びます。この間様々なアルゴリズムが提案され利用されてきましたが、近年の技術開発はやや落ち着きつつあります。オープンソースのかな漢字変換ソフトウェアで今でも広く利用されているものは数えるほどしかありません。 クローズドソースのシステ

                                                                              ニューラルかな漢字変換エンジン「Zenzai」をazooKey on macOSに搭載します
                                                                            • Amazon Kendra の Custom Document Enrichment と Amazon Bedrock で画像検索に対応する - Taste of Tech Topics

                                                                              こんにちは、機械学習チーム YAMALEX の駿です。 YAMALEX は Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。 (詳細はリンク先をご覧ください。) 皆さんは、「前のプレゼン資料に使った、犬の画像はどこいったかな?あの画像が欲しいので、探してくれないかな?」と無茶振りされたことはありませんか? そんな時でも、「舌を出して喜んでいる」と検索すれば画像がヒットし、こんな無茶振りにも応えることができるシステムを Amazon Kendra (以下、 Kendra )で構築しました。 舌を出して喜んでいる犬 ちょっと待って Kendra は機械学習を利用した検索サービスで、ウェブサイトや S3 に保存したドキュメントなどをもとに、適切な検索結果を返します。 しかし、 Kendra で検索できるのはテキストだけで、画像を S

                                                                                Amazon Kendra の Custom Document Enrichment と Amazon Bedrock で画像検索に対応する - Taste of Tech Topics
                                                                              • チェビシェフ距離(Chebyshev distance)/L∞ノルムとは?

                                                                                チェビシェフ距離(Chebyshev distance)/L∞ノルムとは?:AI・機械学習の用語辞典 用語「チェビシェフ距離」について説明。2点間の距離を計測する方法の一つで、2つの点座標(n次元)で「次元ごとの距離(=各成分の差)の絶対値」のうち「最大値」を距離として採用する計算方法を意味する。 連載目次 用語解説 数学/統計学/機械学習におけるチェビシェフ距離(Chebyshev distance、Chessboard distance:チェス盤距離)とは、2点間の距離を計測する際に、n次元ベクトルで表現されるそれらの点座標の次元ごとに距離(=成分間の差)の絶対値を求めて、その中の最大値を距離とする方法である。 チェビシェフ距離は、n次元のチェス盤の上をキング(駒)が移動する手数(=ステップ数)によく例えられる(図1)。キングは斜めにも真っ直ぐにも動けるため、例えば左下にあるx地点から

                                                                                  チェビシェフ距離(Chebyshev distance)/L∞ノルムとは?
                                                                                • GNN の最新動向 (ICLR 2024) - ジョイジョイジョイ

                                                                                  拙著『グラフニューラルネットワーク』が重版して第 3 刷となりました。皆さまありがとうございます! 拡散モデルと最適輸送でもやりましたが、漫画家さんやイラストレーターさんが重版したときに重版感謝の描き下ろしイラストを投稿しているのを見ていいなと思ったので、僕も専門書が重版したときに重版感謝の書き下ろし専門記事を投稿します。 本稿では、ICLR 2024(5/7 - 5/11 @ウィーン)で発表されたグラフニューラルネットワーク (GNN) 関連の研究動向を紹介します。 ICLR 2024 で発表された GNN 関連の論文は全部で 170 本です。凄まじい量ですね。ICLR 2024 では全て合わせて 2296 本の論文が採択されたので、7.4 パーセントが GNN 関連ということになります。この分量からも、GNN が活気ある研究対象であることが伺えます。 以下では、代表的なトピックについて

                                                                                    GNN の最新動向 (ICLR 2024) - ジョイジョイジョイ