こんにちは。NEO(x) 機械学習エンジニアの宮脇(@catshun_)です。 RAG システムの開発、いざ業務に統合するとなると結構大変ですよね。 構築してみたがユーザ数が伸びず、、なんてことはよくあると思います。 実際こんな記事も話題になりましたね。 本記事では、コラムとして RAG システムの設計で考慮したい点を自戒を込めて記述したいと思います。 誤っている記述等もあると思いますが、本記事を読んだ方の議論のネタになってくれれば幸いです。 また Retrieval-based LM の技術的な話は、以下で触れておりますので併せてご覧ください。 RAG とは RAG (Retrieval-Augmented Generation) とは、社内文書・長期記憶に該当する対話履歴・API 仕様書などの 外部知識資源 を、言語モデルが扱えるよう入力系列に挿入する手法です。もともと Lewis+'
A collection of 2,500 leaked internal documents from Google filled with details about data the company collects is authentic, the company confirmed today. Until now, Google had refused to comment on the materials. The documents in question detail data that Google is keeping track of, some of which may be used in its closely guarded search ranking algorithm. The documents offer an unprecedented — t
匿名化されたランドと情報源との通話画面のキャプチャ [The Verge](https://www.theverge.com/2024/5/29/24167407/google-search-algorithm-documents-leak-confirmation)が、[Sparktoro](https://sparktoro.com/blog/an-anonymous-source-shared-thousands-of-leaked-google-search-api-documents-with-me-everyone-in-seo-should-see-them/)や[iPullRank](https://ipullrank.com/google-algo-leak)に掲載されたGoogle の検索部門内部から大量に漏洩した API ドキュメントに関する内容が掲載され、その件に関
Googleの検索ランキングアルゴリズムに関する2500ページ超の内部文書「Google API Content Warehouse」がリークされました。この内部文書についてコメントを拒否していたGoogleですが、ついにこれが本物であることを認めました。 Google confirms the leaked Search documents are real - The Verge https://www.theverge.com/2024/5/29/24167407/google-search-algorithm-documents-leak-confirmation 世界最大級の検索エンジンであるGoogle検索を運用するGoogleの、検索アルゴリズムに関する2500ページ超の内部文書「Google API Content Warehouse」がリークされました。この内部文書により
Mic King @iPullRank Ok, let's get this party started! A couple weeks ago I said I was publishing the most important thing I ever wrote. I was wrong. Documentation related to the Google Search algorithm leaked and I spent the weekend tearing it apart. ipullrank.com/google-algo-le… ✌🏾 2024-05-28 11:10:19 数週間前、私はこれまで書いた中で最も重要なものを発表すると言いました。それは間違いだった。 Google検索のアルゴリズムに関するドキュメントが漏洩したため、私は週末をかけてそれを徹底的に調
空気清浄機のテストやレビューを行う独立系メディアのHouseFreshが、「Google検索の検索結果ページから、HouseFreshが事実上消えてしまった」と報告しています。 HouseFresh disappeared from Google Search results. Now what? https://housefresh.com/how-google-decimated-housefresh/ 2024年2月、HouseFreshは「Google検索の検索結果上位に表示される有名メディアの商品レビュー記事を信用しないように」という警告記事を公開しました。この記事が公開されてから10週間以上が経過してからも、ソーシャルメディア経由で多くの反響メッセージが届くそうです。 問題の記事を公開してから数日後、HouseFreshはデジタルメディア・Dotdash Meredithの元従
On Sunday, May 5th, I received an email from a person claiming to have access to a massive leak of API documentation from inside Google’s Search division. The email further claimed that these leaked documents were confirmed as authentic by ex-Google employees, and that those ex-employees and others had shared additional, private information about Google’s search operations. Many of their…
Google, if you’re reading this, it’s too late. Ok. Cracks knuckles. Let’s get right to it. Internal documentation for Google Search’s Content Warehouse API has leaked. Google’s internal microservices appear to mirror what Google Cloud Platform offers and the internal version of documentation for the deprecated Document AI Warehouse was accidentally published publicly to a code repository for the c
株式会社ナレッジセンスは、生成AIやRAGを使ったプロダクトを、エンタープライズ向けに開発提供しているスタートアップです。 本記事では、「xRAG」という手法について、ざっくり理解します。「xRAG」とは、RAGシステムでLLMに投げるドキュメント(通常、数千文字ほどですよね。)を、1トークンに圧縮できるのでは?という手法です。 この記事は何 この記事は、RAGをする際にLLMに渡すドキュメントを1トークンまで圧縮できる手法「xRAG」の論文[1]について、日本語で簡単にまとめたものです。 今回も「そもそもRAGとは?」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。 本題 ざっくりサマリー 「xRAG」は、RAGで渡すコンテキストを極限まで圧縮する手法です。北京大学/Microsoftの研究者らによって2024年5月に提案されました。「xRAG」を使うメリッ
こんにちは、シバタアキラです。5月は皆様にとってもイベントの多い月間だと思いますが、私も日韓のAI Expoに出展、各所での講演、そして今週は日本人工知能学会の大会にて論文の発表も控えております。イベント参加は時間も取られますが、生の情報に触れるいい機会でもあり、今回は直近のAI業界の状況について私が学んだことを中心にご共有します。 出口の見えない日本のLLM開発に光? 昨年末MetaとIBMが手を組んでアナウンスされたThe AI Alliance は、「オープンAI開発を推進する」と大義を謳ってLinux Foundationとも手を組み、今月日本でカンファレンス及びディナーがありました。これまであまり話題になってこなかった団体という印象を持っていましたが、ビッグネームなメンバー企業・団体が着実に増えており、かなりモメンタムが増している印象を受けました。 私も東工大の岡崎先生と、NII
udm14.com このサイトのドメイン名にもなっている「&udm=14」とは何かということだが、その前に the disenshittification Konami code というサイト名にも注意する必要がある。 disenshittification とは、ワタシも何度も(その1、その2)取り上げているコリイ・ドクトロウによるオンラインプラットフォームの質低下を指す造語 enshittification(メタクソ化)の対義語である。 そして、Konami code だが、もちろんコナミに由来する言葉で、いわゆる「隠しコマンド」全般を指すフレーズになってるそうな。 つまりは、「メタクソ化に抗う隠しコマンド」、それが「&udm=14」というわけだ。サイトデザインを見れば分かることだが、ここで対象となっているのは Google である。 検索エンジンとしての Google の質低下につい
米Google傘下のYouTubeが提供する音楽配信サービス「YouTube Music」のAndroidアプリに、鼻歌(ハミング)での楽曲検索機能が追加された。米9TO5Googleが5月24日(現地時間)に報じた。筆者のAndroid端末(Pixel 8 Pro)のアプリ(バージョン7.02.51)でも利用可能になっている。 利用するには、アプリの右上にある虫眼鏡(検索)アイコンをタップすると表示される、右上の音の波形のようなアイコンをタップし、表示された画面で歌ったり、楽器を演奏したり、ハミングしたりする。数秒で検索結果が表示される。検索結果の曲をその場で再生することも、プレイリストに登録することも可能だ。 なお、レコーダーアイコンの左隣のマイクのアイコンは、曲名やアーティスト名を声で検索するためのものだ。 鼻歌検索機能は、スマートフォンのGoogle検索では2020年から利用可能だ
アメリカのIT大手グーグルが今月から提供を始めたばかりの生成AIを活用した新たな検索サービスで、誤った情報が表示されたとアメリカのメディアが伝えています。ピザにチーズをくっつけるために接着剤を使うことを勧めるなどの回答が表示され、波紋を呼んでいます。 これはグーグルが5月14日に発表し、アメリカで提供が始まった生成AIを活用した検索サービス「AIオーバービュー」です。 文章で質問を入力すると生成AIが調べて回答をまとめる機能です。 アメリカの有力紙、ニューヨーク・タイムズなどよりますと、検索サービスで「ピザにチーズがくっつかない」と尋ねたところ、「ソースに無害の接着剤を使うこと」を勧めたり、ガソリンでパスタの調理が早くなるかと質問したところ、「早くはならないが、ガソリンによって辛い味付けになる」と回答したということです。 また、実際はキリスト教徒であるアメリカのオバマ元大統領が、イスラム教
[レベル: 中級] ハッシュタグ付き検索を利用できるようになっています。 日本の Google だけの機能と思われます。 #○○ を含む投稿 クエリによっては、検索結果に「#○○ を含む投稿」というブロックが差し込まれます。 モバイル検索にも出てきます。 「もっと見る」をクリック/タップすると、そのクエリのハッシュタグが付いたコンテンツだけに絞り込んだ検索結果になります。 コンテンツは、大きなサムネイル画像とともにタイル状に並んでいます。 「#○○ を含む投稿」ブロックがウェブ検索に出ていなくても、クエリの先頭に「#」を付ければハッシュタグ付きの検索結果を能動的に表示できます。 ハッシュタグが付いたコンテンツを取得 ハッシュタグが付いているコンテンツであれば、動画、ソーシャル、記事を問わず取得してくるようです。 たとえば、次のようなサイトに投稿されたコンテンツがハッシュタグ付き検索結果に出
LIFULL全体の最高技術責任者(CTO)である長沢翼は、2022年11月に公開されたOpenAI社の対話型生成AI「ChatGPT」に「人とシステムのインターフェースが変わるかもしれない」と、時代の大きな変化を予感したという。そして長沢は2023年5月に生成AIに特化した専門チーム「ジェネレーティブAIプロダクト開発室」(現在は「ジェネレーティブAIプロダクト開発U」に名称を変更)を設立。以降、社内の業務効率化やLIFULLの事業に生成AIの活用を推進してきた。 LIFULLにとって既に良き仕事のパートナーとも言えるこの生成AIという技術は、どのように取り入れられ、また事業や業務にどのような変革をもたらしたのか。現在「ジェネレーティブAIプロダクト開発U」を統括するイノベーション開発室の室長も務める長沢に、LIFULLにおける生成AIのあり方を聞いた。 対話型生成AI「ChatGPT」は
Recallは、かつてWindows 10に搭載されていた『タイムライン』の拡張版といった機能。アクティブな画面のスナップショットを数秒ごとに常時取得し、スライダーで遡ったり、Copilotを通じて内容を検索できる機能です。 記録したスナップショットはCopilot によるAI検索が可能。たとえば数日前にWEBで検索して見たページが思い出せないような場合、覚えている要素、たとえば「赤い車」や「白いスニーカー」などと検索すると、撮影されたスナップショットの中から該当するものを見つけてくれます。 単に過去の画像を表示するだけではなく、その時に使用していたアプリを開くこともできるようになるとのことです。 (▲画像:Recall機能のデモ。スライダーで過去に遡って画面を見られる) スナップショットはPCのローカルストレージ内に保存し、デバイス上の暗号化とBitLockerで保護します。特定のユーザ
Google Chromeのアドレスバーは、検索以外にもいろいろとできることがあります。 たとえば、単位換算やGoogle Geminiの起動、メモ帳代わりなどです。 そこで今回は、検索以外でも使える機能8つご紹介します。 今日のワークハック:Chromeのアドレスバーで、仕事の効率を上げる1. 単語をドラッグ&ドロップして検索アドレスバーの有効な使い方のなかでも特に便利なこと、それは実は検索のはじめ方にあります。 たとえば、検索したい文字をネット見つけたとき、アドレスバーにコピペしていませんか? 実は、アドレスバーにドラッグするだけで検索ができます。両手がふさがっているときに重宝します。 2. ChromeのアドレスバーでGeminiに話しかける 以前から存在する機能がいくつもある中で、これは新機能になります。 Gemini には専用のウェブページもありますが、Chromeのアドレスバー
Google 検索は、検索漏れがしばしば発生したので、検索漏れに対しては、「登録しますから、その URL を報告してください」というページが用意されていた。しかし今は、そのページがなくなって、検索漏れの報告の受付をしなくなった。 かわりに、サイトの持主ならば、あらかじめサイトを登録しておくことで、検索漏れを報告する特別なページが使える。ただし、あらかじめサイトを登録しておくことが必要なので、手軽に報告することはできない。 また、いちいち(数分間をかけて)検索漏れを検証する必要があるので、多くのページを次々と報告することもできない。 結果的に、検索漏れのページがたくさん発生したまま、報告を受け付けないので、検索漏れのページがたくさん残っている。検索漏れのページは、昔はほとんどなかったのに、今ではたくさん発生するようになった。そのせいで、ブログを書いたあとで、サイト内検索をしても、Google
本書の使い方 第1講 NDLデジタルコレクションは国会図書館のDXである 第2講 国会図書館にない本を探す法 第3講 リニューアルされたNDL サーチを使ってみる 第4講 デジコレの2022 年末リニューアルをチェック! ファミリーヒストリー編 第5講 デジコレの2022 年末リニューアルをチェック! 官報編 第6講 ネット上で確からしい人物情報を探すワザ 現代人編 第7講 推し活! アイドルを調べる 第8講 小さなお店の歴史を調べる ある模型店を事例とした生活史 第9講 分類記号(NDC)を使って戦前の未知文献を見つける 第10講 予算無限大の理想のコレクションから、現役のレファ本を見つけるワザ 第11講 洋書はCiNii。それって常識? 出たはずの本を見つける 第12講 風俗本(成人向け図書)を調べるには 国会図書館の蔵書を中心に 第13講 「ナウい」言葉が死語になる時 第14講 言葉
こんにちは、機械学習チーム YAMALEX の駿です。 YAMALEX は Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。 (詳細はリンク先をご覧ください。) 皆さんは、「前のプレゼン資料に使った、犬の画像はどこいったかな?あの画像が欲しいので、探してくれないかな?」と無茶振りされたことはありませんか? そんな時でも、「舌を出して喜んでいる」と検索すれば画像がヒットし、こんな無茶振りにも応えることができるシステムを Amazon Kendra (以下、 Kendra )で構築しました。 舌を出して喜んでいる犬 ちょっと待って Kendra は機械学習を利用した検索サービスで、ウェブサイトや S3 に保存したドキュメントなどをもとに、適切な検索結果を返します。 しかし、 Kendra で検索できるのはテキストだけで、画像を S
基調講演に最初に登場したスンダー・ピチャイCEOは、同社の生成AI「Gemini」のこれまでの成長について語った。同氏によると、150万以上の開発者が活用しているという。 生成AI搭載検索エンジン「AI Overview」(旧SGE) 「AI Overview」は、昨年のGoogle I/Oで発表されたGoogle検索の生成AI機能「Search Generative Experience」(SGE)を改称し、改善したもの。 詳細を説明したリズ・リード氏は、「Googleがあなたのためにググってくれるようになる」と語った。 AI Overbiewは「Gemini時代のGoogle検索」であり、リアルタイム情報、ランキングと品質システム、新しいエージェント機能で改善されたという。 マルチステップリーゾニング(多段階推論)で、1つの質問で複数ステップの結果を提示する。 例として、ピラティスにつ
いいな〜と思ったリファレンス、何に保存していますか? 『良質なアウトプットは良質なインプットから』 デザインにおいて、参考となるアイデアを集める作業はほんっっっとうに重要な工程です。 いいリファレンスを集められたらもうほぼ勝ち確と言っても過言ではないでしょう。(多分) そんなに大事な作業にも関わらず、いろんなところのいろんな画像や動画を集めているうちに、「あれどこいったっけ??」「何が良くて保存したんだっけ…」となることはありませんか? 世の中、アイデア散らばりすぎ〜!!!かく言う私もしょっちゅうありました… そう、Eagleに出会うまでは!!!! Eagle〜!!!俺たちの、Eagle〜!!! 「なんでこんなに興奮してるの、落ち着いて??」 「そもそもEagleってなんやねん!」 と言う声が聞こえてきそうですが… 読み終える頃にはあなたもきっと叫び出したくなるはずです。 Eagleって何
アトラシアン、新AIサービス「Atlassian Rovo」発表。GoogleドライブやGitHub、Slack、Teamsなど同社内外のサービスを横断してAIが学習、ユーザーを支援 アトラシアンは、同社製品およびGoogleドライブやGitHubなどサードパーティのサービスを横断してAIが情報を学習し、統合的な検索やチャットによる回答を実現することでユーザーを支援してくれる新しいAIサービス「Atlassian Rovo」を発表しました。 AI breaks down yet another barrier! Today at Team '24 we announced Atlassian Rovo – a new product that unleashes a company’s knowledge so teams can make better decisions faster.
生成AIを使ったサービスを開発してわかったことをメモしておきます。 開発したもの 業種 SaaS 課題 提供サービス内でユーザーがアイディアを考えることが難しかった。様々なデータを人力で集めてくる必要があった 解決策 アイディア起案に繋がりそうなデータを自動で集めてきて提示する。手法はベクトル検索、AIによる要約生成。 その他 チャットUIは作っていない。ユーザーの入力は最初の検索テキスト入力文のみ。 開発前の検証・プロトタイピング 開発する前に生成AIの出力を検証することが必要 生成AIの出力の質はサービスの肝だから 生成AIの出力は事前の予想と違うこともあり早い段階で出力を確認しておかないと後々の仕様変更があったときにキツイから AIに渡すデータの中身を確認しておく 例えばRAGを使って社内ドキュメントやDBを検索する場合、それらのデータの中身を吟味する必要がある 必要なデータと不要な
ジャーナリストのエミリー・チャン氏がGoogleのスンダー・ピチャイCEOに独占インタビューを行い、検索にAIを取り入れているGoogleの思惑や、検索結果に表示されるページの質が悪くなっている件などについて尋ねました。 Google CEO Sundar Pichai and the Future of AI | The Circuit - YouTube Video: Alphabet CEO Sundar Pichai Lays Out Google’s AI Roadmap - Bloomberg https://www.bloomberg.com/news/articles/2024-05-09/google-parent-alphabet-is-said-to-progress-in-talks-with-hubspot 2015年のCEO就任時から「会社はAIファーストである
【はじめに】・自己紹介こんにちは。 今年の1月にワシオ株式会社(以下ワシオ)の代表取締役社長に就任しました、三代目の鷲尾 岳(ワシオ タカシ)と申します。 鷲尾家の次男坊として1991年2月10日に生まれ、小学校5年生までは地元の公立、小6から私立の学校に転校し、中3までは福井県、高校は和歌山県にある姉妹校にて寮生活をしていました。 ここで詳しくは書きませんが、その学校の特徴として、「義務教育は最低限」「校則は生徒が主になって話し合って決める」「1年を通して大半のコマを占める”プロジェクト”という授業で目標を決め、達成に向けて何をするか生徒が決める」「やりたいことは大概やらせてもらえる」などなど、おそらくかなり一般的な学校からかけ離れた環境で多感な時期を過ごしました。 高校を卒業した後、大学で中国語を学んだので、卒業してからは父の伝手を頼って入社後すぐに中国で駐在させてくれる会社さんにご縁
OpenAIがAIを活用した検索サービス、もしくはChatGPTがウェブから情報を入手できるようにする拡張機能の発表を目前に控えていると、複数のメディアが報じました。発表は、Googleの年次カンファレンスであるGoogle I/O 2024が開催される2024年5月14日の前日に行われると予想されています。 OpenAI plans to announce Google search competitor on Monday, sources say | Reuters https://www.reuters.com/technology/openai-plans-announce-google-search-competitor-monday-sources-say-2024-05-09/ Apple to Power iOS 18 AI Features With In-House
こんにちは 先月末、わたしのブログで検索からの流入が急増するというお祭りが初めて発生しました。そして今は、、、、いつもの通りなのですが、祭りのあとはやはり寂しさが漂います。 ブログで検索からの流入が急増 検索される=誰かの役に立つために まとめ ブログで検索からの流入が急増 先月末に楽天の株主優待でのeSIMの記事を2本書いたのですが、その記事に対する検索からの流入が4月末に一時的に急増しました。 わたしと同じ様に楽天の株主優待でSIMを取得した方が、その活用法を求めて4月末にいろいろ調べていたのだと推測します。 こちらはGoogle Search Consoleのクリック数のグラフですが、4月末に急増しているのがわかると思います。 これまで検索からの流入はかなり少なかったのでこの1週間だけがまさにお祭りという感じでした。そして今、検索からの流入がほぼ元に戻りつつあり祭りのあとの寂しさを感
5月7日、Googleは新たなスパムポリシー「サイトの評判の不正使用」の適用を開始しました。 これは以前から問題になっていた、いわゆる「寄生サイト」「ドメイン貸し」と呼ばれるサイトへの対処です。 この記事では、新ポリシー「サイトの評判の不正使用」の概要や現時点でわかっていることについてお届けします。 サイトの評判の不正使用とは 「サイトの評判の不正使用」とは、ホストサイトの一部を借りた第三者が、ホスト側の監視や関与なしにコンテンツを公開する行為です。 ホストサイトへの評判・評価を不正に利用して、順位を上げることを目的としている場合がこれに該当します。 SEO業界では「寄生サイト(Parasite site)」「ドメイン貸し」「サブディレクトリ貸し」などとも呼ばれます。 今回のスパムポリシーの実施については、3月のコアアップデートおよびスパムアップデートの発表時点で、5月5日に施行することが
こんにちは、機械学習チーム YAMALEX の駿です。 YAMALEX は Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。 (詳細はリンク先をご覧ください。) 皆さんは、飼っている猫が寂しそうだから兄弟みたいな犬を連れてきてあげようかな、と思ったことはありませんか? 私は猫も犬も飼ったことがないので何とも言えませんし、なぜ犬かはさておき、マルチモーダル検索を使えばそんな要望にも応えることができます。 茶トラにはレトリーバーがお似合い 概要 マルチモーダル検索 Titan Multimodal Embeddings Pinecone 構成 Titan Multimodal Embeddings でベクトル化する Pinecone で類似画像を検索する できること テキストでの検索 画像での検索 カテゴリを指定した検索 処理時間
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く