[B! search] sh19910711のブックマーク

Quickstart を利用して Snowflake における RAG ベースの LLM アシスタントの構築手順を確認してみる #SnowflakeDB | DevelopersIO

Quickstart を利用して Snowflake における RAG ベースの LLM アシスタントの構築手順を確認してみる #SnowflakeDB はじめに 2024年5月のリリースで、一部のリージョンではありますが、Snowflake 上でベクトルデータの管理と操作が可能な以下の機能が一般提供になりました。 VECTOR データ型 Snowflake Cortex LLM ベース関数 EMBED_TEXT_768 Vector similarity functions VECTOR_INNER_PRODUCT VECTOR_L2_DISTANCE VECTOR_COSINE_SIMILARITY この機能により Snowflake 上で RAG（Retrieval-Augmented Generation）アプローチを取る AI アプリケーションの構築を行えるようになります。また

sh19910711 2024/06/11

"Snowflake 上でベクトルデータの管理と操作 / VECTOR データ型 + similarity functions / EMBED_TEXT_768: Snowflake Cortex LLM ベース関数 / Streamlit in Snowflake を使用することで、Snowflake 内でデータを外部に出すことなく RAG"

リンク

Python x SQLite3 x sqlite-vec で近似近傍探索をやろうと思ったが...

2024-06-06 全文検索エンジン Bleve で日本語形態素解析をおこなうで bleze x kagome が気になってやろうとしたが、どうせなら一捻りしたいなと思い、Goの全文検索ライブラリである blevesearch の最新リリースを眺めていると https://github.com/blevesearch/bleve/releases/tag/v2.4.0 v0.2.4 からvector serach が可能に backend は faiss。テンションが上ったので、最初は、kagome x blevesearch x ANN の構成で vector indexing, query のベクトル化もGo 言語かつ検索サーバーを運用しないで完結する構成による近似近傍探索をやろうと思っていた。。。が、文章をベクトル化するお手軽な方法(Python だとが Go で見つけられなか

sh19910711 2024/06/10

"sqlite-vss: 問題を抱えていたらしく、それを解決するために同じ開発者によって後継が作られ (sqlite-vec) / blevesearch: Goの全文検索ライブラリ + v0.2.4 からvector serach が可能に backend は faiss"

リンク

Azure Cosmos DB for NoSQL でサポートされた Vector Search (Preview) を試した - しばやん雑記

Build 2024 で発表された Cosmos DB のアップデートの中でも注目度の高い Vector Search (Preview) について、実際に試して深堀しておきました。これまで Azure で Vector Search を実行するにはコストが高い割に SLA の低い AI Search を使う必要がありましたが、Cosmos DB for NoSQL が Vector Search に対応したことで情勢が大きく変わろうとしています。基本となるデータストアである Cosmos DB が Vector Search に対応したことで、追加のインデックスとしての AI Search を使う必要がなくなるため、Vector Search の実行結果として Cosmos DB に保存されている全てのデータを取得できるというのは大きなメリットです。もちろん Cosmos DB の全て

sh19910711 2024/06/10

"これまで Azure で Vector Search を実行するにはコストが高い割に SLA の低い AI Search を使う必要があり / パーティションキーの指定は Vector Search でも重要となっていて、クエリコストを下げるのに役立つ"

リンク

社内ナレッジ活用のためのRAG基盤のPoCを行いました - every Tech Blog

この記事は every Tech Blog Advent Calendar 2024(夏) 10 日目の記事です。はじめにこんにちは。DELISH KITCHEN 開発部の村上です。エブリーでは4月に第4回挑戦weekを実施しました。挑戦week5日間の中で私たちのチームはナレッジ活用のために社内ChatAppに社内ドキュメントを参照できる仕組みづくりに取り組みを行いました。今回はその中でRAG基盤のPoCを行ったので、その取り組みについて紹介します。挑戦weekについてはこれらの記事で初回の取り組みの様子やCTOの挑戦weekに対する考えが知れるのでぜひ読んでみてください。 https://everything.every.tv/20230428 tech.every.tv PoCの背景まずは、なぜ社内ナレッジ活用のためのRAG基盤のPoCを行うに至ったか、その背景について説明

sh19910711 2024/06/10

"社内で溜まったナレッジに基づいて回答できる機能をChatAppに組み込む / Knowledge baseはデフォルトでOpenSearch Serverlessを使用 + データ量に関わらず、月200ドル以上がコストとしてかかって ~ "

リンク

LightFMで前処理・学習から予測・評価・潜在表現の取得までやってみる - 宇宙日本世田谷機械学習

ロゴがかっこいい、、、概要こちらのLightFMを実際にMovieLensのデータを使って一通り動かしてみます。 github.com 元になっている論文はこちらです。 arxiv.org 細かい論文の内容に関しては以下の記事でまとめています。 nnkkmto.hatena blog.com また、動かすことが目的であるため精度に関してはこの記事では考えません。概要論文概要流れ使用するデータセット使用したスクリプト lightfm.data.Datasetを用いた前処理概要 dataframeからの変換 encoderの生成 datasetのビルド mappingの取得連続値を入力とする場合学習潜在表現の取得各種featureの潜在表現 user, it emの潜在表現予測既存user, it emに対する予測新規user, it emに対する予測 predict_r

sh19910711 2024/06/10

"LightFM: 手軽にFactorization Machines系モデルを使える + user, itemのメタデータに関してもMatrix Factorizationのように類似度を元にした潜在表現の学習 + cold-start問題に対処" 2020

リンク

Recommender Systems: The Textbookの要点まとめ(随時更新) – かものはしの分析ブログ

都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーターほしいものリストはじめにレコメンド関連の書籍を探していた際に、 Recommender Systems: The Textbook (English Edition)の無料公開されているPDFを見つけたので、それについて読んでは追記するスタイルでメモを残していこうと思います。（すごく長くなる予感）これまで読んできたレコメンド関連の本の中では、説明が丁寧だったり事例が豊富に思います。数式はあまり出てこないですが、言葉でちゃんと説明しようとしているのが感じられます。『AIアルゴリズム

sh19910711 2024/06/10

"レコメンド関連の本の中では、説明が丁寧だったり事例が豊富 / 『AIアルゴリズムマーケティング』のレコメンドの章もわかりやすく幅広いトピックが扱われていますが、それに匹敵する本" 2021

リンク

[アップデート]Amazon Personalizeで新たなレシピUser-Personalization-v2とPersonalized-Ranking-v2が使えるようになりました | DevelopersIO

実際に使ってみたこれらのv2のレシピを実際に利用してみます。以下のサイトより映画の評価データ（ml-latest.zip）をダウンロードして利用します。このデータを加工して、「特定のユーザーがある映画をある時間に見た」というリストとIDに紐づいた映画リストを作成し、次に見る映画をPersonalizeを使っておすすめするというシナリオです。レコード数を絞って、ユーザー10,000件に紐づく1,000,000レコードのデータを利用します。 MovieLens | GroupLens 「特定のユーザーがある映画をある時間に見た」というリストは以下のような形式でinteractions.csvという名称でS3バケット上に保存します。 USER_ID,IT EM_ID,TIMESTAMP 110561,47629,1311928128 110561,48600,1312008463 110561

sh19910711 2024/06/10

"Amazon Personalize: 実現したいレコメンデーションに合わせたレシピを使ってモデルを作成 / 最大500万件のアイテム、最大30億件のユーザー・アイテムのインタラクションデータを使った学習が可能"

リンク

[IR Reading 2022春論文紹介] Personalized Transfer of User Preferences for Cross-domain Recommendation (WSDM 2022) /IR-Reading-2022-spring

sh19910711 2024/06/09

"CDを購入したことがないユーザーに対して映画のインタラクションを使ってCDを推薦 / 推薦タスク指向のメタ学習 / ブリッジ: ソースドメインからターゲットドメインへユーザーの興味を伝達" doi:10.1145/3488560.3498392 2022

リンク

Elasticsearchでのページング。from, search_after, scroll APIどれを使えばいい？

やったぜ！完全勝利！ロジックもシンプルでわかりやすい！しかし、Twitterの更新頻度は半端なく1ページ目を読んでいる間に新たなツイートが生まれ、2ページ目をリクエストしたらこうなりました。メリット何よりシンプルでわかりやすい Googleと同じ見た目のページングがやりやすくわかりやすい更新頻度が多くないならこれがよさそう一概に駄目とは言えません。例えばランキングであればこの動きが良いと思います。10ごとのページングでランキング20以内に入ってくるか見るようなケースです。ソート条件の変更に強い(後述) 前回のリクエストのことを覚えていなくていい(多くのウェブアプリはステートレスで前回のことを覚えるのはひと手間必要) デメリットページングの途中で前ページ部分に追加、削除が入るとずれる search_after によるページング size, from には上記のような問題があ

sh19910711 2024/06/08

"ページングなんて簡単でしょ。そう考えていた時期がオレにもありました / ページングの途中で前ページ部分に追加、削除が入るとずれる + 前回の続きから欲しい / ちょっと頑張って search_after を使うのもよい" 2020

リンク

OSS 活動を通して貢献できた Meilisearch を紹介したい - Qiita

この記事はスタンバイ Advent Calendar 2023 の11日目の記事です。こんにちは。求人検索サービスを提供する株式会社スタンバイでプロダクト開発部長をしている大須賀です。普段の仕事は開発組織運営などのマネジメントが中心です。一般的にマネージャは、業務として直接的に開発に携わることが少なくなり、Individual Contributor (IC) としてスペシャリストを目指すエンジニアから敬遠されがちです。確かにその通りかもしれませんが、幸運なことに私の場合、仕事をではマネージャとして、OSS 活動ではエンジニアとして、今年一年、充実したキャリアを積むことができたと思っています。そこで今回は、会社でマネージャをしながらも、OSS の活動でエンジニアとして貢献できた OSS 全文検索サーバー Meilisearch を紹介したいと思います。私が Meilisearch

sh19910711 2024/06/08

"開発している形態素解析器 Lindera が Meilisearch の日本語 Segmenter として組み込まれたことがきっかけ / その頃から形態素解析器のパフォーマンス改善や Meilisearch の日本語サポート周辺の課題解決を積極的に手伝うように" 2023

リンク

ランキングアルゴリズムにおける効率的なオンライン評価手法 ~インターリービング (Interleaving) の利用~

2019/2/19 の s-dev talks 〜サービス開発勉強会〜「仮説の立て方」(https://s-dev-talks.connpass.com/event/118037/) での発表内容です．ランキングアルゴリズムをリリースする過程でのオンライン評価について概要をお話させていただきました．

sh19910711 2024/06/08

"ABテスト: 有意な差が出るまでに大量のサンプル数 (impression数, PV数)が必要 / Interleaving: 2つのランキングから交互にアイテムを選択 + 同一のユーザー郡に提示して性能を評価 Chapelle'12" 2019

リンク

Neo4jでベクトル検索する方法 - Qiita

目次 0_前置き 1_ベクトルインデックスの作成 2_ノードの作成 3_ベクトル検索の実行 4_まとめ 0_前置き Neo4jでベクトル検索ができるようになりました。 Neo4jは言わずと知れたグラフデータベースです。ノードとリレーションシップにより、ナレッジグラフを作成することができます。 ChatGPTの登場で、ベクトルデータを効率的に保存するベクトルデータベースの利用が話題になりました。ベクトルデータベースを使えば、ベクトルの類似度等を用いて値を検索することができます。そしてそんな中、2023年8月頃に、Neo4jもベクトル検索に対応しました。 Neo4jでベクトル検索を利用する Neo4jでは、ノードのプロパティにベクトルの値を格納することで、データベース内の特定のラベルに対して、ベクトル検索を行うことができます。公式の記事に記されたコードでは、productsラベルを持つノー

sh19910711 2024/06/08

"Neo4j: ノードのプロパティにベクトルの値を格納することで、データベース内の特定のラベルに対して、ベクトル検索 / CALL db.index.vector.createNodeIndex / CALL db.index.vector.queryNodes"

リンク

時系列基盤モデルによる株価データ(多変量)の類似度算出と検索｜はち

1. はじめに今回は時系列基盤モデルを使って、多変量の時系列データのEmbeddingを作成し、そこから時系列データ同士の類似度を算出するというのを試していきたいと思います。元々、時系列データの類似度を算出する方法としては以下の２つがあったと思います。（時系列を専門にやってきたわけではないので間違っていたらご指摘お願いします。）動的時間伸縮法（DTW: Dynamic Time Warping）を利用して、単変量毎の類似度を算出。各次元の類似度を統合する。 LSTMなどのNNモデルを利用しかし、前者は各次元間の関係性を考慮できていない、後者は学習が必要、という点で使いづらさがあったと思います。時系列基盤モデルによって、学習なしに多変量時系列データのEmbedding化が可能になり、(言語)Embeddingモデルを使った時のように多変量時系列データの類似度が算出できるようになりまし

sh19910711 2024/06/07

"多変量の時系列データのEmbeddingを作成し、そこから時系列データ同士の類似度を算出する + 価格をそのまま扱ってきちんと類似度を測れる / DTW: 各次元間の関係性を考慮できていない / Moment: AutonLabによって公開"

リンク

相関係数と順位相関係数について (2): 順位相関係数 - シリコンの谷のゾンビ

昨日の記事からのつづき．今日は本題の順位相関係数について書く．元々は2つのリストの類似度を測る指標としての文脈で考えていたわけだけれど，実は2つの変数が正規分布しなかったり，離散値を取る時などに相関係数を測るノンパラメトリックな方法でもあることがわかった (昨日の話)． 2つの順位相関係数について解説した後，ちょっと気になること，異なる集合の順序リストの相関係数を測る方法などについて書く．順位相関係数情報検索や推薦などにおいて，2つの順序リストが与えられた場合に，それらがどれほど似ているかという類似性評価のために順位相関係数を用いる．ただ，前回説明したピアソン相関係数は確率変数が正規分布している仮定を置いているので，確率変数が明らかに正規分布していない場合の計算に利用できる．順位相関係数はケンドールの順位相関係数と，スピアマンの順位相関係数というものがある．注意するべき点は，

sh19910711 2024/06/07

"2つの順序リストが与えられた場合に，それらがどれほど似ているか / スピアマンは順位に対してピアソンの相関係数を計算しているので，なじみ深いという意味ではスピアマンを使う人が多い" 2011

リンク

PostgreSQL(pgvector) のベクトル検索による全自動PDF検索 : Blob Storage にアップロードしPDFをテキストに変換 - Qiita

PostgreSQL(pgvector) のベクトル検索による全自動PDF検索 : Blob Storage にアップロードしPDFをテキストに変換JavaPostgreSQLAdaOpenAI embedding 1. はじめに先日、Azure OpenAI Embedding モデルを利用し最も関連性の高いドキュメントを見つける方法について説明しました。これを利用する事で、最も関連性の高いドキュメントを見つける事ができます。この記事では、この機能を利用し PDF ファイルを Azure Blob Storage にアップロードすると、自動的に PDF ファイルをテキストに変換し、Azure OpenAI Embedding モデルを利用して、ベクトル検索を行う方法について説明します。このサービスを利用すると、社内ドキュメントも、各種論文も PDF ファイルであれば何でも、Azur

sh19910711 2024/06/07

"Azure Functions: デフォルトでは 5〜30 分間の実行時間の制限 + 無期限に設定できるのは Premium プランと専用プランだけ + 従量課金プランでは、無制限に設定することはできない" 2023

リンク

ナレッジグラフでスターウォーズファンに映画を推薦する｜kiha

人間の持つ知識を形式的に表現する、知識表現の研究は古くからなされてきており、例えば一つの形としてWebシステムではよくつかわれるリレーショナルモデルなどがある。近年よく着目されているのがナレッジグラフであり、先端的な研究を超えて、実産業での活用事例（例えばGoogleのナレッジグラフサーチ）も多くみられるようになった。本記事では、noteのレコメンドシステムも手がけている筆者がWikidataのエンドポイントを利用して、ナレッジグラフを探索し、スターウォーズファンにおすすめできそうな映画をリストアップしてみる。最終的にこんな感じのリストが得られる。スターウォーズファンのみなさまには、興味が惹かれるタイトルがあっただろうか？ナイトミュージアム2 インディ・ジョーンズ／クリスタル・スカルの王国地獄の黙示録チャーリーズ・エンジェルフルスロットルブレードランナー 2049 ジャッジ・ド

sh19910711 2024/06/07

"RDF: リレーショナルモデルとは異なり、主語・述語・目的語からなる / RDFにおいては、主語と目的語はURLのように唯一固有のIDをもち / SPARQLというSQLのようなSyntaxの問い合わせ言語がW3Cで定義"

リンク

BigQueryのベクトル検索で文書検索APIを作る

BigQueryでベクトル検索を利用できるようになっており学習用に使ってみました。 2024年6月6日現在はプレビュー版です。構成図・Cloud Functions GCSにpdfを格納するとエンべディングデータを作成しBig Queryにインサートする。・Cloud Run 質問するとBigQueryにベクトル検索で文書検索し、検索情報を基に回答するAPI。使用したデータ Wikipediaをpdf化したデータを使用しました。リンゴオレンジ Wikipediaの「ツール」→「pdf形式でダウンロード」からダウンロードしています。ソースコードテーブルスキーマベクトル検索するVector Search関数はArray<float>型に対応しています。 Embeddingデータの作成 Cloud Functionの処理です。 pdfを読み込み pdfの文章をEmbedding

sh19910711 2024/06/07

"質問するとBigQueryにベクトル検索で文書検索し、検索情報を基に回答する / pdfの文章をEmbedding + BigQueryにインサート + BigQueryから質問に近いEmbeddingデータの文書を抽出 / LangchainのBigQueryVectorSearch"

リンク

Search Engineering Tech Talk 2024 Springに参加した & ちょっとだけ運営お手伝い - ときどき起きる

こんにちは、 pakioですこの度5/31にLegalOnさんのオフィスで開催された Search Engineering Tech Talk 2024 Spring (検索技術勉強会)に参加、縁あって初めて勉強会の運営側に携わらせていただいたのでその記録です。 search-tech.connpass.com 検索技術勉強会自体は検索エンジニアとしてキャリアをスタートした2019年から参加しており、前回2023年12月には登壇もさせていただいた勉強会で、個人的に思い入れがある会でした。前回登壇時の記事はこちら => hit-the-sack.hatena blog.com 前回の勉強会後に id:takuya-a さんとお話している中、(自分から猛プッシュした結果)運営にお誘いいただき、今回お手伝いをさせていただく運びとなりました。各セッションの感想 RAG改善からみたクエリ・ドキュ

sh19910711 2024/06/06

"検索エンジニアというポジションはバックエンドなようで機械学習的な要素も絡んでくる、非常にユニークなポジション / そんな分野で日々各社がどのような課題を抱え対処しているのか"

リンク

検索失敗率のモニタリングから改善まで - Search Engineering Tech Talk 2024 Spring

Search Engineering Tech Talk 2024 Spring の LT枠の発表資料です。

sh19910711 2024/06/06

"検索失敗: 「検索する」ということは積極的に探したいものがある + 何も開かずに離脱したのであれば「検索に失敗している」とみなす / 順序: 公開してからの経過日数とPick数をバランスよく考慮"

リンク

ランク学習のListNetをChainerで実装してみた - Qiita

はじめにランク学習 (Learning to Rank) の手法である、ListNetをChainerで実装します！本記事は、Chainer Advent Calendar 2016 7日目です．手法の説明まず、ランク学習については、Advent Calender 5日目でsz_drさんが素晴らしい記事を書いているので、是非そちらをご覧ください。時間のない方のために一言で言うと、「1セット（クエリ）の中に複数データがあり、それらに相対的な尺度が与えられたときに、教師付きの条件で順序付けを学習する」問題です。ラベルがクエリ間で絶対的な数値を取らないことが普通の教師付き学習との差になります。 RankNetとの違いニューラルネット+ランク学習で多くのの方が真っ先に思い浮かべるRankNetだと思います。実は、ランク学習の定式化方法は複数あり、RankNetはpairwise、Lis

sh19910711 2024/06/06

"ランク学習の定式化方法は複数あり、RankNetはpairwise、ListNetはlistwiseな手法 / PPD: データの各並び順 (permutation) の起こりやすさを確率分布にしたもの + データごとのスコアから計算" 2016

リンク

はてなブックマーク

タグ

関連タグで絞り込む (102)

searchに関するsh19910711のブックマーク (469)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス