[B! 評価] sh19910711のブックマーク

sh19910711 id:sh19910711

評価に関するsh19910711のブックマーク (5)

LLM評価ツールpromptfooとアサーションの解説 - Algomatic Tech Blog
こんにちは、Algomatic LLM STUDIO インターンのなべ（@_h0jicha）です。前回の記事では、LLM の日本語性能を評価するための様々なベンチマークを紹介しました。 tech.algomatic.jp しかし、こうしたベンチマークには以下のような課題が存在します。ベンチマークの導入に負担がかかってしまうため、もっと気軽に評価したい既存のベンチマークによる評価が難しく独自実装が必要なとき、あらかじめ基本的な機能が搭載されている評価ツールを利用したい LLM の評価とともに、LLM を使用する際のプロンプトの評価も同時に行いたいそこで本記事では、LLM の出力品質を評価する際に活用できる promptfoo について紹介します。目次 promptfoo とは？導入方法環境構築実験設定評価実行アサーションについてアサーションタイプの概要決定的評価指
sh19910711 2024/05/27
"ベンチマークの導入: LLM の評価とともに、LLM を使用する際のプロンプトの評価も同時に行いたい / promptfoo: ソフトウェアのテスト設計に影響 + 出力に対してテスト項目を指定することで、LLM の応答品質を定量的に評価"

*program

prompt

testing

評価
リンク
推しのプロンプト実験管理ツール「promptfoo」を解説｜にょす
最近、推したいプロンプト実験管理方法を見つけたので、そちらの紹介記事になります！これを見つけてから、めちゃ楽になりました！前提「ん？実験管理？」と思う方もいるかもなので、軽く背景のところから共有したいのですが、システムに組み込むプロンプト作りは、すごい難易度が高いなーと思ってます。何が大変かというと、求められる品質が高いからです！出力形式が期待通りでないとシステムエラーになってしまう。10回中9回成功しても、それはエラー率10%なので安定とは言えない。様々な要件がある。出力形式や文字数・レイテンシ・コストなど、ルールベースで判定できるものもあれば「ちゃんと指示に従っているか？」「魅力的なアウトプットか？」など定性的なものもある。これらの要件を満たすプロンプトを作る必要があるということで、上記の「多様的な要件を満たす出力」と「何回やっても期待する出力が出る安定性」を兼ね備えたプロン
sh19910711 2024/05/21
"promptfoo: 複数のプロンプト（あるいはLLM）を表形式で比較 + 多様な評価方法を実装いらずで利用できる / prompfooconfig.yaml というファイルで様々な設定 + プロンプトと利用するLLM（プロバイダー）、テストケースが記載"

*program

prompt

評価
リンク
LLMの事前評価のシステムアーキテクチャを紹介します
この記事の概要こんにちは。PharmaX でエンジニアをしている諸岡（@hakoten）です。この記事では、「YOJO事業部のプロダクト内で使用されているLLM（Large Language Models）の機能の性能を事前評価するための仕組み」について、システムのアーキテクチャをご紹介しています。 LLMを用いて実現している具体的な機能については詳しく触れていませんので、その点ご理解ください。 LLMにおける事前評価とは何かまず、プロダクトにおけるLLM（Large Language Models）機能の評価がどのようなものかについて簡単に説明します。 LLMの特徴の一つとして、「出力が確率的である（毎回異なる）」という点があります。そのため、LLMで生成された文章や出力に対しては、出力結果の良し悪しを定量的に計測する方法が必要になります。弊社における定量的な計測は、大きく次の2
sh19910711 2024/05/09
"LLMで生成された文章や出力に対しては、出力結果の良し悪しを定量的に計測する方法が必要 / CSVにはPromptLayerのrequest_idとバージョンをスコアとセット + Cloud Storageに保存 + Data Transfer Serviceを用いて、定期的にBigQueryに同期"

*program

prompt

pattern

評価

--

*data

gcloud

dwh
リンク
Adversarial Validationを用いた特徴量選択 - u++の備忘録
先日公開した「IEEE-CIS Fraud Detection」コンペの解法*1の中で、Adversarial Validationの考え方を用いた特徴量選択について何回か質問がありました。本記事では、Adversarial Validationの考え方を用いた特徴量選択を解説します。 Adversarial Validationとはいつ使う？解決策 Adversarial Validationを用いた特徴量選択 CPMPさんの「Microsoft Malware Prediction」の解法具体的なやり方おわりに Adversarial Validationとは以前に書いた自分の記事*2から抜粋します。いつ使う？ TrainデータとTestデータの分布が異なる場合 → Trainデータから適切にValidationデータを作成するのが難しい → Kaggleの場合、Loca
sh19910711 2024/04/25
"TrainデータとTestデータの分布が異なる + Kaggleの場合、LocalCVとLBのスコアが一致しない / Adversarial Validation: 「TrainデータかTestデータかを判定する分類器」を作る + 似ている順にソート / 応用方法の一つとして特徴量選択" 2019

*algorithm

機械学習

評価
リンク
RecBole を用いてクックパッドマートのデータに対する50以上のレコメンドモデルの実験をしてみた - クックパッド開発者ブログ
こんにちは。研究開発部の深澤(@fufufukakaka)です。本記事では最近面白いなと思って watch しているレコメンド系のプロジェクト RecBole を紹介いたします。また、クックパッドが展開している事業の一つであるクックパッドマートのデータを使って数多くのレコメンドモデルを試す実験も行いました。その結果も合わせて紹介します。 TL;DR: レコメンドモデルは作者実装に安定性がなく、またモデルをどのように評価したかも基準がバラバラで、再現性が難しいとされている(from RecSys 2019 Best Paper) 再現性に取り組むプロジェクトとして 2020年12月に始まった RecBole がある。 RecBole を利用することでなんと 50個以上のレコメンドモデルを大体１コマンドで試せるクックパッドマートでユーザに対してアイテムをレコメンドするシチュエーションを想定
sh19910711 2021/11/06
"RecBole: 中国人民大学・北京大学の研究室が共同で始めたプロジェクト / 再現性の難しいレコメンドモデルを統一したインタフェースで実装 / 短い時間で網羅的に実験を行うことができる"

*algorithm

search

評価
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx