タグ

評価に関するsh19910711のブックマーク (5)

  • LLM評価ツールpromptfooとアサーションの解説 - Algomatic Tech Blog

    こんにちは、Algomatic LLM STUDIO インターンのなべ(@_h0jicha)です。 前回の記事では、LLM の日語性能を評価するための様々なベンチマークを紹介しました。 tech.algomatic.jp しかし、こうしたベンチマークには以下のような課題が存在します。 ベンチマークの導入に負担がかかってしまうため、もっと 気軽に評価したい 既存のベンチマークによる評価が難しく独自実装が必要なとき、あらかじめ基的な機能が搭載されている評価ツールを利用したい LLM の評価とともに、LLM を使用する際の プロンプトの評価も同時に行いたい そこで記事では、LLM の出力品質を評価する際に活用できる promptfoo について紹介します。 目次 promptfoo とは? 導入方法 環境構築 実験設定 評価実行 アサーションについて アサーションタイプの概要 決定的評価指

    LLM評価ツールpromptfooとアサーションの解説 - Algomatic Tech Blog
    sh19910711
    sh19910711 2024/05/27
    "ベンチマークの導入: LLM の評価とともに、LLM を使用する際の プロンプトの評価も同時に行いたい / promptfoo: ソフトウェアのテスト設計に影響 + 出力に対してテスト項目を指定することで、LLM の応答品質を定量的に評価"
  • 推しのプロンプト実験管理ツール「promptfoo」を解説|にょす

    最近、推したいプロンプト実験管理方法を見つけたので、そちらの紹介記事になります!これを見つけてから、めちゃ楽になりました! 前提「ん?実験管理?」と思う方もいるかもなので、軽く背景のところから共有したいのですが、システムに組み込むプロンプト作りは、すごい難易度が高いなーと思ってます。 何が大変かというと、求められる品質が高いからです! 出力形式が期待通りでないとシステムエラーになってしまう。10回中9回成功しても、それはエラー率10%なので安定とは言えない。 様々な要件がある。出力形式や文字数・レイテンシ・コストなど、ルールベースで判定できるものもあれば「ちゃんと指示に従っているか?」「魅力的なアウトプットか?」など定性的なものもある。これらの要件を満たすプロンプトを作る必要がある ということで、上記の「多様的な要件を満たす出力」と「何回やっても期待する出力が出る安定性」を兼ね備えたプロン

    推しのプロンプト実験管理ツール「promptfoo」を解説|にょす
    sh19910711
    sh19910711 2024/05/21
    "promptfoo: 複数のプロンプト(あるいはLLM)を表形式で比較 + 多様な評価方法を実装いらずで利用できる / prompfooconfig.yaml というファイルで様々な設定 + プロンプトと利用するLLM(プロバイダー)、テストケースが記載"
  • LLMの事前評価のシステムアーキテクチャを紹介します

    この記事の概要 こんにちは。PharmaX でエンジニアをしている諸岡(@hakoten)です。 この記事では、「YOJO事業部のプロダクト内で使用されているLLM(Large Language Models)の機能の性能を事前評価するための仕組み」について、システムのアーキテクチャをご紹介しています。 LLMを用いて実現している具体的な機能については詳しく触れていませんので、その点ご理解ください。 LLMにおける事前評価とは何か まず、プロダクトにおけるLLM(Large Language Models)機能の評価がどのようなものかについて簡単に説明します。 LLMの特徴の一つとして、「出力が確率的である(毎回異なる)」という点があります。そのため、LLMで生成された文章や出力に対しては、出力結果の良し悪しを定量的に計測する方法が必要になります。 弊社における定量的な計測は、大きく次の2

    LLMの事前評価のシステムアーキテクチャを紹介します
    sh19910711
    sh19910711 2024/05/09
    "LLMで生成された文章や出力に対しては、出力結果の良し悪しを定量的に計測する方法が必要 / CSVにはPromptLayerのrequest_idとバージョンをスコアとセット + Cloud Storageに保存 + Data Transfer Serviceを用いて、定期的にBigQueryに同期"
  • Adversarial Validationを用いた特徴量選択 - u++の備忘録

    先日公開した「IEEE-CIS Fraud Detection」コンペの解法*1の中で、Adversarial Validationの考え方を用いた特徴量選択について何回か質問がありました。 記事では、Adversarial Validationの考え方を用いた特徴量選択を解説します。 Adversarial Validationとは いつ使う? 解決策 Adversarial Validationを用いた特徴量選択 CPMPさんの「Microsoft Malware Prediction」の解法 具体的なやり方 おわりに Adversarial Validationとは 以前に書いた自分の記事*2から抜粋します。 いつ使う? TrainデータとTestデータの分布が異なる場合 → Trainデータから適切にValidationデータを作成するのが難しい → Kaggleの場合、Loca

    Adversarial Validationを用いた特徴量選択 - u++の備忘録
    sh19910711
    sh19910711 2024/04/25
    "TrainデータとTestデータの分布が異なる + Kaggleの場合、LocalCVとLBのスコアが一致しない / Adversarial Validation: 「TrainデータかTestデータかを判定する分類器」を作る + 似ている順にソート / 応用方法の一つとして特徴量選択" 2019
  • RecBole を用いてクックパッドマートのデータに対する50以上のレコメンドモデルの実験をしてみた - クックパッド開発者ブログ

    こんにちは。研究開発部の深澤(@fufufukakaka)です。 記事では最近面白いなと思って watch しているレコメンド系のプロジェクト RecBole を紹介いたします。また、クックパッドが展開している事業の一つであるクックパッドマートのデータを使って数多くのレコメンドモデルを試す実験も行いました。その結果も合わせて紹介します。 TL;DR: レコメンドモデルは作者実装に安定性がなく、またモデルをどのように評価したかも基準がバラバラで、再現性が難しいとされている(from RecSys 2019 Best Paper) 再現性に取り組むプロジェクトとして 2020年12月に始まった RecBole がある。 RecBole を利用することでなんと 50個以上のレコメンドモデルを大体1コマンドで試せる クックパッドマートでユーザに対してアイテムをレコメンドするシチュエーションを想定

    RecBole を用いてクックパッドマートのデータに対する50以上のレコメンドモデルの実験をしてみた - クックパッド開発者ブログ
    sh19910711
    sh19910711 2021/11/06
    "RecBole: 中国人民大学・北京大学の研究室が共同で始めたプロジェクト / 再現性の難しいレコメンドモデルを統一したインタフェースで実装 / 短い時間で網羅的に実験を行うことができる"
  • 1