[B! kaggle] deejayrokaのブックマーク

Utilizing Transformer Representations Efficiently

Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources

deejayroka 2024/04/16

リンク

Kaggleコンペ（LLM Science Exam）の振り返りと上位解法まとめ

コンペURL どんなコンペ？ LLM（ChatGPT）が作った科学・技術・工学・数学分野の問題をKaggle notebookという限られた環境下（主にメモリ13GBと9時間以内に完了）でどのくらいの精度で解けますか？という自然言語処理系のコンペ。以下に入出力例を示しています。・入力（質問）バタフライエフェクトとは何ですか？（A）バタフライ効果とは、巨大な球体が不安定な平衡点から... （B）バタフライ効果は、古典物理学における必要条件... （C）バタフライ効果は、古典物理学における物理現象の... （D）バタフライ効果とは、巨大な球体が不安定な平衡点から.... （E）バタフライ効果は、物理学における因果関係の概念の適用と.... ・出力 E A B （解答を可能性の高い順番に出力）評価指標はMAP@3（Mean Average Precision）でした。ベースライン解法

deejayroka 2024/04/14

リンク

Kaggle Image Matching Challenge 2023を振り返る - Qiita

2023年4ー6月に開催されたImage Matching Challenge 2023(IMC2023)に参加し、４位（順位確定後は３位）を獲得することができました。お疲れ様でした！！笑顔で泣いてる pic.twitter.com/XyJHAnZLSO — HeKa (@warm_start) June 13, 2023 ※画像は順位確定前のもの。また、CVPR2023のワークショップの１つImage Matching: Local Features and Beyondに招待され、解法を話す機会をいただきました。まさか自分がこのような貴重な場に参加できるとは思ってもみなかったです。大変刺激を受けました。どんなコンペ？いわゆるSfM（Structure from Motion）と呼ばれるテーマにあたります。オブジェクトを色々な角度から撮影して得た画像セットを使い、それぞれの

deejayroka 2024/04/08

kaggle

リンク

Kohei Ozaki (smly) | ho.lc

Biography I work as a Software Engineer at Rist, focusing on the creation and application of Vision AI in the manufacturing industry. 現在は株式会社Ristでソフトウェアエンジニアをしています。 I am a Kaggle Grandmaster (an honor for top competitors with outstanding data science skills) with 20 gold medals🏅 in Kaggle competitions. My highest Kaggle rank is 4th out of 530,000+ data scientists as of April 2016. Below is a list

deejayroka 2024/04/08

kaggle

リンク

kaggle LLM コンペ上位解法を自分なりにまとめてみた話｜Japan Digital Design, Inc.

お久しぶりです、三菱UFJフィナンシャル・グループ（以下MUFG）の戦略子会社であるJapan Digital Design（以下JDD）でMUFG AI Studio（以下M-AIS）に所属する蕭喬仁です。厨二心をくすぐる名前でadvent calendarに登録していますが、もう直ぐ三十路ということでアカウント名の替え時が最近の悩みです。さて、今年はOpenAIからリリースされたChatGPTを皮切りに生成AIが世間のトレンドとなっていますが、弊社でも「文章生成AIによる過去相場要約機能」の提供のような生成AIを用いたプロダクト開発やR&Dを進めています。中でも、検索を用いて外部知識を生成AIに埋め込むことでタスクの性能を高めるRetrieval-augmented Generation (以下RAG)は、大量の業務資料やマニュアルを保持するMUFGのような大企業にとっては非常に相

deejayroka 2024/02/15

あとで読む

リンク

世界最大のデータサイエンスコンペティション「Kaggle」にて　キャディの機械学習エンジニアがゴールドメダルを獲得

世界最大のデータサイエンスコンペティション「Kaggle」にて　キャディの機械学習エンジニアがゴールドメダルを獲得世界Top 1％の機械学習エンジニアに製造業サプライチェーンの変革に挑むキャディ株式会社（本社：東京都台東区、代表取締役：加藤勇志郎）は、Kaggleコンペティション「Feedback Prize - English Language Learning（以下、Feedback Prize）」において、当社の機械学習エンジニアである押条祐哉がゴールドメダルを獲得したことをお知らせします。世界中から2740チームが参加する中、単独での参加で13位となり、トップ 1%の機械学習エンジニアである実績を得る形になりました。 ■Kaggle とは「Kaggle（カグル）」は、Googleが運営する世界最大のデータサイエンスコンペティションプラットフォームです。世界中から1千万人以上のデ

deejayroka 2022/12/06

リンク

Kaggleで金融コンペを開催するための(僕が知っている)すべて

はじめに先週からマケデコというMarket APIのDeveloper Communityの運営をスタートしており、その中で我々が問題設計を担当した以下のKaggleコンペにおいてどのような問題設計と実際にどうやって解いてみたのか？という質問を頂きました。この記事では、そのあたりについてKaggleで金融コンペを開催するための(僕が知っている)すべてを記載してみようと思います。もし、このような話に興味があればマケデコDiscordのリンクを以下に記載しておきますので、ぜひご参加ください！キックオフイベントも開催しますので、よろしければこちらにご登録ください！なお、本記事はコンペ主催のJPX総研様からも許可をいただき、記載させていただいております。JPX総研様が提供する株価/財務情報を取得できるJQuants APIもご興味あれば、現在は無料ですので、ぜひお試しください。 Ka

deejayroka 2022/09/12

リンク

TabNetとは一体何者なのか？

簡単に Kaggleで最近よく使われるTabnetについて、どのようなモデルか調べた。 Tree-basedとDNNのいいとこ取りをしたようなモデル。 Feature ImportanceとMaskにより結果の解釈ができる。 Titanicにおける精度について、LBの値ではLightGBM、NNよりもやや高い。 TitanicにおけるFeature Importanceの上位特徴量について、LightGBMとは異なっている。そのため、TabNetはEnsem bleに有用かもしれない。 ※　2021/01/10 14:50 TabNetのコードが一部誤っていることを指摘頂き、コード修正しました。それに伴い記事の下記部分を更新しています。 4 実装の際に用いたNotebook 6.7 精度 6.8 Feature Importance(Global interpretability) 6.10

deejayroka 2022/09/07

リンク

機械学習による株価予測 KaggleのJPXコンペを終えて - Qiita

はじめに UKIです。 Kaggleで開催されたJPX Tokyo Stock Exchange Predictionのサブミッションが終了しました。本コンペの結果が出るのは3ヶ月後ですが、記憶が鮮明なうちにコンペを終えた感想をまとめておきたいと思います。コンペ仕様ざっくり要約すると、日本株2000銘柄の中から、毎日200銘柄ロング、200銘柄ショートし、 3カ月間の日次損益のシャープを競う運ゲーになりがちなファイナンスコンペですが、以下の点で問題設定に工夫が凝らされていると感じました。買い入れ銘柄数を大きくすることで異常値の影響を軽減する例えば買い入れ銘柄が少ない場合、運よくSTOP高銘柄を引き当てたプレイヤーは大きなアドバンテージを得ることになります。買い入れ銘柄を大きくすることで異常値の影響を軽減し、予測性能の実力を可能なかぎり測れるよう配慮されています。評価指標がシ

deejayroka 2022/08/18

リンク

エンジニア勉強会（コミュニティ）運営について思うこと- 適度な内輪感と公共性の両立 - tkm2261's blog

こんにちは、tkmです。このブログではポエムはあまり書かないことにしてたのですが、最近エンジニア勉強会（特にML系）が募集後すぐに埋まるツイートを目にしたので、エンジニア勉強会全盛期（TokyoR, TokyoWebMiningなどの時）に学生で参加してから、kaggle meetupとかで運営するようになったので色々思うことを垂れ流して見ます持続的な勉強会（コミュニティ）に必要なこと適度な内輪感と公共性の両立質の高い発表者の確保は最優先運営から一言声を掛けるのがとても大事発表することが目的の発表を排除参加者の質も最低限確保したい勉強会おじさんは絶対排除。慈悲はないそれでも新規参入者の敷居は低く内輪盛り上がりは予想以上に外部から醜悪に映るコアになる常連メンバーは必要運営は出しゃばらないどこまで公共性を追求するかいま思っていること優しい終身の独裁者は必要なのか

deejayroka 2019/02/01

リンク

Kaggleで使えるFeather形式を利用した特徴量管理法 - 天色グラフィティ

みなさま、Kaggle楽しんでいますでしょうか。僕は現在Home Credit Default RiskとSantander Value Prediction Challengeに参加しています。前回のKaggle記事ではpandasのテクニックについてまとめました。多くのアクセスをいただき、人生初のホッテントリ入りまで経験してたいそう嬉しかったです。ありがとうございました！ amalog.hateblo.jp さて。みなさんはKaggleをやっているとき、どのようにして特徴量を管理していますか？ Titanicくらいならその都度計算すれば十分ですが、ある程度データのサイズが大きくなり、さまざまな特徴量を取捨選択するようになると特徴量のシリアライズ(保存)が欠かせません。そこで、今回は僕が行っている特徴量管理方法を紹介したいと思います。僕の方法はTalkingdata Adtr

deejayroka 2018/11/24

リンク

世界一のデータサイエンティストを目指して　〜Kaggle参加レポート5〜 - Kysmo’s Tech Blog

こんにちは！株式会社キスモのKaggler 大越です。またまた嬉しい報告があります！ Kaggleで開かれていた、データ分析の世界大会”Home Credit Default Risk”で、史上最多の7198チームが参加する中で2位に入り、再びゴールドメダルを獲得しました。またそれに伴い、Kaggle Master※になりました！！ ※Kaggle Master : メダルの数に応じて付与される称号の中で、最上位のGrandmasterに次ぐ2番目の称号のこと。前回はAvitoでゴールドメダルを取った後に報告をさせていただきましたが、今回もまたまた良い報告ができ嬉しいです。さて、今回のブログではそんなKaggleで開かれたKaggle insight challengeの内容を試したので、それをブログにします。 Kaggle insight challengeとは？ 9月末に4日間の

deejayroka 2018/11/18

リンク

仮説と可視化から新しい特徴量を作る　Kaggleのタイタニックを例に - u++の備忘録

本記事では、Kaggleのタイタニックを例に、仮説と可視化から新しい特徴量を作る過程についてまとめます。仮説と可視化から新しい特徴量を作る予測精度に寄与する新しい特徴量を作成するに当たっては、仮説と可視化を繰り返す過程が大事です。予測精度に寄与しそうな仮説を立てる可視化を実施する予測精度に寄与する仮説を見つけるため仮説が正しいかを検証するため個々人や問題によって、どちらが起点になるかが変わってきます。ケース1）ドメイン知識がある場合例えば自分が詳しい、つまりドメイン知識を持っている分野の問題に取り組む場合、最初から仮説がいくつかあると思います。その場合は仮説を検証するような可視化を実施し、本当に予測精度に寄与するかを確認します。その可視化の結果によっては、改めて仮説を立てることになるかもしれません。ケース2）ドメイン知識がない場合ドメイン知識がない場合は、まずは仮説を

deejayroka 2018/11/18

kaggle
data

リンク

第2回：「Kaggle」の面白さとは--食品宅配サービスの購買予測コンペで考える

印刷するメールで送るテキスト HTML 電子書籍 PDF ダウンロードテキスト電子書籍 PDF クリップした記事をMyページから読むことができます今回は、筆者がKaggleで準優勝した「Instacart Market Basket Analysis」というコンペについて話します。食料品の配達サービスを提供するInstacartのデータを活用して、ユーザーが次に購入する商品を予測するというものです。このコンペは2017年5月16日～8月14日の3カ月にわたって開催されました。 Instacartという企業について Instacartはオンラインで商品（食料品）を注文すると、最短1時間で自宅に配達してくれるサービスを提供している米国の企業です。こう書くとネットスーパーのように聞こえますが、正確に言えば買い物代行サービスであって、Instacart自身は在庫を持っていません。フードデ

deejayroka 2018/09/04

リンク

Kaggleで世界11位になったデータ解析手法～Sansan高際睦起の模範コードに学ぶ｜ハイクラス転職・求人情報サイト AMBI（アンビ）

Kaggleで世界11位になったデータ解析手法～Sansan高際睦起の模範コードに学ぶ Kaggleの上位入賞者であるKaggle Grandmasterを獲得した、Sansan株式会社のデータサイエンティスト高際睦起さん。模範となるソースコードをもとに考え方や解析手法を教えていただきました。「Porto Seguro’s Safe Driver Prediction」とは？【技法1】前処理【技法2】特徴抽出【技法3】予測モデルの作成 Kaggle初心者は何から始めるべき？データサイエンティストを目指す若き人たちへ世界中のデータサイエンティストたちが集まり、企業や研究者が投稿したデータに対する高精度なモデルを競い合うプラットフォーム・Kaggle。メンバーは100万人を超えており、良問の多さや参加者のレベルの高さゆえに、機械学習を学ぶ者にとって優れた研鑽（けんさん）の場となって