Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources
コンペURL どんなコンペ? LLM(ChatGPT)が作った科学・技術・工学・数学分野の問題をKaggle notebookという限られた環境下(主にメモリ13GBと9時間以内に完了)でどのくらいの精度で解けますか?という自然言語処理系のコンペ。 以下に入出力例を示しています。 ・入力 (質問)バタフライエフェクトとは何ですか? (A)バタフライ効果とは、巨大な球体が不安定な平衡点から... (B)バタフライ効果は、古典物理学における必要条件... (C)バタフライ効果は、古典物理学における物理現象の... (D)バタフライ効果とは、巨大な球体が不安定な平衡点から.... (E)バタフライ効果は、物理学における因果関係の概念の適用と.... ・出力 E A B (解答を可能性の高い順番に出力) 評価指標はMAP@3(Mean Average Precision)でした。 ベースライン解法
2023年4ー6月に開催されたImage Matching Challenge 2023(IMC2023)に参加し、4位(順位確定後は3位)を獲得することができました。 お疲れ様でした!! 笑顔で泣いてる pic.twitter.com/XyJHAnZLSO — HeKa (@warm_start) June 13, 2023 ※画像は順位確定前のもの。 また、CVPR2023のワークショップの1つImage Matching: Local Features and Beyondに招待され、解法を話す機会をいただきました。 まさか自分がこのような貴重な場に参加できるとは思ってもみなかったです。大変刺激を受けました。 どんなコンペ? いわゆるSfM(Structure from Motion)と呼ばれるテーマにあたります。 オブジェクトを色々な角度から撮影して得た画像セットを使い、それぞれの
Biography I work as a Software Engineer at Rist, focusing on the creation and application of Vision AI in the manufacturing industry. 現在は株式会社Ristでソフトウェアエンジニアをしています。 I am a Kaggle Grandmaster (an honor for top competitors with outstanding data science skills) with 20 gold medals🏅 in Kaggle competitions. My highest Kaggle rank is 4th out of 530,000+ data scientists as of April 2016. Below is a list
お久しぶりです、三菱UFJフィナンシャル・グループ(以下MUFG)の戦略子会社であるJapan Digital Design(以下JDD)でMUFG AI Studio(以下M-AIS)に所属する蕭喬仁です。 厨二心をくすぐる名前でadvent calendarに登録していますが、もう直ぐ三十路ということでアカウント名の替え時が最近の悩みです。 さて、今年はOpenAIからリリースされたChatGPTを皮切りに生成AIが世間のトレンドとなっていますが、弊社でも「文章生成AIによる過去相場要約機能」の提供のような生成AIを用いたプロダクト開発やR&Dを進めています。中でも、検索を用いて外部知識を生成AIに埋め込むことでタスクの性能を高めるRetrieval-augmented Generation (以下RAG)は、大量の業務資料やマニュアルを保持するMUFGのような大企業にとっては非常に相
世界最大のデータサイエンスコンペティション「Kaggle」にて キャディの機械学習エンジニアがゴールドメダルを獲得世界Top 1%の機械学習エンジニアに 製造業サプライチェーンの変革に挑むキャディ株式会社(本社:東京都台東区、代表取締役:加藤勇志郎)は、Kaggleコンペティション「Feedback Prize - English Language Learning(以下、Feedback Prize)」において、当社の機械学習エンジニアである押条祐哉がゴールドメダルを獲得したことをお知らせします。世界中から2740チームが参加する中、単独での参加で13位となり、トップ 1%の機械学習エンジニアである実績を得る形になりました。 ■Kaggle とは 「Kaggle(カグル)」は、Googleが運営する世界最大のデータサイエンスコンペティションプラットフォームです。世界中から1千万人以上のデ
はじめに 先週からマケデコというMarket APIのDeveloper Communityの運営をスタートしており、その中で我々が問題設計を担当した以下のKaggleコンペにおいて どのような問題設計と実際にどうやって解いてみたのか? という質問を頂きました。 この記事では、そのあたりについてKaggleで金融コンペを開催するための(僕が知っている)すべてを記載してみようと思います。 もし、このような話に興味があればマケデコDiscordのリンクを以下に記載しておきますので、ぜひご参加ください! キックオフイベントも開催しますので、よろしければこちらにご登録ください! なお、本記事はコンペ主催のJPX総研様からも許可をいただき、記載させていただいております。JPX総研様が提供する株価/財務情報を取得できるJQuants APIもご興味あれば、現在は無料ですので、ぜひお試しください。 Ka
簡単に Kaggleで最近よく使われるTabnetについて、どのようなモデルか調べた。 Tree-basedとDNNのいいとこ取りをしたようなモデル。 Feature ImportanceとMaskにより結果の解釈ができる。 Titanicにおける精度について、LBの値ではLightGBM、NNよりもやや高い。 TitanicにおけるFeature Importanceの上位特徴量について、LightGBMとは異なっている。そのため、TabNetはEnsembleに有用かもしれない。 ※ 2021/01/10 14:50 TabNetのコードが一部誤っていることを指摘頂き、コード修正しました。それに伴い記事の下記部分を更新しています。 4 実装の際に用いたNotebook 6.7 精度 6.8 Feature Importance(Global interpretability) 6.10
はじめに UKIです。 Kaggleで開催されたJPX Tokyo Stock Exchange Predictionのサブミッションが終了しました。本コンペの結果が出るのは3ヶ月後ですが、記憶が鮮明なうちにコンペを終えた感想をまとめておきたいと思います。 コンペ仕様 ざっくり要約すると、 日本株2000銘柄の中から、 毎日200銘柄ロング、200銘柄ショートし、 3カ月間の日次損益のシャープを競う 運ゲーになりがちなファイナンスコンペですが、以下の点で問題設定に工夫が凝らされていると感じました。 買い入れ銘柄数を大きくすることで異常値の影響を軽減する 例えば買い入れ銘柄が少ない場合、運よくSTOP高銘柄を引き当てたプレイヤーは大きなアドバンテージを得ることになります。買い入れ銘柄を大きくすることで異常値の影響を軽減し、予測性能の実力を可能なかぎり測れるよう配慮されています。 評価指標がシ
こんにちは、tkmです。 このブログではポエムはあまり書かないことにしてたのですが、最近エンジニア勉強会(特にML系)が募集後すぐに埋まるツイートを目にしたので、 エンジニア勉強会全盛期(TokyoR, TokyoWebMiningなどの時)に学生で参加してから、kaggle meetupとかで運営するようになったので色々思うことを垂れ流して見ます 持続的な勉強会(コミュニティ)に必要なこと 適度な内輪感と公共性の両立 質の高い発表者の確保は最優先 運営から一言声を掛けるのがとても大事 発表することが目的の発表を排除 参加者の質も最低限確保したい 勉強会おじさんは絶対排除。慈悲はない それでも新規参入者の敷居は低く 内輪盛り上がりは予想以上に外部から醜悪に映る コアになる常連メンバーは必要 運営は出しゃばらない どこまで公共性を追求するか いま思っていること 優しい終身の独裁者は必要なのか
みなさま、Kaggle楽しんでいますでしょうか。 僕は現在Home Credit Default RiskとSantander Value Prediction Challengeに参加しています。 前回のKaggle記事ではpandasのテクニックについてまとめました。 多くのアクセスをいただき、人生初のホッテントリ入りまで経験してたいそう嬉しかったです。ありがとうございました! amalog.hateblo.jp さて。みなさんはKaggleをやっているとき、どのようにして特徴量を管理していますか? Titanicくらいならその都度計算すれば十分ですが、 ある程度データのサイズが大きくなり、さまざまな特徴量を取捨選択するようになると特徴量のシリアライズ(保存)が欠かせません。 そこで、今回は僕が行っている特徴量管理方法を紹介したいと思います。 僕の方法はTalkingdata Adtr
こんにちは!株式会社キスモのKaggler 大越です。 またまた嬉しい報告があります! Kaggleで開かれていた、データ分析の世界大会”Home Credit Default Risk”で、史上最多の7198チームが参加する中で2位に入り、再びゴールドメダルを獲得しました。またそれに伴い、Kaggle Master※になりました!! ※Kaggle Master : メダルの数に応じて付与される称号の中で、最上位のGrandmasterに次ぐ2番目の称号のこと。 前回はAvitoでゴールドメダルを取った後に報告をさせていただきましたが、今回もまたまた良い報告ができ嬉しいです。 さて、今回のブログではそんなKaggleで開かれたKaggle insight challengeの内容を試したので、それをブログにします。 Kaggle insight challengeとは? 9月末に4日間の
本記事では、Kaggleのタイタニックを例に、仮説と可視化から新しい特徴量を作る過程についてまとめます。 仮説と可視化から新しい特徴量を作る 予測精度に寄与する新しい特徴量を作成するに当たっては、仮説と可視化を繰り返す過程が大事です。 予測精度に寄与しそうな仮説を立てる 可視化を実施する 予測精度に寄与する仮説を見つけるため 仮説が正しいかを検証するため 個々人や問題によって、どちらが起点になるかが変わってきます。 ケース1)ドメイン知識がある場合 例えば自分が詳しい、つまりドメイン知識を持っている分野の問題に取り組む場合、最初から仮説がいくつかあると思います。その場合は仮説を検証するような可視化を実施し、本当に予測精度に寄与するかを確認します。その可視化の結果によっては、改めて仮説を立てることになるかもしれません。 ケース2)ドメイン知識がない場合 ドメイン知識がない場合は、まずは仮説を
印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 今回は、筆者がKaggleで準優勝した「Instacart Market Basket Analysis」というコンペについて話します。食料品の配達サービスを提供するInstacartのデータを活用して、ユーザーが次に購入する商品を予測するというものです。このコンペは2017年5月16日~8月14日の3カ月にわたって開催されました。 Instacartという企業について Instacartはオンラインで商品(食料品)を注文すると、最短1時間で自宅に配達してくれるサービスを提供している米国の企業です。こう書くとネットスーパーのように聞こえますが、正確に言えば買い物代行サービスであって、Instacart自身は在庫を持っていません。フードデ
Kaggleで世界11位になったデータ解析手法~Sansan高際睦起の模範コードに学ぶ Kaggleの上位入賞者であるKaggle Grandmasterを獲得した、Sansan株式会社のデータサイエンティスト高際睦起さん。模範となるソースコードをもとに考え方や解析手法を教えていただきました。 「Porto Seguro’s Safe Driver Prediction」とは? 【技法1】前処理 【技法2】特徴抽出 【技法3】予測モデルの作成 Kaggle初心者は何から始めるべき? データサイエンティストを目指す若き人たちへ 世界中のデータサイエンティストたちが集まり、企業や研究者が投稿したデータに対する高精度なモデルを競い合うプラットフォーム・Kaggle。メンバーは100万人を超えており、良問の多さや参加者のレベルの高さゆえに、機械学習を学ぶ者にとって優れた研鑽(けんさん)の場となって
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く