いぐぞー ✈️ 旅するプログラマー @igz0 旅とプログラミングをこよなく愛します。 アメリカ大陸🇺🇸を横断しました!!小学生からプログラミング→新卒SIer→Webに目覚め個人事業主兼会社員。テレビ出演経験あり。 Webサービス制作者。読書・IT関連を中心にツイートします!!ネタツイート有。アイコンは@ixy先生に利用許諾済み。Amazonアソシエイト参加。 note.com/igz0/
最近話題のやりがい問題について、思うところがある。 猫山課長の裏note, 裏ラジオでも語られていた内容だ。 若手の方は絶対にこれらのコンテンツに触れた方が良い。 今の時代を勝ち抜くのに必要なエッセンスが凝縮されている。 僕は30代半ばで、猫山課長よりおそらく一世代若い。 僕らの世代はギリギリハードワークが許されたが、すぐ下の世代から働き方改革丸出しといった感じの世代である。 30半ばの「ようやく自立した若手」の立場から私見を述べたいと思う。 ++++++++++ 最近は「ライフワークバランス」や「働き方改革」といったいわゆる労働に対するネガティブな動きが盛んだ。 今の新人にとってみればもはや上記の概念は常識になっている。 ただ、断言する。 正直、上司はうんざりしている。 自分たちの享受していない制度の、よくわからないプレッシャーに戸惑っていると言ってもよい。 僕らの業界でいえば「研修医」
こんにちは、メルカリのレコメンデーションチームで Software Engineer をしている @yaginuuun です。主に推薦を通じたホーム画面における体験改善に取り組んでいます。 元々はデータアナリストとしてデータ分析関連の業務を担う傍らA/Bテストのワークフロー改善にも取り組んできました。 Mercari Advent Calendar 2022 の12日目では、去年から今年にかけて取り組んできたA/Bテスト分析の自動化について、課題感や実際の実装などについて触れていきます。 背景 A/Bテストは世界中の企業で導入されている効果検証のゴールドスタンダードとも呼べる手法であり、メルカリでも毎日のようにA/Bテストを用いた改善活動が行われています。 A/Bテストは一見とてもシンプルな効果検証手法ですが、それを適切に使用するためにはさまざまな統計的事項やアンチパターンを考慮する必要が
はじめに 環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違い データレイクのメリット データレイクの課題 *Parquetで構築した場合 Delta Lake の特徴 ACIDトランザクションの担保 スケーラブルなメタデータ管理 バッチとストリーミングワークロードの統合 タイムトラベル (バージョン管理) CONSTRAINT句のサポート DML (データ操作言語) のフルサポート UPDATE DELETE MERGE 柔軟なスキーマ管理 1. スキーマ エンフォースメント 2. スキーマ エボリューション ストレ
本稿は「本当は書籍『評価指標入門』に書きたかったんだけど諸般の理由により書ききれなかった内容をgihyo.jpを借りて成仏させていく企画」の第一段「カリブレーション(Calibration、確率較正)」です。特に「機械学習のカリブレーションとビジネスの関係性を検討」してみたいというモチベーションで執筆します。 日本語では“確率較正”とも呼ばれるこの計算ですが、個人的にはカリブレーションという方が好きなので、ここではカリブレーションと統一して書きます。 早速ですが、まずカリブレーションとは「分類問題において、機械学習モデルの出力([0, 1]の値)をデータのクラス分布に近づける」ことです。例えば、二値分類問題において、モデルがあるデータ点に対して1を予測する確率が0.8である場合、そのデータ点が実際に1である割合も0.8になるように確率の数値を修正してしまう(これが較正)ということで
予測モデル精度競争チャンピオン Photo by RUN 4 FFWPU on Pexels.com AIは平均値をちょっと良くした物という定義がありますが、その中でもAI競技の世界では、結局勝ち残るのはLightGBMになるという経験則があります。 DataRobot や様々なクラウドで提供されているAutoMLを利用しても、結局勝ち残るのはLightGBMばかりなので、突き詰めて考えてしまうと、LightGBMを試せば最良の予測モデルが作成できてしまうという印象すらあります。 これはKaggleで上位ランキングを取った半数以上もの勝者が「勾配ブースティング」を使っている(参照:kdnuggets)という記事からもお分かりいただけると思います。一昔前は『決定木バカ』と揶揄される程、全ての課題に対して決定木を当てはめようとする方がいたのですが、最近は…『LightGBMバカ』が一世を風靡し
NEW! 2024.04.12 スキル 未踏落合陽一登大遊プログラマー 登大遊、落合陽一など数々のスーパークリエータを輩出してきた、独立行政法人情報処理推進機構(IPA)の「未踏IT人材発掘・育成事業」(以下、未踏IT)。その立ち上げから現在までを知るのが、統括プロジェクトマネージャーの竹内郁雄さんだ。 2017年には、ビジネスや社会課題解決につながる人材を発掘する「未踏アドバンスト事業」にも統括プロジェクトマネージャーとして参画。国際的なデファクトスタンダードとなるソフトウェアを日本から生み出すべく、人材育成に心血を注いでいる。 前身の未踏ソフトウェア創造事業から数えて24年。のべ2000人を超える修了生を見てきた竹内さんだから言える、優れたエンジニアに共通して求められる素養を聞いた。 未踏事業統括プロジェクトマネージャー(PM) 一般社団法人未踏 代表理事 竹内郁雄さん 1946年、富
人気漫画「セクシー田中さん」の原作者芦原妃名子(ひなこ)さん=1月に死去=は、漫画をテレビドラマ化した日本テレビに「自身の意図とは異なる脚本を示された」と繰り返し訴えていたことをブログで告白していた。制作の過程に問題はなかったのか。映画やドラマ化で原作者の権利は十分守られてきたのか―。「海月姫(くらげひめ)」「東京タラレバ娘」など数々の漫画がドラマ・映画化されてきた漫画家の東村アキコさん(48)に聞いた。(望月衣塑子) セクシー田中さん 漫画家の芦原妃名子さんが小学館の雑誌「姉系プチコミック」で連載していたラブコメディー漫画。アラフォーの独身女性「田中京子」を主人公に、同僚の派遣社員の女性たちとの友情を描いた。 芦原さんはブログに「一見奇抜なタイトルのふざけたラブコメ漫画に見えますが…。自己肯定感の低さ故生きづらさを抱える人達に、優しく強く寄り添える作品にしたい」と狙いを記していた。 日本
企業活動の様々な分野でのデジタルトランスフォーメーション(DX)が進み、各企業の持つデータの利活用の需要は増すばかりです。 一方で、プライバシー情報を利活用する側においては、プライバシー侵害の懸念等から、収集・蓄積したデータをどのように保護し、活用していくかが課題となっています。また、世界を見ると、GDPRをはじめとするプライバシー保護規制の厳格化の動きがますます進んでいます。 こうした課題やプライバシー保護規制厳格化に対して、技術的に解決することを目指す技術の1つが、秘密計算(英語では、Multi-Party ComputationやSecure Computation)です。 後述するように、秘密計算は、データを暗号化したまま取り扱うことができるため、技術的にはプライバシー侵害を避けつつ、データの活用が可能であるとされています。 データを保護しながら活用できる技術として、医療分野などで
前回のブログ記事は、論文紹介という地味なテーマだったにしてはだいぶ話題を呼んだ*1ようで、個人的にはちょっと意外な感があったのでした。確かに、今をときめくTransformerにも苦手なものがあるという指摘は、NN一強の現代にあってはセンセーショナルなものと受け止められても不思議はなかったかと思います。 しかし、それは同時に「データセットが持つ本質的な性質」と「データ分析手法の性質」とのミスマッチと、それが引き起こす問題とについてこれまであまり関心を持ってこなかった人が多いということなのかもしれません。そして、そのミスマッチは冗談でなく古来からある程度定まった類型があり、データ分析業界の古参なら「そんなの常識だよ」というものばかりだったりします。 ところが、最近僕の周囲でもそういうミスマッチが深刻な実問題を招いているケースが散見され、思ったよりもそれは常識ではないのかな?と思わされることが
import "./App.css"; import { Link, Route, Switch } from "wouter"; function Nav() { return ( <nav> <Link to="/">Home</Link> <br /> <Link to="/about">About</Link> </nav> ); } function Home() { return ( <div className="App"> <h2>Home</h2> <Nav /> </div> ); } function About() { return ( <div className="App"> <h2>About</h2> <Nav /> </div> ); } function App() { return ( <> <Switch> <Route path="/" compo
「最後の統計学界の大御所」の一人で、2013年に亡くなったGeorge E. P. Box*1が残した格言 "All models are wrong; but some are useful"(全てのモデルは間違っている、だが中には役立つものもある)ですが、このブログでは過去に何度も紹介しているのでお馴染みという方も多いかと思います。 実際、5年前にもBoxの格言については独立した記事として取り上げており、ちょっとしたシミュレーションと共に「厳密ではないが有用なモデル」の話題を展開しています。ただ、今回の記事で僕が改めてBoxの格言を取り上げようと思った背景はまた別にあります。それが、広告マーケティング業界で最近ルネサンス的な脚光を浴びているMMM (Media/Marketing Mix Models)の扱われ方という問題です。 MMMというと経営学のマーケティングの教科書にも載ってい
Sawdah Bhaimiya [原文] (翻訳:仲田文子、編集:井上俊彦) Mar. 07, 2024, 09:00 AM 働き方 51,513 スティーブ・ジョブズは、かつてアップルで雇ったマネージャーは「愚か」だったと語った。 Justin Sullivan/Getty Images スティーブ・ジョブズは1985年のインタビューで、最高のマネージャーの雇い方についてアドバイスした。 彼によると、最高のマネージャーとは管理することを望んでいるわけではない「偉大な個人的貢献者だ」だという。 伝説的な共同創業者であるジョブズは2011年に亡くなった。存命であれば2月24日に69歳を迎えるはずだった。 アップル(Apple)の伝説的な共同創業者であるスティーブ・ジョブズ(Steve Jobs)はかつて、最高のマネージャーについてアドバイスしたことがある。それは、実際にはマネージャーになりた
以前「Ads carryover & shape effects付きのMedia Mix Modeling」という記事で取り上げたベイジアンMMMのtechnical report (Jin et al., 2017)ですが、当時RStanで実装されていたものが4年の時を経て時代の趨勢に沿う形でPythonベースのOSSとしてリリースされています。 それがLightweight MMM (LMMM)です。ベイジアンモデリング部分はNumPyroによるMCMCサンプラーで実装されており、さらにはモダンなMMMフレームワークにおいて標準的とされる予算配分の最適化ルーチンも実装されています。全体的な使い勝手としては、まだ開発途上の部分もあるので時々痒いところに手が届かない感があるものの、概ねRStanで実装したものと似たような感じに仕上がっているという印象です。 ということで、LMMMがどんな感
(※Stan v2.4.0以降でインストール方法に若干変更があります!詳しくはこの記事の中ほどをご覧ください) さて、年初の抱負でも語ったように今年はStanを頑張って会得していこうと思います。理由は簡単で、ありったけの要素を詰め込んでMCMCサンプラーでガンガン推定していくような階層ベイズモデリングに自分の興味としても惹かれる上に、実務でも必要になりそうな見通し*1だからです。 Stan: Project Home Page 既に以前の記事でも簡単に触れてますが、StanはC++ベースのコンパイラで高速化させたMCMCサンプラーです。文法も簡単でなおかつ高速なので、BUGSでは時間がかかり過ぎて辛かった計算でも比較的サクサク回せます。 このシリーズを通して参考にするのは、@berobero11さんのブログです。 Small Data Scientist Memorandum 本当にもう、
G-gen 又吉です。当記事では、Google Cloud の LLM (Vertex AI PaLM API) と LangChain を組み合わせて、自然言語から BigQuery 上の統計データを取得する方法を紹介します。 はじめに 準備 実行環境 使用するデータ 実装 ライブラリのインストール 関数の定義 概要 解説 実行 はじめに LangChain とは、大規模言語モデル (LLM) アプリケーションを効率よく実装するためのフレームワークです。LangChain についての詳細は以下の記事をご参照ください。 blog.g-gen.co.jp LangChain にはさまざまな機能が提供されておりますが、今回は Agents 機能を用いて SQL データベースと対話するエージェントを作成します。 LLM のハルシネーション (幻覚) を抑制する手法として、指定した情報源だけに基づ
今回は、顧客のライフタイムバリューを予測する方法の1つとして、BG/NBDモデルを紹介します。 モチベーション 顧客のライフタイムバリューを予測できると、その顧客に対してどれだけ投資して良いかがわかります。ここで言う投資は、クーポンやポイントなどのインセンティブ、DMや電話などの営業努力のことです。 また、離脱 (churn) の予測にも転用できます。過去に売上に大きく貢献してきた人が、未来のライフタイムバリューはそれと比べると極めて小さい、または、ゼロとなることが予測されるケースです。 新規顧客の獲得は既存顧客の維持よりも遥かに大変なことはよく知られてます。また、過去には大きく売上に貢献していたので、引き止められれば優良顧客まで戻る見込みは高いはずです。 BG/NBDモデル このライフタイムバリューを予測するモデルの1つに、BG/NBD (Beta-Geometric / Negativ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く