サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
WWDC24
tech.datafluct.com
こんにちは! AIがトレンドとなって世間で騒がれる中、『文系だけどAIの開発ができるようになりたい!』と思う方も多いのではないでしょうか。 今回は文系出身の私、小笠原がAIにも通ずるデータサイエンスの知識を得るまでに行った勉強方法を紹介します。データサイエンスはAIのベースとなる領域ですので、データサイエンスを学ぶことはAIを学ぶことにつながります。 本記事では文系の方を対象としますが、文系出身ではなくてもデータサイエンス分野の勉強を始めてみたい方は是非一読ください! 前半で文系出身でもデータサイエンスの勉強を進められるかどうかの疑問点解消、それから勉強を進めていく注意点。後半で実際に私がどのように勉強を行ったのかを書籍などを紹介しつつ説明します。 文系出身でも大丈夫? 数学への苦手意識 統計学が分かりづらい 文系の有利な点を考える 社会問題を考える経験がある コミュニケーション能力が高い
こんにちは!nakamura(@naka957)です。今回はPyCaretとMLflowを用いたAutoMLと実験記録を連携した活用方法をご紹介します。 今回は様々な機械学習アルゴリズムの比較・モデル実装に加えて、行った実験記録の管理を簡単に行う方法をご紹介します。実施事項がたくさんありますが、PyCaretとMLflowの活用で少ないコード行数で簡単に実施できます。 PyCaretは機械学習モデルの実装を簡単に行えるOSSですが、PyCaretからMLflowを呼び出すこともでき、実験記録の管理も同時に行えます。 【PyCaret】 ■ AutoMLライブラリPyCaretを使ってみた〜モデル実装から予測まで〜 ■【続き】 AutoMLライブラリPyCaretを使ってみた 〜結果の描画〜 【MLflow】 ■ MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 - ■ ML
こんにちは! 皆さんはXGBoostとLightGBMの二つをご存じですか? 機械学習をやっている方は聞き慣れているフレームワークだと思いますが、 両者の違いを正しく理解できているでしょうか。 今回はこの二つのフレームワークの違いを解説していきます。 結論から話すと、XGBoostではLevel-wiseという決定木の作成方法を用いており、LightGBMではLeaf-wiseを用いています。Leaf-wiseでは決定木の分岐が少ないためそれを活用したLightGBMでは高速な計算が可能になります。 GBDTの計算手順を復習してから、両者の違いを理解していきましょう。 勾配ブースティング決定木とは 決定木 アンサンブル学習 勾配降下法 GBDTの計算手順 XGBoostとLightBGMの異なる点 Level-wise Leaf-wise ジニ不純度 その他のLightGBMの高速化の理由
こんにちは! nakamura(@naka957)です。 今回はクラスタリングをご説明します。クラスタリングは教師なし学習に代表される手法の1つで、正解情報なしでデータ間の類似性を推定し、グループ化する手法です。DATA Campusでは、これまでに教師なし学習の概要とその手法の1つの主成分分析について解説しています。そちらも是非参考にしてみてください。 ■機械学習における教師なし学習の理解を深める ■教師なし学習の実践 主成分分析で高次元データを可視化する 本記事では、最初にクラスタリングの概念と主要な手法であるk-means法について説明します。次に、実装例の紹介に加え、同じ教師なし学習である主成分分析と組み合わせることで、クラスタリングをより有効に機能する例も紹介します。k-means法は単純なアルゴリズムで、様々な場面で簡単に適用できる手法です。是非、この機会にマスターしてみてくだ
みなさん、こんにちは。DATAFLUCTのKazumiです。 前回の記事( WordCloudで小説の特徴を テキストマップ化してみた )でWordCloudを用いたテキストマップの作成を紹介しました。そこではWordCloudを使って、テキスト内でよく使われる単語を可視化できました。今回はその仕組みともっと良くするための方法について話していきます。 WordCloudにはできないことがある! そもそも形態素解析というのは何か? 形態素への理解 形態素を解析する、とは ①文章を分割する ②品詞をつける WordCloudの弱点と応用 WordCloudの形態素解析が粗い理由 WordCloudをうまく扱うには おわりに 参考文献 WordCloudにはできないことがある! まず、WordCloudにはできないことについて説明します。 WordCloudを使って作った、次の2つのテキストマッ
こんにちは。本稿では機械学習を利用したコンポーネントの処理速度の計測方法、および負荷テストのやり方について解説してゆきます。 機械学習を利用するコンポーネントの処理速度を計測する必要性 機械学習アルゴリズムを適用する関数の処理速度を検証 実行時間を測定 関数の実行時間を算出するデコレーター 性能評価テストと継続的な性能チェック 機械学習 API の性能を評価する Locust:インストールと負荷テスト設定追加 Locsutを使った測定測定 もうすこし高度な使い方 分散実行 コマンドラインから実行 まとめ 機械学習を利用するコンポーネントの処理速度を計測する必要性 機械学習を利用したタスクでは、モデルの精度に注意が行きがちです。しかし、一般的なWebアプリケーションでは入力はリソースID(ユーザIDなど)やシンプルなJSONである場合が多いのに対し、機械学習は入データ(自然言語や画像など)や
こんにちは!nakamura(@naka957)です。今回はMLflowをご紹介します。 読者の皆さんは、機械学習モデルのハイパーパラメータ調整を手作業で管理し、苦労した経験がないでしょうか。実験記録の管理は大事な一方で、なかなか大変です。 今回紹介するMLflowは、実験記録を簡単に管理できる便利なPythonライブラリです。MLflowは実験管理だけでなく、機械学習プロジェクト全体を管理する様々な機能を提供する非常に人気なライブラリです。一方で、多機能な反面で初心者が最初に導入するにはハードルが高い側面があるのも事実です。 本記事では、MLflowの実験管理の機能に絞り、簡単な例で使い方をご説明します。そのため、初めて使用する方も安心してご覧ください。 では、早速始めていきます。 実験記録の重要性 MLflowとは MLflowのインストール データセット準備 機械学習モデルの用意 M
こんにちは。今回は、データ基盤の構築の一部を実際に体験してみたいと思います。 データ基盤を作成するにあたり、まずは、社内に眠る様々なデータを集めてくる必要があります。 前回の記事では、その機能を「収集」と紹介していました。 データ基盤とは何か? 収集・変換・統制の3つの構成要素に分けて解説 本記事では、データ基盤の収集機能をOSSで構築し、実際に体験してみたいと思います。 これからデータ基盤を開発していく方に、少しでもお役に立てたら幸いです。 データ連携に必要なELTについて データ抽出機能に特化したAirbyteについて ELに必要な環境のセットアップ Airbyteのセットアップ PostgreSQLのセットアップ BigQuery のデータセットの作成 Airbyte上での設定 AirbtyeによるELの実行 まとめ データ連携に必要なELTについて 収集機能を構築していくあたり、大
こんにちは!nakamura(@naka957)です。本記事では、TensorFlowの拡張機能であるTensorFlow Data Validationを用いたデータセット検証を行う方法をご紹介します。 データセット検証とは、機械学習モデルの構築時に使う訓練データと運用データの間の違いを調べることです。訓練データと運用データの性質に違いが存在すると、モデル精度の悪化に繋がります。そのため、構築したモデルの精度監視だけでなく、より前工程となるデータセット時点での検証も非常に重要になります。特に、データセットサイズが大きくなるほど、手作業での検証が困難となるため、効率的で自動化された検証方法が求められてきます。 データセット検証を行うライブラリは様々ありますが、今回は機械学習の実装フレームワークとして特に有名なTensorFlow系のライブラリを用いて行います。 では、早速始めていきます。
こんにちは! 皆さんは機械学習モデルを作ろうとした時にデータが少なくても、思ったような精度が出ずに困ったことはないでしょうか。 筆者は機械学習を用いたプロジェクトで、「やりたいことはあるけど....データがない...ッ!」といつも困っていました。 今回は少ないデータでも精度の良いモデルが作れるかもしれない転移学習について解説をしていきます。 転移学習とはなにか なぜ転移学習は注目されるのか 少ないデータでも高精度なモデルを構築可能 短い時間で学習が可能 転移学習の実装方法 実際に転移学習をさせてみた 転移学習: 学習済みvgg19 転移学習: 学習済みMobileNet V2 転移学習なし: MobileNetV2 学習時間の比較 まとめ 参考文献 転移学習とはなにか 機械学習の分野で用いられる研究のテーマの1つで、意外と歴史は長く、1976年にステボ・ボジノフスキーとアンティ・フルゴシに
みなさん、こんにちは。DATAFLUCTのKazumiです。 今回は文章の解析を簡単に知ってもらうために、WordCloudというPythonのライブラリを用いて小説の「テキストマップ」を見ていきます。テキスト中の単語の出現頻度を大きさで表現することで、視覚的に描写することができるようになります。 1.【問題】このテキストマップが表す小説は何でしょう? 2.実際に作ってみよう! 利用準備 【コード】 実行した結果 3.WordCloudで英語のテキストマップを取り上げた理由 1.【問題】このテキストマップが表す小説は何でしょう? さっそく、WordCloudを使って、テキストマップを6個作ってみました。せっかくなので何の小説をもとにしてテキストマップを作ったのか当ててみてほしいと思います。答えは6つ目の小説のテキストマップの画像の後にまとめていますので、ぜひ当ててみてください! #1 ヒ
こんにちは! 以前にDartsという時系列分析に特化したpythonライブラリを紹介しました。 前編はこちら 今回は実際にDartsを動かしていきましょう。 Darts内にもデータセットがありますが、公式でも触れられているのであえて、外部のデータを参照してみましょう。導入編でも触れたアイスクリームの生産量の変化を推測したいと思います。 アイスクリームのデータセットはこちら 上記リンクの上部右側Downloadからcsvをダウンロードしてください。 Dartsのインストールは以下の1コマンドです。Windowsではデフォルトのコマンドプロンプトでうまくインストールが終了しなかったので、WSL環境などを推奨します。 $ pip install darts ARIMAで学習してみる バックテストでモデルの選定を行う RNNで共変量を扱ってみる まとめ ARIMAで学習してみる まずは、導入編で最
こんにちは!nakamura(@naka957)です。 ドリフト(Drift)という言葉をご存知でしょうか?機械学習のサービスを運用する上で重要な項目ですが、知らない人も多いのではないでしょうか。 機械学習プロジェクトは、モデルを構築するまでがゴールではありません。本番環境での運用を続けることがゴールです。ところが、本番環境モデルは徐々に精度が低下していきます。そのため、時機を見計らって再学習が必要です。 このように、モデルの精度が想定からズレることをドリフトすると言います。ドリフトはモデルの運用のために重要となる概念です。 本記事では、ドリフトの概念と重要性を説明していきます。 ドリフトとは コンセプトドリフト データドリフト ドリフト検知後の再学習 まとめ 参考文献 ドリフトとは ドリフトとは、本番環境のモデル精度が低下する現象を指します。 ドリフトは主に2種類に分けられ、コンセプトド
こんにちは!nakamura(@naka957)です。本記事では、PyCaretで簡単に探索的データ分析を行う方法をご紹介します。 探索的データ分析(Explanatory Data Analysis: EDA)とは、データセットを様々な視点から分析し、データを考察することを目的に行うことです。EDAで得られた知見や仮説を活用し、その後のデータ分析や機械学習モデルの構築を有効に行うことができます。 データを考察するための最も有効な手法は、可視化することです。そのため、データを可視化するスキルはEDAにおいて非常に重要になります。本記事ではEDAを目的とした可視化する方法をご紹介します。 では、早速始めていきます。 PyCaretとは AutoVizとは ライブラリのインストール 実行の前準備 EDAの実行 散布図 棒グラフ 密度分布 Violinプロット ヒートマップ(相関係数) Auto
こんにちは!nakamura(@naka957)です。今回は、主成分分析(PCA)をご説明します。 主成分分析は教師なし学習の重要手法の1つです。教師なし学習は正解情報なしでデータのパターンを推測する手法です。その中でも、主成分分析は多数の特徴量を少数の特徴量で表現する手法です。言い換えれば、高次元のデータを低次元で表現するため、次元圧縮の手法とも呼ばれます。 本記事では、主成分分析の概要と実装例をご紹介します。実装例では、手書き数字の画像データを実際に次元圧縮してみます。手書き数字の画像データでパターンが観測されるか確かめてみましょう。 では、早速始めていきます。 主成分分析 実装例 データセットを準備 標準化でスケールを揃える 主成分分析の実行 結果の可視化 まとめ 参考 主成分分析 主成分分析(Principal Component Analysis: PCA)は、多数の特徴量のデー
はじめまして、DATAFLUCTのSaiです。 この記事では「機械学習」について、AIやディープラーニングの違いに触れながら分かりやすく解説していきます。 また機械学習を知る上で欠かせない AI ディープラーニング 教師あり学習、教師なし学習、強化学習 回帰、分類 精度 といった用語も図をまじえて最後まできちんと理解できるようになっています。 身近にある機械学習 1. 迷惑メール判定 2. チャットボット 機械学習とは ディープラーニングと機械学習の関係 ディープラーニングは複雑なデータが得意ってどういうこと? データから特徴や法則性を見つけ出すってどういうこと? 機械学習の種類 教師あり学習 教師なし学習 強化学習 最後に 身近にある機械学習 機械学習とは何かを説明する前に、身近なところで機械学習が使われてるケースを2つ紹介します。 1. 迷惑メール判定 1つ目のケースとして、機械学習は
このページを最初にブックマークしてみませんか?
『DATAFLUCT Tech Blog』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く