DATAFLUCT Tech Blog[B!]新着記事・評価 - はてなブックマーク

PyCaretとMLflowで機械学習の実験を簡単に実行・記録する - DATAFLUCT Tech Blog

3 users

tech.datafluct.com

こんにちは！nakamura（@naka957）です。今回はPyCaretとMLflowを用いたAutoMLと実験記録を連携した活用方法をご紹介します。今回は様々な機械学習アルゴリズムの比較・モデル実装に加えて、行った実験記録の管理を簡単に行う方法をご紹介します。実施事項がたくさんありますが、PyCaretとMLflowの活用で少ないコード行数で簡単に実施できます。 PyCaretは機械学習モデルの実装を簡単に行えるOSSですが、PyCaretからMLflowを呼び出すこともでき、実験記録の管理も同時に行えます。【PyCaret】 ■ AutoMLライブラリPyCaretを使ってみた〜モデル実装から予測まで〜 ■【続き】 AutoMLライブラリPyCaretを使ってみた〜結果の描画〜【MLflow】 ■ MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 - ■ ML

テクノロジー
2022/11/09 15:22

XGBoostとLightGBMの違い - DATAFLUCT Tech Blog

4 users

tech.datafluct.com

こんにちは！皆さんはXGBoostとLightGBMの二つをご存じですか？機械学習をやっている方は聞き慣れているフレームワークだと思いますが、両者の違いを正しく理解できているでしょうか。今回はこの二つのフレームワークの違いを解説していきます。結論から話すと、XGBoostではLevel-wiseという決定木の作成方法を用いており、LightGBMではLeaf-wiseを用いています。Leaf-wiseでは決定木の分岐が少ないためそれを活用したLightGBMでは高速な計算が可能になります。 GBDTの計算手順を復習してから、両者の違いを理解していきましょう。勾配ブースティング決定木とは決定木アンサンブル学習勾配降下法 GBDTの計算手順 XGBoostとLightBGMの異なる点 Level-wise Leaf-wise ジニ不純度その他のLightGBMの高速化の理由

テクノロジー
2022/10/06 10:22

data

機械学習実践 - クラスタリングでデータ間の関係を把握する - DATAFLUCT Tech Blog

16 users

tech.datafluct.com

こんにちは！ nakamura（@naka957）です。今回はクラスタリングをご説明します。クラスタリングは教師なし学習に代表される手法の1つで、正解情報なしでデータ間の類似性を推定し、グループ化する手法です。DATA Campusでは、これまでに教師なし学習の概要とその手法の1つの主成分分析について解説しています。そちらも是非参考にしてみてください。 ■機械学習における教師なし学習の理解を深める ■教師なし学習の実践主成分分析で高次元データを可視化する本記事では、最初にクラスタリングの概念と主要な手法であるk-means法について説明します。次に、実装例の紹介に加え、同じ教師なし学習である主成分分析と組み合わせることで、クラスタリングをより有効に機能する例も紹介します。k-means法は単純なアルゴリズムで、様々な場面で簡単に適用できる手法です。是非、この機会にマスターしてみてくだ

テクノロジー
2022/07/14 21:04

WordCloudの弱点と精度を高めるための形態素解析について - DATAFLUCT Tech Blog

10 users

tech.datafluct.com

みなさん、こんにちは。DATAFLUCTのKazumiです。前回の記事（ WordCloudで小説の特徴をテキストマップ化してみた）でWordCloudを用いたテキストマップの作成を紹介しました。そこではWordCloudを使って、テキスト内でよく使われる単語を可視化できました。今回はその仕組みともっと良くするための方法について話していきます。 WordCloudにはできないことがある！そもそも形態素解析というのは何か？形態素への理解形態素を解析する、とは ①文章を分割する ②品詞をつける WordCloudの弱点と応用 WordCloudの形態素解析が粗い理由 WordCloudをうまく扱うにはおわりに参考文献 WordCloudにはできないことがある！まず、WordCloudにはできないことについて説明します。 WordCloudを使って作った、次の２つのテキストマッ

テクノロジー
2022/06/29 19:55

機械学習を利用するコンポーネントの継続的な性能検証と Locust を利用した負荷テストの実施方法 - DATAFLUCT Tech Blog

16 users

tech.datafluct.com

こんにちは。本稿では機械学習を利用したコンポーネントの処理速度の計測方法、および負荷テストのやり方について解説してゆきます。機械学習を利用するコンポーネントの処理速度を計測する必要性機械学習アルゴリズムを適用する関数の処理速度を検証実行時間を測定関数の実行時間を算出するデコレーター性能評価テストと継続的な性能チェック機械学習 API の性能を評価する Locust：インストールと負荷テスト設定追加 Locsutを使った測定測定もうすこし高度な使い方分散実行コマンドラインから実行まとめ機械学習を利用するコンポーネントの処理速度を計測する必要性機械学習を利用したタスクでは、モデルの精度に注意が行きがちです。しかし、一般的なWebアプリケーションでは入力はリソースID（ユーザIDなど）やシンプルなJSONである場合が多いのに対し、機械学習は入データ（自然言語や画像など）や

テクノロジー
2022/06/08 19:28

MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 - - DATAFLUCT Tech Blog

49 users

tech.datafluct.com

こんにちは！nakamura（@naka957）です。今回はMLflowをご紹介します。読者の皆さんは、機械学習モデルのハイパーパラメータ調整を手作業で管理し、苦労した経験がないでしょうか。実験記録の管理は大事な一方で、なかなか大変です。今回紹介するMLflowは、実験記録を簡単に管理できる便利なPythonライブラリです。MLflowは実験管理だけでなく、機械学習プロジェクト全体を管理する様々な機能を提供する非常に人気なライブラリです。一方で、多機能な反面で初心者が最初に導入するにはハードルが高い側面があるのも事実です。本記事では、MLflowの実験管理の機能に絞り、簡単な例で使い方をご説明します。そのため、初めて使用する方も安心してご覧ください。では、早速始めていきます。実験記録の重要性 MLflowとは MLflowのインストールデータセット準備機械学習モデルの用意 M

テクノロジー
2022/06/03 19:25

データ抽出に特化したAirbyteによるEL(T) 環境構築の実践 - DATAFLUCT Tech Blog

10 users

tech.datafluct.com

こんにちは。今回は、データ基盤の構築の一部を実際に体験してみたいと思います。データ基盤を作成するにあたり、まずは、社内に眠る様々なデータを集めてくる必要があります。前回の記事では、その機能を「収集」と紹介していました。データ基盤とは何か？収集・変換・統制の3つの構成要素に分けて解説本記事では、データ基盤の収集機能をOSSで構築し、実際に体験してみたいと思います。これからデータ基盤を開発していく方に、少しでもお役に立てたら幸いです。データ連携に必要なELTについてデータ抽出機能に特化したAirbyteについて ELに必要な環境のセットアップ Airbyteのセットアップ PostgreSQLのセットアップ BigQuery のデータセットの作成 Airbyte上での設定 AirbtyeによるELの実行まとめデータ連携に必要なELTについて収集機能を構築していくあたり、大

テクノロジー
2022/06/01 20:00

Tensorflow Data Validationを用いた機械学習用データセットの検証方法 - DATAFLUCT Tech Blog

22 users

tech.datafluct.com

こんにちは！nakamura（@naka957）です。本記事では、TensorFlowの拡張機能であるTensorFlow Data Validationを用いたデータセット検証を行う方法をご紹介します。データセット検証とは、機械学習モデルの構築時に使う訓練データと運用データの間の違いを調べることです。訓練データと運用データの性質に違いが存在すると、モデル精度の悪化に繋がります。そのため、構築したモデルの精度監視だけでなく、より前工程となるデータセット時点での検証も非常に重要になります。特に、データセットサイズが大きくなるほど、手作業での検証が困難となるため、効率的で自動化された検証方法が求められてきます。データセット検証を行うライブラリは様々ありますが、今回は機械学習の実装フレームワークとして特に有名なTensorFlow系のライブラリを用いて行います。では、早速始めていきます。

テクノロジー
2022/05/26 19:26

【データが少なくても諦めないで！】知っておくべき転移学習について - DATAFLUCT Tech Blog

3 users

tech.datafluct.com

こんにちは！皆さんは機械学習モデルを作ろうとした時にデータが少なくても、思ったような精度が出ずに困ったことはないでしょうか。筆者は機械学習を用いたプロジェクトで、「やりたいことはあるけど....データがない...ッ！」といつも困っていました。今回は少ないデータでも精度の良いモデルが作れるかもしれない転移学習について解説をしていきます。転移学習とはなにかなぜ転移学習は注目されるのか少ないデータでも高精度なモデルを構築可能短い時間で学習が可能転移学習の実装方法実際に転移学習をさせてみた転移学習: 学習済みvgg19 転移学習: 学習済みMobileNet V2 転移学習なし: MobileNetV2 学習時間の比較まとめ参考文献転移学習とはなにか機械学習の分野で用いられる研究のテーマの1つで、意外と歴史は長く、1976年にステボ・ボジノフスキーとアンティ・フルゴシに

テクノロジー
2022/05/10 21:32

WordCloudで小説の特徴をテキストマップ化してみた - DATAFLUCT Tech Blog

6 users

tech.datafluct.com

みなさん、こんにちは。DATAFLUCTのKazumiです。今回は文章の解析を簡単に知ってもらうために、WordCloudというPythonのライブラリを用いて小説の「テキストマップ」を見ていきます。テキスト中の単語の出現頻度を大きさで表現することで、視覚的に描写することができるようになります。１．【問題】このテキストマップが表す小説は何でしょう？２．実際に作ってみよう！利用準備【コード】実行した結果３．WordCloudで英語のテキストマップを取り上げた理由１．【問題】このテキストマップが表す小説は何でしょう？さっそく、WordCloudを使って、テキストマップを6個作ってみました。せっかくなので何の小説をもとにしてテキストマップを作ったのか当ててみてほしいと思います。答えは６つ目の小説のテキストマップの画像の後にまとめていますので、ぜひ当ててみてください！＃1　ヒ

テクノロジー
2022/05/06 17:02

時系列分析をお手軽に！機械学習ライブラリDartsの実演 - DATAFLUCT Tech Blog

50 users

tech.datafluct.com

こんにちは！以前にDartsという時系列分析に特化したpythonライブラリを紹介しました。前編はこちら今回は実際にDartsを動かしていきましょう。 Darts内にもデータセットがありますが、公式でも触れられているのであえて、外部のデータを参照してみましょう。導入編でも触れたアイスクリームの生産量の変化を推測したいと思います。アイスクリームのデータセットはこちら上記リンクの上部右側Downloadからcsvをダウンロードしてください。 Dartsのインストールは以下の1コマンドです。Windowsではデフォルトのコマンドプロンプトでうまくインストールが終了しなかったので、WSL環境などを推奨します。 $ pip install darts ARIMAで学習してみるバックテストでモデルの選定を行う RNNで共変量を扱ってみるまとめ ARIMAで学習してみるまずは、導入編で最

テクノロジー
2022/05/02 18:38

機械学習の運用に欠かせないドリフト（Drift）の概念と重要性 - DATAFLUCT Tech Blog

11 users

tech.datafluct.com

こんにちは！nakamura（@naka957）です。ドリフト(Drift)という言葉をご存知でしょうか？機械学習のサービスを運用する上で重要な項目ですが、知らない人も多いのではないでしょうか。機械学習プロジェクトは、モデルを構築するまでがゴールではありません。本番環境での運用を続けることがゴールです。ところが、本番環境モデルは徐々に精度が低下していきます。そのため、時機を見計らって再学習が必要です。このように、モデルの精度が想定からズレることをドリフトすると言います。ドリフトはモデルの運用のために重要となる概念です。本記事では、ドリフトの概念と重要性を説明していきます。ドリフトとはコンセプトドリフトデータドリフトドリフト検知後の再学習まとめ参考文献ドリフトとはドリフトとは、本番環境のモデル精度が低下する現象を指します。ドリフトは主に2種類に分けられ、コンセプトド

テクノロジー
2022/04/27 20:47

PyCaretからAutoVizを使用して探索的データ分析（EDA）を簡単に行ってみる - DATAFLUCT Tech Blog

42 users

tech.datafluct.com

こんにちは！nakamura（@naka957）です。本記事では、PyCaretで簡単に探索的データ分析を行う方法をご紹介します。探索的データ分析（Explanatory Data Analysis: EDA）とは、データセットを様々な視点から分析し、データを考察することを目的に行うことです。EDAで得られた知見や仮説を活用し、その後のデータ分析や機械学習モデルの構築を有効に行うことができます。データを考察するための最も有効な手法は、可視化することです。そのため、データを可視化するスキルはEDAにおいて非常に重要になります。本記事ではEDAを目的とした可視化する方法をご紹介します。では、早速始めていきます。 PyCaretとは AutoVizとはライブラリのインストール実行の前準備 EDAの実行散布図棒グラフ密度分布 Violinプロットヒートマップ（相関係数） Auto

テクノロジー
2022/04/27 19:35

教師なし学習の実践主成分分析で高次元データを可視化する - DATAFLUCT Tech Blog

21 users

tech.datafluct.com

こんにちは！nakamura（@naka957）です。今回は、主成分分析（PCA）をご説明します。主成分分析は教師なし学習の重要手法の１つです。教師なし学習は正解情報なしでデータのパターンを推測する手法です。その中でも、主成分分析は多数の特徴量を少数の特徴量で表現する手法です。言い換えれば、高次元のデータを低次元で表現するため、次元圧縮の手法とも呼ばれます。本記事では、主成分分析の概要と実装例をご紹介します。実装例では、手書き数字の画像データを実際に次元圧縮してみます。手書き数字の画像データでパターンが観測されるか確かめてみましょう。では、早速始めていきます。主成分分析実装例データセットを準備標準化でスケールを揃える主成分分析の実行結果の可視化まとめ参考主成分分析主成分分析（Principal Component Analysis: PCA）は、多数の特徴量のデー

テクノロジー
2022/04/27 09:36

図解でわかる、機械学習をどこよりも簡単に解説 - DATAFLUCT Tech Blog

45 users

tech.datafluct.com

はじめまして、DATAFLUCTのSaiです。この記事では「機械学習」について、AIやディープラーニングの違いに触れながら分かりやすく解説していきます。また機械学習を知る上で欠かせない AI ディープラーニング教師あり学習、教師なし学習、強化学習回帰、分類精度といった用語も図をまじえて最後まできちんと理解できるようになっています。身近にある機械学習 1. 迷惑メール判定 2. チャットボット機械学習とはディープラーニングと機械学習の関係ディープラーニングは複雑なデータが得意ってどういうこと？データから特徴や法則性を見つけ出すってどういうこと？機械学習の種類教師あり学習教師なし学習強化学習最後に身近にある機械学習機械学習とは何かを説明する前に、身近なところで機械学習が使われてるケースを2つ紹介します。 1. 迷惑メール判定 1つ目のケースとして、機械学習は

テクノロジー
2022/04/20 19:57

はてなブックマーク

はてなブックマーク