Blog/Opinion

【Dataiku】MLプラクティショナー認定を取得してみた|学習ブログ③

【Dataiku】MLプラクティショナー認定を取得してみた|学習ブログ③

投稿日:2024年6月19日/更新日:2024年6月19日

【Dataiku】コアデザイナー認定を取得してみた|学習ブログ②

はじめに

このブログシリーズでは、データサイエンス・機械学習未経験の筆者がDataikuというプラットフォームを使用して初めてのデータ分析に挑戦した過程をまとめています。

前回は初級資格のコアデザイナー認定を取得するまでの過程をお届けしました。

【Dataiku】コアデザイナー認定を取得してみた|学習ブログ②

今回は、中級資格のDataiku MLプラクティショナー認定を目指して学習してみました。学習の全体像をまとめていますので、このブログを見ることでMLプラクティショナーで学べること、またDataikuでの分析の流れなどを大まかに理解できます。

目次

  1. はじめに
  2. Dataiku MLプラクティショナーとは何か
  3. Dataiku MLプラクティショナーで学べたこと
  4. MLプラクティショナー認定試験の流れ
  5. やってみての感想
  6. まとめ

Dataiku MLプラクティショナーとは何か

Dataiku MLプラクティショナーとは、Dataiku DSSで機械学習を用いたデータ分析ができるようになるための資格です。

ラーニングパスと呼ばれる、認定資格を受けるために必要なスキルが学ぶことができるコースがあり、MLプラクティショナーには3つの必須コースと2つのオプショナルコースが用意されています。MLプラクティショナー認定試験を受けるには必須コースのみの受講で十分なので、今回は3つの必須コースのみを扱います。

Dataiku のURLはこちら

Dataiku Academyラーニングパス MLプラクティショナー:https://academy.dataiku.com/path/ja-ml-practitioner

Dataiku Academy MLプラクティショナー認定:https://academy.dataiku.com/ml-practitioner-certificate-japanese

 

Dataiku MLプラクティショナーで学べたこと

MLプラクティショナーのコースを受講して学べた内容は次の通りです。機械学習に触れたことが無い人でも分かりやすいよう、一つ一つ丁寧に解説されています。

  • 購買データから収益性判別モデルの作成
  • モデルの性能評価方法
  • モデルの改良の仕方
  • モデルの説明・解釈
  • 作成した収益性判別モデルを用いて新たなデータを予測する
  • 探索的データ分析の方法

購買データから収益性判別モデルの作成

このコースのハンズオンレッスンでは、コアデザイナーのコースでも使用したTシャツ購買データを用いて、どのような人が収益性が高いかを判別する、教師あり機械学習モデルを作成します。

モデルとは、既知のデータからパターンを導き出し新たなデータに対して適切な予測を導き出す予測器ですが、Dataikuには簡単にモデルを作成する方法が備わっています。

作成の仕方は簡単で、マウス操作で順に作成手順を選択していくだけです。使用するトレーニングデータセットに対し、ラボのAutoML Predictionを選択します。目的変数としたい特徴量と、モデル作成方針(今回はhigh_revenueとQuickPrototypes)を決定すれば、Dataikuが自動で機械学習して適切なモデルを作成してくれます。

少しすると次のような画面が表示され、これでモデルが作成完了です。ランダムフォレストとロジスティック回帰の2つのモデルが作成されました。

モデルの性能評価方法

Dataikuはいくつかのモデルを同時に出力してくれますが、どのモデルがより性能が良いのかを判断する必要があります。

性能を確認したいモデルを選択し、Performance欄のそれぞれの指標を見ることでモデルの性能が確認できます。

指標には以下のようなものがあり、一通りそれらがどんな性能を表しているかを学びます。

  • Confusion matrix(混合行列)
  • Decision chart(決定グラフ)
  • Lift charts(リフトチャート)
  • ROC curve(ROC曲線)
  • Density chart(密度グラフ) など

モデルの改良の仕方

特徴量ハンドリング、特徴量生成といった、説明変数を調整して、判別精度を改善するための方法も学べます。

モデルの偏りの確認

収益性判別モデル作成の最後として、以下の方法を通して収益性が特定の説明変数の値に偏っていないかを確認します。

  • 部分依存グラフ
  • 部分母集団分析
  • 個別の説明
  • インタラクティブスコアリング

作成した収益性判別モデルを用いて新たなデータを予測する

判別精度のよいモデルを作成できたら、モデルをフローにデプロイして(左)、次にスコアレシピを使用して新しい顧客データの収益性判別を行ってみます(右)。

スコアリングが完了すると、新しいデータセットに結果が表示され、予測結果(高収入の是否:True or False)や予測結果が正しい確率、異なる確率などを見ることができます。

これで、顧客の収益性判別モデルの作成から予測まで一通りを学ぶことができました。

探索的データ分析(EDA)の方法

最後に、探索的データ分析(Exploratory Data Analysis: EDA)の行い方を学びます。探索的データ分析とは、データの変数間にどのような関係があるかを、可視化手法を用いて明らかにしていくことです。(IBM、2024)

Dataikuのデータ可視化手法は、データセットでStatisticsタブを開き、統計カードを作成することです。これは前回のコアデザイナーコースでも少し使用しました。今回は、より高度な以下の活用方法で、データセットから必要な情報を見出す方法を学びます。

  • 単変量解析
  • 多変量解析
  • 曲線近似
  • 分布近似
  • 相関
  • 仮説検定
  • 主成分分析(Principal Component Analysis: PCA)

例えば、2つの変数間の関係を探るために二変量解析を行ってみます。

Statisticsタブから新規カードを作成し、Bivariate analysis(二変量解析)を選択します。

今回は顧客の年齢によってウェブサイトの閲覧回数が異なるのかを探ってみようと思うので、factorにage_first_order、Responseにpages_visited_avgを選択し、分析カードを作成します。

 

カードを作成すると、以上のように散布図、箱ひげ図、ヒストグラム、モザイクプロットが自動で生成されました。結果から、年齢によって閲覧回数の分布はほとんど変わらないことが分かります。

以上がMLプラクティショナーのラーニングパスで学べた内容です。これらの知識、スキルを活用し、認定試験を受けてみます。

 

MLプラクティショナー認定試験の流れ

MLプラクティショナー認定は、Dataikuの中級資格で、Certification(認定)タブから受験できます。

受験するには、コアデザイナー認定試験に合格し、MLプラクティショナーのラーニングパスを修了しておく必要があります。

受験の流れは、プラクティショナー認定試験と変わらず

  1. 準備段階として用意されているデータを指示のとおりに加工・分析する
  2. 準備が整ったところで受験する

となっています。試験は60分の制限時間がありますが、何度もリトライ可能です。

 

やってみての感想

ラーニングパスと試験を1日集中して8時間弱で修了することができましたが、相変わらずラーニングパスは3.5時間では足りず、5時間ほど時間を要しました。また、試験問題は難しいものもあり、3回ほどリトライして合格できました。

筆者と同じく機械学習が未経験の方の中には、ラーニングパスの内容が難しく感じる方もいるかと思いますが、それほど心配はいりません。

Dataikuは「認定試験は、データサイエンス・スキルや質を評価するものではなく、Dataiku DSSを使用して基礎的なタスクを実行する能力を評価する」ものとしていて、また、「準備にデータサイエンスやAIを含める必要はなく、むしろDataiku DSSで必要な結果を得る方法を知っていることが重要」とも書かれています。そのため、データサイエンス・機械学習が未経験な方であっても、Dataiku DSSの基本機能の使い方が身につけば、認定試験をクリアすることができるはずです。

合格に点数が足りないときは、一度ラーニングパスの動画を視聴し直して、再度挑戦すればOKです。

まとめ

今回のブログでは、Dataiku MLプラクティショナーを学習し、Dataikuで機械学習を用いたデータ分析を行った過程についてまとめました。Dataiku MLプラクティショナーを習得したい方に対してこのブログを通して全体像が伝わると幸いです。

 

【参考文献】

“Dataiku Academy”. Dataiku. 2024. https://academy.dataiku.com/page/ja, (参照2024-06-19)

“探索的データ分析”. IBM. 2024. https://www.ibm.com/jp-ja/topics/exploratory-data-analysis(参照2024-06-19)

【truestar Group のDataiku記事】

ノンプログラマー分析者がDataikuを使ってみた感想 | Tableau-id Press -タブロイド- (truestar.co.jp)

【Dataiku】第2回金融データ活用チャレンジに参加してみた | Tableau-id Press -タブロイド- (truestar.co.jp)

Dataiku の Visual MLで機械学習を行ってみる – deepblue (deepblue-ts.co.jp)

scroll