人間拡張はどのような影響をもたらすのか?
Blog/Opinion
【Dataiku】コアデザイナー認定を取得してみた|学習ブログ②
- TOP
- BLOG/OPINION
- ビジネス
- テクノロジー
【Dataiku】コアデザイナー認定を取得してみた|学習ブログ②
【Dataiku】コアデザイナー認定を取得してみた|学習ブログ②
はじめに
このブログシリーズでは、データサイエンス・機械学習未経験の筆者がこのDataikuというプラットフォームを使用して初めてのデータ分析に挑戦した過程をまとめています。
前回のブログはDataikuのご紹介と、学習方法についてでした。そちらも下のリンクからぜひご覧ください。
今回は前回少し触れた、Dataikuコアデザイナー認定を目指してラーニングパスを学習し、認定試験を受けてみました。これからDataikuのスキルを習得してみたいという方などに参考になると思いますので、ぜひご覧ください。
目次
- はじめに
- Dataikuコアデザイナーとは何か
- Dataiku Academyでの学び方
- Dataikuコアデザイナーで学べたこと
- コアデザイナー認定試験の流れ
- やってみての感想
- まとめ
Dataikuコアデザイナーとは何か
Dataikuコアデザイナーは、Dataiku Academyで学習可能な初級資格で、これを学ぶとDataiku DSSの機能の基本的な理解や、簡単なデータ操作・分析を行ったりすることができます。初めてデータサイエンスに触れる人でも学びやすい内容になっています。ラーニングパスと呼ばれる学習コースにかかる目安の所要時間は3.5時間です。
Dataiku Academyでの学び方
コアデザイナーのラーニングパスに進むと3つのコースがあり、これらを全て受講します。
一つのコースはドキュメントと動画、ハンズオン(実際にDataiku DSSを使った実践)から成り立っており、どれも日本語に対応しているので、容易に学ぶことができます。(動画は英語のものに日本語字幕が付きます)
ドキュメントと動画は実際にDataiku Academyの方から確認できます。
Dataiku Academyラーニングパス コアデザイナー:https://academy.dataiku.com/path/ja-core-designer
以下では、ハンズオンレッスンで実際にDSSを使用して学べたことをまとめてみます。
Dataikuコアデザイナーで学べたこと
今回、Dataikuコアデザイナーのラーニングパスを受講して学べた内容は以下の通りです。
- フロー(分析の流れを表した図)
- データセット
- データの統計グラフを作成する方法
- Prepareレシピ(データセットの加工)
- Groupレシピ(データのグループ化)
- Joinレシピ(データセットの結合)
- ラボ(データの視覚分析)
- ダッシュボード(分析結果のレポート)
フロー
フローとは、データ分析の流れが左から右へと作業が進んでいく工程を可視化したものです。Dataiku DSSでプロジェクトを開くと初めに表示される画面で、最も基本的な画面になります。青のオブジェクトはデータセット、黄色はレシピと呼ばれるデータの加工手順を示します。
データセット
データセットは、フローでは青色の正方形で示される、データの格納された箱です。データセットは表の形をしており、開くと下のような画面になります。ここでフローにおけるある時点のデータセットがどのような内容になっているかを確認することができます。
データの視覚化
データセットのChartsタブでは、データをグラフで視覚化することができます。ドラッグ&ドロップで変数を選択して、棒グラフ、円グラフ、分布図、地図上のプロットなどを簡単に作成することができます
データの統計グラフ作成
よりデータに対して深いインサイトを得たい場合は、データセットのStatisticsタブから記述統計分析が行えます。Statisticsタブに入ると、統計分析の方法をいくつか選択できますが、今回は単変量分析(Univariable analysis)を選択しました。
単変量分析のカードを作成したあと、記述する変数を選択するだけで、自動的に適切なグラフが表示されます。
カテゴリー変数には棒グラフと度数分布表、数的変数であればヒストグラムと箱ひげ図、変位表などが表示されます。
Chartsタブと比べて、ある変数がどのような分布の形をしているのかを詳しく分析することができます。
Prepareレシピ
レシピは、フローでは黄色の円で表される、データを加工する手順書です。任意のデータセットのレシピ一覧は次のようになっており、さまざまな加工方法が用意されています。
その中で最初に学ぶのがPrepareレシピで、ある一つのデータセットに変更を加える際に用います。この例では、似た表記の複数の値を一つの表記に統一するためや、商品1つあたりの価格と販売数量を掛け算して総売上を計算するために用いました。
レシピによってデータセットに変更手順を加えたのち、フローには新たなデータセットが作られます。つまりもともとのデータセットは保持されたままになるため、後から元のデータを見たいときに戻って確認することもできます。
- 2つのデータセットをインポートした際のフロー
Groupレシピ
Groupレシピでは、繰り返しデータを1行にまとめることができます。今回の例では、ある顧客が複数回買い物をした記録があるとき、その人の複数の購買データを1行にまとめて総購入量を見るために使いました。
Joinレシピ
Joinレシピは、複数のデータセットを結合するために使用します。Groupレシピで顧客一人ずつの購買データを作ったのち、購買データとは別に存在する顧客データと結合させることで、顧客の特性(年齢、国、性別など)がどのように購買に関係しているかを見ることができるようになります。
ラボ
ラボは、今までに学んだグラフやチャートの作成、Prepareレシピなどを、フローに干渉することなく試すことができる場所です。実際に分析を行う際にはデータから有用な情報を見つけ出すために何度も反復して実験してみる必要があるため、フローに干渉しないで分析が行えるラボは重宝します。
ダッシュボード
最後にダッシュボードは、分析で得た発見をまとめてレポートするためにあります。Chartsで作成したグラフやチャートなどを1枚のレポートにまとめて報告することで、分析の結果何が得られたのかが他のメンバーから見てわかりやすくなります。
以上がラーニングパスで学べた内容です。目標の3.5時間よりも長い4時間ほどかけて修了しました。
コアデザイナー認定試験の流れ
3つのチュートリアルを学び終えたので、試験を受けてみることにしましょう。
コアデザイナー認定は、Dataiku Academyの初級資格で、Certifications(認定)タブから受験することができます。
受験の流れは、
- 準備段階として用意されているデータを指示のとおりに加工・分析する
- 準備が整ったところで受験する
となります。試験時間は60分ですが、何度もやり直すことが可能です。
結果
無事試験に合格することができました!
試験問題としては、準備したプロジェクト以外に、ラーニングパスの動画で学んだ内容も出題されました。一度点数が足りずに不合格になってしまいましたが、ラーニングパスに戻って復習してから再挑戦して合格できました。
やってみての感想
ラーニングパスと試験を、2日に分けて合計9時間ほどかけて修了できたので、これくらいの時間で認定証が取得できるならとても良いと思いました。ただ、ラーニングパスは公式の目安時間は短すぎるため、3.5時間で終えられなくても全然問題ないと思います。
筆者は前述の通りDataikuを触れる以前に特筆したデータ分析業務を行った経験がなく、使用したことのあるものはExcelくらいでしたが、こDataiku Academyで丁寧に学ぶことができたことでスムーズにDataiku DSSでデータ分析が行えるようになりました。DSSの直感的な操作が可能な点や、フローで作業工程が可視化されていることにより、初心者でもとても扱いやすいプラットフォームであると感じました。
まとめ
今回はDataiku Academyでコアデザイナー認定を目指して学習しました。これからDataikuを扱ってみたいという方の参考になれば幸いです。
次回のブログではMLプラクティショナー認定を勉強した過程をお伝えします。
【参考文献】
“Dataiku Academy”. Dataiku. 2024. https://academy.dataiku.com/page/ja, (参照2024-03-19)
【truestar Group のDataiku記事】
ノンプログラマー分析者がDataikuを使ってみた感想 | Tableau-id Press -タブロイド- (truestar.co.jp)
【Dataiku】第2回金融データ活用チャレンジに参加してみた | Tableau-id Press -タブロイド- (truestar.co.jp)
Dataiku の Visual MLで機械学習を行ってみる – deepblue (deepblue-ts.co.jp)
関連記事
scroll