INDEX

最速でPyCaretを使ってみた
はじめに
環境とversion
1. まずはインストールから
2. データの取得
3. 前処理
4. モデルの比較
5.モデリング
6.チューニング
7.モデルの可視化
8.モデルの解釈
9.予測
最後に
参考サイト

データサイエンスが学べる
日本屈指のビジネススクール「datamix」

公式サイトへ

トップデータサイエンス最速でPyCaretを使ってみた

最速でPyCaretを使ってみた

データサイエンス

2020.04.28

INDEX

最速でPyCaretを使ってみた
はじめに
環境とversion
1. まずはインストールから
2. データの取得
3. 前処理
4. モデルの比較
5.モデリング
6.チューニング
7.モデルの可視化
8.モデルの解釈
9.予測
最後に
参考サイト

最速でPyCaretを使ってみた

当社のデータサイエンティスト福澤がQiitaで執筆した記事について、
当コラムでもご紹介いたします！

先日リリースされた機械学習ライブラリーPyCaretを使用してみました。
誰でも簡単にモデリングができるなと実感しました。本当にめちゃくちゃ簡単でした！

10行もコードを書かずに前処理から、チューニング、予測ができます！

引数などまだ把握できていない部分が多くありますが、PyCaretの記事を1番に書こうと思い書きました。

はじめに

早速ですが、先日リリースされた機械学習ライブラリーPyCaretを使用してみました。
誰でも簡単にモデリングができるなと実感しました。本当にめちゃくちゃ簡単でした！

10行もコードを書かずに前処理から、チューニング、予測ができます！

引数などまだ把握できていない部分が多くありますが、PyCaretの記事を1番に書こうと思い書きました。

環境とversion

PyCaret 1.0.0
Google Colaboratory

1. まずはインストールから

下記のコードを実行しインストールします。
体感ですが、2,3分で終わりました。

ローカルでインストールしたらエラーが出てきたので、一旦断念しています。

! pip install pycaret

2. データの取得

今回はbostonのデータを使用していきます。以下のコードでデータを取得できます。

3. 前処理

前処理を行います。
setup()にデータとターゲット変数を定義し、初期化しています。

今回は回帰問題を解くので、
pycaret.regression を指定しています。
分類問題の場合は、
pycaret.classification を指定してください。
自然言語処理、クラスタリングなどのタスクを行うこともできます。

setup()は欠損値処理や、カテゴリーデータのエンコーディング、train-test-splitなどを行なってくれます。
詳しくは、
こちらを参照ください。

実行するとセットアップが完了します。

4. モデルの比較

モデルの比較し選択していきましょう。
モデルの比較については、下記の1行で行えます。2、3分で終了しました。

評価指標も一覧で確認できて便利ですね！デフォルトで、k-foldを10分割で行なっています。引数で、fold数や、ソートする指標を指定できます。(実行はデフォルトで行なっています。)

実行結果はこちら

5.モデリング

モデルを選択してモデリングを行います。今回はRandom Forestを使用しています。（完全に気分ですね。）
この関数は、k-foldしたスコアとトレーニング済みモデルオブジェクトを含むテーブルを返します。

SDも確認できてとても便利ですね！

トレーニング済みオブジェクトの後ろにピリオドで指定することで、下記に様に確認できます。

6.チューニング

チューニングも1行で行えます。

パラメータの取得は下記でできます。

7.モデルの可視化

モデルの精度を可視化してみましょう。回帰のプロットは以下の図ですが、分類問題の場合は、指標に合わせてアウトプットを選択できます。
分類問題の可視化のバリエーションが豊富なので、ここにきて分類問題を選択しておけばよかったと少し後悔しました。。。

8.モデルの解釈

モデルの解釈はSHAPを用いて行なっております。
グラフの見方や、モデルの解釈方法については、SHAPのgitを確認ください。

9.予測

testデータに対しての予測は下記の様に書きます。
実行結果は、setup()でtrain-test-splitした30％のテストデータに対して予測した結果を返してくれます。

新たなデータに対して予測を行う際には、dataの引数にデータセットを渡します。
※今回は元のデータを使い回しています。

一番右に予測結果が追加されます。

最後に

最後までお読みいただきありがとうございました。

原文：https://qiita.com/s_fukuzawa/items/5dd40a008dac76595eea

参考サイト

Announcing PyCaret 1.0.0
PyCaret
PyCaret git
SHAP git

Pythonのライブラリ「PyCaret」についてご紹介しました。
当社ではデータサイエンティスト育成コースを始めとするデータサイエンス分野の講座や各種イベントを開催しております。

データミックスにご興味のある方は、ぜひ説明会にお申込みください！

お申込はこちらからお願いします。

関連記事

データサイエンス 2020/09/25

データサイエンティストはなくなる職業という誤解？

データサイエンス 2020/02/23

「データサイエンティスト育成のフロンティア」　清水嵩文

データサイエンス 2023/11/10

スポーツアナリティクスとは・スポーツ×データサイエンス（データ分析）の可能性

データサイエンス 2024/07/17

AIや人工知能でできること、人間にしかできないこととは？

まずはオンラインで体験＆相談

体験講座やワークショップ、キャリアの相談、卒業生との交流など、さまざまな無料オンラインイベントを開催しています。

公式サイトへ

ピックアップ

データサイエンティスト 2024/03/01

データサイエンティストになるためには? 必要なスキルや学習方法を解説

データサイエンティストとは、データを分析してビジネスに役…

データサイエンティスト 2024/03/01

データサイエンティストが資格を取得するメリットとおすすめの資格5選

データサイエンティストは、データを活用してビジネスや社会…

データサイエンティスト 2023/12/08

統計検定データサイエンス基礎（DS基礎）とは？難易度や勉強方法を解説

統計検定データサイエンス基礎（DS基礎）は、データサイエ…

データサイエンス 2023/05/18

データサイエンスとは？活用可能な領域や何が変わるかを解説

現代社会においては、あらゆる業界で日々膨大な量のデータが…

DX人材の育成事例とそれが急務である理由とは

情報通信白書（2022）における企業約3,000社への調…

データサイエンス 2020/12/03

もし営業(セールス)担当者がデータサイエンスを学んだら

データサイエンスのビジネス活用としては、データドリブン経…

データサイエンス 2020/09/25

データサイエンティストはなくなる職業という誤解？

データサイエンティストという職業が誕生し注目が集まり始め…

データサイエンス 2020/02/27

「データサイエンティスト育成のフロンティア」　立川裕之

トップセールスからデータサイエンティストへ転身。「人…

インタビュー

データサイエンススクール本講座 2021/08/03

加藤芳樹様・史葉様

データサイエンススクール本講座 2021/07/28

Y様

データサイエンススクール本講座 2021/07/28

友田奏子様

ランキングRANKING

WEEKLY週間
MONTHLY月間