ブログ

Blog

~データサイエンティスト育成コース~第5期生卒業発表会

2018年10月14日、データサイエンティスト育成コース第5期生(2018年4月期)の卒業発表&打ち上げパーティーを開催しました。

場所は普段の教室を離れ、福岡銀行さんが運営するダイアゴナルランというコワーキングスペースを借りて行いました。

時間の都合により、プレゼンテーションは6名のみとなりましたが、残りの方はポスターセッション形式での発表を行っていただきました。
たくさんの力作が揃い、質疑応答も活発にされていたのが印象的でした!

さまざまなテーマの卒業発表となりました!

この発表会ですが、6ヶ月におよぶデータサイエンティスト育成コースの集大成として、受講生が最後の1ヶ月間でプロジェクトに取り組みます。このプロジェクトは、受講生各自でテーマを決め、データ収集から加工、分析、プレゼンテーションまでを自力で行います。その期間、メンターは週1回のメンタリングセッションを通じてサポートしていきます。テーマは、受講生の業務に関係するものから趣味に関するものまで様々です。

受講生のほとんどは社会人なので、業務で忙しい中、寝る時間や休日を犠牲にして、この1ヶ月間、努力してきました。そして迎えた最終発表!どんなテーマに取り組んできたのか、気になりますよね?今回の発表は以下のようなテーマが並びました。

 

  1. 通販におけるAIの活用「注文獲得効率の改善」
  2. 退職理由のクチコミ情報を用いた自然言語処理による解釈
  3. 製造業の調達業務における価格推定モデルの構築
  4. テニストッププレーヤーはなぜ強いのか
  5. Amazonランキングを解明する
  6. Excelによる人事データの分析
  7. Kaggle 『Home Credit Default Risk』
  8. ニュース記事を用いた株価予想
  9. 治験同意者の予測モデル構築
  10. 商品の定期購入者の解約申出率の予測モデル構築
  11. ランニングデータ分析
  12. テキストのカテゴリ分類モデル構築
  13. クリエイティブワークフローと実績の相関について
  14. 広告データを用いたCTRの予測モデル構築
  15. Kaggle 『Home Credit Default Risk』
  16. ディープラーニングを用いた画像分類
  17. 産業廃棄物の入出荷の最適化
  18. B.LEAGUEの人気球団を探し出す!
  19. 糖尿病患者の通院ログを用いた再入院リスクの予測モデル構築
  20. 記事閲覧データを活用したユーザーセグメントの推定
  21. コンテキスト情報を使った記事配信サービスのレコメンド検証
  22. 新規プロジェクトに関するロードマップ作成

気になるプレゼンに選ばれた発表内容は・・・?

22のプロジェクトの中で、手法のバラエティやビジネスインパクトなどを考慮し、70名の前で発表することになったテーマを簡単に紹介していきたいと思います!

1.通販におけるAIの活用「注文獲得効率の改善」

  • 機械学習アルゴリズムにより、コールセンターのお客様ごとの申込み見込を予測するというビジネスに直結するプロジェクトでした。見込可能性の高いお客様に優先的に架電していくことで費用の効率化を目指すというビジネス・インパクトもわかりやすく、トップバッターにふさわしいプレゼンでした!何より、当日、観客として参加された上司の方を意識して、データサイエンスに詳しくない人でもわかるように工夫されていたのが素晴らしかったです!

2.退職理由のクチコミ情報を用いた自然言語処理による解釈

  • 通常埋もれがちなテキストデータを用いて退職因子を明らかにするプロジェクトで、スクレイピング、自然言語処理の技術、中でもword2vecを使った分析でした。こちらの発表もデータサイエンスがわからない人でも理解できるように工夫されていました。参加者の中には管理職の人も多いため、社員の退職理由の分析結果を聞きながら、心当たりがあると思っていた人も多いはず?

3.製造業の調達業務における価格推定モデルの構築

  • 実務でも製造業向けのサービスをやっている受講生が取り組んだプロジェクトで、製造業における調達部品の適正価格を予測しコストの低減を目指すというビジネス色が強いプロジェクトでした!回帰分析、ニューラルネットワーク、SVRなどなど統計モデルや機械学習の手法を使って、6ヶ月間のデータサイエンティスト育成コースの集大成としてふさわしい発表でした。

4.テニストッププレーヤーはなぜ強いのか

  • 次の発表はガラッと変わって、スポーツ系の分析です。発表された受講生の趣味がテニスだということで、プロテニスプレーヤーのスタッツを用いた勝因分析に取り組みました。データ可視化とロジスティック回帰を使ったモデリングで丁寧な解釈がなされた、わかりやすい分析でした。テニスが好きな人は一層楽しめたはずです!

5.Amazonランキングを解明する

  • Amazonランキングに与える影響をランダムフォレストを使って、理解しようというもので、機械学習モデルを使いつつ、最終的には誰でもわかるようにグラフで全てを説明するという、ビジネス現場で即使えるプレゼンテーションでした!示唆も、売上アップに直結しそうなものばかりでした!

6.Excelによる人事データの分析

  • トリは、自社の従業員の満足度調査とパフォーマンスデータを結びつけどのような関係性が見られるか分析したHRテックネタでした。企業によってはオープンソースをインストールするのが難しいということで、Excelだけで分析するというプロジェクトとなりました。アンケート設計から分析まで一連の作業も包み隠さす説明してくださり、会場が多いに盛り上がりました!何より、分析は「想像力が大事だ!」という主張に会場の皆さんもうなずいていました。

 

ポスターセッションも大盛り上がり!!

そして、ポスターセッションの発表内容です!ポスターセッションも各ブースにひとだかりができて、多いに盛り上がりました。

1.Kaggle 『Home Credit Default Risk』

  • 金融機関が保有する信用情報を元に、債務者のデフォルト発生がどのような因子によって発生するかを分析した。自身の金融機関での勤務経験を基にした示唆が期待される。

2.ニュース記事を用いた株価予想

  • ニュース記事を用いて、ニュースに関連する株式銘柄の当日リターンをランダムフォレスト を用いて予測する。そして各株式銘柄における重要なキーワードを探る。

3.治験同意者の予測モデル構築

  • 疾患,血液,会員情報等の、応募後の情報をもとに治験同意者を予測するモデルを構築。ロジスティック回帰モデルにより、重要な変数による要因解釈を深掘りを行った。

4.商品の定期購入者の解約申出率の予測モデル構築

  • 通販ビジネスで商品の定期購入者に関して、継続的に買い続けている会員から、解約しそうな人を予測するモデリングを行った。解約確率に基づいてコールリストの作成をし、解約防止策を取ることが期待される。

5.ランニングデータ分析

  • 自身のランニングデータを取得しトレーニング効果を分析。自身のランニングデータを取得しトレーニング効果を分析。走行データおよび気温等の気象データを含めて考察する。

6.テキストのカテゴリ分類モデル構築

  • 業務で発生するテキストデータを機械学習を用いて内容の分類を予測し、業務プロセスの負荷軽減を狙った試み。

7.クリエイティブワークフローと実績の相関について

  • 広告クリエイティブの制作フローの最適化のため、重回帰分析や複数機械学習モデルから重要な特徴量を見つけ出し、定量的な業務改善アプローチを考案する。

8.広告データを用いたCTRの予測モデル構築

  • Kaggleデータを用いて、機械学習アルゴリズムによりCTRの予測モデルを構築した。xgboostによりAUC0.8程度の精度を出せたが、今後の展望としてさらなる精度向上を期待したい。

9.Kaggle 『Home Credit Default Risk』

  • Kaggleにあった金融機関「Home Credit Group」が保有する信用情報を元に、債務者のデフォルト発生を予測した。講義で取り扱っていないGCPを利用するなど、学びの多い取り組み。

10. ディープラーニングを使った画像分類

  • 自ら収集した写真を学習データとして、写真に映っている物体を予想するアルゴリズムを実装した。一般的な画像分類と比べて、シンプルな写真のため情報が少なく、難しい課題であるが、Keras,Chainer2つのアルゴリズムを試すなど、工夫がを凝らした取り組み。

11.産業廃棄物の入出荷の最適化

  • 産業廃棄物のリサイクルに際して、素材を混合し新しい出荷物を精製する必要がある。最適化モデルにより、最適な素材混合比率を推定することで、属人化したリサイクル工程の簡素化が望まれる。

12.B.LEAGUEの人気球団を探し出す!

  • 日本のプロバスケットボールリーグ「B.LEAGUE」に関する統計情報を収集し、「人気」の因子・傾向を分析した。勝率だけではなく、プレイスタイルなどの統計情報から打ち手の示唆を導き出すことが期待できる。

13.糖尿病患者の通院ログを用いた再入院リスクの予測モデル構築

  • 糖尿病患者の通院ログ等のメディカルデータを使用した分析を行った。機械学習アルゴリズムや階層ベイズモデルによって予測モデルを構築することができ、患者に対する事前通院告知といった打ち手の示唆が期待される。

14.記事閲覧データを活用したユーザーセグメントの推定

  • ファミリー向けお出かけ情報メディアの記事情報をもとに、トピックモデルやクラスタリングを用いてユーザーをクラスタリングした。各クラスタに対する広告配信やコンテンツ制作の精緻化が期待される。

15.コンテキスト情報を使った記事配信サービスのレコメンド検証

  • 内容非公開

16.新規プロジェクトに関するロードマップ作成

  • 内容非公開

  

発表会の後には・・・

会場を移動し、打ち上げパーティーを行いました!

発表会から引き続き、多くの方が参加されました。入学期を超えて、卒業生・在校生の交流が活発にされていました。

 

今回の卒業発表会・パーティーには、実にたくさんの方にご参加いただき、大いに盛り上がりました。

回を重ねるごとに参加される方が増えていき、データミックスの卒業生・在校生の輪がどんどん広がっていくことを実感し、講師・スタッフ一同、大変嬉しく思っております。

そして、今回卒業を迎えたみなさま、6ヶ月間本当にお疲れ様でした!