データサイエンティストになるためには? 必要なスキルや学習方法を解説
データサイエンティストとは、データを分析してビジネスに役…
データサイエンスが学べる
日本屈指のビジネススクール「datamix」
データサイエンス
2019.01.23
2019年1月14日、データサイエンティスト育成コース2018年7月入学(第6期生)の卒業発表&打ち上げパーティーを開催しました。
場所は普段の教室を離れ、福岡銀行さんが運営するダイアゴナルランというコワーキングスペースを借りて行いました。
プレゼンテーションは5名、残りの方はポスターセッション形式での発表を行っていただきました。
発表テーマは様々!発表後の質疑応答も活発にされていました!
この発表会は、6ヶ月におよぶデータサイエンティスト育成コースの集大成として、受講生が最後の1ヶ月間で取り組んだプロジェクトを発表する場です。プロジェクトテーマは、受講生各自で決め、データ収集から加工、分析、プレゼンテーションまでを自力で行います。その期間、メンターは週1回のメンタリングセッションを通じてサポートしていきます。テーマは、受講生の業務に関係するものから趣味に関するものまで様々です。
受講生のほとんどはお勤めされている方なので、業務が忙しい中、寝る時間や休日を犠牲にして、この1ヶ月間、努力してきました。そして迎えた最終発表!
今回も魅力あふれるテーマが、たくさん並びました。
18プロジェクトの中で、プレゼンに選抜されたテーマをご紹介します!
1.収益効率化を目指した、タクシー乗車需要予測
東京オリンピックも迫り、都内のタクシー需要はますます増加。今後タクシーを拾うのに苦労することが予想されます。そんな中、ドライバー側の視点に立って、効率よくタクシーを流し、乗車率を最大化させるための打ち手について模索しました。大変な中でも基礎集計を丁寧に行い、分析手法の選定、特徴量の選択なども時間が許す限りトライされているのが印象的でした。
2.新刊書籍の需要を予測する!〜出版業界の構造課題解決の一手として〜
出版業界取次企業の利益率向上のため、自社のデータセットを使用して需要予測モデルを構築し、新刊需要予測精度を上げることに挑戦しました。構造化データやオープンデータとしてのテキスト情報を用いて、自然言語処理や次元圧縮といった分析手法を駆使して、特徴量を設計。アンサンブル学習、またランダムサーチやグリッドサーチを使用したハイパーパラメータチューニングにより予測モデル構築しました。
3.退会しそうな生徒を予測する機械学習モデルと打ち手の検討
英語塾で、機械学習を使って退会しそうな生徒をいち早く察知するモデルを構築。最適なアフターフォローを提供して退会率を下げることで、ビジネス・インパクトを出すというプロジェクトに取り組みました。データの整備や様々なモデリングを試みつつ、モデルの解釈から打ち手をしているところが素晴らしかったです。
4.エレ(できれば女子)の採用数を増やすための打ち手の検討
社内の採用データを活用して、回帰モデルや自然言語処理によって電気系エンジニア、通称エレ(できれば女子)の採用を増やすための打ち手を検討しました。説明会アンケートやSNSの情報を使い、自然言語処理にかけたものを次元削減によって可視化・解釈をするなど手法を駆使しています。データと向き合うだけではなく、人事担当者に意見をもらうなど、実効性や社内調整も含めて課題に取り組んでいる点が印象的でした。
5.レコメンデーションシステム開発プロジェクト
類似画像を検索・表示するレコメンデーションプロジェクトです。見どころは何と言っても、アプリのデモです。また、画像を使ったレコメンデーションといっても、うまく自然言語処理の技術を使っているなど幅広く手法を俯瞰して、目的に合わせた分析アプローチを取られています。レコメンデーションエンジンを開発したり、導入を検討されている方は非常に参考になる内容でした。
そして、ポスターセッションの発表内容です!ポスターセッションも各ブースたくさんの人が集まり、多いに盛り上がりました!
1.会話スキルを科学する 〜テレアポの音声データをもとに〜
営業マンのトークをデータ分析によってフィードバックを行うことを目指した取り組みです。実際のテレアポの音声データをテキストにコンバートし分析。自然言語処理でアポイントが取れるトークと取れないトークの違いを明らかにし、担当者にフィードバックすることでアポイント獲得率向上を目指しました。
2.流通中古マンションの注目度調査
不動産投資を行う上で、掘り出し物件を探しあてることは、不動産投資を成功させる上で、重要なファクターです。しかし日本国内で流通している中古マンションの数は多く、それら全ての物件情報を鑑みて不動産価値を算出するのは時間的に難しいため、今回は重回帰分析を用いて、東京都内の掘り出し物件探しの効率化を図りました。
3.国立公園の宿泊者数予測
2020年の東京オリンピック開催により外国人旅行者の増加が見込まれ、それに伴い地方の観光地への流入も十分考えられます。そのため、有名観光地の来訪者数予測など今後ますます需要が高まります。そこで今回の課題では、「国立公園周辺の観光宿泊者数の予測」というSIGNATEのテーマを扱いました。SNS発信情報や気象データを用いて、線形回帰モデルとSARIMAモデルによる分析に挑戦しました。
4.メジャーリーガー(投手)の分析
野球の評論や中継の解説は、感覚ベースのものが多いと感じるため、kaggleのメジャーリーガーデータを1から分析することでその妥当性を調査しました。また先発型・抑え型の投手の特徴をそれぞれ回帰分析により導き、現役投手がもっとも活躍できると考えられるポジションについて考察を行いました。
5.画像解析を用いたジェスチャーUI
画像認識によるクレジットカードの入力補助など、機械学習を用いることでUIが在り方を変えてきています。そこで今回は、画像認識によりハンドジェスチャーを識別し、自然な動作でシステムを実行させることで、人とコンピュータのコミュニケーションを、人間同士のコミュニケーションに近いものにすることを目的とし、アプリケーションの開発を行ないました。
6.トマト収穫量予測
新規事業領域としてのスマートアグリの一環として、農場運営・建設をしたく、その建設前の経済性試算のための収量予測モデル構築を目指しました。解釈性より精度重視し、また農場運営により取得した実際のデータ(1.5年分/週データ)を使用して、モデル構築を行いました。
7.国勢調査からの収入予測
教育年数や職業等の国勢調査データから年収が50,000米ドルを越えるかどうかの予測モデルを作成するというSIGNATEのテーマを取り上げました。データサイエンティスト育成コースでは扱わないアルゴリズムも使い、予測モデルの改善を行いました。また特徴量加工においても、独自の仮説を元に特徴量加工を実施しました。
8.電力需要予測と因子の特定
工場など法人の電気利用料金は年間数億円に上りますが、利用料の予測精度が低く、予算計画に支障をきたすこともあります。この課題では気象庁、東京電力のオープンデータを活用して、電力需要の予測を行いました。将来的には顧客である工場などの法人に対して、顧客環境を特徴量としてモデリングするなど、セールス時の他社差別化を狙います。
9.購買(受注)予測に基づく物流センターの効率化を目指す
物流センターの構築において、購買予測を行うことにより、一部作業において受注締め時間以前から作業が可能、作業時間を拡大させることが見込めます。そこで、数千~数万SKU(商品種類数)の中から、商品毎にその日出荷される数量を予測する予測モデルを構築することで、必要機械台数の減少を目指しました。
10. 統計手法とネット上の「自動車関連キーワード」分析による国内自動車市場販売促進プランの立案
国内自動車市場を、統計データとSNSやWebサイトのコメントデータを使用して分析しました。分析手法としては、統計データに関しては仮説検定や重回帰分析といった統計モデリングにより自動車保有台数に影響を及ぼす要因とそれらの関係性を分析、またコメントデータに関してはユーザーの声から自然言語処理を用いて自動車市場を分析しています。
最後に、分析結果から販売促進プランを立案しました。
11.健康増進で医療費削減〜人生100年時代を生きるために〜
日本は世界でも有数の長寿国で、いよいよ人生100年時代に突入するのではないかと言われはじめました。医療制度の充実や医療技術の進歩によって、人生が伸びる一方で医療費はどうなるか!?誰もが気になる老後の医療費。厚生労働省の健康診断と医療費のデータから、健康を阻害する原因を健康診断の段階で特定し、そのための対策を模索しました。
12.製造ラインにおける不良品予測
製造業においては生産性の向上、コストの削減、稼働率の向上が求められます。そのためにも製造ラインの不良品となる原因の特定や、設備を止めないこと、計画的にメンテナンスすること等が課題となります。そこで、自動車メーカーの工場センサーに関する大量データを使用し、不良品/良品の予測モデル構築を目指しました。
13.Kaggie:PLAsTicc
天体の観測データを元に、恒星の種類を予測し精度を競うコンペ。画像ではなく3次元空間の位置情報や明るさを示す波形データなどを扱います。約1,000Teamが参加するコンペでインテグレーション期間中に終了しました。データの大きさや不均衡があるなど、など難しいチャレンジだが上位入賞を目指しました。
発表会後は会場を移動し、打ち上げパーティーを行いました!
卒業生・在校生みなさまのコミュニケーションの輪がどんどん広がって行くことを実感し、講師・スタッフ一同、心から嬉しく感じました。
そして、今回卒業を迎えたみなさま、6ヶ月間本当にお疲れ様でした!
関連記事
ランキングRANKING
WEEKLY週間
MONTHLY月間