ブログ

Blog

2017.08.13

受講生向け「第一回Kaggle会」を開催しました!

先日、データサイエンスのコンペサイト「Kaggle」を題材にして、データミックス初の試みであるハッカソンを行いました。

データサイエンティスト育成コース第2期生もブートキャンプステップを終え、より実践的なスキルを身につけるために、休日返上で皆さん集まり、データ予測モデルを実装しました。

また第2期生のみならず、過去の受講生である第1期生や、データミックスの社員・インターン生も混ざって開催することで、様々な交流を深めることができたと思います。

ハッカソン実施後は、恒例の打ち上げを実施し、受講生同士で和気あいあいと盛り上がりました。

 

そもそも「Kaggle」って何?

Kaggleとは、世界中の統計やデータ分析のスペシャリストがデータ分析のスキルを競い合う、世界最大のデータ解析コンペティションプラットフォームです。世界中で非常に多数の人が登録しており、企業や団体から与えられたテーマとデータを用いて、世界中のデータサイエンティストが様々な分析手法を駆使して、より高い予測モデルを構築します。

Kaggleでは様々なお題が出されており、実施中のものもあれば、既にコンペが終了してしまったものも存在します。実施中のテーマに関してが、精度が最も高かった上位の人やチームには、プログラムコードの提供と引き換えに、賞金をもらうことができます。

Kaggleの公式サイト→Kaggle

今回は、Kaggleを始める際の登竜門とも言える、「Titanic」を題材にしたテーマに取り組みました。1912年に沈没し、1500人以上の死者が出たと言われているタイタニック号において、いったいどんな人が生き残り、どんな人が亡くなってしまったのか、その傾向を年齢や性別、チケットの等級などから予測するというものです。

「Titanic」では、いつでも以下のKaggleのサイトからtrain(教師)データとtest(テスト)データを入手することができ、予測した自分の解答をSubmit(提出)することで、スコアを見ることができます。

普段は講義を受けているだけの受講生も、実際に自分が分析・実装したモデルが点数となって順位がわかるので、とても刺激になったかと思います。

Titanic: Machine Learning from Disaster

一期生と二期生、インターン生の全12名4グループで挑戦!

全部で12名の方に参加していただくことができ、今回は3人1組のチーム戦でKaggleを実施しました。チームを組むことで、各自で考えた変数や予測モデルをお互いに共有することで、普段は思いつかないような考えや分析手法を吸収することができます。

またPythonやRを利用して実装しましたが、コーディングにいつでもつきまとうのが「エラー」。いつもは一人で頑張らなければいけないところも、チームのみんなと共有することで、比較的簡単にエラーデバッグができるというメリットもあります。

とはいえ、一人である程度のことができなければならないのがデータサイエンティストです。最終アウトプットは各自でモデルを実装し、チーム内でもスコアを競争するような形式を取りました。

はたして結果は!?

チームを組み、ディスカッションを交わしながら予測モデルを実装すること、約4時間。短い時間でしたが、大半の方がSubmissionまでたどり着くことができました!

3人チーム中、2番目の方のスコアをチーム得点とし、各チームでスコアを競う形式にしました。皆さん初めての挑戦だったにも拘わらずなかなかの高得点を出すことができていました。

もちろん、スコアを競い合うだけが本日の目的ではなく、それぞれがどのようにデータ分析をしたのかを共有することも非常に重要です。最後には、どのような分析手法を用いたのか、どこで躓いたのか、今後はどのような分析や勉強をしていきたいのか、などの議論も活発に行うことができました。

第二回の開催も今後予定していきます!

Kaggle会終了後には打ち上げも実施し、受講生や講師陣、データミックス社員の垣根なく、大いに盛り上がることができました。

今回がハッカソンとしては第一回目でしたが、第二回目以降の開催も予定しています!ハッカソンだけでなく、様々なテーマを題材にした勉強会なども開催し、コミュニティの輪をどんどん広げていきたいと考えています。