受講生主催 Kaggle会 レポ

データサイエンス

2019.10.02

INDEX

受講生主催 Kaggle会 レポ

こんにちは、講師の立川です。

先日、受講生主催でKaggle※会が催されたんですが、主催の一人の坂井さんがレポを書いてくれたのでUPします。

事前準備から当日の運営まで全て8月期の在校生で進めていたんですが、私が主催でやった時とは比較にならないぐらい盛り上がってました…。

幹事の皆さん、参加者のみなさん大変お疲れ様した!

※Kaggleとは世界中のデータサイエンティストが機械学習モデルの精度を競うコンペティションサイトであり、企業や政府などの組織からお題と共に提供されたデータを元に、参加者が機械学習モデルの精度を競います。上位入賞者には賞金や称号が授与され、日本でも多くのデータサイエンティストが参加しています。

以下坂井さんからのレポです。

お題 House Prices:Advanced Regression Techniques

本日のkaggle会は第1回目の「Titanic」に引き続き、チュートリアルである「House Prices: Advanced Regression Techniques」に挑戦しました!

今回、参加者を卒業生や異なる入学時期の在校生も対象として呼びかけた結果、たくさんの方に参加してもらえました。

・卒業生6名

・6月生1名

・8月生7名(幹事3名含む)

・10月生7名

合計21名

と言うわけで今回初見の方もたくさんおり、うまくコミュニケーション取れるか若干の不安もありましたが、みなさん積極的で話も弾み、蓋を開けてみると大盛況でした。

メイン幹事である奥野さん、エース吉村さん、そして私、坂井は開始1時間前に集合し、段取りの確認や会場設営を行い、参加者を準備万端お迎え。

普段は受講生側なので呑気なものですが、主催者側となると緊張感が違いますね!

結果は...

前置きが長くなりましたが、今回のHouse Pricesは説明変数が約80個もあり、前処理だけで嫌になる感じです。

ポイントとしては、欠損値処理、特徴量エンジニアリング、目的変数の対数化、モデルの選択などなど。

今回は3人1組のチーム戦ということで、TOPスコアではなく、次点のmiddleスコアで優勝を争いました。

結果は6班(卒業生1名、8月生1名、10月生1名)がRMSE0.13859(TOPスコア0.12736)で優勝

準優勝は3班(卒業生1名、8月生2名)がRMSE0.14029(TOPスコア0.13698)という結果になりました

ちなみに私、坂井のスコアはRMSE0.12865で絶対1位取れると思いましたが、6班卒業生の0.12736に僅差で敗れました。悔しい。

モデリングのアプローチ

私が工夫したポイントは、外れ値の削除、log1pを使っての目的変数対数化、新しい特徴量の作成、説明変数の歪度確認とBoxCox処理、そして何より複数モデルの予測値の平均処理!

私が使ったモデルは線形回帰、ElasticNet、決定木、ランダムフォレスト、XGBoostの5種類。

これらの予測値を全部足して平均をとる処理を行ったところ、スコアが伸びました。

これは飲み会の席で立川先生に教わった手法で、やり方も本日ヒントをもらい、実行することができました。

最後に...

最後に、毎回教室を貸してくださるデータミックスさま、立ち会ってくれる立川先生ありがとうございました。

堅田代表も見学に来てくださり、とても盛り上がりました。改めて御礼申し上げます。

第3回はどんな会になることやら!

今から楽しみです。

関連記事

まずはオンラインで体験&相談

体験講座やワークショップ、キャリアの相談、卒業生との交流など、さまざまな無料オンラインイベントを開催しています。

公式サイトへ

ピックアップ

VIEW MORE

インタビュー

VIEW MORE

ランキングRANKING

  • WEEKLY週間

  • MONTHLY月間

VIEW MORE