データサイエンティストになるためには? 必要なスキルや学習方法を解説
データサイエンティストとは、データを分析してビジネスに役…
データサイエンスが学べる
日本屈指のビジネススクール「datamix」
データサイエンス
2019.10.02
こんにちは、講師の立川です。
先日、受講生主催でKaggle※会が催されたんですが、主催の一人の坂井さんがレポを書いてくれたのでUPします。
事前準備から当日の運営まで全て8月期の在校生で進めていたんですが、私が主催でやった時とは比較にならないぐらい盛り上がってました…。
幹事の皆さん、参加者のみなさん大変お疲れ様した!
※Kaggleとは世界中のデータサイエンティストが機械学習モデルの精度を競うコンペティションサイトであり、企業や政府などの組織からお題と共に提供されたデータを元に、参加者が機械学習モデルの精度を競います。上位入賞者には賞金や称号が授与され、日本でも多くのデータサイエンティストが参加しています。
以下坂井さんからのレポです。
本日のkaggle会は第1回目の「Titanic」に引き続き、チュートリアルである「House Prices: Advanced Regression Techniques」に挑戦しました!
今回、参加者を卒業生や異なる入学時期の在校生も対象として呼びかけた結果、たくさんの方に参加してもらえました。
・卒業生6名
・6月生1名
・8月生7名(幹事3名含む)
・10月生7名
合計21名
と言うわけで今回初見の方もたくさんおり、うまくコミュニケーション取れるか若干の不安もありましたが、みなさん積極的で話も弾み、蓋を開けてみると大盛況でした。
メイン幹事である奥野さん、エース吉村さん、そして私、坂井は開始1時間前に集合し、段取りの確認や会場設営を行い、参加者を準備万端お迎え。
普段は受講生側なので呑気なものですが、主催者側となると緊張感が違いますね!
前置きが長くなりましたが、今回のHouse Pricesは説明変数が約80個もあり、前処理だけで嫌になる感じです。
ポイントとしては、欠損値処理、特徴量エンジニアリング、目的変数の対数化、モデルの選択などなど。
今回は3人1組のチーム戦ということで、TOPスコアではなく、次点のmiddleスコアで優勝を争いました。
結果は6班(卒業生1名、8月生1名、10月生1名)がRMSE0.13859(TOPスコア0.12736)で優勝。
準優勝は3班(卒業生1名、8月生2名)がRMSE0.14029(TOPスコア0.13698)という結果になりました。
ちなみに私、坂井のスコアはRMSE0.12865で絶対1位取れると思いましたが、6班卒業生の0.12736に僅差で敗れました。悔しい。
私が工夫したポイントは、外れ値の削除、log1pを使っての目的変数対数化、新しい特徴量の作成、説明変数の歪度確認とBoxCox処理、そして何より複数モデルの予測値の平均処理!
私が使ったモデルは線形回帰、ElasticNet、決定木、ランダムフォレスト、XGBoostの5種類。
これらの予測値を全部足して平均をとる処理を行ったところ、スコアが伸びました。
これは飲み会の席で立川先生に教わった手法で、やり方も本日ヒントをもらい、実行することができました。
最後に、毎回教室を貸してくださるデータミックスさま、立ち会ってくれる立川先生ありがとうございました。
堅田代表も見学に来てくださり、とても盛り上がりました。改めて御礼申し上げます。
第3回はどんな会になることやら!
今から楽しみです。
関連記事
ランキングRANKING
WEEKLY週間
MONTHLY月間