初心者時代わからなかったこと
モデルに入れる前にやる前処理って何?
一言でいうと
機械が読み取れるようにデータを数字のみにすること
です!(LightGBMは欠損値とかカテゴリカルデータあっても動く!)
とりあえず初心者が意識しておくのは2つ
- 欠損値の扱いを考える
欠損値の扱い方は
①欠損値を削除する
②欠損値を他の値に置き換える
③欠損値をそのまま使う(使えるモデルのみ)
2.質的データ(カテゴリカルデータ)を数字にする
カテゴリカルデータを数字にするには
LabelEncoding,OneHotEncodingなどが代表的な方法
LabelEncodingは3つの要素のみだったら1~3の番号をつけてやるという方法
OneHotEncodingは要素の数だけ新たに列を作って0,1で表すという方法
とりあえずこの二つのことやってコンペ戦っていこう!