初心者時代わからなかったこと

モデルに入れる前にやる前処理って何?

一言でいうと

機械が読み取れるようにデータを数字のみにすること

です!(LightGBMは欠損値とかカテゴリカルデータあっても動く!)

とりあえず初心者が意識しておくのは2つ

  1. 欠損値の扱いを考える

欠損値の扱い方は

①欠損値を削除する

②欠損値を他の値に置き換える

③欠損値をそのまま使う(使えるモデルのみ)

2.質的データ(カテゴリカルデータ)を数字にする

カテゴリカルデータを数字にするには

LabelEncoding,OneHotEncodingなどが代表的な方法

LabelEncodingは3つの要素のみだったら1~3の番号をつけてやるという方法

OneHotEncodingは要素の数だけ新たに列を作って0,1で表すという方法

 

とりあえずこの二つのことやってコンペ戦っていこう!