BETA

どうしてデータ標準化が必要なの?

投稿日:2019-12-24
最終更新:2020-06-04

データによって高い値、低い値はまちまちだから

国語のテストは100点満点、数学のテストは200点満点の時、「100点」は
国語:満点!max値 数学:50%の値 と高い値かどうかが変わる

データによって「100」という値を「高い値」とするのか「中間くらいの値」とするのか
「低い値」とするのかをならすのがデータの標準化

平均値からどれくらい離れているかに注目

標準化の方法(数式)をきちんと理解していませんが。。。
それぞれのデータの平均値を求めて「実績値は平均値からどれくらい離れているか」を見る

データの標準化をすれば尺度の違うデータを説明変数として重回帰分析できる!
画像は平均値を0として-1~1の間に変換しているのでデータの正規化という


Scikit-learnでデータのスケール変換(前処理)する
scikit-learnのStandardScaler()を使ったら2とか4とか1に収まってないじゃん!ってなった
StandardScaler()はデータ標準化の関数だから、1より大きい値もあるのか!!

技術ブログをはじめよう Qrunch(クランチ)は、プログラマの技術アプトプットに特化したブログサービスです
駆け出しエンジニアからエキスパートまで全ての方々のアウトプットを歓迎しております!
or 外部アカウントで 登録 / ログイン する
クランチについてもっと詳しく

この記事が掲載されているブログ

だいたい急に挑戦してゴールにたどり着かずに飽きる日々です

よく一緒に読まれる記事

0件のコメント

ブログ開設 or ログイン してコメントを送ってみよう