BETA

過学習、Data Leakage、Shortcut Learningについてのメモ

投稿日:2020-08-01
最終更新:2020-08-01

KaggleチュートリアルでのData Leakageの説明

https://www.kaggle.com/alexisbcook/data-leakage
Data Leakageが起こると、テストデータだけ過剰に精度が高く、本番では使い物にならない事態が起こる。

Target leakage

肺がん患者予測の学習データに肺がんの薬を摂取したデータが混在してはいけない。no-time-machine requirementの考え。

Train-Test Contamination

トレーニングデータと検証データを分ける前に前処理を施すと、検証データにもフィットした前処理を実施してしまうため、前処理は検証データを分離して実施する必要がある。

Data Leakageについて本気で考えた論文の説明

Leakage in Data Mining
https://takuti.me/ja/note/leakage/
過去のコンペのData Leakageの事例を紹介している

Shortcut Learningについて説明

ニューラルネットは不正行為を好んでいるわけではない
https://ai-scholar.tech/articles/deep-learning/Shortcut-learning
独立かつ同一に分布しているデータ(i.i.d. : independent and identically distributed)では精度が良くても
分布外データ(o.o.d. : out of distribution)でテストすると途端に精度が落ちる。
intended feature(汎化しやすい判断特徴)を学習させることが理想。
牛の画像は一般的に草原とセットなので草原との相関という牛の本来の特徴とは別の特徴を学習してしまうと、街中に現れた牛の画像や、海岸にいる牛の画像は判別できなくなってしまう。人間はそれを牛だと識別できるので汎化性能が高いモデルが構築できている。

OODを検知する手法の提案

データの不確実性に備える|分布外データの検知性能を改善する「尤度比」とは?
https://ai-scholar.tech/articles/out-of-distribution/data-uncertainty-by-likelihood-ratio-OOD
OODを検出することで、未知のデータに対する誤った予測を検知し、重要な意思決定が求められるモデルを利用する際にはOODであるために予測が不確実であることを事前に検知することが求められる。
従来の尤度ではOODを検知できない問題があるため、尤度比を使ってOODを検出する手法を提案している。

技術ブログをはじめよう Qrunch(クランチ)は、プログラマの技術アプトプットに特化したブログサービスです
駆け出しエンジニアからエキスパートまで全ての方々のアウトプットを歓迎しております!
or 外部アカウントで 登録 / ログイン する
クランチについてもっと詳しく

この記事が掲載されているブログ

@sakusakuuuuuuuの技術ブログ

よく一緒に読まれる記事

0件のコメント

ブログ開設 or ログイン してコメントを送ってみよう