March, 2024 - データサイエンスを勉強したいブログ

評価指標RMSE(平均二乗誤差)とは。MAE(平均絶対誤差)との違いも解説

はじめに機械学習や統計学において、モデルの性能を評価するための指標は極めて重要です。その中でも、RMSE（Root Mean Square Error、平均二乗誤差）はよく使われる評価指標の一つです。本記事では、RMSEとその類似...

2024.03.25

機械学習統計

はじめに効果検証は、政策やプログラムの実施による効果を客観的に評価するための重要な手法です。その中でも、DID（差分の差分法）は特に有力であり、時系列データにおける因果関係の推定に広く用いられています。本記事では、DID法の基本的...

2024.03.24

時系列統計

はじめに決定木は機械学習において広く使用される強力なモデルの一つです。特に、その分類や回帰の能力と、モデルの解釈可能性から広く愛用されています。決定木が提供する重要な情報の一つが、各特徴量の重要度（importance）です。本記...

2024.03.23

機械学習

はじめに近年、機械学習プロジェクトはますます複雑化し、多くのハイパーパラメータや設定が必要とされています。そのような状況下で、効率的なパラメータ管理は非常に重要です。ここで紹介するのは、Pythonプロジェクトにおけるパラメータ管...

2024.03.23

IT機械学習

はじめに機械学習モデルを開発する際、そのモデルを保存して後で再利用できるようにすることは非常に重要です。学習には多大な時間とリソースがかかることがありますので、学習済みモデルを保存することで、再学習の必要性をなくし、時間とリソース...

2024.03.22

IT機械学習

機械学習モデルの再現性の重要性機械学習モデルの再現性は、同じ条件下で同じ結果が得られる能力を指します。この再現性が確保されることは、実世界の問題において信頼性の高いモデルを構築する上で不可欠です。再現性が確保されていないと、同じ条...

2024.03.21

IT

はじめに機械学習の急速な発展により、モデルの複雑性もまた増しています。これらの複雑なモデルは、データからパターンを学習し、予測を行う際に非常に高い性能を発揮します。しかし、一方で、これらのモデルがブラックボックスのように振る舞い、...

2024.03.20

機械学習

はじめにはじめまして。社会人になってからデータ分析系の仕事をやっており、データ分析を10年近くやっています。職種名は「データサイエンティスト」「アナリスト」「コンサルタント」など、職種名が微妙に変わりつつもずっとデータ分析の仕事を...

2024.03.20

IT

はじめに近年、機械学習の発展に伴い、多くのデータサイエンティストや機械学習エンジニアが、実験管理やモデルの追跡、再現性の確保などに取り組んでいます。そのような課題に対処するために生まれたのが、MLflowというPythonライブラ...

2024.03.20

IT