Kou - データサイエンスを勉強したいブログ

2つの分布を比較するノンパラメトリック手法「マンホイットニーのU検定」とは

はじめにデータ分析や統計検定において、正規分布に従わないデータを扱うことはよくあります。そのような場合、ノンパラメトリック検定が有用です。今回は、2つの独立したサンプルの分布を比較するための代表的なノンパラメトリック手法である「マ...

2024.07.02

統計

はじめに統計学には「パラメトリック」と「ノンパラメトリック」という二つの主要な手法があります。これらはデータ分析やモデリングの際に用いられるアプローチであり、それぞれに特有の利点と欠点があります。本記事では、パラメトリックとノンパ...

2024.06.30

統計

はじめにクラスタリングは、データ分析の一環として、データを似た傾向に基づいてグループに分ける手法です。その中でも特に有名で広く使われているのが「k-meansクラスタリング」です。この手法は、指定した数のクラスタ（k）にデータを分...

2024.06.29

機械学習

はじめにデータ分析や機械学習の分野では、データ間の距離を測定する方法が重要な役割を果たします。その中でも特に広く使用されるのが、ユークリッド距離とマンハッタン距離です。本記事では、これらの距離の定義、特性、および具体的な使用例につ...

2024.06.25

機械学習

はじめに決定木は、データ分析や機械学習において広く使用されるモデルの一つです。その簡潔さと解釈のしやすさから、多くの場面で利用されています。決定木の分岐を決定するために用いられる指標の一つに「ジニ不純度（Gini impurity...

2024.06.24

機械学習

はじめに時系列データは、金融市場の価格変動や音声信号、生物学的測定など、多くの分野で重要な役割を果たしています。これらのデータを分析する際には、異なる時系列データ間の類似性を評価することが重要です。ここで活躍するのが、Dynami...

2024.06.23

時系列

はじめに時系列データの分析や処理は、多くの分野で重要な課題です。例えば、金融市場の動向分析、センサーデータの異常検知、音声認識、健康データのモニタリングなど、さまざまな応用があります。これらの時系列データを効果的に扱うためには、似...

2024.06.23

時系列

はじめに機械学習の分類タスクにおいて、モデルの性能を評価するための指標は多岐にわたります。その中でも、「Log Loss（対数損失）」は、モデルがどれだけ正確にクラスの確率を予測できているかを評価するための重要な指標です。本記事で...

2024.06.22

機械学習

はじめに時系列データの解析は、さまざまな分野で重要な役割を果たしています。経済学、金融、気象学、マーケティングなど、過去のデータを基に将来の動向を予測することは多岐にわたる応用があり、そのためのツールとしてARIMA（AutoRe...

2024.06.11

時系列

はじめに経済学や統計学、データサイエンスにおいて、時系列データの分析は非常に重要です。その中で、データの「定常性」はしばしば議論の対象となります。定常性を持つデータは、平均や分散が時間とともに変わらず、自己相関構造も一定であるため...

2024.06.10

時系列