Kou

統計

2つの分布を比較するノンパラメトリック手法「マンホイットニーのU検定」とは

はじめに データ分析や統計検定において、正規分布に従わないデータを扱うことはよくあります。そのような場合、ノンパラメトリック検定が有用です。今回は、2つの独立したサンプルの分布を比較するための代表的なノンパラメトリック手法である「マ...
統計

「パラメトリック」と「ノンパラメトリック」とは。使いどころや特徴を紹介

はじめに 統計学には「パラメトリック」と「ノンパラメトリック」という二つの主要な手法があります。これらはデータ分析やモデリングの際に用いられるアプローチであり、それぞれに特有の利点と欠点があります。本記事では、パラメトリックとノンパ...
機械学習

似た傾向のデータを取り出すクラスタリング手法「k-means」とは

はじめに クラスタリングは、データ分析の一環として、データを似た傾向に基づいてグループに分ける手法です。その中でも特に有名で広く使われているのが「k-meansクラスタリング」です。この手法は、指定した数のクラスタ(k)にデータを分...
機械学習

分析で良く用いられる距離の種類「ユークリッド距離」と「マンハッタン距離」とは

はじめに データ分析や機械学習の分野では、データ間の距離を測定する方法が重要な役割を果たします。その中でも特に広く使用されるのが、ユークリッド距離とマンハッタン距離です。本記事では、これらの距離の定義、特性、および具体的な使用例につ...
機械学習

決定木分析の際に用いられる「ジニ不純度」とは。どのように木が分岐されるか理解しよう

はじめに 決定木は、データ分析や機械学習において広く使用されるモデルの一つです。その簡潔さと解釈のしやすさから、多くの場面で利用されています。決定木の分岐を決定するために用いられる指標の一つに「ジニ不純度(Gini impurity...
時系列

似た時系列を見つけることができるDTW(Dynamic Time Warping)とは。特徴と使い方も紹介

はじめに 時系列データは、金融市場の価格変動や音声信号、生物学的測定など、多くの分野で重要な役割を果たしています。これらのデータを分析する際には、異なる時系列データ間の類似性を評価することが重要です。ここで活躍するのが、Dynami...
時系列

時系列で似た系列を算出することができるクラスタリングライブラリ「tslearn」の特徴とその使い方とは

はじめに 時系列データの分析や処理は、多くの分野で重要な課題です。例えば、金融市場の動向分析、センサーデータの異常検知、音声認識、健康データのモニタリングなど、さまざまな応用があります。これらの時系列データを効果的に扱うためには、似...
機械学習

分類タスクの評価指標「Log Loss」とは?計算方法や特徴を理解しよう

はじめに 機械学習の分類タスクにおいて、モデルの性能を評価するための指標は多岐にわたります。その中でも、「Log Loss(対数損失)」は、モデルがどれだけ正確にクラスの確率を予測できているかを評価するための重要な指標です。本記事で...
時系列

時系列モデル「ARIMA」とは?特徴とよく使われる理由も理解しよう

はじめに 時系列データの解析は、さまざまな分野で重要な役割を果たしています。経済学、金融、気象学、マーケティングなど、過去のデータを基に将来の動向を予測することは多岐にわたる応用があり、そのためのツールとしてARIMA(AutoRe...
時系列

定常性を確認することができる「ADF検定」とその有用性とは

はじめに 経済学や統計学、データサイエンスにおいて、時系列データの分析は非常に重要です。その中で、データの「定常性」はしばしば議論の対象となります。定常性を持つデータは、平均や分散が時間とともに変わらず、自己相関構造も一定であるため...
Copied title and URL