時系列データとトランザクションデータの違いとは

時系列データ

時系列データとは、その名の通り、時系列に生成できたデータのことを指します。例えば自分が体重を毎日測定しているとして、10日間のデータを示すとこのようになります。

日にち体重 (kg)
1/150.0
1/250.3
1/350.4
1/450.9
1/550.7
1/650.9
1/751.0
1/851.2
1/950.9
1/1051.3

このように、1日ごと、もしくは1週間ごと、1年ごと等、定期的に生成されているデータを時系列データと呼びます。

上の例では毎日の体重データあり、1日ごとに徐々に体重が上昇していることが見て取れます(実際問題1kg程度は誤差ですが…笑)。

現実のビジネスに置き換えると、下記のような時系列データがあり、これらを組み合わせて需要予測などを行い、利益を生み出す試みが多く行われています。

  • ある商品の毎日の売上データ
  • 天気
  • 降水量

もちろんビジネス世界には他にもたくさんの時系列データがあるため、個人個人が扱うものは異なりますが、それを用いた分析テクニックは共通するところが多いので、後々書いていきます。

また一方で、似たようなデータとして「トランザクションデータ」と呼ばれるものもあります。

トランザクションデータ

こちらは何かの動作などに従って、生成されるデータをトランザクションデータと呼びます。よくあるのが、「売上を管理するPOSデータ」、「ECサイトでの買い上げデータ」等です。

「売上を管理するPOSデータ」というのは、一般的にお客さんが商品を買ったときにレシートを発行する際データが生成されます。これをトランザクションデータと呼び、以下のような形となります。

これはお客さんが買ったときしか生成されていないんので、毎分データが生成されることもなければ、13時台などもデータがありません。そのため日時としてデータが飛び飛びになっていますし、顧客が色々なものを買っていくので、1時間の間に何度もデータが生成されたりします。

日時顧客ID商品個数 (個)販売額 (円)
1/1 10:05Aビール2500
1/1 10:43B1100
1/1 11:21Cオレンジジュース3300
1/1 11:21Cブドウジュース1150
1/1 12:30Dカップラーメン1200
1/1 12:45E弁当1700
1/1 14:00Bゼリー1120
1/1 15:00F新聞1300
1/1 17:00Gタバコ42000
1/1 17:30H弁当11000

このようにトランザクションデータは、時系列データにも非常に近い形にも見えますが、このデータは何かの動作が起きた時しかデータが増えません。そのためトランザクションデータと時系列データを混同しないように覚える必要があります。

また、トランザクションデータを時系列データに変換することもできますが、日にちや時間などが抜ける可能性もあるので、注意しながら前処理などを行うことが必要です。

時系列分析におススメの書籍

時系列分析には様々な書籍がありますが、下記二つの書籍をおススメとして挙げさせていただきます。

Pythonによる時系列分析

こちらの書籍は数式にあまり強くない方におススメです。実際のビジネス活用事例が多く記載されており、どのようにデータ活用しながら読むことができます。

時系列解析: 自己回帰型モデル・状態空間モデル・異常検知 (Advanced Python)

こちらは数式も多く出てきますが、詳しく理論を学びたい方におススメです。また、時系列分析の書籍はRでの実装が多いですが、こちらの書籍はPythonでの実装例も多いため、Pythonを使っている方におススメです。

コメント

Copied title and URL