時系列データ
時系列データとは、その名の通り、時系列に生成できたデータのことを指します。例えば自分が体重を毎日測定しているとして、10日間のデータを示すとこのようになります。
日にち | 体重 (kg) |
1/1 | 50.0 |
1/2 | 50.3 |
1/3 | 50.4 |
1/4 | 50.9 |
1/5 | 50.7 |
1/6 | 50.9 |
1/7 | 51.0 |
1/8 | 51.2 |
1/9 | 50.9 |
1/10 | 51.3 |
このように、1日ごと、もしくは1週間ごと、1年ごと等、定期的に生成されているデータを時系列データと呼びます。
上の例では毎日の体重データあり、1日ごとに徐々に体重が上昇していることが見て取れます(実際問題1kg程度は誤差ですが…笑)。
現実のビジネスに置き換えると、下記のような時系列データがあり、これらを組み合わせて需要予測などを行い、利益を生み出す試みが多く行われています。
- ある商品の毎日の売上データ
- 天気
- 降水量
もちろんビジネス世界には他にもたくさんの時系列データがあるため、個人個人が扱うものは異なりますが、それを用いた分析テクニックは共通するところが多いので、後々書いていきます。
また一方で、似たようなデータとして「トランザクションデータ」と呼ばれるものもあります。
トランザクションデータ
こちらは何かの動作などに従って、生成されるデータをトランザクションデータと呼びます。よくあるのが、「売上を管理するPOSデータ」、「ECサイトでの買い上げデータ」等です。
「売上を管理するPOSデータ」というのは、一般的にお客さんが商品を買ったときにレシートを発行する際データが生成されます。これをトランザクションデータと呼び、以下のような形となります。
これはお客さんが買ったときしか生成されていないんので、毎分データが生成されることもなければ、13時台などもデータがありません。そのため日時としてデータが飛び飛びになっていますし、顧客が色々なものを買っていくので、1時間の間に何度もデータが生成されたりします。
日時 | 顧客ID | 商品 | 個数 (個) | 販売額 (円) |
1/1 10:05 | A | ビール | 2 | 500 |
1/1 10:43 | B | 水 | 1 | 100 |
1/1 11:21 | C | オレンジジュース | 3 | 300 |
1/1 11:21 | C | ブドウジュース | 1 | 150 |
1/1 12:30 | D | カップラーメン | 1 | 200 |
1/1 12:45 | E | 弁当 | 1 | 700 |
1/1 14:00 | B | ゼリー | 1 | 120 |
1/1 15:00 | F | 新聞 | 1 | 300 |
1/1 17:00 | G | タバコ | 4 | 2000 |
1/1 17:30 | H | 弁当 | 1 | 1000 |
このようにトランザクションデータは、時系列データにも非常に近い形にも見えますが、このデータは何かの動作が起きた時しかデータが増えません。そのためトランザクションデータと時系列データを混同しないように覚える必要があります。
また、トランザクションデータを時系列データに変換することもできますが、日にちや時間などが抜ける可能性もあるので、注意しながら前処理などを行うことが必要です。
時系列分析におススメの書籍
時系列分析には様々な書籍がありますが、下記二つの書籍をおススメとして挙げさせていただきます。
Pythonによる時系列分析
こちらの書籍は数式にあまり強くない方におススメです。実際のビジネス活用事例が多く記載されており、どのようにデータ活用しながら読むことができます。
時系列解析: 自己回帰型モデル・状態空間モデル・異常検知 (Advanced Python)
こちらは数式も多く出てきますが、詳しく理論を学びたい方におススメです。また、時系列分析の書籍はRでの実装が多いですが、こちらの書籍はPythonでの実装例も多いため、Pythonを使っている方におススメです。
コメント