BigQuery ML のモデル作成機能を使ってレポートの推移を予測してみた

TL;DR

本日はBigQuery MLの時系列モデルを用いてレポートデータの予測をしてみました。

時系列モデルを使ってモデルの作成からモデルの作成までをSQLライクにできて非常にかんたんでした。

今回はそちらのやり方・内容・料金面についてご紹介させていただきます。

完成したグラフはこちらです。

f:id:s_hayase:20210812124925p:plain

モデル作成してから利用するまでの流れ

今回はモデルを作成してから、100日後までの気温を予測しました。

-- モデルの作成
CREATE MODEL IF NOT EXISTS `sample_model` 
  OPTIONS(
      -- MODEL_TYPE: モデルのタイプを設定する。ここでは時系列データ。
      -- TIME_SERIES_TIMESTAMP_COL: トレーニングデータのタイムを指定しているカラム
      -- TIME_SERIES_DATA_COL: 予測する値のカラムを指定する。1つのデータしか予測できない。
      MODEL_TYPE = 'ARIMA_PLUS'
      , TIME_SERIES_TIMESTAMP_COL = 'date'
      , TIME_SERIES_DATA_COL = 'temperature'
) AS

-- トレーニングデータの指定
SELECT
    date,
    temperature
FROM
    `sample_reports`

下記のようにクエリ結果が出力されます。

処理時間は5.7 KiBで約12秒かかりました。

前に実験で100GBぐらいの処理を行ったときには約10分程かかりました。

f:id:s_hayase:20210812112310p:plain

モデルから予測値を取り出す方法は下記のようにFROM句にモデルを記載してあげるだけです。

-- 100日分の気温を予測する
SELECT
  date(time_series_timestamp) AS date,
  if(time_series_type = 'history', time_series_data, null) history_data,
  if(time_series_type = 'forecast', time_series_data, null) forcast_data,
  prediction_interval_lower_bound,
  prediction_interval_upper_bound
FROM
  ML.EXPLAIN_FORECAST( MODEL `sample_model`,
    STRUCT(100 AS horizon, 0.8 AS confidence_level) )