実験結果は、実験が終了するまで週に1回更新されます。実験結果には、コンテンツの各バージョンによって購入者に対する成果がどの程度得られるかについて、良い結果を獲得したコンテンツの方がより良いものであるかどうかの確率と併せて、詳しく説明されています。実験ダッシュボードで実験名をクリックすると、結果にアクセスできます。
実験中に収集したデータに基づいて、各コンテンツを公開した場合に予測される影響の範囲を計算します。実験に登録されているASINすべての結果が集計されます。以下のような結果を提供します。
1年間の影響を予測するために、良い結果を獲得したコンテンツの1日平均売上の増分を算定し、これに365を掛けます。この見積りでは、季節性、価格変動、または実際のビジネスに影響するその他の要因は考慮されません。これはあくまで参照用であり、利益の増分を保証するものではありません。
Likelyの列には、計算結果の範囲の中央値(50パーセンタイル)が表示されます。Best Case列とWorse Case列には、これらの結果の95%信頼区間が表示されます。
実験は、決定的でない結果で終わることや、あるバージョンのコンテンツが別のバージョンよりも優れているという事実への信頼度が低い結果で終わることがあります。しかし、このような結果も価値があります。
実験の結果が決定的でないことがある理由として、以下のことが考えられます。
決定的でない結果を理解しようとする場合は、実験の仮説を参考にしてください。たとえば、変更した内容により、決定的でない結果が、特定の種類のコンテンツは購入者の行動に影響せず、投資する価値がないことを示す場合があります。または、商品をマーチャンダイジングする2つの方法が同様に効果的であることを示す場合もあります。以前のテストで学んだ内容を確認するために、追加の実験を実施できます。
実験の方法論に関するこれらの注記は、Amazonがどのように獲得コンテンツを選択し、影響を予測するかを理解するのに役立ちます。ただし、これは実験を実施する上で必須ではありません。
実験は個別の購入者アカウントに基づいています。実験中は、コンテンツを閲覧する購入者アカウントが実験の一部とみなされます。購入者は、いずれかのバージョンのコンテンツを表示するようランダムに割り当てられます。また、デバイスの種類やその他の要因に関係なく、購入者が特定できる限りにおいて、永続的にそのコンテンツが表示されます。購入者を特定できないページへのアクセスは、サンプルサイズには含まれません。結果の精度を向上させるために、統計的外れ値など、サンプルから特定の種類のデータを自動的に削除する場合があります。
Amazonでは、実験結果を分析するためにベイズ的アプローチを採用しています。つまり、モデルと実際の実験結果に基づいて確率分布を構築します。Amazonでは、平均効果量(商品数の変化に関して)、および事後確率分布の95%信頼区間を報告します。これは、実験開始以降に収集されたすべての実験データに基づいて、試験中に毎週更新されます。良い結果を獲得したコンテンツの処理についての信頼度とは、販売数の影響がプラスであることを示す確率分布の割合です。
1年間の影響を予測するために、実験期間における現時点までの良い結果を獲得したコンテンツの処理と不獲得コンテンツ処理の1日当たりの平均差を計算し、これに365を掛けます。Amazonでは、事後確率分布に基づいて、影響に関する95%信頼区間を提供します。