「分散分析」の略称であるANOVAは、2つ以上の母集団間の差異を検定するために使用される統計ツールです。アナリストは多くの場合、ANOVA検定を使用して、独立変数が対象の従属変数に与える影響を判断します。
Uncountableでは、「計算」タブの「ANOVA」から実行できます。
最初に、「Select Output」をクリックして、分析対象のアウトプットを選択します。
次に、分析に含めたいさまざまな要素(特徴)を選択します。特徴には、使用する機器の種類やある種の機器設定などのカテゴリインプット、定式中のポリマーや溶媒の量などの連続変数、総コストや計算された比重などのインプット計算を指定できます。数値の特徴は真ん中の「数値変数を選択」ドロップダウンに表示され、カテゴリの特徴は右側の「カテゴリー変数を選択」ドロップダウンに表示されます。必要に応じて、各タイプの特徴を複数選択することもできます。
以下の例では、対象プロパティとして「Tensile」を選択し、特徴として1つの連続変数と1つのカテゴリ変数を選択しました。そうすると、1つの式と3つの表がANOVAページに表示されます。
ページの上部には、ANOVAで説明される係数と特徴を使用して記述された方程式が表示されます。デフォルトでは、ANOVA分析では線形関数が使用されます。多項式項や2次項などのより複雑な項を方程式に追加したい場合は、「特徴」パネルの右側に表示される「OPTIONS」ボタンをクリックして追加できます。
表1は、サンプル数やページ内で選択された特定の特徴でトレーニングされたモデルの予測精度など、対象のアウトプットに関する統計の概要を示しています。予測精度は、二乗平均平方根誤差とr^2値を使用して評価できます。
表2は、ANOVAモデルで使用される特徴に起因するアウトプットの変動を正確に示しています。この表で観察すべき主な特性は、「% of total variation」と「p値」です。「% of total variation」は、最初の列にリストされている機能に起因するアウトプットの変動の割合を定義します。値が大きいほど、この特徴がアウトプットに与える影響が大きいことを示します。アウトプット内の説明できない変動はすべて、「Residuals」機能で表示されます。「p値」は、観察されたものと少なくとも同じくらい極端な分散の減少が帰無仮説を用いて生成されたデータによって説明できる確率を表します。これは、ランダムノイズのために結果がアウトプットに対する1つの特徴の影響が十分でないことを保証するのに十分統計的に有意であることを意味します。「p値」が小さいほど、統計的に有意な結果である可能性が高まります。
表3は、各特徴に使用されたサンプル数、各特徴の平均値、および各特徴の線形回帰係数を示しています。
どちらの表でも、「p Summary」列は、その左側の列のp値に基づく特別な表記法を表します。
p<= 0.0001: ****
0.0001<p<=0.001: ***
0.001<p<=0.01: **
0.01<p<=0.05: *
pが0.05を超える場合は、何も表示されません。
繰り返しの扱い
デフォルトで、繰り返しの実験がある場合は平均値を使用します。たとえば、実験1の引張試験が3回行われ、結果が10、12、14だった場合、モデルは3つの繰り返し実験の平均(ここでは12)を取得し、それらを単一の記録/データ点として扱います。ただし、それらを個別のデータ点として扱いたい場合(これにより、データ点の数が増加し、p値が小さくなる可能性があります)は、「Select Output」のすぐ下にある「繰り返し実験の平均値を使用」チェックボックスをオフにします。
結果のエクスポート
分析が完了したら、画面の右側にある[XLSXにエクスポート]ボタンをクリックすると、分析に含まれた各データ点の係数の表と関連する予測をエクスポートできます。
ANOVAに関連するよくある質問
なぜ3種類の表があるのですか?それぞれの表はどのように活用したら良いですか?
- 1つ目の表は、モデル全体とモデルに組み込んだ変数に関する要約統計です。二乗平均平方根誤差は、一般にモデルの予測がどの程度正確であるかを示す全体的な指標であり、r^2または決定係数は、データの広がりまたは分散がモデルによってどの程度捕捉されるかを示す全体的な指標です。
- 2つ目の表は統計的有意性の検定の結果を示すANOVA(分散分析)表です。この表は、特定の個々の変数が重要であり、モデル全体と分析に含めるべきかどうかを判断するのに役立ちます。
- 3つ目の表には、モデルの係数が示されます。表示される係数は、ANOVAページ上部の方程式に示すとおりに、多重線形モデル全体の一部として独立変数項と乗算されます。
2つの表に表示されるp値が異なっているのはなぜですか?
- p値は、仮説検定として知られる手順の一部です。どちらのp値でも、値が低いほど有意性が高いことを示します。科学的に使用されるp値の一般的なしきい値は、統計的有意性を示す0.05以下です。
- ANOVAの表では、p値によって特定の変数の有意性と、それがモデル全体の分散の説明に寄与するかどうかが検定されます。この最初のp値は、モデルに特定の変数を含める価値があるかどうかを選択するのに役立ちます。
- 係数の表のp値は、特定の変数がアウトプット値に影響を与えるかどうかのt検定から取得されます。これは、特定の変数の係数の大きさの信頼性を評価するのに役立ちます。
インプット/独立変数を含めるか除外するかをどのように決定すればよいですか?
- 科学的理解において、最終的な測定可能な結果に影響を与える変数、および実験を通じて変化する変数を含めます。変数が有意かどうかは、その特定の変数のANOVA表のp値が十分小さいかどうかで簡単に確認することができます。
利用可能なすべての変数を予測因子として追加して大規模なモデルを構築することができないのはなぜですか?
- 技術的には、利用可能なすべての変数を予測因子として含めることができます。
- ですがほとんどの場合は、従属変数を適切に説明するために必要なだけ変数を含めたいと考えるものです。含める独立変数が多すぎると過剰適合が発生し、モデルの目に見えない将来のデータ点の予測可能性が失われる可能性があります。
モデルが全体的に適切かどうかを判断するにはどうすればよいですか?
- 3つの値を確認しましょう。二乗平均平方根誤差、r^2、および残差の二乗和の3つです。最初の2つは表1にあり、残りの1つは表2にあります。
- 二乗平均平方根誤差は小さく、
- r^2は大きく、理想的には1に近い値であり、
- 残差の二乗和は小さいことが求められます。