Uncountableにインポートしたデータを調査する前に、各種エンティティ間の潜在的な相関関係を確認することで、新たな発見がある可能性が高まります。「ビジュアライズ」の「変数間の相関表示」タブで、相互の相関関係を簡単に発見できます。
潜在的な相関関係を発見するには、「ビジュアライズ」タブから「変数間の相関表示」ページに移動します。
ページ上部には複数のオプションがあります。これはどのケースを分析するかを表します。
– インプット/アウトプット:選択したインプットとアウトプットの間の相関関係を表示します
– 計算/アウトプット:価格や総コストなどの計算がプロジェクト内で設定されている場合、これらを選択して、相対するアウトプットとの分析を行うことができます
– アウトプット/アウトプット:異なるアウトプット間の相関関係を観察します
– 成分アウトプット/アウトプット:処方に中間処方があり、最終処方のアウトプットに関連するかどうか確認したい測定値が含まれている場合は、それらを表示できます。たとえば、測定されたポリマーの特性と配合された製品の特性などが考えられます。
2つのディメンション間の相関関係を確認するには、ドロップダウンメニューからインプットを1つ選択するか、インプットの最初の文字を入力して対象を絞り込みます。アクティブなスペックの関連するすべてのアウトプットの相関関係を確認したい場合は、「アウトプットを選択」の下にあるそれぞれのボタンをクリックします。可能なすべてのアウトプットを選択するには、ドロップダウンメニューの下の[すべてのアウトプットを表示]をクリックします。
こうしたプロットを「サンキーダイアグラム」と呼びます。データ内のより強い傾向が自動的に検索され、より高いR(相関)値とより高いサンプルサイズの関係を提示します。
サンキーダイアグラムにはX軸やY軸はありません。ノードを接続して関係を示すものです。ですから、線が上下することはありません。この図では、左側のノード(インプット/原料/計算)とアウトプットの間のつながりが重要です。
青い線は正の傾向を示します。つまり、左側のノードが高くなるほど、右側のノードも高くなる傾向があります。
赤い線は負の傾向を示します。つまり、左側のノードが低くなるほど、右側のノードも低くなる傾向があります。
線が太いほど、強い関係があります。
アウトプットを選択すると、複数のインプットが、相関関係の強さと共に表示されます。P値が0.005未満で、相関が0.5よりも大きいもののみ表示されます。さらに、この図では「最小サンプル」という追加パラメータが考慮されます。線をクリックすると、「データビジュアライズ」タブに移動して分析を行うことができます。2つ目の「相関行列」タブでは結果を定量的に表示します。
下にスクロールすると、すべての相関が指定のディメンションと結びつけられたリストが表示されます。[表示]ボタンをクリックすると、それぞれのプロット(線をクリックしたときと同じ)が表示されます。
代表的な結果を発見できる可能性を高め、誤解を招きそうな相関を最初からなくすため、いくつかのオプションを設定できます。
最小サンプル:より多くのサンプルを取得することで、定式の数が少なくても相関度が高いデータサンプルにしきい値が設定されます。量が少ないと計算における各式の重みが大きくなるため、相関が極端になる可能性が高くなります。
相関しきい値:高い相関しきい値を設定すれば、必要のない相関が除外されてより良好な全体像を得られます。
全体像を得られるもう1つの方法が、右側の歯車アイコンの「条件なしのアウトプットを表示」オプションです。これを選択すると、すべてのアウトプットディメンションが条件なしで処理され、表示される相関の数が制限されます。
最後に、同じく歯車アイコンから使用できる「詳細設定」で、相関のグレード(線形、四角形、平方根、対数、指数関数)および外れ値を場外するかどうかを変更できます。