箱ひげ図とバイオリン図はどちらも、カテゴリ変数間の分布の違いを可視化する場合に使用します。箱ひげ図には、より統計指向のプロット機能があります。一方でバイオリン図は純粋な視覚表現です。重要なのは、X軸のカテゴリ変数の必要性を理解し、認識することです。そうしないと、グラフが役に立たなくなる可能性があります。
「ビジュアライズ」ページのボタンバーをクリックしてグラフの種類を選択すると、グラフのオプションを選択できます。
箱ひげ図
箱ひげ図を選択すると、ページの上部に、3つの軸オプションが表示されます。
下図のオブジェクト1で、カテゴリ変数を選択します。たとえば、どのポリマーが使用されたかという実験タグや、カテゴリの処理変数が使用できます。
オブジェクト2は、アウトプットまたは別の連続した数値など、対象の重要な値に使用できます。以下のオブジェクト3は、X軸上のカテゴリグループを使用して別の変数に従って区別する必要がある場合に使用できます。
以下の例では、実験タグをX軸に使用し、引張強度のアウトプットをY軸に使用しています。
各X軸グループには、独自の「ボックス」分布が作成されます。ボックスには、表示されている分布のさまざまな側面を説明するための機能があります。下図で、その機能を説明します。
バイオリン図
同様の可視化データを確認したいが、分布の特定の機能は必要ない場合は、バイオリン図を選択することもできます。下図からわかるように、分布は点群として表示されます。Y値の点が多いほど、点群の幅は広くなります。バイオリン図は、各分布に含まれるデータ点の数を確認することもできます。
どちらのプロットオプションでも、母集団をさらに分割したい場合は、「色」軸を使用して別のカテゴリ変数を選択できます(数値も選択できますが、有効な表示にならない可能性があります)。
注意点は、バイオリン図の場合、各点群の形はランダムに作成されるということです。各カテゴリ内(上記の例では「実験タグ」)は、重複を避けるために点が点群の中に分散されています。点群が広くなるほど、その領域にある点の数が多いことを示します。しかし、点群内の各点の水平位置は完全にランダムです。
つまり、箱ひげ図とバイオリン図はどちらも、カテゴリ変数間の分布の違いをよく可視化することができます。箱ひげ図では、カテゴリ変数の主な特徴4つ(中心、広がり、要約、外れ値)を把握できます。また、上下1.5倍の四分位範囲外のデータ点とひげを外れ値として扱いますが、バイオリン図は外れ値として分類せずにデータ全体の分布を表します。