安斯库姆四重奏
安斯库姆四重奏(Anscombe's quartet)是由统计学家弗朗西斯·安斯库姆(Francis Anscombe)提出的一组四个数据集,用来说明统计分析中数据可视化的重要性。
# 数据说明
这四个数据集都包含11个数据点,每个数据点都由两个变量组成,分别为X和Y。它们的统计学特征,如平均数、方差、相关系数等,都是相同的。但是,当将这四个数据集可视化后,可以发现它们的分布情况大不相同。
Copy
数据1 线性关系 数据2 曲线关系 数据3 极端异常值 数据4 完全不相干。
# 四组数据
const dataAll = [
[
[10.0, 8.04],
[8.0, 6.95],
[13.0, 7.58],
[9.0, 8.81],
[11.0, 8.33],
[14.0, 9.96],
[6.0, 7.24],
[4.0, 4.26],
[12.0, 10.84],
[7.0, 4.82],
[5.0, 5.68]
],
[
[10.0, 9.14],
[8.0, 8.14],
[13.0, 8.74],
[9.0, 8.77],
[11.0, 9.26],
[14.0, 8.1],
[6.0, 6.13],
[4.0, 3.1],
[12.0, 9.13],
[7.0, 7.26],
[5.0, 4.74]
],
[
[10.0, 7.46],
[8.0, 6.77],
[13.0, 12.74],
[9.0, 7.11],
[11.0, 7.81],
[14.0, 8.84],
[6.0, 6.08],
[4.0, 5.39],
[12.0, 8.15],
[7.0, 6.42],
[5.0, 5.73]
],
[
[8.0, 6.58],
[8.0, 5.76],
[8.0, 7.71],
[8.0, 8.84],
[8.0, 8.47],
[8.0, 7.04],
[8.0, 5.25],
[19.0, 12.5],
[8.0, 5.56],
[8.0, 7.91],
[8.0, 6.89]
]
]
# echarts 配置
const opt = {
title: {
text: "安斯库姆四重奏-Anscombe's quartet",
left: 'center',
top: 0
},
tooltip: {
formatter: 'Group {a}: ({c})'
},
xAxis: [
{gridIndex: 0, min: 0, max: 20},
{gridIndex: 1, min: 0, max: 20},
{gridIndex: 2, min: 0, max: 20},
{gridIndex: 3, min: 0, max: 20}
],
yAxis: [
{gridIndex: 0, min: 0, max: 15},
{gridIndex: 1, min: 0, max: 15},
{gridIndex: 2, min: 0, max: 15},
{gridIndex: 3, min: 0, max: 15}
],
series: [
{
name: 'I',
type: 'scatter',
xAxisIndex: 0,
yAxisIndex: 0,
data: dataAll[0],
markLine: markLineOpt
},
{
name: 'II',
type: 'scatter',
xAxisIndex: 1,
yAxisIndex: 1,
data: dataAll[1],
markLine: markLineOpt
},
{
name: 'III',
type: 'scatter',
xAxisIndex: 2,
yAxisIndex: 2,
data: dataAll[2],
markLine: markLineOpt
},
{
name: 'IV',
type: 'scatter',
xAxisIndex: 3,
yAxisIndex: 3,
data: dataAll[3],
markLine: markLineOpt
}
]
}
安斯库姆四重奏说明了,统计分析中,数据可视化是非常重要的,它不仅可以帮助我们更直观地理解数据,还可以帮助我们更准确地提取数据的结构特征。
安斯库姆四重奏提示线性回归前统计图辅助观察判断额重要性,这是几乎所有统计分析/数据分析都适用的。