- API介绍
- API接口
- 定价
上下围栏计算器
欢迎使用上下围栏计算器,我们将在这里讨论围栏在统计学中的用途,并向您展示如何找到数据集的下围栏和上围栏。这些围栏对于找到数据集中那些讨厌的异常值至关重要。
数据集的上围栏和下围栏是阈值,超出这些阈值的数值可以被视为异常值。因此,异常值是任何低于下围栏或高于上围栏的数值。
如何计算上围栏和下围栏
现在我们知道了围栏是什么,我们想确切地知道如何找到上围栏和下围栏。这涉及几个步骤,让我们开始吧!
- 首先将数据集按升序排列
- 计算第一四分位数(Q1)和第三四分位数(Q3)
- 计算四分位距(IQR)= Q3 - Q1
- 使用围栏公式计算上围栏和下围栏
在我们能够得到上围栏和下围栏公式之前,我们需要两个基本但重要的值:数据集的四分位数。我们用Q1表示第一四分位数,用Q3表示第三四分位数。然后我们可以计算四分位距(IQR)为IQR = Q3 - Q1。
上围栏和下围栏公式
一些特定来源将我们公式中的1.5替换为其他值,如2或有时甚至是3。倍数的选择是特定于问题的,取决于数据集的分布。儿童身高数据集中的异常值仍然会接近数据集的其余部分,所以我们会选择较小的倍数,如1.5。薪资数据集中百万富翁的薪水会更加异常,所以我们会选择更大的倍数,如3或更多。
其中Q1是第一四分位数,Q3是第三四分位数,IQR是四分位距。任何低于下围栏或高于上围栏的值都被认为是异常值。
如何计算上围栏和下围栏的示例
让我们在一个实际例子中使用我们的上围栏和下围栏公式。假设我们有一个2010年到2021年纽约1月份每年降雨量的数据集,它看起来像这样:
原始数据:
1.33, 1.96, 3.12, 2.20, 1.58, 2.04, 1.80, 6.32, 1.90, 3.84, 2.93, 2.34
第1步:按升序排列数据集:
1.33, 1.58, 1.80, 1.90, 1.96, 2.04, 2.20, 2.34, 2.93, 3.12, 3.84, 6.32
第2步:确定四分位数:
Q1 = 1.85,Q3 = 3.025
第3步:计算四分位距:
IQR = Q3 - Q1 = 3.025 - 1.85 = 1.175
第4步:计算上围栏:
上围栏 = Q3 + 1.5 × IQR = 3.025 + 1.5 × 1.175 = 4.7875
第5步:计算下围栏:
下围栏 = Q1 - 1.5 × IQR = 1.85 - 1.5 × 1.175 = 0.0875
我们可以用这些上围栏和下围栏查看我们的数据,发现2017年的降雨量6.32是一个异常值。您的初始猜测正确吗?
围栏在统计学中的用途
除了帮助我们找到异常值外,围栏可以作为描述性统计中最小值和最大值的合适替代品。在大多数情况下,箱线图(一种可视化数据集的有用工具)使用最小值和最大值作为箱子的须线。
箱线图应用: 然而,使用上围栏和下围栏作为须线,然后用不同的点表示异常值会更有洞察力。这种方法可以更清楚地显示数据的分布情况和异常值的位置。
通过这种方式,我们可以更好地理解数据的结构,识别可能需要进一步调查的异常观测值,并做出更明智的统计决策。
数据质量控制: 围栏方法在数据质量控制中也非常有用。通过识别异常值,我们可以检测数据收集过程中的错误、设备故障或其他问题。
在商业分析中,围栏可以帮助识别异常的销售数据、客户行为或财务指标,从而及时发现问题或机会。
如何使用我们的计算器找到上围栏和下围栏
我们的上围栏和下围栏计算器为您完成所有这些步骤,并在眨眼间为您提供围栏,这样您就可以开始在数据集中找到异常值了。
- 在行中输入数据集的各个值。您最多可以输入50个值。
- 可选择在高级模式中更改围栏公式中使用的倍数。
- 计算器将确定围栏并在值列表底部显示它们,以及数据集的异常值和计算它们所采取的步骤。
祝您异常值狩猎愉快!这个工具将大大简化您的统计分析工作,让您能够快速识别数据中的异常模式。
常见问题
什么是异常值?
异常值是数据集中与其他值显著不同的值。异常值的存在可能是一个问题,尽管这取决于您使用数据的任务。异常值可以是合法数据,如薪资数据集中CEO的薪水。异常值也可能是无效的或由于错误造成的;这可能是校准不良的传感器,或者在将手写数据复制到电子表格时出现的打字错误。
如何找到异常值?
要在数据集中找到异常值,您需要计算数据集的上围栏和下围栏。然后您会看到数据集中哪些值落在围栏之外——这些值都是异常值。
如何计算上围栏和下围栏?
将数据集的四分位距乘以1.5,然后分别从数据集的第一和第三四分位数中加上和减去该值。这些就是您的上围栏和下围栏。
上围栏公式是什么?
您可以使用Q₃ + 1.5 × IQR计算上围栏,其中Q₃是您的第三四分位数,IQR是您的四分位距。数据集中任何高于上围栏的值都是异常值。
下围栏公式是什么?
您可以使用Q₁ - 1.5 × IQR计算下围栏,其中Q₁是您的第一四分位数,IQR是您的四分位距。数据集中任何低于下围栏的值都是异常值。
| 参数名 | 参数类型 | 默认值 | 是否必传 | 描述 |
|---|---|---|---|---|
| dataValues | array | 否 | 输入的数据集,包含需要分析的数值 | |
| multiplier | number | 1.5 | 否 | 计算围栏时使用的倍数,通常为1.5,可根据数据分布特性调整 |
| 参数名 | 参数类型 | 默认值 | 描述 |
|---|---|---|---|
| interquartileRange | number | 四分位距IQR,等于Q3减去Q1 | |
| upperFence | number | 上围栏值,高于此值的数据被认为是异常值 | |
| firstQuartile | number | 数据集的第一四分位数Q1 | |
| outlierCount | integer | 检测到的异常值总数 | |
| multiplierUsed | number | 实际使用的倍数值 | |
| thirdQuartile | number | 数据集的第三四分位数Q3 | |
| sortedData | array | 按升序排列的原始数据 | |
| lowerFence | number | 下围栏值,低于此值的数据被认为是异常值 | |
| outliers | array | 超出上下围栏范围的数值列表 |
| 错误码 | 错误信息 | 描述 |
|---|---|---|
| FP00000 | 成功 | |
| FP03333 | 失败 |
参考上方对接示例
