- API介绍
- API接口
- 定价


异常值计算器
欢迎使用Omni的异常值计算器,在这里我们不仅会定义异常值,还会学习异常值在统计学中的含义。本质上,每当我们需要分析数据集时,我们经常求助于各种统计工具,而我们今天的主角就是其中之一。数学中的异常值定义让您确定数据中是否有任何条目与其他条目显著不同。
那么什么是异常值,如何找到它们?异常值公式是什么?让我们直接进入文章找出答案!
什么是异常值?
很多时候,当我们有一系列描述我们正在研究的任何事物的条目时,一些数据明显比其他数据小或大。这可能是因为计算中有错误,或者因为样本本身就有缺陷。无论哪种方式,挑选出这些扭曲结果的少数条目并仔细检查它们都是有用的。
我们上面提到的值就是统计学中所说的异常值。它们是数据集中远离其他数据的特定条目。如果您愿意,您可以直观地将它们视为与平均值显著不同,尽管定义异常值需要更多的条件。
为了让您了解异常值在统计学中的含义,让我们想象一个场景,其中一家公司雇用了,比如说,三十个做非常相似工作的人。一旦前几个月的结果出来,负责人会得到一个表格,显示每个员工完成了多少工作。
异常值公式
首先,我们需要计算四分位数间距(IQR):
然后,异常值被定义为满足以下不等式之一的条目x:
其中Q1是第一四分位数,Q3是第三四分位数,IQR是四分位数间距。这些阈值通常被称为数据集的上下边界。
示例:使用异常值计算器
假设由于社交距离和所有限制,您的体育老师有一个绝妙的想法,让今天的课程成为卧推"锦标赛"。一些孩子很兴奋,一些失望,一些看起来害怕。尽管如此,每个人都需要尝试一下。
所有二十一名学生完成后,他们的结果(以磅为单位)是:
原始数据:
32, 42, 40, 38, 44, 60, 58, 50, 32, 44, 62, 96, 48, 46, 54, 66, 78, 80, 94, 40, 60
排序后的数据:
32, 32, 38, 40, 40, 42, 44, 44, 46, 48, 50, 54, 58, 60, 60, 62, 66, 78, 80, 94, 96
计算过程:
最小值 = 32,最大值 = 96
中位数 = 50
第一四分位数 Q1 = 42
第三四分位数 Q3 = 62
IQR = Q3 - Q1 = 62 - 42 = 20
下边界 = Q1 - 1.5 × IQR = 42 - 30 = 12
上边界 = Q3 + 1.5 × IQR = 62 + 30 = 92
当我们查看我们的条目时,我们看到没有小于12的值,但有两个大于92的值:94和96。换句话说,我们有两个异常值,即两个明显大于其余数据的数字。
实际应用
当我们查看如此多的数据时,可能很难注意到任何偏离常规的个体。然而,如果我们将所有数字放入Omni的异常值计算器等工具中,我们会立即知道谁在任务中遇到困难,谁工作更努力,也许值得加薪。
五数概括的重要性: 原始数据很难处理。如果,就像前一节的场景一样,我们得到三十个或更多的值,很难对它们作为一个整体说出任何有用的东西。这就是五数概括发挥作用的地方。
简而言之,五数概括让我们粗略了解数据集的"分散"程度。例如,它可以告诉您中间值是否远离最小值和最大值之间的中点。此外,它还显示了大部分数据落在哪里(相对于最小和最大条目)。
箱线图中的异常值: 这给出了箱线图上异常值的绝佳表示:它们是远离四分位数间距的值。因此,我们得到了另一个理由,说明为什么用五数概括和箱须图分析数据集比用原始值序列更简单。
然而,如果数据集密集,即条目不太分散,那么可能没有异常值。在实践中,在进行统计研究时,这通常是一件好事。这可能意味着我们试图应用的模型(例如,用正态分布近似数据)是准确的。
五数概括:箱须图
在我们介绍正式定义之前,我们需要一些统计概念,这些概念将在异常值公式中出现。幸运的是,我们可以将它们全部打包在所谓的五数概括及其相应的箱须图中。
五数概括包括:
- 最大值
- 第三四分位数
- 中位数
- 第一四分位数
- 最小值
最大值和最小值,我们希望,相当直接——它们分别是最大和最小的值。中位数是数据集中的中间值,即当我们将条目从最小到最大排序时落在中间的值。最后,四分位数是条目的最小(对于第一四分位数)和最大(对于第三四分位数)一半的中位数。
从第一四分位数到第三四分位数之间的区间通常称为四分位数间距,在异常值公式中将变得非常有用。
常见问题
什么是异常值?
异常值是数据集中远离其他数据的特定条目。它们是明显小于或大于其他数据的值,可能是由于计算错误或样本缺陷造成的。
如何找到异常值?
使用四分位数间距法:首先计算Q1和Q3,然后计算IQR = Q3 - Q1。任何小于Q1 - 1.5×IQR或大于Q3 + 1.5×IQR的值都是异常值。
为什么要检测异常值?
检测异常值有助于识别数据中的错误、发现特殊情况、提高统计分析的准确性,并确保模型的有效性。异常值可能扭曲分析结果,因此识别它们对于数据质量控制至关重要。
参数名 | 参数类型 | 默认值 | 是否必传 | 描述 |
---|---|---|---|---|
multiplier | number | 1.5 | 否 | 用于计算异常值边界的倍数系数,标准值为1.5 |
dataSet | array | 否 | 需要检测异常值的数值数组,至少包含3个数值 |
参数名 | 参数类型 | 默认值 | 描述 |
---|---|---|---|
hasOutliers | boolean | 指示数据集中是否存在异常值 | |
interquartileRange | number | 第三四分位数与第一四分位数的差值(IQR = Q3 - Q1) | |
upperFence | number | 异常值检测的上边界值(Q3 + 1.5 × IQR) | |
outlierCount | integer | 检测到的异常值总数 | |
sortedData | array | 原始数据按升序排列的结果 | |
outliers | array | 检测到的所有异常值 | |
lowerFence | number | 异常值检测的下边界值(Q1 - 1.5 × IQR) | |
fiveNumberSummary+median | number | 数据集的中位数 | |
fiveNumberSummary+firstQuartile | number | 数据集的第一四分位数(Q1) | |
fiveNumberSummary+thirdQuartile | number | 数据集的第三四分位数(Q3) | |
fiveNumberSummary+maximum | number | 数据集中的最大值 | |
fiveNumberSummary+minimum | number | 数据集中的最小值 |
错误码 | 错误信息 | 描述 |
---|---|---|
FP00000 | 成功 | |
FP03333 | 失败 |
参考上方对接示例