什么是计算机视觉？

计算机视觉是人工智能 (AI) 的一个领域，是指让计算机和系统能够从图像、视频和其他视觉输入中获取有意义的信息，并根据该信息采取行动或提供建议。如果说人工智能赋予计算机思考的能力，那么计算机视觉就是赋予发现、观察和理解的能力。

计算机视觉的工作原理与人类视觉类似，只不过人类起步更早。人类视觉系统的优势是终身可以在适当的环境下训练分辨物体、物体距离、物体动静与否以及图像是否存在问题等能力。

计算机视觉训练机器来执行这些功能，但它们依靠摄像头、数据和算法在更短的时间内完成工作，而不像人类是依靠视网膜、视神经和视皮质。经过训练用于检验产品或监控生产资产的系统每分钟能够分析数千个产品或流程，并且会发现极其细微的缺陷或问题，因此计算机视觉的能力迅速超越人类。

计算机视觉是AI相关概念中的一个，大量出现在图像、识别等资料中。

计算机视觉的工作原理

计算机视觉系统利用人工智能（AI）技术模仿负责对象识别和对象分类的人脑能力。计算机科学家训练计算机，以通过输入大量信息来识别视觉数据。机器学习（ML）算法可识别这些图像或视频中的常见模式，并利用这些知识准确地识别未知的图像。

计算机视觉需要大量数据。它一遍又一遍地运行数据分析，直到能够辨别差异并最终识别图像为止。例如，要训练一台计算机识别汽车轮胎，需要为其输入大量的轮胎图像和轮胎相关数据，供其学习轮胎差异和识别轮胎，尤其是没有缺陷的轮胎。

这个过程会用到几种关键技术：一种是机器学习，叫做深度学习，另一种是卷积神经网络 (CNN)，再一种是循环神经网络（RNN）。

深度学习

机器学习使用算法模型，让计算机能够自行学习视觉数据的上下文。如果通过模型馈入足够多的数据，计算机就能"查看"数据并通过自学掌握分辨图像的能力。算法赋予机器自学的能力，而无需人类编程来使计算机能够识别图像。

卷积神经网络 (CNN)

CNN 将图像分解为像素，并为像素指定标记或标签，从而使机器学习或深度学习模型能够"看"到物体。它使用标签来执行卷积运算（用两个函数产生第三个函数的数学运算）并预测它"看到"的东西。该神经网络运行卷积运算，并通过一系列迭代检验预测准确度，直到预测开始接近事实。然后它以类似于人类的方式识别或查看图像。

卷积神经网络 (CNN) 能够针对多种应用场合执行分割、分类和检测：

分割：图像分割是指将像素归类为特定类别，如汽车、道路或行人。它广泛用于自动驾驶汽车应用，用于显示道路、汽车和人员。您可以将其想象成一种可视化技术，该技术能够使人们更容易理解计算机的工作。
分类：图像分类用于确定图像中的内容。例如，神经网络经过训练后能够识别狗或猫，或者许多其他东西，并且具有高精确度。
检测：通过图像检测，计算机可以定位对象的位置。在许多应用中，CNN 会在相关区域周围设置矩形边界框，将对象完全包含在内。检测器也可以接受训练，以便检测图像中汽车或人员的位置。

循环神经网络（RNN）

循环神经网络（RNN）与 CNN 类似，但可以处理一系列图像，以找到它们之间的联系。

就像人类辨别远距离的图像一样，CNN 首先辨别硬边缘和简单的形状，然后一边运行预测迭代，一边填充信息。CNN 用来分析单张图像，而 RNN 可以分析视频并了解图像之间的关系。

计算机视觉为何重要？

在体育、汽车、农业、零售、银行、施工和保险等行业，计算机视觉应用非常广泛。得益于目前机器用于识别物体的图像处理器 – 卷积神经网络 (CNN)，各种由 AI 驱动的机器纷纷开始采用仿人眼技术来获得更多助力。CNN 已成为当今自动驾驶汽车、石油勘探和聚变能源研究领域的“眼睛”。它们还有助于在医学成像领域快速发现疾病并挽救生命。

数十年来，传统的计算机视觉和图像处理技术已经应用于众多应用和研究工作。然而，现代 AI 技术采用人工神经网络，能够实现更高的性能准确性；高性能计算依托 GPU 取得长足进步，实现超人的准确性，从而在运输、零售、制造、医疗健康和金融服务等行业广泛应用。

在将图像和视频分类为精细离散的类别和分类方面，如同医学计算机轴向断层扫描或 CAT 扫描中随时间推移而产生的微小变化，传统或基于 AI 的计算机视觉系统远胜于人类。在这个意义上，计算机视觉将人类有可能完成的任务自动化，但其准确性和速度要高得多。

当前和潜在的应用多种多样，因此计算机视觉技术和解决方案的增长预测相当惊人，这点不足为奇。一项市场调研表明，到 2023 年，该市场将以惊人的 47% 的年增长率增长，届时将在全球达到 250 亿美元。在整个计算机科学范畴内，计算机视觉是热门、活跃的研发领域之一。

计算机视觉可以执行哪些常见任务？

许多组织没有资源资助计算机视觉实验室以及创建深度学习模型和神经网络。他们可能还缺乏处理海量视觉数据所需的算力。 IBM 等公司正在通过提供计算机视觉软件开发服务，助他们一臂之力。这些服务交付预先构建的学习模型，可以从云端获取，因此还可以缓解对计算资源的需求。用户通过应用程序编程接口 (API) 连接到服务，并使用它们来开发计算机视觉应用程序。

以下示例展示了一些常见的计算机视觉任务：

图像分类 观察图像并进行分类（狗、苹果、人脸）。更确切地说，它能够准确地预测指定图像属于哪个特定类别。例如，社交媒体公司可能希望利用该技术自动识别和隔离用户上传的容易引起反感的图像。

– 视频分类 与图像分类不同的是，分类的对象不再是静止的图像，而是一个由多帧图像构成的、包含语音数据、包含运动信息等的视频对象，因此理解视频需要获得更多的上下文信息，不仅要理解每帧图像是什么、包含什么，还需要结合不同帧，知道上下文的关联信息。

– 物体检测 可以使用图像分类来识别一类特定图像，然后检测图像或视频中出现的这类图像并制成表格。例如，检测装配线上的损坏，或者识别需要维护的机械装置。

– 对象跟踪会跟踪检测到的对象。此任务通常对按顺序捕获或在实时视频源中捕获的图像执行。例如，自主驾驶汽车不仅需要对行人、其他车辆、道路基础设施等对象进行分类和检测，还必须能够在行驶过程中跟踪它们以避免发生碰撞并遵守交通规则。

– __基于内容的图像检索__ 利用计算机视觉，根据图像内容从大型数据存储中浏览、搜索和检索图像，而不是根据与图像关联的元数据标记。这个任务可以包含自动图像注解，以取代手动图像标记。这些任务可用于数字资产管理系统，可以提高搜索和检索的准确性。

计算机视觉的历史

60 多年来，科学家和工程师一直在尝试开发各种方法，让机器能够看到和理解视觉数据。在 1959 年的第一次实验中，神经生理学家向一只猫展示一组图像，试图唤起猫大脑的反应。他们发现猫会先对硬边缘或线条做出反应，从科学角度来说，这意味着图像处理从简单的形状开始，例如直边。

大约在同一时期，第一个计算机图像扫描技术成功地开发出来，使计算机能够将图像数字化并获取图像。 1963 年，计算机能够将二维图像转换为三维形式，标志着第二个里程碑的实现。在 20 世纪 60 年代，人工智能作为一个学术域研究诞生了，同时也标志着人们开始探求依靠人工智能解决人类视觉问题的方法。

1974 年，光学字符识别 (OCR) 技术走向市场，它能够识别以任何字体或字型打印的文字，例如各类证件、各类单据。同样，智能字符识别 (ICR) 能够使用神经网络识别手写文字。此后，OCR 和 ICR 广泛地运用到文件和发票处理、车牌识别、移动支付、机器翻译和其他常见领域。

1982 年，神经系统科学家 David Marr 证实了视觉分层工作原理，并推出了使机器能够检测边缘、角落、曲线和类似的基本形状的算法。与此同时，计算机科学家 Kunihiko Fukushima 开发了一个能够识别模式的细胞网络。这个网络称为 Neocognitron，它在一个神经网络中包含了多个卷积层。

到 2000 年，物体识别成为研究重点，2001 年，第一个实时人脸识别应用诞生。在 21 世纪初，逐渐形成了视觉数据集标记和注释的标准化实践。 2010 年，ImageNet 数据集公开可用。该数据集包含上千种物体的数百万张标记的图像，为如今使用的 CNN 和深度学习模型奠定了基础。 2012 年，来自多伦多大学的团队带着一个 CNN 模型参加了图像识别竞赛。这个名为 AlexNet 的模型显着降低了图像识别的错误率。在这一次突破后，错误率已经下降到仅仅百分之几的水平。

计算机视觉与图像处理之间有什么区别？

图像处理利用算法来更改图像，包括锐化、平滑、过滤或增强。但计算机视觉不同，因为它并不更改图像，而是理解它所发现的内容并执行任务，例如进行标记。在某些情况下，可以利用图像处理来修改图像，以使计算机视觉系统能够更好地理解图像。在其他情况下，可以利用计算机视觉来识别图像或图像的某些部分，然后利用图像处理进一步修改图像。

计算机视觉有哪些应用场景？

自动驾驶汽车：自动驾驶技术是计算机视觉领域的一颗璀璨明珠。通过车载摄像头、雷达和激光雷达等传感器，自动驾驶汽车能够感知周围环境，利用计算机视觉算法识别行人、车辆、交通信号和车道标记等。这些系统将视觉数据转化为决策指令，实现车辆的自主导航和安全行驶。
医疗影像分析：在医疗领域，计算机视觉技术的应用正在革新疾病诊断的方式。医生可以利用计算机视觉辅助分析医学影像，如X射线、CT扫描和MRI图像，以识别和诊断疾病。计算机视觉系统能够检测到人眼难以察觉的微小异常，从而提高诊断的准确性和效率。
工业检测：计算机视觉在制造业中的应用提高了产品质量检测的自动化水平。通过视觉检测系统，可以自动识别产品表面的缺陷或尺寸偏差，确保产品质量符合标准。这些系统在提高生产效率的同时，也降低了人工检测的成本和出错率。
安防监控：计算机视觉技术在安防监控领域的应用提高了安全防护的智能化水平。智能监控系统能够自动识别异常行为并发出警报，如未经授权的入侵或遗留物品。这些系统为公共场所和私人物业提供了额外的安全保障。
农业自动化：在农业领域，计算机视觉技术的应用正在推动农业生产的自动化和智能化。无人机和地面机器人搭载的摄像头可以捕捉田间的高分辨率图像，通过计算机视觉算法分析作物健康状况，识别病虫害，并指导自动收割机器人完成精确收割。
零售业：计算机视觉技术在零售业的应用优化了顾客体验并提高了运营效率。通过分析店内摄像头捕捉的视频流，零售商可以进行客流统计、货架商品监控，甚至实现自助结账。这些应用帮助零售商更好地了解顾客行为，优化库存管理。
人脸识别：计算机视觉技术在人脸识别领域的应用已经广泛用于安全和身份验证。从边境控制到手机解锁，再到电子支付验证，计算机视觉提供了一种高效、安全的身份确认方式。这项技术在提高安全性的同时，也为用户带来了极大的便利。
智能制造：计算机视觉在智能制造中的应用是工业自动化的重要推动力。通过视觉引导，机器人可以精准地完成组装任务；通过视觉检测，可以确保产品质量；通过视觉监控，可以实现设备的预测性维护。计算机视觉技术的应用提高了生产线的灵活性和效率，降低了生产成本。

参考资料

1、IBM 什么是计算机视觉? 2、维基百科计算机视觉 3、Amazon 什么是计算机视觉 4、《动手学深度学习》第13章节：计算机视觉

什么是计算机 视觉？

计算机 视觉的工作原理

深度学习

卷积神经网络 (CNN)

循环神经网络（RNN）

计算机 视觉为何重要？

计算机 视觉可以执行哪些常见任务？

计算机 视觉的历史

计算机 视觉与图像处理之间有什么区别？

计算机 视觉有哪些应用场景？