计算机视觉是最进步和发展最快的领域之一。根据Grand View Research的数据,2020年全球计算机视觉市场规模为113.2亿美元,预计2021年至2028年将以7.3%的复合年增长率扩大。AI计算机视觉的用例几乎数不胜数 最受欢迎的是消费无人机以及自动和半自动车辆。
此外,由于计算机视觉的最新进展,人工智能现在已成为各个行业的必需品,例如教育、医疗保健、机器人、消费电子、零售、制造等。因此,鉴于计算机视觉的爆发,调查这一切的起点和发展方向就很重要了,尤其是在选择下一个计算机视觉项目时。在本文中,我们将介绍计算机视觉的基础和趋势。
计算机视觉的演变
今天,我们已经习惯了智能手机人脸识别或Instagram的图片生成。我们几乎不知道这些场景使用了计算机视觉,如果没有深刻而持久的研究,今天看起来很正常的事情是不可能实现的。
计算机视觉在1960年代后期开始出现在开创人工智能的大学中。这个想法是模仿人类视觉并允许计算机或机器人“看到”物体。现有的大量计算机视觉算法起源于1970年代。这些包括从图像中提取边缘、标记线、非多面体和多面体建模、聚类、光流和运动估计。
现今计算机视觉子领域包括:
场景重构(Scene reconstruction)
对象检测(Object detection)
事件检测(Event detection)
视频追踪(Video tracking)
对象识别(Object recognition)
三维姿态估计(3D pose estimation)
运动估计(Motion estimation)
视觉伺服(Visual servoing)
三维场景建模(3D scene modeling)
图像修复(Image restoration)
尽管自1960年代以来计算机视觉取得了很大进展,但就研发而言,它仍然是一个很大程度上尚未开发的领域。这主要是因为人类视觉本身极其复杂,而计算机视觉系统相比之下就受到了影响。人们需要几秒钟在图像中识别出他们的朋友,即使年龄不同,我们记住和存储面孔以供将来识别的能力似乎是无限的。然而,很难想象一台计算机要处理几乎相似的事情需要多少工作。当今计算机视觉工程师面临的另一个挑战是将开源计算机视觉工具可持续集成到应用中。特别是,计算机视觉解决方案不断依赖于软件和硬件的发展,其中集成新技术成为一项具有挑战性的任务。
介绍了计算机视觉的起源和现状,让我们展望一下“未来”并思考 2022年计算机视觉领域最有希望的一些趋势。
边缘是新的云。边缘计算是指贴近生成数据地方的技术,即在架构边缘:它允许在收集数据的地方(或更接近于)处理和分析数据,而不是云或数据中心。
计算机视觉项目之所以越来越多的边缘计算架构,是因为它解决了网络可访问性、带宽和延迟的问题。
由于隐私、健壮性和性能,甚至云架构也经常需要部署在边缘设备上。边缘计算尤其受需要实时数据处理的项目的欢迎。此类项目包括自动驾驶汽车、无人机等。
边缘计算在医疗保健行业获得了很大的吸引力。虽然大多数人正常,但有部分人视力受限或者根本看不到。
已经有很多研究,利用计算机视觉来帮助视障者。幸运的是,对于那些不能看到实时画面的人来说技术的进步使世界变得更美好。更确切地说,计算机视觉可以帮助他们:
识别对象
查找特定对象
检测障碍物
信号检测及导航
识别人
分享关于人群的信息
计算机视觉边缘计算的类似用例包括帮助残疾人或保护濒危物种。果然,边缘计算的应用场景在不断的扩展。
随着计算机视觉越来越受到关注,提出此类解决方案的平台数量也相应增加。使用平台可以为您节省一些用于图像处理、数据标注和数据管理的时间。总的来说,如果不使用计算机视觉平台,您将不得不深入挖掘并执行以下操作:
围绕您的AI流程开发工作流程
从不同的源获取数据
存储并标注数据
检查并纠正错误标注的数据
遵循版本控制
现在较多关注CVaaS,它代表计算机视觉即服务。这使得不具有AI能力的公司能够利用先进技术并购买计算机视觉平台上可用的预置算法。由于算法和API按需付费使用,因此计算机视觉创新成本可接受及可规模化。例如,数据标注服务是计算机视觉项目的第一个也是最重要的部分,较明智的做法是外包数据标注服务。要记住,垃圾进,垃圾出(Garbage in, garbage out)。
如果找到一个满足需求的平台,请坚持使用以确保计算机视觉项目安全无虞。
计算机视觉完全与数据相关,模型的好坏取决于数据质量。构建AI模型的第一步是收集大量数据集进行训练。我们错误地认为模型不准确只能通过收集大量的数据来解决。例如,如果要建立一个模型来检测兔子,我们需要从不同角度、不同天气和光照条件下拍摄一万张兔子的图像;收集不同大小和颜色的兔子。
然而,现今的趋势是质量大于数量。这并不意味着示例的数量没有任何作用,但训练模型可能不一定受益于大量的训练示例。相反,如果提供的训练示例准确且信息丰富,它就会运作良好。如果我们发现训练数据不准确,我们可以清除噪声并找到错误标记的图像。如果信息量不够,我们可以将数据集加倍,并收集另一堆兔子的图像,甚至替换第一批。如何衡量图像的信息量?值得我们去研究。
研究表明,这两者在提高学习算法性能方面同样有效。在大多数情况下,检测错误标记的示例并找到正确标记它们的系统方法要容易得多。就是以数据为中心的计算机视觉项目,是计算机视觉应用的未来方向。MLOps也属于这一类别,旨在使机器学习系统的开发和部署系统化,但这又是一个完全不同的话题。
计算机视觉已经发展了一段时间,未来还有很多的需求。鉴于当前的资源和才华横溢的专家,计算机视觉的未来充满希望。技术的进步和计算机视觉算法的发展为计算机视觉在现实生活中的应用开辟了广阔的机遇。这带来了计算机视觉平台数量的增加,这表明构建和实施全面的计算机视觉管道需要最多样化的服务。我们将在边缘计算上构建计算机视觉应用程序,我们将专注于在计算机视觉模型训练的初始阶段收集清晰且信息丰富的数据,而不是收集充满噪音的大量无信息数据集。
来源:机器人视觉研究院