《金融电子化》| 赵天成:从感知智能到认知智能,视觉认知技术加速赋能数字安防产业

作者: 联汇科技 2023-02-16 0

近日,由中国人民银行主管的金融信息科技类期刊《金融电子化》杂志,刊发了联汇科技首席科学家赵天成博士专题文章《从感知智能到认知智能,视觉认知技术加速赋能数字安放产业》,围绕智慧安防时代的行业挑战、技术路线及发展趋势等问题进行深度分享。

1678694202396.jpg

国家安全是民族复兴的根基,社会稳定是国家强盛的前提。党的二十大报告强调“推进国家安全体系和能力现代化,坚决维护国家安全和社会稳定”,明确提出“建设更高水平的平安中国”。


安防行业是利用视频监控、出入口控制、实体防护、违禁品安检、入侵报警等技术手段以及云计算、大数据、人工智能等新一代信息技术,防范应对各类风险和挑战,构建立体化社会治安防控体系、维护国家安全及社会稳定的安全保障性行业。通过数字化改革的牵引,安防行业将视频监控、先进算法、关键核心器件、终端设备等数字安防产业链关键环节为串联,广泛应用与智慧城市、未来社区、智慧楼宇、智慧校园等开放场景,构建起全新的技术与应用体系,推动数字安防产业高质量发展。


那么,数字化浪潮下,安防+AI面临着哪些技术挑战、当前技术路径如何,以及未来的发展趋势,这些问题的答案已经逐渐明确,AI正带领安防进入一个全新时代。


安防+AI,产业需求爆发与应用挑战

经过四十余年的发展,安防行业已经确立了新的知识体系,从公共安全体系的组成部分,发展成为全方位、立体化社会公共安全治理的关键核心,从应急响应向预警预防转化,从事件处置向风险管控转变,从治安事件防控到应对非传统安全威胁领域全覆盖。安全技术防范已经上升到国家公共安全和社会综合治理规划、布局的政策高度。

新一代信息技术成为安防行业的基础技术,创新发展不断迭代。人工智能、物联网的新进展为安防产品和技术带来了颠覆性变革;5G+AI格局加速千行百业的智能升级,为安防产业带来5G+AI的“芯”时代,开启数字安防新业态;基于深度学习、AI、机器视觉、物联网等人工智能技术打造的安防生态圈,让数字安防产业具有了无限可能。大安防、大数据、大产业是新时代安防业态的典型特征,也为数字安防注入多元价值。


安防是人工智能技术商业落地发展最快、市场容量最大的主赛道之一,但安防+AI的升级之路上依然存在诸多挑战。

首先是需求场景的爆发,从“高频”需求到“碎片化”长尾需求的陡增,扩大AI落地安防应用范围的同时,也提升了技术实现难度。全国80%以上的摄像机以实时视频查看、录像回放为主,具有的AI分析能力大部分集中在人脸识别、车牌识别等高频应用场景,对其他各类低频应用场景能识别的对象非常有限,且识别准确率并不理想。

1678694365564.jpg

第二个挑战是泛场景算法识别效果不佳。安防市场涉及公安、交通、家庭、金融、教育、楼宇等极其丰富的应用场景,且各类场景的需求又各不相同,而很多算法模型的实施效果与具体应用场景密切相关,很难从一个应用场景直接迁移到另一个应用场景,从而造成了AI在落地具体场景中的准确率难以保障,只能被动选择定制化算法,进而限制了算法大范围的应用推广。

 

第三个挑战来自算法开发和应用成本。很多AI算法由数据驱动,需要通过持续收集大量特定应用场景数据,在应用中进行持续迭代优化。市场上的场景应用需求80%均为长尾化需求,面对高昂的有监督机器学习训练成本,并非一般安防企业特别是中小企业能够负担,若是在生产过程中涉及规则调整,时间、经济、人力等成本都将持续增加,对于大多数企业而言,都是非常大的技术、成本和运维压力。


第四个挑战是行业人才的紧缺。现有数字安防产业企业构成中,集成商、工程商占据主要力量,传统安防人才是主力军,但这一轮产业数字化、智能化建设浪潮中,对计算机视觉领域人才的需求更加迫切,而在AI行业人才市场,计算机视觉恰是人工智能技术方向中人才供需比最低的细分领域,人才严重紧缺的现状使得安防对计算机视觉人才的吸纳、培养成为行业高质量发展的核心要务之一。


从感知智能到认知智能,AI加速落地安防行业

人工智能1.0时代,算法生产是手工作坊式的,每满足一个场景需求就需要生产一个独立算法,这种方式存在明显的缺陷:建模成本高、周期长、识别准确度不高……这些问题严重制约了AI技术在长尾小众市场的实际工作和快速落地。


而在人工智能2.0时代,算法模型基于预训练大模型产生,通过全新的技术路径与平台产品,AI更容易为安防企业所用。通过预训练大模型模仿人类构建认知的过程,融合AI在语言、语音、视觉等不同模态和领域的知识体系,多模态大模型能成为人工智能2.0时代的算法基石,让AI从只能使用“单一感官”到“五官全开”,大模型调用储备丰富知识的大脑来理解世界和思考,最终实现从感知智能到认知智能的提升。


在数据井喷、算法进步和算力突破的共同作用下,预训练大模型成为人工智能发展的关键方向与AI产业应用的基础底座,引领AI开发模式向工业化转变。AI算法生产的开发周期从“月”向“天”缩减、模型精度的大幅提升、不再依赖人类标签的机器自学习,特别是其通用能力更是能够快速适用于80%的任务场景等,真正实现一个大模型解决N个场景的高泛化应用。


联汇科技自研的多模态预训练大模型OmModel,即是通过大规模自监督学习的多模态人工智能算法,融合语言和视觉模态理解,在完成基于行业的亿级图片、万级视频、十亿级图文大规模预训练的基础上,实现以更小的标注样本数量,融合更多的模态信息,获得更为精准的视觉AI模型,从而实现一个模型应对千万种场景的超强通识能力,轻松覆盖各类长尾问题,性能超过行业平均30%以上。


OmModel以“预训练大模型+下游任务微调”的方式,有效地从大量标记和未标记的数据中捕获知识,解决模型通用性差的问题,极大地扩展了模型的泛化能力,使模型能够“融会贯通”“举一反三”基于OmModel多模态预训练大模型,联汇科技再次发布OmVision视觉认知服务平台,打造具有行业领先性的人工智能算法服务中心,提供“零代码、零样本、零基础”的AI算法生产SaaS服务,打破传统人工智能算法训练模式,通过预训练大模型强大的通识能力,重新定义视觉算法应用的生产流程,提出算法来自应用场景的全新概念和算法生产三步曲全新流程,更好地保证了每个算法在实际环境中的识别精准度。最重要的是,OmVision进一步降低企业使用门槛,让更多安防企业员工也能够快速参与算法开发与应用,进一步降低企业使用门槛,让更多安防企业员工也能够快速参与算法开发与应用,提升AI技术对数字安防的赋能效率,促进人工智能技术在数字安防的场景落地。


OmVision视觉认知服务平台包含OmVision Studio算法模型工厂和OmVision OS视觉操作系统两大支撑体系。


OmVision Studio算法模型工厂提供海量预标注数据及数据标注工作台、基于预训练大模型的高精度模型、模块化低代码开发工厂以及算法云端部署服务的全流程AI应用开发体系,开创“算法零件组装模式”,打造零门槛的一站式AI算法应用开发平台。


OmVision Studio实现从算法生产到解决方案的全链条赋能,以“0样本冷启动、小样本训练、算法在线调优迭代”三步曲的全新流程重塑视觉算法生产,使交付的应用算法更加科学、精准,加速解决个性化的长尾需求。面向安防行业中的海量长尾场景需求,帮助企业解决AI应用的技术、时间、成本等问题,让企业业务人员快速掌握AI算法生产及个性化场景落地,使懂业务的人更懂算法。


OmVision OS视觉操作系则是基于预训练大模型的视觉操作系统,实现算法的个性化线上调优,以及多场景视觉协同预测,并根据算法的需要,灵活高效地调度GPU算力资源,构建起高性能视觉识别运行平台,满足业务的需求,让每个摄像设备都拥有智慧大脑,并可以根据场景协同预测。


“线上调优”主要由OmVision OS完成,依托OmModel的通识能力,对每一路视频流信号进行协同判断和识别,极大提高算法的环境抗干扰能力,并根据实际场景对算法进行可持续的针对性环境调优迭代,实现“用得越久、精度越高”。


OmVision平台的开发流程主要包含“创建应用”“应用评估”“小样本训练”“应用部署”四大步骤,帮助安防企业在各类需求场景中实现快速落地与应用。


  • 创建应用:通过可视化应用创建器,多模型的排列组合,构建满足多场景、碎片化场景的算法应用;

  • 应用评估:选择要评估的应用和测试数据集,评估任务基本信息、各标签指标分数、评估速度、样本告警效果,生成评估报告;

  • 小样本训练:当缺乏应用构建“零件”或者交付上线效果和实验室差距较大时,需要通过小样本的标准训练增强识别精度;

  • 应用部署:最终API等方式进行调用、部署的方式,让更多的下游应用获得完整的闭环系统。


大安防时代的趋势与机遇

受益于人工智能技术,安防+AI的概念更加明确,即传统安防行业借助计算机视觉与知识图谱技术在城市级和行业级安防场景中的实际落地应用,不仅限于由公安部门、司法部门、政法部门等采购使用的人工智能相关商品、服务及工程类项目的狭义AI+安防,同时也涵盖AI安防在社区楼宇、文教卫等其他领域的应用,大安防时代的市场和机遇并存。

1678696081147.jpg

首先,“安防+AI”的场景越发多样、垂直、细碎,在解决AI算法成熟度和应用深度问题的前提下,智慧安防的市场将进一步扩大。以“AI+安防”中应用最多的人脸识别技术为例,目前人脸识别准确率已达到99%以上,超过人眼识别准确度,但在实际应用中算法偏见、遮挡、光线、特殊表情等因素仍会影响到结果的判断,个性化的应用场景中需要更加成熟的AI算法。


其次,智能安防应用场景繁多但相互独立,从场景算法到行业级解决方案仍有协同空间。以智慧园区为例,基础设施建设主要是智能摄像头、传感器、人脸识别,实现对某几个重点区域进行监测,难以覆盖整个园区,但在实际应用中,更需要处理完善摄像头数据,实现数据融合和交互,从而真正实现在智慧园区场景中的主动判断与整体判断。


最后,随着经济与科技发展,人们的安全需求越来越强烈,数智安防已经成为社会工作生活的“刚需”。可以预见,随着安防与AI的深度融合,视觉认知技术将更加充分的发挥技术动能的推动作用,成为赋能数智安防和平安中国的重要保障。