5 回答
目前除了主要城市和敏感城市(比如xin jiang)以外大多数摄像头性能并不够好,尤其是小区部署的摄像头,如果是老旧小区,可能视频分辨率连720P也达不到。在这种情况下,视频监控其实主要只是起到几个基本作用:
1,我们有监控,符合规范和要求;
2,如果出现犯罪,我们可以监控到大概的犯罪情况;
3,由于越高清的摄像头,存储空间越大,费用有限,我们只好选择一般的,可以多存储一些。
毕竟摄像头的数据并不是联网化(我指公共网络),每个系统都是比较独立的,国家也没有一个统一平台接入所有的监控视频。这就导致很多摄像头的部署并不是为了人脸识别,只是为了基本监控。
在国家级公共场所部署高清摄像头和具有实力的硬件,才能将人脸识别发挥出来,否则摄像头清晰度不足、摄像头分布太少、数据处理能力不足和存储能力不足都会影响实际效果。
以海康威视为例,1个1080P 30帧的监控视频,码流可达4M/秒,1天如果都按照这个码流存储,可产生约340G的视频文件。如果某个地区部署了1000个高清摄像头,那么1天就有可能产生332T的视频数据。这个数据流量是巨大的,而且对已存储的文件的检索、读取、遍历都是极为消耗运算资源和IO的。所以即使有高清摄像头,大多数情况下也不会按照最高码流去存储,会降低码流,维持分辨率,那样的话,即使是高清,其实画质也很大程度上损伤了,并不利于人脸识别。
二、技术方面
人脸识别在软件技术方面,虽然很多测试和数据表示已经达到99.5%以上的准确度,但是那也都是基于一些规范性数据测试出来的。实际上技术对于恶劣条件下,尤其是摄像头硬件不够好、数据有缺损、光照条件不理想、人物脸部各种遮挡的情况下,这个数值会大打折扣。
近两年,传统以openCV为基础的人脸识别逐渐不热门了,而已深度学习,尤其是CNN卷积神经网络技术为基础的机器学习型识别逐渐热门(比如Caffe框架,已经出2代了)。这个技术获益于GPU计算框架的完善和提高,目前运算能力有极大的提升,通过完善的学习框架,可以将精确度反复提升,最终达到比较理想的水平。
但是通常的识别过程,还是需要判断人脸区域、判断五官特征点位置、提取特征值、进行判断这样走下来,所以中间过程中如果有软肋,就会极大地影响最终结果。比如人脸区域判断错误,后面的就很容易不准确。同一画面中可能出现0-100个人脸,在高清摄像头的情况下,出现数百人脸也不是完全不可能,这就对提取人脸区域提出了更高的要求。
再加上人脸特征值得提取很多时候也非常容易受到影响,比如人物脸部的扭转、表情的变化、佩戴眼镜或者帽子等配件导致的遮挡等等。在各种干扰因素影响之下,维持住准确率已经很难,想达到实用级别就更加难了。
三、用户体验方面
在监控视频或图片不停产生的情况下,规模的庞大导致了误报率的提升。从百分比角度来看,也许误报率只有千分之一或者万分之一,但是从实际情况来看,可能万分之一就意味着误报100次,因为原始素材可能是百万或者千万级别的。准确率达到99.99%对于很多企业来说就已经是比较天方夜谭的事情了,但是对用户来说,可能达到99.999999999999999%才能满足他们,因为你不知道后面的规模,会乘以10的几次方……
四、费用方面
从政府招标情况来看,一般级别的安防设备招标也就是1000-2000万就算比较高的了。这个钱一部分要分给摄像头和存储设备、线缆、施工人员,一部分是利润,还有一部分是各种关系和打点费用(隐形费用),最后能留下多少是真正为了处理和人脸识别的就不得而知了。当然,这部分费用可能另行立项。为了对视频进行处理,服务器的配置不能低,如果要做本地化部署,肯定要机房,并且尽量使用配置了GPU的服务器,这个成本会比普通单纯CPU的机型贵不少,而且对IO要求也高于单纯的存储视频文件。
综合来说,单纯建个视频监控系统就已经不便宜了,在这之上还要再加上一大笔资金才能搞出来一个不知道准确度、误报率、召回率都比较理想的智能监控系统就不见得真能满足政府的需求了。政府领导的真实需求并不是花钱没完,因为容易出事,而是差不多的花钱,同时满足高科技、智能化、大数据的业绩,最好还能降低犯罪率、举报率、上访率之类的。这么来看,大规模部署肯定是不行,因为拿钱的人太多,一不留神就进去了,重点区域小规模部署才是硬道理。主要靠系统,多抓一些通缉犯,就可以获得很好地业绩指标和说头,性价比也就提升上来了。
人脸识别技术最大的瓶颈就是性价比,如何才能便宜、好用、易部署、效率高、误报率低是个头疼问题。此外,还需要尽量考虑一些外的增值技术才有吸引力,比如人群跟踪、行为分析、暴力分析、人体倒地分析等。