数据要素产业
探析AI前沿技术加速应用落地 展锐与行业共应发展挑战
伴随5G网络在全球的大规模部署商用,人工智能(AI)等新兴技术的落地开始呈现加速态势。不过,从一个理论概念到真正商用实现,AI还有许多问题需要解决。无论是数据模型计算的准确性,还是配合AI应用的硬件平台性能发挥,仍都处于初期探索阶段。
在展锐于9月16日举办的“UP 2021展锐线上生态峰会”AI前沿技术与研究论坛上,包括展锐内部技术专家、学术机构科研专家以及产业领域的创新企业领导者在内的多名嘉宾针对AI前沿技术发表和分享了其研究成果,从模型自适应优化到深度学习,再到神经网络部署和AI训练平台,精彩的内容令我们对这些技术有了更深层次的了解和认识。
展锐专家共话AI技术 从挑战到实际应用一个不落
在整个AI的应用当中,需要进行高效的推拟,而高效的模型推理需要软硬结合的结果。展锐玛纳斯技术实验室主任陈静炜在其演讲中指出,如何开发出更加适合平台的算法是当今面临的重要挑战。
针对此,展锐提出了一种面向硬件自适应的模型优化模式。具体来说,就是以原始模型为基础,仅尝试面向硬件的结构微调和模型压缩方案,复杂度相对较低;这种模式支持不同的优化策略,可以按照选择精度优先和数字优先方式进行搜索;同时,这种模式良好的扩展性和自由度,可以增加或减少备选的精度表示,并且也可以增加其他优化方案;此外还可以通过知识蒸馏降低中间结果评估时间,以及通过在线Profiling评估中间结果的性能和瓶颈位置。
展锐技术专家田立则对神经网络部署的发展现状进行了介绍,他表示目前存在多种网络模型训练框架,同时模型算子不断发展更新,并且有着不同的量化方式,同时硬件平台存在着多样性,因为算法与硬件之间的差异,导致有些模型在硬件上部署的时候效率并不是很高。
在这方面,展锐提出了NNMRT的方案,利用异构硬件加速器,通过离线工具链对NN网络进行编译优化,在线微运行时高效调度算子,提高AI算法部署到异构平台的性能。展锐团队通过集成有NPU和VDSP的T770平台对这一模型进行了验证,编译器通过把部分算子部署到NPU上,部分算子部署到VDSP上,以此提高了模型部署的效率。
具体到实际的AI应用方面,展锐的另外三位专家分别从基于神经网络的全场景拍照技术、基于深度学习的多目标检测与跟踪和基于深度学习的语音增强技术做了详细介绍。
展锐多媒体技术专家刘千顺指出,当前智能手机拍照面临的挑战包括硬件配置受限、动态范围差、环境照度低以及模糊和噪声。为此,展锐开发了一套基于神经网络的全场景的解决方案,包括智能曝光、多帧降噪和动态范围增强三大模块。
以智能曝光模块为例,其中包括运动模式判断、曝光出帧策略和场景语义信息。该模块会根据环境亮度、图像直方图统计、陀螺仪、加速度计以及人脸检测结果,来综合考虑,从而配置出最佳的方案。当出帧之后,选定参考帧之后,会经过场景语义分割模块,生成天空、绿植、人像、建筑物等12类语义mask+肤色mask。通过三大模块的结合,可以大大提升手机拍照成像的质量。
同时,在已经广泛应用于智能安防与监控、无人驾驶、机器人、人机交互、以及视频分析等领域的多目标检测与跟踪的技术方面,展锐技术专家庞磊则介绍了展锐所采用的基于深度学习的多目标检测与跟踪算法:展锐在权衡了性能与效率之间的关系后,选择了JED框架作为其跟踪框架,也就是说在同一个网络中同时完成检测和跟踪。
同时,由于检测性能对于多目标跟踪的性能是尤其关键的,展锐选择了Anchor-based方法作为其检测器框架,并且对网络结构、损失函数等做了一系列优化来保证检测性能。在好的检测结果基础上还需要更好地进行数据之间的关联,在这方面展锐使用了运动信息结合外观特征的形式,并且在外观特征的网络分支中加入了注意力模块,从而强化外观特征的学习。
此外,展锐多媒体技术专家董斐就基于深度学习的语音增强技术进行了详细介绍。董斐谈到,智能终端常需要在多种使用场合进行通话、音视频会议、游戏语音,实际使用中大多数使用场合中都会受到噪声、啸叫、回声等的干扰,导致语音受损,严重影响语音质量。
据介绍,以基于深度学习的方案为主,信号处理方案为辅,结合两者所长,是当前智能终端语音增强的最优解决方案。紫光展锐的语音增强技术则包括上下行处理通路,具备回声消除、噪音抑制、回声抑制、EQ滤波器、自动增益、啸叫抑制等功能。整个解决方案中最重要的是基于深度学习的算法模块,其设计要满足智能终端对语音增强算法的三项要求。除了抑制噪声和啸叫,深度学习在语音的其他技术方向的应用也是未来的发展趋势。
行业大咖解AI训练平台与计算架构难题
除了上述来自展锐自身的技术专家外,来自致力于为行业提供自动化、平台化的AI开发服务的国内AI领域初创企业共达地创新技术有限公司产品总监刘荣杰,以及西安交通大学AI领域知名学者任鹏举教授也分别就其所从事的研究进行了主题分享。
刘荣杰分析称,目前AI实际落地的过程中仍存有许多障碍,核心问题包括人员不可控、成本不可控、调参不可控、精度不可控以及部署不可控。而AutoML技术可以解决这些痛点,但当前的主流方案仍存在一些问题,首先是模型搜索效率低,难以应用于工业规模的数据集,并且搜索过程不稳定结果不可控,无法针对硬件芯片进行定制。针对以上问题,共达地的核心AI团队做了大量工作,最终真正实现了可落地的AutoML自动化训练平台。
据其介绍,这一AI自动化训练平台的总体架构和优势体现在:低门槛整个AI模型开发流程自动化,从而降低了AI落地的门槛;性能高通过可落地的前沿算法实现高精度模型的生成;一键到端通过与主流芯片的深度支持,实现模型一键下发至终端简化整体模型部署流程;定制无忧每个模型都是根据场景定制化搜索生成最优模型,不再需要人工设计高效低成本;高效低成本一次训练即达最优,免去人类专家多次尝试多次调整,效率提升80%以上,开发成本降低95%以上。
在此次论坛上,西安交通大学任鹏举教授以《面向自主智能体的高效计算架构思考》发表了演讲。他表示,以智能边缘,计算机视觉,自动控制等创新技术作为支撑的自主移动智能体,在以无人驾驶为代表的交通领域和以AGV为代表的物流领域将会有广泛的应用。不过,这些自主移动智能体在解放生产力的同时,对计算架构也提出了新的设计要求。
他认为,面向自主智能体感知与协作的计算架构,应满足多种不同功能自主智能体及其应用场景的信息处理需求。相比于市面上现有的计算架构: x86工控机、嵌入式GPU(NvidiaTX2)、ARM+FPGA等方案,具有更好的适应能力、任务重构能力、灵活性和升级能力。其主要特点体现在:LEGO式模块级拼接融合的工作模式(即插即用);高通量的多传感器实时信息融合处理(高通量、低延迟);数据流控制流相融合的高效处理方式(异构计算);可扩展的分布式智能体协同调度机制(高效协同)。
任鹏举教授表示,其所在的课题组在今年4月份完成了一款多核AI芯片处理器HIPU20的设计。该芯片采用28纳米工艺,拥有13个计算核心,外加两个DDR控制器和一个PCIe,构成了4×4的2Dmesh的多核结构。其团队将HIPU200芯片完成了在无人驾驶车的应用验证,经过第三方权威测试机构评测,搭载该芯片的计算卡可原位替换英伟达GPU显卡,运行相同神经网络时,HiPU200的处理速度是RTX2080Ti GPGPU的7.7-35倍,能效比是其的15-30倍。算力优于国际知名公司Mobileye的 EyeQ4芯片,与地平线征程5处理器相当。