华为云地协同方案加速网络AI规模应用

2022.11.06

    人工智能经历了六十多年的浮浮沉沉,随着计算算力的进步,算法的创新和互联网发展下的海量数据积累,人工智能技术未来十年将焕发出新的活力,成为最具有冲击力的科技发展趋势之一。
    电信网络作为信息通信的基础设施,具有应用人工智能技术的巨大空间和潜力。如何利用人工智能算法提供的强大分析、判断、预测等能力,赋能网元、网络和业务系统,并将其与电信网络的规划、建设、维护、运行和优化等工作内容结合起来,成为电信业关注的重要课题。
    在HUAWEI CONNECT 2020期间,华为基于对电信领域的深刻理解和多年经验沉淀,带来了《云地协同加速网络AI规模商用使能实现自动驾驶网络》的分享,旨在结合电信领域应用场景,使能网络达到自动、自愈、自优和自治的自动驾驶网络,提升整个网络的效率,降低OPEX。
    电信行业面临挑战呼唤ADN
    我们正进入一个跨界竞争的新时代,每个行业都面临着结构性挑战,电信行业尤其如此。新趋势下,电信网络正面临以下三大挑战:
    业务复杂:网络所联接的业务越来越多,无人机、汽车、AR/VR…从B2C到B2C、B2X,网络所支撑的业务越来越复杂;
    运维复杂:从4G到5G,2-3-4-5四代同堂,十余种网络协议,数千网络特性,上万配置参数,网络运维复杂度激增;
    联接复杂:万物智能,使得联接密度增加了100倍,联接移动性达到了150km/h,联接的数据量增加1000倍,联接复杂度前所未有;
    要解决电信网络面临的挑战,仅仅靠产品创新远远不够,需要整个系统架构创新和商业模式创新,才能提升运营商的竞争力,解决结构性问题。从2018年开始,为实现网络自动化和智能化,电信行业组织、运营商和设备商纷纷启动技术探索。
    华为在2018年即提出电信行业迈向ADN五级演进标准,为实现自动驾驶网络提供了参考。另外,以中国联通、中国移动、BT、法电、Telstra为代表的运营商,以及以华为、爱立信为代表的设备供应商均积极开展相关实践,网络智能化、自动化成为行业热点。
    近10年来,华为从ALL IP,ALL Cloud进入ALL Intelligence时代,在架构创新的道路上从未停止。2019年4月,华为正式发布iMaster NAIE网络AI云服务,为华为网络智能化战略实施的的重要里程碑。
    不仅如此,华为自动驾驶网络(ADN)秉承“把复杂留给自己,把简单带给客户”的思想,以网络极简和智能运维为核心理念规划、设计和开发产品,通过云端+AI、网络+AI和网元+AI的三层AI开放架构“给网络以智能,给运维以平台”,加速电信运营商数字化和智能化转型。
    云地协同加速AI特性规模应用
    近年来,全球业界各方在网络AI方面纷纷进行积极的探索和实践,经过验证在运维效率、能耗效率、网络资源利用率以及用户业务体验提升等方面确实能够带来价值,电信产业走向智能化已经成为整个行业的共识。但在实践中,也发现网络AI在走向规模化工程应用的过程中存在很多挑战,如模型重训练占用资源多、模型版本升级管理难度大、本地样本少、模型精度不够等问题。
    模型重训练占用资源多:从实践统计来看,一些场景都会发生因泛化、或数据偏移而导致的模型精度下降问题,如无线流量预测、DC PUE优化等,AI模型都需要进行重训练。AI模型训练一般会占用较多系统资源,如在网元或网管实施重训练任务,训练效率低,同时也可能会影响设备性能。
    模型版本升级管理难度大:很多场景的AI模型都是一站一模型,如无线基站智能节能等,各站点的模型都根据本地化数据进行定制化训练。各局点模型版本不同,升级频度也不同,成千上万的站点模型,管理难度很大。需要有一个统一的平台,高效实现模型状态的监控和版本升级策略等管理任务。
    本地样本少、模型精度不够:部分场景单局点样本量少,不足以支撑模型训练,如核心网KPI异常检测,单局点发生异常频率很少,训练需要的样本量不够。因此,需要能够汇聚所有局点的全量样本信息,可能还需辅以联邦学习等技术,才能训练得到满足业务精度要求的AI模型。
    云地协同实现架构
    针对以上问题,华为提出云地协同创新方案,通过云地协同,可以加速AI特性的规模部署。
    云地协同,是指云端和地端一起协作完成数据样本上云,模型状态管理,模型重训练,模型/知识下发、择优更新等一系列的闭环任务,同时把云端汇集的全局网络知识经验、全量数据训练得到的高精度模型,持续注入地端,让电信网络能够进行智能的迭代升级,变得越来越聪明。
    云地协同有三个主要的特征:一是云端和地端要有通道;二是地端到云端,信息可以从运营商上传到云端,包括数据样本、模型状态、以及重训练请求等信息,三是云端到地端可以下发新的模型,同时网络知识库里的知识也可以注入到地端。
    云地协同机制参见下图:

    云地协同三个阶段
    据介绍,云地协同在实际应用部署时有三个阶段,针对不同场景可以选择适合的阶段,最终大幅提高网络的资源效率。
    阶段1:云端进行初始模型的训练,运行态由地端根据新增的样本进行在线学习,持续保持模型的精度。这种模式主要是适用于模型相对简单,算法结构比较稳定的场景,这种场景一般不需要对模型结构和算法本身进行更改,只需要根据本地数据进行在线学习,优化调整模型参数。比如像核心网变更在线机器值守等。
    阶段2:云端进行模型的分发,然后在地端根据新增样本进行在线学习。具体讲,就是云端会持续对模型进行优化,包括模型算法结构上的,优化后的模型会进行推送到地端,地端根据评估结果进行模型择优更新。同时,地端也会根据本地数据样本的学习进行模型参数的优化。这种一般适合于模型相对复杂,华为会持续进行模型算法结构优化的场景,比如无线KPI 异常检测等。
    阶段3:云地实时协同,模型可以自动化演进,具体讲就是本地样本会实时上传到云端,云端进行训练和优化后的模型会自动推送到地端,地端进行模型评估择优进行升级。这种主要是适用于模型复杂、需要用到华为云端高质量标注数据,知识图谱以及仿真等知识能力进行模型优化的场景,比如IP RAN/PTN智能告警,DC PUE优化等。
    云地协同关键价值
    联邦学习,即通过汇聚各个地端模型的参数,在云端采用汇聚算法,形成效果更好的共享模型,再下发给各个地端进行使用,其最大的特点,就是在地端数据不用出局的情况下,提升模型的精度。借助联邦学习可以更好的实现云地协同,从而提升模型泛化能力和训练效率。
    借助知识图谱,通过沉淀专家经验和产品知识转化形成故障传播关系等,形成“网络知识库”,可用于故障运维辅助、知识问答等。
    在云端仿真方面,通过在云端构建虚拟仿真环境,高效安全地进行模型或业务验证,在避免现网性能或KPI受到影响的同时,支撑网络问题的快速闭环。
    模型因为需要进行更新,更新的方式如果采用传统网管集成的这种模式,需要经过多层多次的人工动作,首先模型版本发布后,需要产品研发把模型通过代码工作集成到网管软件版本里,然后发布到华为Support网站。
    如果采用自动升级模式,通过云地协同,让AI模型市场跟地端网络AI对接,模型发布后进行推送,让地端局点启动自动化的模型升级,当然升级前也会完成模型的评估,整个过程在1个小时即可完成。
    总结来看,云地协同可以实现一点生效,全网复制,AI的特性在一个局点成功实施后,快速的形成知识和经验,在其他局点进行复制,实现在全网规模应用。
    华为iMaster NAIE让网络AI开发简单高效
    NAIE是自动驾驶网络解决方案的网络AI设计和开发平台,由数据服务,训练服务,AIOps使能服务,推理框架和生态服务五大部分组成。
    网络AI模型开发既要懂AI、又要懂网络,技术门槛高。模型开发过程中,既需要懂AI知识,又需要熟悉网络业务。电信领域专家AI积累少,可借鉴经验少。而且由于AI算法多,选择范围广,所以导致试错成本高、开发效率低;算法科学家不懂电信业务,需要花大量时间了解学习。模型训练依赖大量并且昂贵的计算资源,调参优化周期长,训练耗时高、周期长。
    NAIE训练平台,提供一站式高效模型训练,集成业界通用的主流AI算法框架,包括Mindspore、Tensorflow、SParkML、Caffe2、MXNet等,内嵌华为在网络领域30多年的知识和经验沉淀,支持电信领域的特征处理,辅助快速识别等关键特征,内置电信领域AI典型算法,如异常检测、根因分析、优化控制、业务预测等,支持模型快速验证。目前主要包括三类服务:模型训练服务、模型生成服务和通信模型服务(在线推理),可以满足不同层次的人员对于模型开发的需求。
    不仅如此,华为还提供了丰富的NAIE培训服务,线上线下结合,助力运营商人才转型。
    总结
    未来是智能化的时代,运营商网络智能化不可能一蹴而就,而是一个长期实践。华为自动驾驶网络解决方案是华为All Intelligence战略在电信领域的落地,而iMaster NAIE做为智能化部件,将使能自动驾驶网络。核心的AI能力依托华为在All Intelligence中长期坚决的战略投入而积累成长,和电信领域场景想结合,帮助运营商尽快实现数字化,智能化转型。
    作者:陶然编辑: 陶然来源:IT168网站原创