切换问题定位总体思路
首先需要确定问题范围,确认是全网问题还是TOP站点问题,是TOP站点问题还是TOP小区问题,是TOP小区问题还是TOP两两小区问题,TOP两两小区问题中是单向切换问题还是双向问题,是否存在TOP用户。确定出问题范围的主要目的是,针对TOP问题,找出TOP站点/小区/两两小区相对其它非TOP的差异之处,分析为什么只在这些TOP区域出现问题,找到TOP区域的特殊性,也就解决了问题的一半。
其次,切换问题属于流程类问题,一个定位思路就是确定切换流程在哪一步失败,对于实验室或路测场景,可以从终端和网络侧的信令跟踪、话统和CHR确定流程在哪一步失败,从而缩小问题的分析范围。
关联指标分析
发现切换问题后,需要进行关联话统指标分析,尝试从话统角度揭开问题的全貌,并找到一些线索。 分析切换问题,不仅要关注切换成功率,还要关注切换次数和切换失败次数,分析切换次数是否存在大幅变化。 分析切换问题,要关注目标小区是否也存在接入问题,因为切换入和初始接入都存在随机接入过程,假设随机接入过程存在问题,则切换入和初始接入可能都存在问题。 切换失败也可能导致掉话,在掉话的话统中有单独的一类话统是统计切换导致的掉话,所以分析切换问题同时也要分析掉话相关指标的变化。 在切换失败时终端通常会发起RRC重建,根据切换失败发生在切换流程的不同阶段,终端还会携带不同的RRC重建原因值,通过分析RRC重建的话统变化也有助于分析切换失败问题。
问题范围细化
在确定问题现象之后,需要进一步确定问题范围,确定问题范围可以用于提炼问题发生的场景,也可以用于评估问题的影响。
全网问题还是TOP站点/小区问题
问题范围可以从以下几个维度来确定: 1、 确定是整网问题、还是TOP小区/站点问题(如果问题小区少于10%,即认为是TOP小区问题); 2、 是否特定载频问题,确认问题是否只和某个特定载频有关系; 3、 是否特定核心网下用户才有问题; 4、 是否特定组网和设备形态问题,如射频单元为MRRU/MRFU等。
是TOP站点问题还是TOP小区问题
如果确认是TOP站点问题,考虑是主控板/时钟/基带板问题。 如果只是单小区有问题而其他小区正常,则基本可排除主控板/时钟等共性问题,如果多小区建立在一块基带板上还可以排除基带板问题。
是否TOP两两小区问题
通过切换两两小区对话统找出切换失败的TOP源、目标小区对,如果存在TOP两两小区,还需要进一步确认是单向切换问题还是双向切换问题。如果是单向切换问题,参照下节,继续分析是否切换入失败问题。
关注切换入失败TOP小区
切换失败有可能发生在源侧,也有可能发生在目标侧。在分析话统时一般都是按切换出成功率进行统计的,所以对于目标侧出现切换失败的问题,从切换出话统来分析TOP小区可能就不是很明显,但如果换一个视角,按照切换入成功率来统计的话,可能问题就会非常明显。 在分析切换入问题时,可以直接进行切换入失败TOP小区排序,找出切换入失败TOP小区,也可以先按切换出失败TOP小区进行排序,并找到TOP切换失败两两小区对的目标小区,然后分析这些小区的切换入指标。 在找到切换入失败TOP小区之后,分析是否个别邻小区切换入失败,还是所有小区都切换入失败。如果是所有小区都切换入失败,则很可能是目标小区存在问题。进一步可以对目标小区的接入KPI指标进行关联分析,确认是否存在睡眠小区等问题。
TOP用户分析
当确认出TOP小区或TOP两两小区之后,可以进一步确认是否TOP用户引起,从经验看,个别用户反复切换失败甚至可能把全网的切换指标拉低(特别在目前LTE网络话务量不大的情况)。个别用户反复切换失败的原因有可能是该用户所处的位置切换性能差,也有可能是终端个体问题。可以从以下方面来分析是否存在TOP用户。 如果有TOP小区的标口信令,当用户在一次连接内反复切换出失败又反复重建回源小区,可以根据CALL ID来判断是否同一用户。如果是用户多次接入多次切换失败,可以从用户的TMSI(如果RRC连接请求消息中携带了)来判断是否为同一用户。如果只有CHR,则只能通过异常用户的TMSI来判断是否为同一用户(因为CHR只记录异常掉话的用户,所以很多切换失败但没掉话的用户没有在CHR记录)。 如果TOP小区的切换恶化问题存在TOP时段,如一天中只有某几个小时有问题,其它时段切换指标都正常,则怀疑可能存在TOP用户,只有它活动的时候指标才会恶化。 在识别出TOP用户之后,如果能排除该用户处在弱覆盖或强干扰区域,则可以怀疑是终端个体问题,可以通过运营商给用户置换终端来解决。
问题产生时间点分析
通过分析历史KPI,找到问题产生的时间点,排查这个时间点前后的告警,故障,操作日志,看是否有异常。 另外也可以将切换指标和业务量按全天24小时做时段分析,分析切换指标恶化是否和业务量负荷忙闲时存在关系。
优化思路和方向
问题定位之后,可以参考如下思路进行排查优化。
换出成功率低分析
- 问题小区周边所有站点都切换成功率低:核査该区域站点是否存在GPS失锁、是否存在MR 弱覆盖;(大范围,很多区域内站点切换成功率低)
- 问题小区向所有邻区切换出成功率低:核查邻区配置参数是否异常;
- 问题小区内部切换出成功率低,向其他邻区切换出正常:现场测试排查是否存在隐性故障或 安装不合理;
- 问题小区向个别邻区切换出成功率低:核查目标小区是存在告警、干扰;问题小区是否添加同PCI邻区;是否邻区配置不合理;
- 小区覆盖是否合理,导致切换不及时,切换策略相关门限参数是否合理;
切换入成功率低分析
- 所有邻区向问题小区切换入成功率低:核查小区是否存在干扰、故障、资源不足;
- 核查邻区配置参数是否异常;是否邻区配置合理;
- 邻区是否存在同PCI模三冲突;
- 是否存在干扰。