项目

一般

简介

错误 #2178

agent成为僵尸进程,网元脱管不在线,sysrepo被锁

程 鹏8 个月 之前添加. 更新于 7 个月 之前.

状态:
挂起
优先级:
普通
指派给:
开始日期:
2024-09-23
计划完成日期:
2024-09-30
% 完成:

0%

预期时间:

描述

agent成为僵尸进程,网元脱管不在线,sysrepo被锁


文件

11111.jpg (582 KB) 11111.jpg 程 鹏, 2024-09-23 17:17
微信图片_20240923172858.jpg (864 KB) 微信图片_20240923172858.jpg 钱 伯宁, 2024-09-23 17:29
179僵尸进程syslog.zip (99.8 MB) 179僵尸进程syslog.zip 钱 伯宁, 2024-09-23 17:31

历史记录

#1

钱 伯宁 更新于 8 个月 之前

日志初步分析为sysrepo死锁,网管周期获取sysrepo配置导致agent成僵尸进程,提取协议栈软件日志以及系统日志继续定位分析

#2

钱 伯宁 更新于 7 个月 之前

当时环境业务为上行总共50M不到,下行50Mudp灌包,终端数量7-8部;
怀疑agent udp等待IO导致htop成为D状态即不可中断等待IO中;
排查代码udp ip 为0.0.0.0,改为127.0.0.1

#3

钱 伯宁 更新于 7 个月 之前

增加baseService监控agent僵尸进程,若存在僵尸进程reboot基站服务器

#4

钱 伯宁 更新于 7 个月 之前

  • 状态进行中 变更为 转测试
  • 指派给钱 伯宁 变更为 孙 浩
#5

钱 伯宁 更新于 7 个月 之前

  • 状态转测试 变更为 挂起
  • 指派给孙 浩 变更为 钱 伯宁
#6

钱 伯宁 更新于 7 个月 之前

未复现出gnb_agent状态为D场景,等待复现问题

导出 Atom PDF