Python代码调试之解决Segmentation fault 问题

  • 问题描述
  • 排查过程
    • 1. 定位错误,
    • 2. 解决办法
  • 参考资料

问题描述

Python3执行某一个程序时,报Segmentation fault (core dumped)错,且没有其他任何提示,无法查问题。

Segmentation fault (core dumped)多为内存不当操作造成。空指针、野指针的读写操作,数组越界访问,破坏常量等。对每个指针声明后进行初始化为NULL是避免这个问题的好办法。排除此问题的最好办法则是调试。

排查过程

错误排查过程如下:

1. 定位错误,

第一种方式是利用python3的faulthandler,可定位到出错的代码行,具体操作有两种方式如下:
(1) 在代码中写入faulthandler

import faulthandler
# 在import之后直接添加以下启用代码即可
faulthandler.enable()
# 后边正常写你的代码

(2)直接通过命令行来启用,运行时添加-X faulthandler参数即可:

python -X faulthandler your_script.py

这里我们为了保持代码的纯洁,选用第二种方式

再次执行主程序,发现输出的信息很多了:

Fatal Python error: Segmentation faultCurrent thread 0x00007f9f89fa8740 (most recent call first):File "/home/xinzhepang/anaconda3/envs/train/lib/python3.9/ctypes/__init__.py", line 374 in __init__File "/home/xinzhepang/anaconda3/envs/train/lib/python3.9/site-packages/torch/_ops.py", line 255 in load_libraryFile "/home/xinzhepang/anaconda3/envs/train/lib/python3.9/site-packages/torch_sparse/__init__.py", line 19 in <module>File "<frozen importlib._bootstrap>", line 228 in _call_with_frames_removedFile "<frozen importlib._bootstrap_external>", line 850 in exec_moduleFile "<frozen importlib._bootstrap>", line 680 in _load_unlockedFile "<frozen importlib._bootstrap>", line 986 in _find_and_load_unlockedFile "<frozen importlib._bootstrap>", line 1007 in _find_and_loadFile "/home/xinzhepang/anaconda3/envs/train/lib/python3.9/site-packages/torch_geometric/data/data.py", line 20 in <module>File "<frozen importlib._bootstrap>", line 228 in _call_with_frames_removedFile "<frozen importlib._bootstrap_external>", line 850 in exec_moduleFile "<frozen importlib._bootstrap>", line 680 in _load_unlockedFile "<frozen importlib._bootstrap>", line 986 in _find_and_load_unlockedFile "<frozen importlib._bootstrap>", line 1007 in _find_and_loadFile "/home/xinzhepang/anaconda3/envs/train/lib/python3.9/site-packages/torch_geometric/data/__init__.py", line 1 in <module>File "<frozen importlib._bootstrap>", line 228 in _call_with_frames_removedFile "<frozen importlib._bootstrap_external>", line 850 in exec_moduleFile "<frozen importlib._bootstrap>", line 680 in _load_unlockedFile "<frozen importlib._bootstrap>", line 986 in _find_and_load_unlockedFile "<frozen importlib._bootstrap>", line 1007 in _find_and_loadFile "/home/xinzhepang/anaconda3/envs/train/lib/python3.9/site-packages/torch_geometric/__init__.py", line 4 in <module>File "<frozen importlib._bootstrap>", line 228 in _call_with_frames_removedFile "<frozen importlib._bootstrap_external>", line 850 in exec_moduleFile "<frozen importlib._bootstrap>", line 680 in _load_unlockedFile "<frozen importlib._bootstrap>", line 986 in _find_and_load_unlockedFile "<frozen importlib._bootstrap>", line 1007 in _find_and_loadFile "<frozen importlib._bootstrap>", line 228 in _call_with_frames_removedFile "<frozen importlib._bootstrap>", line 972 in _find_and_load_unlockedFile "<frozen importlib._bootstrap>", line 1007 in _find_and_loadFile "/home/xinzhepang/workspace/iGNC/scripts/bioinfo_training.py", line 6 in <module>File "<frozen importlib._bootstrap>", line 228 in _call_with_frames_removedFile "<frozen importlib._bootstrap_external>", line 850 in exec_moduleFile "<frozen importlib._bootstrap>", line 680 in _load_unlockedFile "<frozen importlib._bootstrap>", line 986 in _find_and_load_unlockedFile "<frozen importlib._bootstrap>", line 1007 in _find_and_loadFile "/home/xinzhepang/workspace/iGNC/main.py", line 11 in <module>
./run_main.sh: line 2: 38634 Segmentation fault      (core dumped) python -X faulthandler main.py --use_cuda --batch_size 16 --num_workers 2

第二种方式是利用gdb,操作方式如下:

gdb python
(gdb) run /path/to/your_script.py
## wait for segfault ##
(gdb) backtrace
## stack trace of the py code



追踪产生segmenttation fault的位置及代码函数调用情况:

gdb>bt

这样,一般就可以看到出错的代码是哪一句了,还可以打印出相应变量的数值,进行进一步分析。另外需要注意的是,如果机器上跑很多的应用,生成的core又不知道是哪个应用产生的,可以通过下列命令进行查看:file core

可以看到出错的地方是:torch/lib/libtorch_cpu.so

我们执行如下代码:

>>> import torch
>>> print(torch.cuda.current_device())
0
>>> print(torch.cuda.is_available())
True

然后,执行nvidia-smi命令可知,我们有4块显卡:

Thu Apr 20 11:14:37 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.182.03   Driver Version: 470.182.03   CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA TITAN X ...  Off  | 00000000:02:00.0 Off |                  N/A |
| 25%   45C    P8    13W / 250W |      0MiB / 12196MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
|   1  NVIDIA TITAN X ...  Off  | 00000000:03:00.0 Off |                  N/A |
| 28%   50C    P8    12W / 250W |      0MiB / 12196MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
|   2  NVIDIA TITAN X ...  Off  | 00000000:82:00.0 Off |                  N/A |
| 31%   55C    P8    13W / 250W |      0MiB / 12196MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
|   3  NVIDIA TITAN X ...  Off  | 00000000:83:00.0 Off |                  N/A |
| 30%   53C    P8    13W / 250W |      0MiB / 12196MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------++-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

查看nvcc的版本:

(train) xxxxx@air:~$ nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2021 NVIDIA Corporation
Built on Sun_Mar_21_19:15:46_PDT_2021
Cuda compilation tools, release 11.3, V11.3.58
Build cuda_11.3.r11.3/compiler.29745058_0

因此,我们怀疑是CUDA、显卡驱动、pytorch、pytorchvision、torch_scatter、torch_sparse、torch_geometric版本不对应。

2. 解决办法

我们选择重新安装Pytorch 1.10

conda install pytorch==1.10.1 torchvision==0.11.2 torchaudio==0.10.1 cudatoolkit=11.3 -c pytorch -c conda-forge

什么是Core:
在使用半导体作为内存的材料前,人类是利用线圈当作内存的材料(发明者为王安),线圈就叫作 core ,用线圈做的内存就叫作 core memory。如今 ,半导体工业澎勃发展,已经没有人用 core memory 了,不过,在许多情况下,人们还是把记忆体叫作 core 。

什么是Core Dump:
我们在开发(或使用)一个程序时,最怕的就是程序莫明其妙地当掉。虽然系统没事,但我们下次仍可能遇到相同的问题。于是这时操作系统就会把程序当掉 时的内存内容 dump 出来(现在通常是写在一个叫 core 的 file 里面),让 我们或是 debugger 做为参考。这个动作就叫作 core dump。

参考资料

  1. 记录一次Pytorch使用中遇到Segmentation fault (core dumped)的经历
  2. python遇到Segmentation fault (core dumped)调试方法
  3. Segmentation fault (core dumped)错误常见原因总结

【QA】Python代码调试之解决Segmentation fault (core dumped)问题相关推荐

  1. python遇到Segmentation fault (core dumped)调试方法

    python3执行某一个程序时,报Segmentation fault (core dumped)错,但没有告知到底哪里出错,无法查问题 同时在根目录下生成core文件,典型的可以用gdb进行调试.这 ...

  2. Debug python - Segmentation fault (core dumped)

    现象: Pytorch代码,之前可以训练,突然出现了Segmentation fault (core dumped)错误,啥也跑不了 调试: 运行的时候,加上 python -q -X faultha ...

  3. Segmentation fault (core dumped)分析解决

    Segmentation fault (core dumped)分段错误(核心转储) 出错原因 1.内存访问越界 (1)数组访问越界,因为下标超出了范围. (2)搜索字符串的时候,通过字符串的结尾符号 ...

  4. 【Linux】调试常见的应用程序奔溃“Segmentation fault (core dumped)”

    文章目录 前言 一.确保产生core文件 二.利用core文件,调试确认terminated位置 前言 Linux程序开发者,日常遇到程序奔溃时,应该如何调试,如何寻找原因和解决呢?本文就介绍了遇到S ...

  5. yum 出错,提示Segmentation Fault (core Dumped) 的解决办法

    CentOS5.5部署Zlib导致yum使用不了,报错Yum Segmentation Fault (core Dumped) . 在一台CentOS.5.5的机器上使用Yum时突然报错,提示Yum ...

  6. linux段错误core dumped,Linux下Segmentation fault(core dumped)简单调试方法

    ** 什么是Segmentation fault? ** Segmentation fault就是段错误,一般指访问的内存超出了系统给这个程序所设定的内存空间,例如访问了不存在的内存地址.访问了系统保 ...

  7. Sampler 在数据下沉模式超时; 不同Sampler策略,在非数据下沉模式下,模型训练失败 报错Segmentation fault(core dumped)

    环境版本 mindspore-ascend 1.7.1 背景 我在使用自定义Sampler策略,对imagenet1K数据集进行采样,进行ResNet50训练. Sampler代码如下: class ...

  8. line 92: 30919 Segmentation fault(core dumped) $CMDDIR/install/.oui -oneclick

    问题描述 操作系统:redhat 7 在安装Oracle软件时报错line 92: 30919 Segmentation fault(core dumped) $CMDDIR/install/.oui ...

  9. Segmentation fault (core dumped) -llinux系统内存错误报错信息

    目录 1 问题原因 (1)内存访问越界 (2)多线程程序使用了线程不安全的函数. (3)多线程读写的数据未加锁保护. (5)堆栈溢出. 2 使用GDB查看core文件 3 使用GDB调试程序 返回目录 ...

最新文章

  1. 12层也能媲美ResNet?邓嘉团队提出最新力作ParNet,ImageNet top1精度直冲80.7%
  2. 人生第一次:领年终,拿股票!
  3. http statusCode(状态码)
  4. kotlin集合操作符——总数操作符
  5. IDC:2015年全球专用备份一体机市场稳健增长
  6. MySQL性能优化之必备技能【推荐】
  7. Duilib嵌入CEF以及JavaScript与C++交互
  8. git 提交_GIT提交规范的使用和总结
  9. SGD、Adam优化器
  10. matlab的HDLcoder,MATLAB发布新产品模块——Simulink HDL Coder_虚拟与仿真
  11. t14m4t:一款功能强大的自动化暴力破解工具
  12. python爬取安居客房屋价格用地图表示出来
  13. EMUELEC游戏添加删除工具
  14. 信息安全管理ISO27001
  15. 【IT职场】任正非十大特质
  16. 什么是Photoshop中的图层和蒙版?
  17. 如何在Kindle上阅读漫画书和漫画
  18. 如何自己制作证件照片?照片怎么做成证件照?
  19. 王者荣耀 用户签到技术分析
  20. C++ Report:应用设计模式去简化信号控制

热门文章

  1. Python二维列表排序之lambda,sorted,filter,map函数
  2. gitee新建仓库操作流程于常用命令
  3. 计算思维就是指计算机程序 即计算机的思维,[数学思维在计算机程序设计中的体现]计算机思维的本质是指...
  4. 2021浙江高考成绩名次查询,2020年浙江高考成绩位次排名及一分一段表查询
  5. 数据库基准测试标准 TPC-C or TPC-H or TPC-DS
  6. 大疆无人机视频恢复成功
  7. python绘制派大星_简笔画教程:怎么绘制派大星
  8. 卫龙明日上市:募资净额9亿港元 腾讯云锋红杉高瓴或浮亏
  9. 股票交易系统推荐杨方配资_杨方配资:股票配资业务怎么做?杨方实战教你!...
  10. office2010产品激活失败