【QA】Python代码调试之解决Segmentation fault (core dumped)问题
Python代码调试之解决Segmentation fault 问题
- 问题描述
- 排查过程
- 1. 定位错误,
- 2. 解决办法
- 参考资料
问题描述
Python3执行某一个程序时,报Segmentation fault (core dumped)错,且没有其他任何提示,无法查问题。
Segmentation fault (core dumped)多为内存不当操作造成。空指针、野指针的读写操作,数组越界访问,破坏常量等。对每个指针声明后进行初始化为NULL是避免这个问题的好办法。排除此问题的最好办法则是调试。
排查过程
错误排查过程如下:
1. 定位错误,
第一种方式是利用python3的faulthandler
,可定位到出错的代码行,具体操作有两种方式如下:
(1) 在代码中写入faulthandler
import faulthandler
# 在import之后直接添加以下启用代码即可
faulthandler.enable()
# 后边正常写你的代码
(2)直接通过命令行来启用,运行时添加-X faulthandler参数即可:
python -X faulthandler your_script.py
这里我们为了保持代码的纯洁,选用第二种方式
再次执行主程序,发现输出的信息很多了:
Fatal Python error: Segmentation faultCurrent thread 0x00007f9f89fa8740 (most recent call first):File "/home/xinzhepang/anaconda3/envs/train/lib/python3.9/ctypes/__init__.py", line 374 in __init__File "/home/xinzhepang/anaconda3/envs/train/lib/python3.9/site-packages/torch/_ops.py", line 255 in load_libraryFile "/home/xinzhepang/anaconda3/envs/train/lib/python3.9/site-packages/torch_sparse/__init__.py", line 19 in <module>File "<frozen importlib._bootstrap>", line 228 in _call_with_frames_removedFile "<frozen importlib._bootstrap_external>", line 850 in exec_moduleFile "<frozen importlib._bootstrap>", line 680 in _load_unlockedFile "<frozen importlib._bootstrap>", line 986 in _find_and_load_unlockedFile "<frozen importlib._bootstrap>", line 1007 in _find_and_loadFile "/home/xinzhepang/anaconda3/envs/train/lib/python3.9/site-packages/torch_geometric/data/data.py", line 20 in <module>File "<frozen importlib._bootstrap>", line 228 in _call_with_frames_removedFile "<frozen importlib._bootstrap_external>", line 850 in exec_moduleFile "<frozen importlib._bootstrap>", line 680 in _load_unlockedFile "<frozen importlib._bootstrap>", line 986 in _find_and_load_unlockedFile "<frozen importlib._bootstrap>", line 1007 in _find_and_loadFile "/home/xinzhepang/anaconda3/envs/train/lib/python3.9/site-packages/torch_geometric/data/__init__.py", line 1 in <module>File "<frozen importlib._bootstrap>", line 228 in _call_with_frames_removedFile "<frozen importlib._bootstrap_external>", line 850 in exec_moduleFile "<frozen importlib._bootstrap>", line 680 in _load_unlockedFile "<frozen importlib._bootstrap>", line 986 in _find_and_load_unlockedFile "<frozen importlib._bootstrap>", line 1007 in _find_and_loadFile "/home/xinzhepang/anaconda3/envs/train/lib/python3.9/site-packages/torch_geometric/__init__.py", line 4 in <module>File "<frozen importlib._bootstrap>", line 228 in _call_with_frames_removedFile "<frozen importlib._bootstrap_external>", line 850 in exec_moduleFile "<frozen importlib._bootstrap>", line 680 in _load_unlockedFile "<frozen importlib._bootstrap>", line 986 in _find_and_load_unlockedFile "<frozen importlib._bootstrap>", line 1007 in _find_and_loadFile "<frozen importlib._bootstrap>", line 228 in _call_with_frames_removedFile "<frozen importlib._bootstrap>", line 972 in _find_and_load_unlockedFile "<frozen importlib._bootstrap>", line 1007 in _find_and_loadFile "/home/xinzhepang/workspace/iGNC/scripts/bioinfo_training.py", line 6 in <module>File "<frozen importlib._bootstrap>", line 228 in _call_with_frames_removedFile "<frozen importlib._bootstrap_external>", line 850 in exec_moduleFile "<frozen importlib._bootstrap>", line 680 in _load_unlockedFile "<frozen importlib._bootstrap>", line 986 in _find_and_load_unlockedFile "<frozen importlib._bootstrap>", line 1007 in _find_and_loadFile "/home/xinzhepang/workspace/iGNC/main.py", line 11 in <module>
./run_main.sh: line 2: 38634 Segmentation fault (core dumped) python -X faulthandler main.py --use_cuda --batch_size 16 --num_workers 2
第二种方式是利用gdb,操作方式如下:
gdb python
(gdb) run /path/to/your_script.py
## wait for segfault ##
(gdb) backtrace
## stack trace of the py code
追踪产生segmenttation fault的位置及代码函数调用情况:
gdb>bt
这样,一般就可以看到出错的代码是哪一句了,还可以打印出相应变量的数值,进行进一步分析。另外需要注意的是,如果机器上跑很多的应用,生成的core又不知道是哪个应用产生的,可以通过下列命令进行查看:file core
可以看到出错的地方是:torch/lib/libtorch_cpu.so
我们执行如下代码:
>>> import torch
>>> print(torch.cuda.current_device())
0
>>> print(torch.cuda.is_available())
True
然后,执行nvidia-smi
命令可知,我们有4块显卡:
Thu Apr 20 11:14:37 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.182.03 Driver Version: 470.182.03 CUDA Version: 11.4 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA TITAN X ... Off | 00000000:02:00.0 Off | N/A |
| 25% 45C P8 13W / 250W | 0MiB / 12196MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
| 1 NVIDIA TITAN X ... Off | 00000000:03:00.0 Off | N/A |
| 28% 50C P8 12W / 250W | 0MiB / 12196MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
| 2 NVIDIA TITAN X ... Off | 00000000:82:00.0 Off | N/A |
| 31% 55C P8 13W / 250W | 0MiB / 12196MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
| 3 NVIDIA TITAN X ... Off | 00000000:83:00.0 Off | N/A |
| 30% 53C P8 13W / 250W | 0MiB / 12196MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------++-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
查看nvcc的版本:
(train) xxxxx@air:~$ nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2021 NVIDIA Corporation
Built on Sun_Mar_21_19:15:46_PDT_2021
Cuda compilation tools, release 11.3, V11.3.58
Build cuda_11.3.r11.3/compiler.29745058_0
因此,我们怀疑是CUDA、显卡驱动、pytorch、pytorchvision、torch_scatter、torch_sparse、torch_geometric版本不对应。
2. 解决办法
我们选择重新安装Pytorch 1.10
conda install pytorch==1.10.1 torchvision==0.11.2 torchaudio==0.10.1 cudatoolkit=11.3 -c pytorch -c conda-forge
什么是Core:
在使用半导体作为内存的材料前,人类是利用线圈当作内存的材料(发明者为王安),线圈就叫作 core ,用线圈做的内存就叫作 core memory。如今 ,半导体工业澎勃发展,已经没有人用 core memory 了,不过,在许多情况下,人们还是把记忆体叫作 core 。
什么是Core Dump:
我们在开发(或使用)一个程序时,最怕的就是程序莫明其妙地当掉。虽然系统没事,但我们下次仍可能遇到相同的问题。于是这时操作系统就会把程序当掉 时的内存内容 dump 出来(现在通常是写在一个叫 core 的 file 里面),让 我们或是 debugger 做为参考。这个动作就叫作 core dump。
参考资料
- 记录一次Pytorch使用中遇到Segmentation fault (core dumped)的经历
- python遇到Segmentation fault (core dumped)调试方法
- Segmentation fault (core dumped)错误常见原因总结
【QA】Python代码调试之解决Segmentation fault (core dumped)问题相关推荐
- python遇到Segmentation fault (core dumped)调试方法
python3执行某一个程序时,报Segmentation fault (core dumped)错,但没有告知到底哪里出错,无法查问题 同时在根目录下生成core文件,典型的可以用gdb进行调试.这 ...
- Debug python - Segmentation fault (core dumped)
现象: Pytorch代码,之前可以训练,突然出现了Segmentation fault (core dumped)错误,啥也跑不了 调试: 运行的时候,加上 python -q -X faultha ...
- Segmentation fault (core dumped)分析解决
Segmentation fault (core dumped)分段错误(核心转储) 出错原因 1.内存访问越界 (1)数组访问越界,因为下标超出了范围. (2)搜索字符串的时候,通过字符串的结尾符号 ...
- 【Linux】调试常见的应用程序奔溃“Segmentation fault (core dumped)”
文章目录 前言 一.确保产生core文件 二.利用core文件,调试确认terminated位置 前言 Linux程序开发者,日常遇到程序奔溃时,应该如何调试,如何寻找原因和解决呢?本文就介绍了遇到S ...
- yum 出错,提示Segmentation Fault (core Dumped) 的解决办法
CentOS5.5部署Zlib导致yum使用不了,报错Yum Segmentation Fault (core Dumped) . 在一台CentOS.5.5的机器上使用Yum时突然报错,提示Yum ...
- linux段错误core dumped,Linux下Segmentation fault(core dumped)简单调试方法
** 什么是Segmentation fault? ** Segmentation fault就是段错误,一般指访问的内存超出了系统给这个程序所设定的内存空间,例如访问了不存在的内存地址.访问了系统保 ...
- Sampler 在数据下沉模式超时; 不同Sampler策略,在非数据下沉模式下,模型训练失败 报错Segmentation fault(core dumped)
环境版本 mindspore-ascend 1.7.1 背景 我在使用自定义Sampler策略,对imagenet1K数据集进行采样,进行ResNet50训练. Sampler代码如下: class ...
- line 92: 30919 Segmentation fault(core dumped) $CMDDIR/install/.oui -oneclick
问题描述 操作系统:redhat 7 在安装Oracle软件时报错line 92: 30919 Segmentation fault(core dumped) $CMDDIR/install/.oui ...
- Segmentation fault (core dumped) -llinux系统内存错误报错信息
目录 1 问题原因 (1)内存访问越界 (2)多线程程序使用了线程不安全的函数. (3)多线程读写的数据未加锁保护. (5)堆栈溢出. 2 使用GDB查看core文件 3 使用GDB调试程序 返回目录 ...
最新文章
- 12层也能媲美ResNet?邓嘉团队提出最新力作ParNet,ImageNet top1精度直冲80.7%
- 人生第一次:领年终,拿股票!
- http statusCode(状态码)
- kotlin集合操作符——总数操作符
- IDC:2015年全球专用备份一体机市场稳健增长
- MySQL性能优化之必备技能【推荐】
- Duilib嵌入CEF以及JavaScript与C++交互
- git 提交_GIT提交规范的使用和总结
- SGD、Adam优化器
- matlab的HDLcoder,MATLAB发布新产品模块——Simulink HDL Coder_虚拟与仿真
- t14m4t:一款功能强大的自动化暴力破解工具
- python爬取安居客房屋价格用地图表示出来
- EMUELEC游戏添加删除工具
- 信息安全管理ISO27001
- 【IT职场】任正非十大特质
- 什么是Photoshop中的图层和蒙版?
- 如何在Kindle上阅读漫画书和漫画
- 如何自己制作证件照片?照片怎么做成证件照?
- 王者荣耀 用户签到技术分析
- C++ Report:应用设计模式去简化信号控制
热门文章
- Python二维列表排序之lambda,sorted,filter,map函数
- gitee新建仓库操作流程于常用命令
- 计算思维就是指计算机程序 即计算机的思维,[数学思维在计算机程序设计中的体现]计算机思维的本质是指...
- 2021浙江高考成绩名次查询,2020年浙江高考成绩位次排名及一分一段表查询
- 数据库基准测试标准 TPC-C or TPC-H or TPC-DS
- 大疆无人机视频恢复成功
- python绘制派大星_简笔画教程:怎么绘制派大星
- 卫龙明日上市:募资净额9亿港元 腾讯云锋红杉高瓴或浮亏
- 股票交易系统推荐杨方配资_杨方配资:股票配资业务怎么做?杨方实战教你!...
- office2010产品激活失败