oracle数据库故障紧急处理预案-----各种物理文件损坏和逻辑故障的解决办法

Oracle物理结构故障是指构成数据库的各个物理文件损坏而导致的各种数据库故障。这些故障可能是由于硬件故障造成的,也可能是人为误操作而引起。所以我们首先要判断问题的起因, 如果是硬件故障则首先要解决硬件问题。在无硬件问题的前提下我们才能按照下面的处理方发来进一步处理。

1.控制文件损坏：

控制文件记录了关于oracle的重要配置信息,如数据库名、字符集名字、各个数据文件、日志文件的位置等等信息。控制文件的损坏,会导致数据库异常关闭。一旦缺少控制文件,数据库也无法启动,这是一种比较严重的错误。

1.1损坏单个控制文件：

1. 确保数据库已经关闭,如果没有用下面的命令来关闭数据库：

SQL >shutdown immediate;

2. 查看初始化文件$ORACLE_BASE/admin/pfile/initORCL.ora,确定所有控制文件的路径。

3. 用操作系统命令将其它正确的控制文件覆盖错误的控制文件。

4. 用下面的命令重新启动数据库：

SQL >startup;

用适当的方法进行数据库全备份。

1.2损坏所有的控制文件：

1. 确保数据库已经关闭,如果没有用下面的命令来关闭数据库：

SQL >shutdown immediate;

2. 从相应的备份结果集中恢复最近的控制文件。对于没有采用带库备份的点可以直接从磁带上将最近的控制文件备份恢复到相应目录；对于采用带库备份的点用相应的rman脚本来恢复最近的控制文件。

3. 用下面的命令来创建产生数据库控制文件的脚本：

SQL >startup mount;

SQL >alter database backup controlfile to trace noresetlogs;

4. 修改第三步产生的trace文件,将其中关于创建控制文件的一部分语句拷贝出来并做些修改,使得它能够体现最新的数据库结构。假设产生的sql文件名字为createcontrol.sql.

注意：

Trace文件的具体路径可以在执行完第3步操作后查看$ORACLE_BASE/admin/bdump/alert_ORCL.ora 文件来确定。

5. 用下面命令重新创建控制文件：

SQL >shutdown abort;

SQL >startup nomount;

SQL >@createcontrol.sql;

用适当的方法进行数据库全备份。

2.重做日志文件损坏：

数据库的所有增、删、改都会记录入重做日志。如果当前激活的重做日志文件损坏,会导致数据库异常关闭。非激活的重做日志最终也会因为日志切换变为激活的重做日志,所以损坏的非激活的重做日志最终也会导致数据库的异常终止。在 ipas/mSwitch 中每组重做日志只有一个成员,所以在下面的分析中只考重做日志组损坏的情况,而不考虑单个重做日志成员损坏的情况。

确定损坏的重做日志的位置及其状态：

1. 如果数据库处于可用状态：

select * from v$logfile;

SQL >select * from v$log;

2. 如果数据库处于已经异常终止：

svrmlgr>startup mount;

SQL >select * from v$logfile;

SQL >select * from v$log;

其中,logfile的状态为INVALID表示这组日志文件出现已经损坏；log状态为Inactive：表示重做日志文件处于非激活状态；Active：表示重做日志文件处于激活状态；Current：表示是重做日志为当前正在使用的日志文件。

2.1损坏的日志文件处于非激活状态：

1. 删除相应的日志组：

SQL >alter database drop logfile group group_number;

2. 重新创建相应的日志组：

SQL >alter database add log file group group_number（’log_file_descritpion’,…）size log_file_size;

2.2损坏的日志文件处于激活状态且为非当前日志：

1. 清除相应的日志组：

SQL >alter database clear unarchived logfile group group_number;

损坏的日志文件为当前活动日志文件：

用命令清除相应的日志组：

SQL >alter database clear unarchived logfile group group_number;

如果清除失败,则只能做基于时间点的不完全恢复。

打开数据库并且用适当的方法进行数据库全备份：

SQL >alter database open;

3.部分数据文件损坏：

若损坏的数据文件属于非system表空间,则数据库仍然可以处于打开状态可以进行操作, 只是损坏的数据文件不能访问。这时在数据库打开状态下可以单独对损坏的数据文件进行恢复。若是system表空间的数据文件损坏则数据库系统会异常终止。这时数据库只能以Mount方式打开,然后再对数据文件进行恢复。可以通过查看数据库日志文件来判断当前损坏的数据文件到底是否属于system表空间。

3.1非system表空间的数据文件损坏

1. 确定损坏的文件名字：SQL >select name from v$datafile where status=’INVALID’;

2. 将损坏的数据文件处于 offline 状态：

SQL >alter database datafile ‘datafile_name’ offline;

3. 从相应的备份结果集中恢复关于这个数据文件的最近的备份。对于没有采用带库备份的点可以直接从磁带上恢复；对于用带库备份的点用相应的rman脚本来恢复。

4. 恢复数据文件：

SQL >alter database recover datafile ‘file_name’;

5. 使数据库文件 online：

SQL >alter database datafile ‘datafile_name’ online;

用适当的方法进行数据库全备份。

3.2 system表空间的数据文件损坏：

1. 以 mount 方式启动数据库

SQL >startup mount;

2. 从相应的备份结果集中恢复关于这个数据文件的最近的备份。对于没有采用带库备份的点可以直接从磁带上恢复；对于用带库备份的点用相应的rman脚本来恢复。

3. 恢复 system 表空间：

SQL >alter database recover datafile ‘datafile_name’;

4. 打开数据库：

SQL >alter database open;

用适当的方法进行数据库全备份。

4.表空间损坏：

若非system表空间已经损坏,则数据库仍然可以处于打开状态可以进行操作,只是损坏的表空间不能访问。这样在数据库打开状态下可以单独对损坏的表空间进行恢复。若是 system表空间损坏则数据库系统会异常终止。这时数据库只能以Mount方式打开,然后再对表空间进行恢复。可以通过查看数据库日志文件来判断当前损坏的表空间是否是system表空间.

4.1非system表空间损坏：

1. 将损坏的表空间处于offline状态：

SQL >alter tablespace ‘tablespace_name’offline;

2. 从相应的备份结果集中恢复关于这个表空间最近的备份。对于没有采用带库备份的点可以直接从磁带上恢复；对于用带库备份的点用相应的rman脚本来恢复。

3. 恢复表空间：

SQL >alter database recover tablespace ‘tablespace_name’;

4. 使表空间 online：

SQL >alter tablespace ‘tablespace_name’ online;

用适当的方法进行数据库全备份.

4.2 system表空间损坏：

1. 以 mount 方式启动数据库

SQL >startup mount;

2. 从相应的备份结果集中恢复system表空间最近的备份。对于没有采用带库备份的点可以直接从磁带上恢复；对于用带库备份的点用相应的rman脚本来恢复。

3. 恢复 system 表空间：

SQL >alter database recover tablespace system;

4. 打开数据库：

SQL >alter database open;

用适当的方法进行数据库全备份。

5.整个数据库的所有文件损坏：

整个数据库所有文件的损坏一般是在共享磁盘阵列发生无法恢复的灾难时才发生,这种情况下只能对数据库进行恢复。若数据库的归档目录也已经丢失,则数据库不可能做完全恢复,会有用户数据的丢失。

5.1没备份

将最近的备份从磁带上把各个文件解包到相应的目录下。

2. 以mount方式打开数据库：

SQL >startup mount;

3. 恢复数据库：

SQL >recover database until cancel;

4. 打开数据库：

SQL >alter database open resetlogs;

用适当的方法进行数据库全备份。

5.2有备份确实坏了：

1. 以nomount方式打开数据库：

SQL >startup nomount;

2. 通过相应的rman脚本进行数据库软恢复。

$rman cmdfile=hot_database_restore.rcv

3. 打开数据库：

SQL >alter database open resetlogs;

用适当的方法进行数据库全备份。

5.3存在最近的数据库完整冷备份前提下的一些紧急情况的处理：

数据文件,归档重作日志和控制文件同时丢失或损坏：无新增 archives 时的状况：

条件和假设：自上次镜像备份以来尚未生成新的archive log(s); Archivelog Mode;

有同步的datafile(s) 和 control file(s) 的镜像（冷）拷贝

恢复步骤：

1. 将镜像拷贝的datafile(s) 和 control file(s) 抄送回原始地点:

$ cp /backup/good_one.dbf /orig_loc/bad_one.dbf

$ cp /backup/control1.ctl /disk1/control1.ctl

2. 以mount选项启动数据库：

$ SQL

SQL > connect internal

SQL > startup mount

3. 以旧的control file来恢复数据库：

SQL > recover database using backup controlfile until cancel;

*** 介质恢复完成

（必须马上 cancel ）

4. Reset the logfiles（对启动而言不可省略）：

SQL > alter database open resetlogs;

关闭数据库并做一次全库冷备份。

5.4新增 archives 时的状况：

条件和假设：自上次镜像备份以来已经生成新的 archive log(s); Archivelog Mode;

有同步的 datafile(s) 和 control file(s) 的镜像（冷）拷贝；archive log(s) 可用。

恢复步骤：

1. 如果数据库尚未关闭,则首先把它关闭：

SQL > connect internal

SQL > shutdown abort

2. 将备份文件抄送回原始地点：

所有 Database Files

所有Control Files（没有archive(s)或redo(s) 的情况下,control files的更新无任何意义）

所有On-Line Redo Logs (Not archives)

init.ora file（选项）

3. 启动数据库：

SQL > connect internal

SQL > startup

数据文件, 重作日志和控制文件同时丢失或损坏：

5.6有冷备和Archivelog Mode;

有同步的所有所失文件的镜像（冷）拷贝；archive log(s)

可用恢复步骤（必须采用不完全恢复的手法）：

1. 如果数据库尚未关闭,则首先把它关闭：

SQL > connect internal

SQL > shutdown abort

2. 将备份文件抄送回原始地点：所有Database Files

所有Control Files

所有On-Line Redo Logs(Not archives)

init.ora file（选项）

3. 启动数据库然而并不打开：

SQL >startup mount

4. 做不完全数据库恢复,应用所有从上次镜像（冷）备份始积累起来的archives：

SQL > recover database until cancel using backup controlfile;

......

cancel

5. Reset the logfiles（对启动而言不可省略）：

SQL > alter database open resetlogs;

关闭数据库并做一次全库冷备份。

6.数据文件和控制文件同时丢失或损坏：

条件和假设：

Archivelog Mode; 有同步的 datafile(s) 和 control file(s) 的冷拷贝；

archive log(s) 可用

恢复步骤：

1. 将冷拷贝的 datafiles(s) 和 control file(s) 抄送回原始地点:

$ cp /backup/good_one.dbf /orig_loc/bad_one.dbf

$ cp /backup/control1.ctl /disk1/control1.ctl

2. 以 mount 选项启动数据库：$ SQL

SQL > connect internal

SQL > startup mount

3. 以旧的control file来恢复数据库：

SQL > recover database until cancel using backup controlfile;

*** 介质恢复完成

（须在应用完最后一个archive log后cancel）

4. Reset the logfiles（对启动而言不可省略）：

SQL > alter database open resetlogs;

7.重作日志和控制文件同时丢失或损坏时：

条件和假设：Control Files全部丢失或损坏；Archivelog Mode; 有Control Files的镜像（冷）拷贝。

恢复步骤：

1. 如果数据库尚未关闭,则首先把它关闭：

SQL > connect internal

SQL > shutdown abort

SQL >exit

2. 以Control File的镜像（冷）拷贝覆盖损坏了的Control File:

$ cp /backup/control1.ctl /disk1/control1.ctl

3. 启动数据库然而并不打开：

SQL > connect internal

SQL > startup mount

4. Drop坏掉的 redo log（排除硬件故障）：

SQL > alter database drop logfile group 2;

5. 重新创建redo log:

SQL > alter database add logfile group 2 '/orig_loc/log2.dbf' size 10M;

6. 以旧的control file来恢复数据库：

SQL > recover database until cancel using backup controlfile;

（必须马上 cancel ）

7. Reset the logfiles（对启动而言不可省略）：

SQL > alter database open resetlogs;

8. 关闭数据库并做一次全库冷备份

只发生归档重作日志丢失或损坏时：

根据不同环境和情况,选择下述手段之一：

a. 马上backup全部datafiles（如果系统采用一般热备份或 RMAN 热备份）

b. 马上正常关闭数据库并进行冷备份（如果系统采用冷备份）

c. 冒险前进！不做备份而让数据库接着跑,直等到下一个备份周期再做备份。这是在赌数据库在下一个备份周期到来之前不会有需要恢复的错误发生。

注意:冒险前进的选择：如果发生错误而需要数据库恢复,则最多只能恢复到出问题archive log之前的操作现场。从另一个角度讲,archive log(s) 出现问题时,数据库若不需要恢复则其本身并没有任何问题。

8.Oracle 逻辑结构故障的处理方法：

逻辑结构的故障一般指由于人为的误操作而导致重要数据丢失的情况。在这种情况下数据库物理结构是完整的也是一致的。对于这种情况采取对原来数据库的全恢复是不合适的,我们一般采用三种方法来恢复用户数据。

8.1采用expdp/impdp工具来恢复用户数据：

如果丢失的数据存在一个以前用expdp命令的备份,则可以才用这种方式。

1. 在数据库内创建一个临时用户：

SQL >create user test_user identified by test;

SQL >grant connect,resource to test_user;

2. 从以前expdp命令备份的文件中把丢失数据的表按照用户方式倒入测试用户：

$impdp

3. 用相应的DML语句将丢失的数据从测试用户恢复到原用户。

4. 将测试用户删除：

SQL >drop user test_user cascede;

8.2采用 logminer 来恢复用户数据：

Logminer是 oracle 提供的一个日志分析工具。它可以根据数据字典对在线联机日志、归档日志进行分析,从而可以获得数据库的各种DML操作的历史记录以及各种DML操作的回退信息,根据这些用户就可以将由于误操作而丢失的数据重新加入数据库内。

1. 确认数据库的 utl_file_dir 参数已经设置,如果没有则需要把这个参数加入oracle的初始化参数文件,然后重新启动数据库。下面例子中假设utl_file_dir=’/opt/oracle/db01’；

2. 创建logminer所需要的数据字典信息,假设生成的数据字典文本文件为dict.ora：

SQL >execute

3. 确定所需要分析的日志或者归档日志的范围。这可以根据用户误操作的时间来确定大概的日志范围。假设用户误操作时可能的日志文件为/opt/oracle/db02/oradata/ORCL/redo3.log

和归档日志’/opt/oracle/arch/orcl/orclarc_1_113.ora’。

4. 创建要分析的日志文件列表,按日志文件的先后顺序依次加入：

dbms_logmnr_d.build(dictionary_filename=>'dict.ora'

, dictionary_location=>'/opt/oracle/db01’);

system/manager

file=export_file_name

tables=(lost_data_table_name

…

)

fromuser=lost_data_table_owner touser=test_user constraint=n;SQL >execute

dbms_logmnr.add_logfile(logfilename=>

’/opt/oracle/arch/orcl/orclarc_1_113.ora’,options=>dbms_logmnr.NEW);

5. 开始日志分析,假设需要分析的时间在’2021-06-28 12:00:00’和’2021-06-28 13:00:00’之间：

SQL >execute

dbms_logmnr.start_logmnr(dictfilename=>

’/opt/oracle/db01/dict.ora’,starttime=>to_date(’2021-06-28 12:00:00’,’YYYY-MM-DD

HH:MI:SS’),endtime=>to_date(to_date(‘2021-06-28 13:00:00’,’YYYY-MM-DD HH:MI:SS’));

6. 获取分析结果：

SQL >select operation,sql_redo,sql_undo from v$logmnr_contents;

7. 根据分析结果修复数据。

8.结束 logmnr:

SQL >dbms_logmnr.end_logmnr;

用适当的方法对原数据库进行数据库全备份。

8.3利用备份恢复用户数据：

采用这种方法时并不是在原数据库进行恢复,而是利用数据库备份在新的机器上重新建立一个新的数据库。通过备份恢复在新机器上将数据库恢复到用户误操作前,这样就可以获得丢失的数据将其恢复到原数据库。

1. 在新的机器上安装数据库软件。

2. 对于采用带库备份的现场,需要在新的数据库服务器上安装调试相应的备份管软件。

3. 根据用户误操作的时间点进行基于时间点的数据库恢复操作。对于没有采用带库备份的现场,可以选取用户误操作前最近的备份磁带进行恢复；对于才用带库备份的点可以通过基于时间恢复点恢复的rman脚本来进行恢复。

4.重新打开数据库：

SQL >alter database open resetlogs;

5. 从新的数据库中获取丢失的用户数据,通过DML操作将其恢复到原数据库中。

6. 用适当的方法对原数据库进行数据库全备份。

execute dbms_logmnr.add_logfile(logfilename=> ’

/opt/oracle/db02/oradata/ORCL/redo3.log’,options=>dbms_logmnr.ADDFILE);

oracle数据库故障紧急处理预案-----各种物理文件损坏和逻辑故障的解决办法相关推荐

oracle 数据库问题：“ORA-01922: 必须指定 CASCADE 以删除...“，原因及解决办法
错误报告 - ORA-01922: 必须指定 CASCADE 以删除 'AUTO_NCC_NEW' 01922. 00000 - "CASCADE must be specified to ...
分享一次生产应用无法连接Oracle数据库故障
故障简介今天一个应用运维同事微信联系我,说有一个应用日志,显示连接Oracle数据库报错,我问了一下是什么应用,对方回答是报表应用,这下心里有谱了. 第一:报表应用重要性不高第二:一般这种情况,都 ...
达梦数据库-物理文件损坏或者误删恢复
作为一个达梦的初学者,写这篇文章的目的是为了把学到的新知识做个总结梳理,在整理中查缺补漏,也希望大家看了我的文章能有收获,如有错误的地方欢迎指出. 实例参数文件: 记录了数据库服务器的各种功能和性能选 ...
oracle查看数据库是否恢复成功_记一次解决docker下oracle数据库故障事例
一.问题背景: 某个项目的线上环境oracle数据库挂了,同事急匆匆来找我救火.我简单咨询了一些基本情况:线上环境,docker部署,已正常运行半年.由于宿主机的根目录硬盘空间不够,运维的同事想把or ...
.net千万级数据导出_记一次解决docker下oracle数据库故障事例
一.问题背景: 某个项目的线上环境oracle数据库挂了,同事急匆匆来找我救火.我简单咨询了一些基本情况:线上环境,docker部署,已正常运行半年.由于宿主机的根目录硬盘空间不够,运维的同事想把or ...
故障分析：从Oracle数据库故障到Linux nproc算法
墨墨导读:本文来自墨天轮用户"你好我是李白"的投稿,使用root用户切换grid用户时报错-bash: fork: retry: Resource temporarily unav ...
登录Oracle数据库报错，ERROR:ORA-12560: TNS:协议适配器错误，怎么解决？
一.点击计算机.右键点击管理.点击服务.启动OracleServiveORCL服务和OracleOraDb11g_home1TNSListener服务. 二.重新cmd打开终端.输入sqlplus / ...
oracle的class12驱动没有实现jdbc对clob或blob的存储, 解决办法
在使用原生jdbc做保存大字段clob或者是blob时, 发生异常: ERROR [pool-12-thread-1] PartitionConsumerThread.run(128) | java. ...
oracle用户管理的完全恢复5：控制文件损坏（控制文件前后内容未改变）
场景描述:控制文件损坏(控制文件内容没有变化) 1.备份 1 SQL> alter database backup controlfile to trace as '/u01/admin/sun ...

oracle数据库故障紧急处理预案-----各种物理文件损坏和逻辑故障的解决办法

oracle数据库故障紧急处理预案-----各种物理文件损坏和逻辑故障的解决办法相关推荐

最新文章

热门文章