【Datawhale可解释性机器学习笔记】预备知识学习

人工智能黑箱子灵魂之问

AI的脑回路是怎样的?
AI如何做出决策?
是否符合人类的直觉和常识
如何衡量不同特征对AI预测结果的不同贡献?
AI什么时候work?AI什么时候不work？
AI有没有过拟合？泛化能力如何？
会不会被黑客误导，让AI指鹿为马？
如果样本的某个特征变大15，会对AI预测结果产生什么影响？
如果AI误判，为什么会犯错？如何能不犯错？
两个AI预测结果不同，该信哪一个？
能让AI把学到的特征教给人类吗?

选择人工智能研究方向的建议

尽可能通用，与其他研究方向交叉
顺应主流发展趋势，长期存在且有用
有高质量的数据集
不过分小众，但也好发paper，没有疯狂内卷
能应用到产业界垂直细分产业
有商业应用价值，容易“讲故事”

(建议来自;同济子豪兄)

为什么要学可解释机器学习

研究AI的脑回路，就是研究AI的本质
可解释分析是机器学习和数据挖掘的通用研究方法。
和所有AI方向交叉融合：数据挖掘、CV、NLP、强化学习、知识图谱、联邦学习。
包括但不限于：大模型、弱监督、缺陷异常检测、细粒度分类、决策AI和强化学习、图神经网络、AI纠偏、AI4Science、Machine Teaching、对抗样本、可信计算、联邦学习。

从Machine Learning到Machine Teaching(人工智能教人类学习)

参考资料：

Making a Bird AI Expert Work for You and Me

绝艺对局：右上角绝艺老师的非常破空手段值得我们学习

本身可解释性好的机器学习算法

kNN分类
逻辑回归
线性回归
决策树
朴素贝叶斯

传统机器学习算法的可解释性分析

算法自带的可视化
算法自带的特征权重
Permutation Importance置换重要度
PDP图、ICE图
Shapley值
Lime

深度学习的可解释性很差

卷积神经网络的可解释性分析

可视化卷积核、特征图
遮挡、缩放、平移、旋转
找到能使某个神经元激活的原图像素、或者小图
基于类激活热力图(CAM)的可视化
语义编码降维可视化
由语义编码倒推输入的原图
生成满足某些要求的图像(某类别预测概率最大)

卷积核、特征图可视化

卷积神经网络

每个卷积核提取不同的特征
每个卷积核对输入进行卷积，生成一个feature map
这个feature map 即提现了该卷积核从输入中提取的特种
不同的feature map显示了图像中不同的特征

浅层卷积核提取：边缘、颜色、斑块等底层像素特征
中层卷积核提取：条纹、纹路、形状等中层纹理特征
高层卷积核提取：眼睛、轮胎、文字等高层语义特征
最后的分类输出层输出最抽象的分类结果

可解释机器学习各类方法特点

被动解释

基于隐层可视化：使用可视化方法生成人类能理解的图像，解释隐层的含义
基于类激活映射：对线形图线性加权获得类激活图，解释个体的分类决策
基于敏感性分析：对输入变量施加扰动，评估特性的重要性
基于鲁棒性扰动测试：解释精心设计过的新输入对模型预测的影响程度
基于频率原理：研究频率信号的规律，解释神经网络训练过程中的偏好

主动解释

基于可解释模块：额外引入可解释的网络模块，修改原有网络结构
基于优化方法：向损失函数中添加正则化项，利用相关的优化方法进行解释

补充解释

基于信息论：将信息论领域的相关概念或术语整合到神经网络中，获得更多的信息的解释

（来源：深度学习的可解释性研究综述李凌敏，侯梦然，陈琨，刘军民）

深度学习可解释性研究

需求

提高模型透明度
提高模型可信度
伦理法律的需求

定义

全局可解释性
局部可解释性
内置可解释性

评价指标

忠实度
准确性
鲁棒性
可理解性

典型方法

解释逻辑规则

基于决策树的方法
基于知识图谱的方法

解释决策归因

特征归因
概念归因
样本归因

解释内部结构表示

层的表示
神经元的表示

未来方向

可解释智能的构建与实现
建立完备的数据理论指导和改进深度学习模型表达能力、学习能力和泛化能力
（来源：深度学习可解释性研究综述雷霞、罗雄麟）