药物研发统计师的一天（试验设计篇）

编者注：近期笔者出版了一本新书，由此结识了一批积极热心的读者。本文作者，作为医药企业核心统计部门统计师的 Carnap 便是其中的一位。

编者作为IT技术人员，虽然与不同行业都有所接触，但对于行业内的领域知识和行业核心运行机制却知之甚少。故此特别邀请 Carnap 分享一下他的日常工作场景，详见正文。

入手新书

昨天收到了新书《机器学习极简入门》，粉红色的封面，特别喜欢。我一度怀疑下错了单，买了一本日本女作家青山七惠的小说《碎片》或《一个人的好天气》。

读了书的前几章，觉得通俗易懂。用爱因斯坦的话形容，老奶奶和小朋友也能读懂这本书。

我在读书时，不到两岁的儿子跑过来跟我一起看，他指着封面上手捧书的机器人咿咿呀呀的对着我说话，然后又指着桌子上的小爱同学。我对儿子说，书上的小机器人就是小爱同学，他拿着书学习如何跟你对话呢？儿子笑了，我也笑了。

在机器学习和人类学习之间找到相似的规则，书就更容易读懂了。这本书独特之处在于：用通俗易懂的语言介绍机器学习的应用场景、方法和技术；在技术的讨论中融入生活的思考、加入形象的比喻和类比、总结经验。

读这本书，像是在听一位智者讲述她在做机器学习产品时的心得体会，总结宝贵的经验。作者的写书风格，探讨技术，但不拘泥于技术，超越技术的层面融入深刻思考，让我越读越觉得过瘾。越看越喜欢，特别希望能有机会跟作者当面请教交流。

在哔哩哔哩上搜索了李烨老师的名字，找到了一些关于人工智能和机器学习的讲座。听了一些，越听越想能当面交流请教。正盼着在网上啥时候能看到李烨老师的现场培训讲座消息的时候，我无意间翻了下书封面，在封面背后发现居然有李老师的微信号。

我加了李老师微信，跟作者自我介绍在药厂做统计工作。巧的是，李老师正在负责帮药厂开发一款提高临床试验患者依从性的人工智能系统，工作上我们也算是有些交集。

李老师特别耐心。我在微信上请教了一些机器学习问题，她发来语音留言，一一解答。除了机器学习，我们聊到了药物研发领域的话题。

作为技术专家，她不局限于如何用技术实现一款智能工具和平台，她想更深入的了解业务场景。她问我，能否介绍下统计师的工作日常以及统计师的工作是如何影响到临床试验项目的结果和决策。

很遗憾，我目前还不具备李老师那种用精炼语言把复杂事情表达明白的能力。思考了之后，我决定写篇文章来介绍我的工作日常吧。

本文大体上描述了统计师在临床试验设计时的整体思考，考虑到可读性，难免在精确和细致程度上有一些不足。希望读者批评指正，提出宝贵意见。

药物研发统计师的一天

新项目

上午9点：我来到办公室，打开电脑后，收到一封邮件。

内容是：我的直线领导告诉我，我们公司早期项目组发现了一种药物对于治疗肺癌有很好的效果。现在准备临床开发这个药物，希望五年之内能获得欧洲，美国，中国和日本药监局的批准，用于治疗当地的肺癌病人。让我负责这个项目的统计部分。

工作准备

拿到一个很有前景的新项目，心里当然很激动。接下来怎么做？

此时，邮件提醒又来了。收到了好多会议邀请。有医学同事发来的会议邀请，有注册部门同事发来的会议邀请，有市场部同事发来的会议邀请。

在跟他们开会前，我需要做哪些准备？面对这个新项目，此时我应该做些什么准备？有哪些问题需要我去深入了解，该问谁？

上午10点：我去单位楼下的星巴克喝咖啡，在单独的清净中静静思考这个新项目。有几个问题很自然的涌入我的脑海：

1. 这个项目目前处于什么阶段？已经向各个国家药监局提交新药临床试验申请了吗？向各个国家的药监局提交临床前的咨询会议申请了吗？

2. 这个项目准备全球同步研发做临床试验？还是先在美国和欧洲做临床试验，在欧洲和美国获得批准后，基于欧美的数据，通过小规模的桥接试验在日本和中国申请药物上市呢？

3. 这个项目，现在处于临床试验什么期？一期（探索药物毒性和安全性），二期（探索药物的剂量疗效反应），还是三期（确证性试验，证明药物安全有效）？

4. 肺癌疾病治疗领域有哪些监管机构的指南？关于指标的选择应该选取什么指标呢？

工作会议

下午2点：项目组开会。

参会人员有统计（我），医学，法规注册，定量药理，项目管理，市场等。

注：此处介绍一下药企的基本情况，从主流业务的角度出发：医学、统计和药理等是医药企业开展药物试验过程中核心的几大部分。

另外，由于医药产品（药物，器械等）的特殊性，法规注册在所有药品的研发上市过程中始终必不可少。

会议准时开始，主持人项目管理经理简要介绍项目的情况：该试验已经通过了一期和二期，初步证实了安全有效，需要大规模的三期试验进一步证明药物的安全和疗效。

医学同事先发言了：一般来说，大部分疾病领域的药物都要做两个三期试验。那我们这个项目要做两个三期试验吗？

法规注册同事说：需要做两个。除非是罕见病和儿科疾病，特别难招募患者。

这个肺癌项目需要做两个三期试验，两个三期试验的主要结果要一致才可以成功获得药监局批准上市。

如果两个试验结果不一致，那难以说明药物有效，需要医学、统计和药理方面的解释。如果无法解释，在批准这一关可能会面临很多挑战。

医学接着问：那两个三期试验总共需要入组多少患者呢？统计师，请你说个数。

统计师 （我）发言：样本量计算不是拍脑门就能说出来的数。咱们团队先在几个方面达成一致，我才能计算样本量：

我们采用什么样的主要终点来分析疗效（总生存率还是无进展生存率还是客观缓解率）？
一类错误（药物无效的情况下通过统计检验得出了有效结论/假阳性结果的概率）
检验效能（药物有效的情况下通过统计检验得出了有效结论/真阳性结果的概率）
其他因素

医学同事回答：我们采用两个主要终点：分别是总生存率和无进展生存率。次要指标是客观缓解率。还需要其他的信息吗

统计师 ：两个主要终点要同时达到统计显著还是先看一个达标后再看另一个呢？

医学同事说：先看总生存率，如果p<0.05; 再检验无进展生存率，如果p<0.05。那就在统计学上证明了，药物可以提高总生存率和无进展生存率。

统计师继续问：请定一下临床上有意义的界值。因为，p<0.05只是代表有统计上的显著性，但不代表有医学意义。

医学同事说：好的。请问，做两个假设检验，会存在一类错误膨胀问题吗？

统计师说：不会的，因为我们是顺序检验，先检验总生存率，总生存率的p<0.05后才继续检验无进展生存率。所以一类错误不会膨胀。

注：一类错误膨胀是指实际上药物没有效果（跟安慰剂差不多）的情况下，多个假设检验中任意一个假设检验的结果是阳性就宣称药物有效，而导致的一类错误变大。

医学同事说：好的，理解了。那我们两个试验各需要多少样本量呢？在各个国家怎么分配？

统计师说：两个试验的样本量是一样的，这两个试验相当于是sister study。在各个国家的分配要参考各个国家的指南对区域样本量比例的要求。

如果没有比例要求，我们要看各个国家是否要求区域的疗效是否需要跟总的疗效达到一致。

如果需要疗效达到一致，我们可以采用日本药监局颁布的指南中 Method 1或者Method 2来计算样本量。

其中, Method 1是说基于总的疗效统计显著的情况下，区域疗效达到总疗效一半以上的概率是80%或者更高。

Method 2 是说基于总的疗效统计显著的情况下，各个区域的疗效都大于界值（譬如，均值差一般采用0，比例一般采用1）的概率是80%或者更高。

医学同事说：明白了，那请统计师帮忙在会后计算下样本量吧。

统计师：好的。

市场同事说道：考虑到其他公司也在开发类似的药物用于治疗肺癌。跟我们存在着很大的竞争，谁先能获批上市，市场份额将会被谁垄断。

请问，我们能采用单臂试验吗？

法规注册同事说道：罕见病试验中跟监管机构达成一致后可以采用单臂试验，不需要做随机双盲对照试验。但是，肺癌项目恐怕不行。

医学同事问道：统计师，我们可以采用贝叶斯设计吗？利用历史数据作为先验信息，这样可以降低下样本量，对我们获批上市也大大有利。

统计师说：目前监管机构对贝叶斯设计的接受程度不高，主要原因是：贝叶斯试验引入外部数据，怎么样控制外部数据的借用程度尚有争议，另外贝叶斯设计里的一类错误控制是个问题。

在极端特殊的情况下会接受贝叶斯设计，比如说这次辉瑞的新冠疫苗。

我可以针对项目，做些模拟来评估下贝叶斯设计的样本量，一类错误，检验效能以及其他指标。下次会议可以展示给大家，讨论看看。

如果可行，我们可以约药监局审评老师去沟通交流，看是否能得到他们的同意。

医学同事继续问道：既然贝叶斯设计接受度不高。那我们可以在方案和统计分析计划里先不要提贝叶斯设计和方法，在得到数据后先按照非贝叶斯方法分析数据。

如果得到数据可以证明我们的药物疗效，我们就不用贝叶斯了。如果得到的结果不是阳性，我们再采用贝叶斯方法分析可以吗？

统计师回答道：绝不可以。

在很多心理学领域的数据分析中，为了发高分文章，学者把方法换来换去甚至数据集换来换去，找出一个P值小于0.05的结果发表文章宣称有重大发现。这就像，钓鱼一样钓P值，这只会导致一类错误无限增大，假阳性显著增高。

其实，你最后证明了什么呢？心理学结论真的是对的吗？要知道，科学中的很多发现是要反复验证的，想在一次两个三期试验中就证明药物有效，那必须严格控制一类错误，不能像钓鱼一样钓P值的。

试验采用的方法和设计都要事先定好，甚至连得到数据后发现模型的假设跟数据不符合做什么调整都要预先设计好。

临床试验中的统计跟非临床试验中的统计最大的不同是，临床试验尤其是三期试验要做验证性分析，验证药物的疗效和安全，统计方法要在看到数据前事先计划，在拿到数据后再改来改去的方法是探索性的分析，不能作为确定性的证据。

有个笑话（瑞士统计学家Stephen Senn说的）是，临床试验统计师不承认哥伦布发现了美洲新大陆是因为哥伦布一开始是去找印度的也就是在计划里没有写去找美洲新大陆的，所以在统计师看来哥伦布做的是探索性的发现，需要进一步验证。

注：临床试验统计师实际上没有那么刻板和教条，只是想用这个例子说明临床试验的严格和非随意。

另外，读者可以看一下最近很火的关于Biogen公司老年痴呆症药物获得美国药监局批准引发的争议问题（两个三期试验结果不一致反复讨论后又获得了美国药监局批准引发的争议）。

虽然有争议，但是药理学家在这个药物的获批中发挥了很大作用）。

市场同事：谢谢。那请问我们可以做非劣效设计吗？证明药物不劣于现在市面上的最好的药物。

医学同事说：我们要证明我们的药物优于标准指标，甚至好于目前市面上最好的药物，但是证明优于最好的药物有很大不确定和风险。所以，我们还是证明我们的药物优于标准治疗吧。

统计师说：我们要做一个随机对照临床试验。试验组是我们的药物，对照组是目前的标准治疗。进入试验的患者随机分配到两组，保证了随机可比性。

我们要实施双盲，就是患者和医生都不知道患者到底是服用了我们的药物和标准治疗。

为此，我们要把标准治疗药物做的跟我们的药物完全一样，谁也不知道哪个是哪个，以达到盲态效果，最终目的是减少患者和医生知道服用了什么药物后主观带来的偏倚。

另外，我们要设立一个独立监察委员会，在中期分析时在非盲态下看药物的疗效和安全性，以做出有效停止，安全停止或者无效停止的建议供我们药厂采纳。

医学同事问：统计师你来负责这块儿不可以吗？

统计师说：不可以的。我属于盲态统计师，在最终分析前我是不能看这个非盲态结果的，要保证结果的客观科学。所以邀请外部的统计师来看数据。

医学同事继续问道：既然要做期中分析，如果发现药物有效可以早点获批上市，需要哪些特殊的统计考虑吗？

统计师说：需要的，因为中期多了一次看结果有效停止的机会，所以我们需要控制一类错误，通过相应的统计方法来调整一类错误。

医学同事说：明白了，谢谢。请问，如果我们试验的整体人群没有达到阳性结果。我们可以根据亚组分析来说事吗？

统计师说：一般不行，除非是确证性的亚组分析。因为我们在设计时是基于整体人群的，如果亚组分析可以获批，我们需要给亚组足够的样本量。

如果事先没进行统计和医学考虑，这是不可以的。

市场同事问道：在试验中经常会遇到各种各样的患者不依从问题，我们可以把那些看起来不好的数据剔除吗？

统计师：绝对禁止！

把看起来不好的数据剔除掉，那我们最终的分析是建立在一个完美的情况下得到的疗效，完全不能反应真实的临床应用场景。

在临床试验中，为了保证随机可比性，为了保证反应实际情况，我们需要把所有的数据都纳入分析。

我们可以根据具体的目的，考虑我们到底对比的是在依从情况不好的情况下药物的疗效还是假如依从性比较好的情况下得到的药物疗效。

市场同事问道：那可能会存在很多数据缺失的情况。怎么办

统计师回答：有些缺失可以通过我们的努力避免，有些缺失实在避免不了我们可以采用一些统计模型去填补数据。

比如常用的multiple imputation填补方法是今年诺贝尔经济学奖获得者的统计合作者Donald Rubin发明的，我们可以采用他的方法。

注：2021年的诺贝尔奖颁发给了三个研究因果推断的经济学家。他们的贡献是提供了因果推断模型。

在因果推断模型出现前，很多人误把相关当成因果，使得世界上充满了很多虚假的因果。比如：以往采用单因素分析方法来对社会群体进行统计，会发现对个体收入影响最大的因素是智商。

但采用今年诺贝尔奖获得者和统计学家Donald Rubin的因果模型，你会发现，最终导致贫富差距的不是智商，很可能是家族背景。新的方法从因果上推断了教育时间更长可以提高收入，推断了移民政策不会导致本地人收入下降。

假设因果推断没有被发明，而相关性被当作因果性成为了政府决策的依据，则很可能导致诸如采用基因技术让婴儿的智商水平趋于一致以降低贫富差距等错误的决策。

会议持续了两个小时，经过热烈讨论后，达成了一致。

会后行动

会议讨论形成了一系列与会者要完成的任务，具体包括——

统计师：

计算总样本量和区域样本量
跟外部统计师一起起草数据监察委员会章程
写代码产生随机药物分配码（或者联系随机化系统供应商提供）
模拟评估贝叶斯试验设计的一类错误，样本量等指标，从监管机构角度考虑贝叶斯设计可能存在的问题和面临的挑战
撰写临床试验方案中的试验设计和统计方法部分

医学：

查找文献，结合经验，给出主要终点的临床有意义界值
起草临床试验方案

法规注册：

联系药监局审评员，约咨询沟通会
准备材料

对统计和统计师的常见误解

很多人会把统计误解为会计，也有很多人把统计误解为数学的分支。

实际上，统计既不是会计，也不是数学。会计跟统计八竿子打不着，数学只是统计的工具而已。

没有人把物理说成是应用数学，但是很多人会误把统计归为应用数学，很大程度上是因为物理学家干的漂亮，把专业跟数学划分的清楚。但因为很多二流子数学家进入了统计领域，搞得统计的数学印记很深。

无论是卡尔皮尔森还是罗纳德费舍尔这些统计鼻祖，都强烈反对统计归为数学。

统计鼻祖内曼花了很大力气才把加州伯克利大学的统计系从数学系独立出来，现在有多少披着统计外衣的二流子数学家却很危险的把统计往数学领域钻，真是令人费解。

实际上，正如我的日常工作，统计工作最重要的技能是沟通交流和合作，统计本身不产生任何价值，只有结合了数据和计算，用于解决实际应用问题才产生了巨大价值。

所以，对于统计学家和统计工作者，最重要的是通过合作深度了解应用中的问题，把应用问题转化成统计和概率问题，创造性的采用老方法解决新问题，或者创造新方法解决老问题。

数学对于统计很重要，是统计的重要工具，但不是唯一工具 —— 模拟是统计领域很重要的工具，解决没有数学精确解的统计问题和模型 —— 更不是统计本身，不要本末倒置。

“众智汇”愿景

尽职尽才，允公允能 —— 本社群不定期举行线上分享，组织群友分享知识、经验、资源，以达到让我们每个人的职业生涯得到最大程度的发展的目的。

欢迎扫面下列二维码关注“悦思悦读”公众微信号

药物研发统计师的一天（试验设计篇）相关推荐

智源抗疫 - 药物研发小分子性质预测赛
人类与新型冠状病毒所引发的疫情(COVID-19)已战斗多日,针对病症是否有相应的特效药物也成为了公众关心的重点.同时,我们知道,药物研发过程是极为浩大.严谨的科学研究,例如目前正处于临床验证阶段的瑞 ...
10万元奖金助力AI加速药物研发！小分子预测大赛来啦
人类与新型冠状病毒所引发的疫情(COVID-19)已战斗多日,针对病症是否有相应的特效药物也成为了公众关心的重点.同时,我们知道,药物研发过程是极为浩大,严谨的科学研究,例如目前正处于临床验证阶段的瑞 ...
《基于AI+大数据的医疗大健康最佳实践》---- AI 赋能临床试验受试者招募助力企业药物研发
文章大纲简介现状国内外志愿者招募公司捷信医药 - 上海皓推科技 - 上海厚普医药(被零氪收购)- 北京思默招募 - 杭州国外市场价值评估(从AI+患者招募角度) 患者招募的痛点/大数 ...
星药科技李成涛：人工智能在药物研发中的应用
不到现场,照样看最干货的学术报告! 嗨,大家好.这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频--足 ...
药物研发早期预测细胞毒性的解决方案
药物从设计到上市的整个研究阶段,毒性通常是导致研发失败的最主要原因.即使上市以后还有许多药物由于出现研发阶段未能发现的毒性而被撤市或严格限制使用.因此,如何及时.准确.快速地评价药物毒性便成为药物开发 ...
Nature：药物研发里程碑技术
科研背景生物医学是综合医学.生命科学和生物学的理论和方法而发展起来的前沿交叉学科,基本任务是运用生物学及工程技术手段研究和解决生命科学,特别是医学中的有关问题.机器学习技术能利用复杂的算法在大规模. ...
玻色量子CEO文凯出席首届CCF量子计算大会，分享量子计算加速药物研发新突破
2022年8月20-21日,首届CCF量子计算大会(The 1st CCF Quantum Computation Conference,CQCC 2022)在郑州召开.CCF量子计算专业组主任.中 ...
腾讯发布「云深智药」平台，新基建助力药物研发全流程
感谢阅读腾讯AI Lab微信号第99篇文章.本文将介绍腾讯首个AI驱动的药物发现平台「云深智药(iDrug)」. 在上海举办世界人工智能大会前夕,腾讯公布了进入药物研发领域的两项最新进展.在应用侧,腾 ...
临床前药物研发，AI搞出来的已经占一半了？ | 对撞派 · 圆桌实录
量子位智库发自凹非寺量子位 | 公众号 QbitAI 有一条著名的双十定律,是新药研发的心头痛:平均每一款新药都需要耗费超过十年和十亿美元才能研发成功,研发效率相当低下. 现在,AI制药为新药研 ...

药物研发统计师的一天（试验设计篇）

药物研发统计师的一天（试验设计篇）相关推荐

最新文章

热门文章