第一节 药物临床试验的设计原则

一、概述

随机对照试验(randomized controlled trial,RCT)是一种对医疗卫生服务中某治疗方法或药物的疗效与安全性进行检验评价的手段,是在人群中进行前瞻性的、用于评估医学干预措施效果的试验性对照比较研究。它把研究对象随机分配到不同的比较组,每组施加不同的干预措施,通过适当时间的随访观察,估计比较组间重要临床结局发生频率的差别,以定量估计不同疗法或疗效的差别。除对照和随机分组外,随机对照试验通常还会采用分组隐匿、安慰剂、盲法、提高依从性和随访率、使用维持原随机分组分析等降低偏倚的措施。

RCT已被国际上公认为临床防治性研究方法的“金标准”,主要有两种设计形式:解释性随机对照试验(explanatory randomized controlled trial)和实用性随机对照试验(pragmatic randomized controlled trial)。解释性随机对照试验广泛应用于药物研究,发挥了重要的作用,但是解决临床复杂干预的研究尚有缺陷;而实用性随机对照试验却满足这种循证需求,弥补了单纯解释性随机对照试验设计的不足。

公认的第一个RCT研究是1948年英国医学会进行的链霉素治疗肺结核的试验。其主要目的是确定链霉素治疗肺结核的效果。该试验对107例急性进展型双侧肺结核新发病例进行了研究。符合入选标准的患者,55人被随机分入治疗组,52人分入对照组。治疗组患者接受链霉素治疗和卧床休息,对照组只卧床休息。试验开始前,治疗组患者不知道将接受特殊治疗,对照组病例也不知道他们在住院期间将会是一个特殊研究的对照组患者,通常他们和治疗组病例不住同一个病房。治疗组病例每天接受一日4次、每隔6小时一次共计2g的链霉素注射治疗,未发现由于毒副作用需要终止治疗的病例。

结果发现,6个月后,7%的治疗组病例和27%的对照组病例死亡。影像学显示51%的治疗组病例和8%的对照组病例病情有明显改善。18%的治疗组病例和25%的对照组病例略有改善。治疗组病例临床症状的改善也比对照组病例明显。8例治疗组病例和2例对照组病例结核杆菌试验结果呈阴性。由此可得出链霉素治疗肺结核有效。

该试验首次将数理统计理论应用于临床医学的科研设计之中,评价了链霉素治疗肺结核的疗效。随着循证医学越来越强调一切医学实践活动都必须基于现有的最好证据,RCT也成为评价干预效果最科学的研究方法。图2-1是RCT的基本框架。临床RCT一般要遵循随机化、对照、盲法的三大原则,下面逐一介绍。

图2-1 RCT的基本框架

二、随机化

影响转归的因素在组间有可比性是准确估计和比较干预效果大小的前提。要获得组间的可比性,分组的程序必须与任何已知和未知的可能影响患者转归的因素无关,这种分组方式就是常说的随机化(randomization)分组。随机化是获得组间可比性最可靠的方法,是随机对照试验重要的科学基础之一。随机化包括两个层面的内容:一是从人群中选取所需要的目标,也即随机抽样;一是对所有选取的目标分组,即随机分组。无论是随机抽样还是随机分组,都是以保证受试者有相同的机会进入不同的研究组为目标的。

临床试验中,采用随机化方法分配受试者接受不同的处理措施,使每位受试者均有同等机会接受任何一种处理措施,而且一个受试者的分配不会影响其他受试者的分配,即所谓随机化分配。随机化方法是基于随机事件(random event)的随机性(randomness)而使用的。随机性是偶然性的一种形式,是指具有某一概率的事件集合中的各个事件表现出来的不确定性。具有不确定性的这类现象,称为随机现象。

有很多方法可以达到随机分组的目标,随机性通过随机序列来实现,而随机序列可由随机数发生器(randomizer generator)产生。20世纪初期,统计学家用纸牌、机械转盘等人工方法产生了大量的随机数字,这些简单方法都可以在一定程度上得到随机的样本,但是往往在临床研究中经常会有误解和误用。如,按照出生日期(奇偶年份)、医院病案记录数字或受试者参与试验的时间(单双日),交替将患者分配到不同研究组的方法,它们经常被用作随机分组的方法,但是都无法使得受试者有相同的机会进入不同的研究组。因此,这些方法不是严格意义上的随机分组,属于假随机分组(pseudo-randomization)或类随机分组(quasi-randomization)。随着数理统计学研究的深入,用人工方法产生的随机数字已经不能满足需要。20世纪中叶以后,电子计算机技术的高速发展,为随机数字的产生提供了另一个源泉。人们利用预编程序或算法在电子计算机上产生了在统计意义上具有“随机性”的数值系列。这些数值系列由于是完全确定的、具有周期性的,不同于真正均匀分布的随机数,故被称伪随机数。20世纪40年代中期,John von Neumann提出用蒙特卡罗法(Monte Carlo method)产生伪随机数。随机对照试验中,为了便于控制和检查,常用随机数字表进行随机化。随着试验规模的加大,随机数字表的操作显得烦琐和不便,因而计算机产生的伪随机数代替随机数字表被广泛用于临床试验的随机化。例如,用统计分析软件SAS的伪随机函数或PROCPLAN程序进行随机化分配。

1.随机化分配

可分为简单随机化、区组随机化和分层随机化。此外,尚有中央随机化、动态分配、Zelen随机化等方法。

(1)简单随机化:

为基本的随机化方法,操作简便,但例数较少时易出现各组例数不平衡的情况。

(2)区组随机化:

即随机化区组设计(randomized block design),是指先按一定规则将试验单元划分为若干同质组,称为“区组”(block),然后再将各种处理随机地指派给各个区组的一种设计。可以改善简单随机化的组间不平衡倾向。实际操作时,区组的长度(block lengths)应恰当,以防止不平衡和区组内最后序列的可预测性。较好的方法是对研究者隐藏区组长度,设定多个区组长度且进行随机选择。采用序列可变的区组随机化(permuted blocks randomization),可明显保证随机化结果的隐匿性(allocation concealment)。

(3)分层随机化:

是指按研究对象特征,即可能产生混杂作用的某些因素(如年龄、性别、种族、文化程度、居住条件等)先进行分层,然后在每层内随机地把研究对象分配到甲(实验组)和乙(对照组)。当需考虑在基线(观察零时点)测得的重要预后因素(如疾病严重程度、性别或年龄)的影响时,可以采用先分层再在层内用简单随机化或区组随机化的方法进行分配,这可使层内分配达到均衡,此即分层随机化。在多中心临床试验中,中心应作为分层因素考虑。在样本含量较大(例如200以上)时,简单随机化常可保证组间的平衡,一般不需要进行分层随机化;样本太小,分层过多,则难以实施。通常受试对象在100~200例,有2~3个分层因素,每个因素仅有2个水平时,应用分层随机化较恰当。当分层因素较多时,可用一个综合了多个分层因素的概括性预后指标作为单个分层因素去实现各因素间的平衡。事先分层时,这些分层因素必须在随机化前完全知道,而且这些因素对预后的影响作用应较为明确。如果用于分层的因素没有明确定义或涉及主观判断的话,误分层的机会将会增大,可能导致将受试者分在错误的层中。

(4)中央随机化:

严格来说不归属于随机化方法分类中的一种,它只是在随机化操作上的不同而已。多中心临床试验中,各个分中心的随机化分配和药物配给集中由一个独立的机构或组织来安排和实施,这种随机化分配称中央随机化(central randomization)。各个分中心与此机构通常需通过电话或计算机网络进行联系或操作。中央随机化可以采用严格程序来确认入选病例,从而保证入组病例不会被错误分层。进行中央随机化时,可以选择不同的方法诸如区组随机化、分层随机化或进行动态分配(dynamic allocation)等。

(5)动态分配:

是结合中央随机化和分层随机化的一种随机化方法,也称动态中央随机化(dynamic central randomization)。在这种随机化中,受试者接受何种处理取决于当前各组的平衡情况,当采取分层随机化时,则取决于受试者所在层内的各组平衡情况,因而各组的各种预后因素易于达到平衡。动态分配常通过电话或网络来实现。由于动态分配随时可对试验进度或脱落情况作出反应,可以节省试验药物和经费,特别适合在大型的昂贵药物的临床试验中应用。

(6)Zelen随机化:

1979年,Zelen对临床试验的随机化分配提出新的设计,受试者随机地分配到两组:A组和B组。若A组的受试者接受对照的标准治疗,B组的受试者则根据其是否接受试验治疗而决定去留,不愿意接受试验治疗者令其接受A组的标准治疗。上述这种设计因为只询问B组的意愿,也称单组意愿设计(single-consent design)。此外,还有双组意愿设计(double-consent design),即随机分配到两组的受试者均询问其治疗意愿,同意接受该组预定措施的则给予预定措施治疗,否则改用另一组的措施。这种随机化方法存在较多弊端,诸如志愿者偏倚等,且难以实现随机化结果的隐匿性。

2.随机化分配操作

无论是手工操作,还是用计算机系统进行随机化分配,通常需先拟订随机化分配的计划。该计划由独立于临床研究者的人员或组织来制订和执行,而且随机化的细节不应写入临床试验方案中,以确保临床试验随机化结果的隐藏和双盲的实施。随机化分配操作一般遵循以下的步骤:

(1)选择随机化方法:根据设计需要选择简单随机化、区组随机化或分层随机化等。

(2)确定随机数发生器:通常是随机数字表或计算机预编程序(如SAS软件的PROC PLAN程序)。

(3)确认随机化分配的总例数、分组组数及其比例、分层因素个数及其水平。

(4)区组规定:长度,是否可变或随机选择。

(5)分组规定:各组对应的随机数字的规定。

(6)抽取或产生随机数字:用计算机预编程序时此步可自动进行。

(7)随机分配结果:按照分组规定将受试者按顺序逐个与随机序列关联并记录此关联结果。计算机预编程序时可自动进行并记录此结果。

(8)制作随机分配卡:将上述随机化结果制成卡片,或由计算机程序将结果输出成卡片,此卡片供临床研究者使用。

(9)随机分配结果的隐藏:能使随机化结果的产生与临床研究者的执行保持独立,常采用不透光信封将分配结果密封。在非盲法或单盲试验中,随机化结果在被执行前临床研究者不应知道;而双盲试验中,临床研究者在试验整个过程均不知道随机化结果和药物编码,此时为保证受试者安全,应制作紧急破盲信封或有其他措施满足紧急状态下任何一个受试者破盲的需要。

三、对照

随机对照试验中的对照有两层含义:一是指施加于不同比较群组的干预措施间的对比或比较;二是为此目的而形成的可比的比较群组,即对照组。具有可比性的对照组是比较的基础,是所有临床试验都必须遵循的科学原则,而不同组干预措施的对比则完全取决于具体的研究目的,因研究目的不同而不同。

临床试验应选择合理的对照。对照有下列类型:安慰剂对照、阳性对照、自身对照、试验药物剂量间对照、无治疗对照、历史对照等。对照的选择应依据试验目的而定,在伦理学风险可控的情况下,还应符合科学性的要求。一般建议采用安慰剂对照,其优点是可以克服研究者、受试者、参与评价疗效和安全性的工作人员等由于心理因素所形成的偏倚,控制安慰作用,尽可能可靠地证明受试药物的疗效。其他对照的选择根据研究目的而定。历史(外部)对照通过论证后,在极个别情况下也可以采用,但应特别注意推论错误有可能增大的风险。

阳性对照药物要谨慎选择,一个合适的阳性对照药物应当是:①公认的、广泛使用的;②有良好循证医学证据的;③有效性预期可重现的。试验设计中还应充分考虑相关的临床研究进展。

解释性试验常常使用安慰剂对照,其目的是研究药物的特异性疗效。实用性试验的目的是比较一项新的治疗和当前公认的治疗,用于帮助临床医师做出治疗决策,医师决策时并不关心这项干预是否只比安慰剂有效,所以实用性研究很少应用安慰剂,往往采用当前公认的最好的常规治疗作对照,或者是一种特殊的治疗与没有治疗的空白对照比较。

影响疾病转归的一个重要因素是疾病发生、发展和转归的自然趋势,又称自然病史,它与致病因素、患者个体状况以及周围环境等有密切关系,有相当一部分患者在与疾病的斗争中会自然好转和痊愈。例如急性丙型肝炎患者中约30%病情会自发好转,80%的急性腰痛患者在3个月内症状会明显减轻。再以感冒为例,即使没有任何治疗,大部分患者在2周左右会痊愈,如果某新药能使90%的感冒患者在2周内痊愈,并不能说明此药在缩短病程上具有任何价值。

临床工作中的很多干预措施对病情都有一种非特异的安慰作用,安慰作用的产生与很多因素有关,如患者和医师对治疗的信心与期望、医师在治疗过程中的态度、治疗环境、疾病特征等。安慰作用一般来说主要有改善病情的良性作用,但在某些情况下,如患者对治疗持怀疑和悲观态度时,也会对疾病预后产生不良影响。安慰作用与治疗的实质无关,为无特异治疗作用的“假”治疗或安慰治疗,如,由淀粉制作的在形状、颜色甚至味道等方面都与真实药片相同的安慰剂,会产生与真实治疗同样大小的安慰作用。安慰作用的大小因情况不同变化很大,有时其作用的显著程度令人吃惊。例如,在接受假的磨牙治疗后,64%的面肌功能失调性患者疼痛会完全或几乎完全缓解;腰背痛患者在接受假的电刺激仪治疗后,疼痛程度、频率以及功能评分均可改善20%~40%。

由此可见,治疗的特异作用、非特异安慰作用、疾病自然转归作用以及回归中位作用交织在一起,共同影响疾病的转归。在一组受治患者中,无法将这些因素的作用彼此区分开。为了确定治疗特异作用的存在和大小,只有通过对照的方法,设立相对于治疗组的无治疗对照组,使两组非特异作用大小相当,相互抵消,则组间临床结局之差将真实反映治疗特异作用的大小(图2-2)。对照是准确测量治疗作用的基础。

图2-2 治疗组和安慰对照组的差别反映治疗特导作用的大小

加载(add on)设计,是在基础治疗药物时加用试验药物(新药)的一种设计,证明联合用药(试验药与基础治疗药物合用)的安全有效性。例如在躁狂性发作中,抗精神病药通常与“情绪稳定剂”联合治使用,新药的临床疗效和安全性也可以在叠加治疗的临床情况下进行研究。对双相障碍双相发作(躁狂发作和抑郁发作)可以采用加载设计,在6~12周的时间内比较新的化合物、适当增加的化合物以及二者合用或者先以一种药物开始治疗,然后再加用另一种药物,证明联合用药(试验药与基础治疗药物合用)对双相障碍单相发作(躁狂发作或抑郁发作)是否具有治疗作用。对精神分裂症的阴性症状或认知症状的药物治疗试验也可以采用加载设计。

四、盲法

随机分组只保证了研究开始时组间的可比性,研究过程中可能会发生一些事件,如退出、失访和组间治疗替换等,这些事件的发生往往不是随机的,可能与治疗的组别有关,从而会破坏组间的可比性,当这些事件同时又与临床结局相关时,偏倚便会产生。为避免这种不可预见的偏倚,药物临床试验中经常需要使用盲法。

盲法(blinding)是一种蒙蔽治疗分组的措施,就是在治疗和追踪随访期间,保密每一个研究对象的治疗分组,使参与研究的人员(包括研究对象、医师、资料收集人员和统计分析人员)不知道受试者的分组情况。盲法会在一定程度上帮助降低这些事件在组间发生的不均衡性,从而维持组间可比,一般分为单盲、双盲、三盲。

1.单盲(single blind)

只有研究者了解分组情况,研究对象不知道自己是试验组还是对照组。优点是研究者可以更好地观察了解研究对象,在必要时可以及时恰当地处理研究对象可能发生的意外问题,使研究对象的安全得到保障;缺点是避免不了研究者方面带来的主观偏倚,易造成试验组和对照组的处理不均衡。

2.双盲(double blind)

研究对象和研究者都不了解试验分组情况,而是由研究设计者来安排和控制全部试验。其优点是可以避免研究对象和研究者的主观因素所带来的偏倚;缺点是方法复杂,较难实行,且一旦出现意外,较难及时处理。因此,在试验设计阶段就应慎重考虑该方法是否可行。

3.三盲(triple blind)

不但研究者和研究对象不了解分组情况,而且负责资料收集和分析的人员也不了解分组情况,从而较好地避免了偏倚。其优、缺点基本上同双盲,从理论上讲该法更合理,但实际实施起来很困难。

选择盲法还应注意使用时要考虑以下几方面:①应尽可能“蒙蔽”所有参与研究的人员;②与无治疗比较时,需使用安慰剂对照;③比较两种不同药物时也应该使用盲法;④即使是不完美的盲法,也应尽可能使用;⑤有时盲法是不可行的,如比较外科手术和药物治疗。