一起来理解什么是循证医学

　　不得不说，大部分人试图将「循证医学」引入其论述时都直接了自己对相关问题认识的不足。外行就不说了，甚至很多医学从业者，对「循证医学」的理解，也是停留在了90年代初循证医学刚刚诞生时候的一些论述上，实际上是走偏了。

　　今年上半年在开会，看了两场以临床问题为辩题的辩论会，双方都是国内 Top 5 医学院的博士生。当正方不断地引述「循证医学」的论点时，我就一直在皱眉头，心想，你每多说一句，其实就给反方留下了多一个点，因为其实你的理解从开始就错了。但很可惜，反方一条都没有挑出来辩，尽管最后还是赢了。下来找反方的那个博士生交流了下，才知道其实反方也完全没有听出对方这类论述的问题在哪。其实她完全可以赢得更有气势，如果她自己足够理解的话。

　　大概是几年前开始，网上对于医学问题的讨论，也常常会走到提「循证医学」这一步，哪怕是两个非专业人士之间。似乎「循证医学」就是一个，我指着这个标准来我就是对的，甚至到了你做不到双盲随机对照，那你就是的地步，被方也很苦恼，想办法摆脱，有的还干脆开始循证医学本身了。

　　我在这个回答中简单的论述过什么是循证医学，但篇幅有限，深度有限，不可能就这么理清所有的概念。再此借专栏再多谈谈我自己的认识，算是半科普，给同行看，也给感兴趣的其他专业朋友看。欢迎交流。

　　一、循证医学的只是概念么？

　　不是，它还有一套不断完善中的方，体系越发庞大。1990年 Evidence-based medicine 第一次在文献中出现，1992 年正式提出，直到2006年以前，这个领域的热点都集中在如何对研究进行整合和临床研究的科学规范方面，直到 2004-2008 年 GRADE 体系的建立，以及 2006 年 5S 系统的提出，循证医学才开始全面围绕临床决策，发展出一系列的方法和理论。一句话，循证医学不只是个概念或者，它是近20多年临床医学实践的一次方法。

　　二、循证医学用在什么地方？谁需要学？

　　循证医学是紧密围绕临床决策（Clinical decision ）服务的。也就是说，其出发点，是临床医生需要科学可靠的依据来支撑他的判断和决定，而这个依据来自人类此前研究的结晶，而不仅仅是他本人有限生涯中有限地。怎样为临床医生提供最新、科学、全面、客观、容易获取的决策支持，是当代循证医学的核心目标。

　　所以，循证医学首先是用于指南制定小组，由学科内专家组成，使用循证医学的方法，对数以万计的相关研究进行检索、评价、合并、总结，把这些变成简单明确的结论性语言，附上相应的推荐，以帮助临床医生进行实践。一个典型的循证指南的例子，来自美国内分泌协会2010年发布的《减肥术后患者内分泌和营养管理临床指南》：

　　The Task Force recommends that postoperative glycemic control should consist of achieving glycated hemoglobin (Hb) A1c of 7% or less, with sting blood glucose no greater than 110 mg/dL and postprandial glucose no greater than 180 mg/dL (Recommendation: Strong Level of evidence: Moderate).

　　指南小组推荐将减肥术后患者的血糖水平控制在：糖化血红蛋白≤ 7%，空腹血糖 110 mg/dL，餐后血糖 180 mg/dL。（强推荐；级别中等）

　　临床医生得到这样的信息，根据自身经验，就可以在实践中做出更科学的决策。作为循证医学的终端用户，临床医生必须要懂得如何获取这些信息，以及如何理解相应的内容。例如的指南中，「强推荐」「级别中等」分别是什么意思？临床医生是必须要学习了才会充分理解的。

　　此外，科研工作者，包括临床医生、医学科学家、流行病学家、卫生统计学家等，他们一直在不断开展研究，作为「」创造者，也需要循证医学的方法来提升其研究的科学性和规范性，以创造有用的，好用的。

　　总之，循证医学面向的是临床研究者、指南制定者、临床医生。他们分别代表了「生产」、「评价和」、「使用进行临床决策」三个过程。

　　而对于一些业余爱好者，循证医学过于复杂、日新月异且场景化，实在不适合用做网络口水战的论据。

　　三、循证医学所说的「」到底是什么？

　　有人以为就是客观值，有的人认为就等于之前的一项研究，找到了研究支持就找到了。

　　要认识这个问题，必须要还原到真实的临床决策的场景中。这就是为什么非医学人士最好不要随意地引用这些概念，是因为一般人都没有站在过「临床决策」的麦克风前，理解会有偏差的。

　　一个典型的临床决策的过程：

　　一个因为心脏瓣膜病的患者，手术将原本的瓣膜置换为了人工机械瓣，体内有这种人工机械瓣会增大长血栓的风险，血栓的危害很大，比如跟随血液进入脑血管系统就会造成脑梗塞；可以让他长期服用抗凝药来预防血栓形成，但代价是他出血的风险会增大，最严重的可能会大出血。现在你是他的医生，要决定他术后是否服抗凝药，服哪种，服多大剂量，如果服用的话，如何监测以确保安全。

　　典型地纯经验主义的做法是，我以我二十年的阅历，认为吃xx药最好，因为以前有很多病人就是blablabla。这种做法的问题在于人的主观经验得出的结论是靠不住的，就像如何你在街上逛了三个月，然后根据个人告诉你说你认为xx色的出租车最多，你肯定会怀疑，因为他不可能每数，即便每数，他的也是片面的。这类论述很多，不再赘述。

　　而循证医学是要告诉我们，临床决策要依赖「」，而且这种「」一定是一种严谨观察和论证的结果，而非随意地。

　　那「」就是指相关的某项医学研究呗？这样也是有歧义的。如果是这样，就有「一项」、「两项」，「等级」就变成了某项研究的等级，同一个问题下那么多研究，我们下结论的时候，应该选择哪项研究作为「」呢？常常有些问题下，相关研究的结论并不完全一致，我们如何去「循证」？

　　一位老师做出过精辟的总结：（循证医学的）「」就是经过系统评价后的信息。这里的「系统评价」不是指那种文章类型，而是指一个过程。扩展开应该是：

　　当回答一个临床问题时，我们将回答此问题的此前所有的相关信息进行系统地收集、评价、整合，得到一个可以切实参考的依据，叫「」。

　　、美国、英国的相关研究者意识到 Evidence 这个概念的模糊性时，依然没有去给下一个具体定义，而是常用了一个新的概念：Body of evidence。意思基本等同于那位老师所论述的「」。

　　Body of evidence = Confidence in estimate

　　我们从此只讨论一个医学问题下，的情况好还是不好，用以衡量我们结论的可靠性。

　　可能你看到这会儿还是概括不出一个概念来，可目前就是这样。你需要认清的是，就是临床决策的客观依据，的等级就是客观依据的可靠性，等级反应的是全貌而非单篇研究。

　　四、循证医学希望排除医生的个人经验吗？

　　错。循证医学只是反对最新的研究，仅凭个人有限的就下结论和做决策，以及，希望将纷繁复发的进行科学地整合。循证医学认为，医生的个人经验是极为重要的。

　　根本上讲，医学是利弊权衡的过程。医生的个人经验在利弊权衡上起着举足轻重的作用。循证医学提供的只是每一种选择下的获益和风险，以及相应的把握。而对于最后的决断，只有这些远远不够。经验也是重要的。

　　例如第三点中，人工瓣膜置换后的抗凝的选择问题。当代的已经多到可以告诉你，吃哪种抗凝药，其预防血栓事件的概率有多大，而出血副作用的风险又有多大，不吃的话，分别又是什么情况，概率精确到百分位。但是，对于医生面对一个具体的病人而言，这样的信息足够了吗？远远不够。这些信息毕竟是基于人群的数据，是否适用于这个个体，对这个个体来说风险是相对统计值偏高还是偏低，这样的决断，只能依赖经验。

　　也关键，经验也关键，两者作用于不同的环节，丝毫没有冲突。

　　五、循证医学推崇的是随机对照试验至上吗？

　　不是。循证医学发展的初期（90年代）试图以研究设计（Study design，如随机对照试验、队列研究、病例对照、个案报道等）来对质量进行简单的划分，于是有了「」（请搜相关图片，有样式繁多的衍生），不久的实践中就发现这样的划分是的，缺乏实践意义的，因为研究设计并不是质量的全部，影响质量的因素起码有几十种，而且加起来的效应可能已经大于研究设计本身。此外，质量也非水平的全貌，还有些其他的因素影响着的参考价值。

　　此外，高质量的随机对照试验在很多领域是无法做到的，例如：罕见病（病例太少难以同期对照），高死亡率疾病（伦理），大部分的外科手术（伦理），传统医学（受试者纳入标准难以制定、干预中有大量混杂因素等）。

　　因此，当代的循证医学，早已不再把「」作为重点，取而代之的是包含方方面面的分级体系。

　　六、非随机对照试验的研究也可以很可靠吗？

　　有可能。在某些情况下，观察性研究的论证强度也可以大到高于随机对照试验的地步，甚至强大到没有必要再进行进一步的随机对照试验。

　　例如上世纪 40 年代的青霉素，刚面向临床就取得了难以置信的效果，经过治疗后的率、治愈率可以高于其他疗法几十倍至多。我们认为，如此大的效应量，不可能是任何系统误差能够导致的，这一定是疗效的显著。此时，对于青霉素抗感染疗效方面的观察性研究已经足以替代随机对照试验，给临床实践一个坚定的结论。这是效应量巨大使得观察性研究也足够可靠的例子。

　　还有其他情况，以后再展开。

　　七、高质量随机对照试验的结果也可能不可靠吗？

　　有可能。一些因素也可以使高质量、多中心的随机对照试验的参考价值严重削弱。

　　例如几年前爆发甲型 H5N1 时，专家推荐使用达菲作为预防和治疗的药物，但是同时也提示此推荐的依据是低级别的。你可能会觉得奇怪，达菲是是经过了多项极高质量的国际多中心双盲随机对照试验的论证的，为什么级别会低呢？因为，达菲的临床试验是在人类季节性流感的人群中进行的，H5N1 型和普通的流感是类似但不同的亚类，达菲作用机制可能对 H5N1 有效，但没有直接来证明这一点。如果此时达菲紧急用于人感染 H5N1 的治疗，并且统计出治愈率较高，事后再与没有使用达菲的病例进行结果比较，即便没有专门设立同期的对照组，没有随机没有双盲，其论证强度也可能会高于达菲此前的随机对照试验。这就是的间接性削弱的强度的例子。

　　还有很多因素其他，会影响我们对级别的评判。而到了实际决策时，还需要考虑利弊权衡等更多的方面。以后的专栏再来分享。

　　待续

　　来源：知乎

论文下载

一起来理解什么是循证医学