文章摘要: 制药行业可以获得大量数据:电子健康记录、基因组信息、真实世界的证据等等。所有这些数据组合起来可以称为大数据。挖掘隐藏在大数据中的模式可以为该行业带来巨大的价值。 通过利用大数据,制药行业可以推动药物开发过程每一步的改进,从药物发现和确定新靶标开始,通过临床试验和监管审批,再到营销和上市后监控。 在制药行业采用大数据是一项充满挑战的企业,需要公司克服组织孤岛、无缝集成不同的数据源并确保合规性。 三年前,制药行业面临着前所未有的挑战。现在,危机中吸取的教训正在推动整个行业的变革。 新型冠状病毒在全球迅速蔓延后不久,这场骚动就开始了。制药公司吸引了全球的关注,努力 ,同时继续向有需要的患者供应重要的医疗产品。 开发新的 COVID-19 疫苗 该行业出色地抵御了危机。但我们看到的是,制药公司再也无力承担被动的危机管理费用。应该出现新的范式,帮助行业解决 ,即: 早就该解决的问题 2022年新药开发成本将达到22.84亿美元 2022 年平均周期时间将增至 7.09 年 医药研发投资回报率下降至1.2%。 行业参与者可能会锁定科学合作伙伴关系、投资新兴市场并使其产品组合多样化来应对这些问题。然而,对于拥有十年 和 经验的技术爱好者,我们建议考虑另一种方式——基于数据的方式。 提供大数据咨询服务 制药软件解决方案 在这篇博文中,我们探讨了大数据在制药领域的潜力,并探讨了大数据技术改变药物开发、批准和营销方式的基本方式。 什么是制药行业的大数据?它如何转化为价值? 制药行业产生大量信息。临床试验数据、电子健康记录、基因组信息、真实世界证据和患者报告的结果——所有这些数据条目组合起来可以称为大数据。 从本质上讲,大数据是任何格式和来源的大量且多样化的信息,可以通过分析转化为见解。 将大数据转化为大洞察的标准流程如下: 这一切都始于收集相关数据。它的类型和来源可能有很大差异。制药行业大数据的常见信息类型: 包含药物评估过程中收集的信息。它可能包括研究方案、参与者人口统计数据、病史、治疗反应、不良事件、实验室测试结果等。 临床试验数据 ,包括在实际临床实践中受控临床试验环境之外收集的数据。它可以涵盖索赔、可穿戴设备和电子健康记录的数据以及患者报告的结果。 真实世界的证据 涉及个体遗传信息的 ,包括 DNA 变异、基因表达谱和基因组生物标志物,以及与药物发现相关的分子的结构、相互作用和功能的信息。 基因组学和分子数据 ,包括患者的病史、过敏、诊断、实验室结果和其他相关信息。 电子健康记录 涵盖 X 射线、MRI 和 CT 扫描的 。 成像数据 ,揭示与药物相关的不良事件和安全问题。 药物警戒和不良事件报告 涵盖研究论文、会议记录和专利的 。 科学文献 是指由所谓的“组学”学科生成的大规模数据集,例如基因组学、代谢组学、蛋白质组学、转录组学等。 “组学数据” 在加载到数据仓库之前(想想:所有制药大数据的集中存储),从多个来源检索的信息会经过清理和转换。这是确保数据清晰、正确并转换为统一格式的重要步骤。然后,清理和整理的数据将存储在数据仓库中,以便轻松访问并进行分析。 大数据在制药行业的基本用例 药物研发是一条漫长而充满风险的道路。很少有候选药物能够进入市场。在进入临床前测试的 5,000 种化合物中,平均只有 5 种 。最初的 5,000 种药物中只有一种获得批准用于临床。 能够进行人体测试 好消息是,在药物开发过程的每一步,制药大数据都可以派上用场。 药物发现 药物研发和药物发现的基础阶段始于研究人员在细胞或分子水平上了解疾病背后的过程。确定潜在目标后,接下来的过程是寻找可以与目标相互作用并干扰其活性的化合物。 研究人员现阶段面临的主要挑战包括确定有效且安全的靶标,以及寻找具有所需效力、选择性和安全性的化合物。 通过利用制药大数据,研究人员可以解决这些问题并提高药物发现的速度和有效性。 目标识别和验证 可以使用大数据集成来自不同来源的数据集。通过分析这些多维数据集,研究人员可以更快地 、药物适应症和药物反应生物标志物,并降低风险。 识别新靶点 最近创建并 许多用于临床前药物发现的参考制药大数据集: 公开了 :多种生物体的单核苷酸多态性 (SNP),包括超过 1.5 亿个人类参考 SNP。 dbSNP :基因组结构变异主要由已发表的各种生物体研究产生,包括超过 210 万个人类 CNV。 dbVar :主要是来自专家管理和全基因组筛选的体细胞突变,包括超过 350 万个编码突变。 COSMIC :大量人群的基因组,提供人类遗传变异的综合资源;该数据集涵盖 2,500 多个样本。 千人基因组计划 :包含 10,000 个样本的 30 多种癌症的基因组学和功能基因组学数据存储库。主要数据类型包括突变、拷贝数、mRNA 和蛋白质表达。 TCGA :由 NCBI 托管的功能基因组学数据存储库,包括超过 160 万个样本。 GEO :由 EBI 托管的功能基因组学数据存储库,包括超过 180 万个样本。 ArrayExpress :正常组织的转录组图谱,包括 45 种组织类型的 7,000 多个样本。 GTEx :1,000 多种癌细胞系的遗传和药理学特征。 CCLE 这些制药大数据集被广泛用于识别目标分子。 例如,在药物发现中,基因表达是最广泛使用的分子特征之一,已用于指导靶标选择。 一组研究人员利用公开的制药大数据集来 ,并将其与正常乳腺组织进行比较。通过分析数据集中的大数据,他们发现癌症样本中的 MTBP 基因显着升高。将研究结果与生存数据交叉引用还表明,MTBP 增加与患者生存率较差显着相关。 检查 844 个乳腺癌样本的 mRNA 表达 在上面的例子中,目标是由研究人员提出的。有了医药行业的大数据,通过分析公共大数据也可以直接发现目标。通过这种方式,一组研究人员 ,但没有考虑到特定的靶点。他们分析了公共制药大数据集的基因表达数据和乳腺肿瘤起始细胞的基因表达谱,发现了癌细胞系中 mRNA 表达较高的 13 种激酶。随后的验证将候选激酶列表减少到八种激酶,其中三种被选为治疗靶点。 寻找了在乳腺癌中具有致癌性的可药物激酶 预测建模 传统上,研究人员使用植物或动物化合物来测试候选药物。 2022 年 9 月,美国参议院通过了 FDA 现代化法案 2.0, ,包括计算机模型。 允许使用动物测试的替代方案 基于计算机模型的方法可以绕过与动物测试相关的不准确性和道德问题。它还具有使该部门更接近人类生物活动的真实表现的潜力。 制药中使用的预测建模技术之一是药代动力学建模。思考:利用制药大数据、数学方程和计算机模拟来了解药物在人体内的“行为”。该方法有助于预测药物服用后会发生什么,包括药物如何被吸收、分布、代谢和消除。 另一种基于制药大数据的有前景的技术是器官芯片技术。器官芯片是利用微流控细胞结构模拟人体器官功能和生理环境的聚合物芯片,用于体外疾病建模、药物测试和精准医疗。我们 ITRex ,该平台显示了其在解决与动物测试相关的问题方面的有效性。该平台已被 100 多个实验室采用,有助于加速药物开发并降低相关成本。 帮助创建了一个芯片器官平台 精准医疗 精准医学可以定义为一种旨在在正确的时间为正确的人提供正确的治疗的方法。传统上,针对大多数临床问题,精准策略仍然是人们所渴望的。如今,大数据在制药领域的使用日益广泛,有望实现这一理想目标。 基于大数据的药物开发较少依赖于先验知识,有可能揭示与疾病相关的意想不到的途径,为更高程度的精确性和个性化铺平道路。一些机构已经在 。 利用这种新颖的方法 例如,具有相似癌症亚型的患者在接受相同的化疗药物时通常会有不同的反应。据信药物反应受到基因组不稳定性的影响。使用大数据正在成为研究基因组学与化疗耐药性、毒性和敏感性之间复杂关系的流行方法。 例如,科学家可以通过癌症基因组图谱研究网络发起的泛癌症项目发现新的癌症畸变。其他几个项目,例如癌细胞系百科全书和癌症药物敏感性基因组学,也在生成药物大数据,以研究基因组生物标志物与药物敏感性之间的联系。 临床试验 临床试验的目的是判断一种治疗方法对人类是否安全有效。 通常,它分为三个连续阶段,从第一阶段开始,其中药物在一小群健康个体上进行测试,到第二阶段,其中药物在显示出目标特定病症的更大群体中进行测试,所有进入涉及更多患者的第三阶段的方式。 这个过程一直是漫长而乏味的。幸运的是,随着大数据在制药领域的广泛采用,临床试验也在发生变化。 更快的招聘 全球十分之九的试验 。一些试验——尤其是那些测试罕见或危及生命的疾病的治疗方法的试验——很难招募到足够的受试者。通常,临床试验涉及两组:接受正在测试的新治疗的测试组和不接受治疗、安慰剂或当前标准治疗的对照组。 无法在目标时间内招募到足够的人员 请记住,患有危及生命的疾病的患者需要快速帮助,他们不想被随机分配到对照组。再加上需要招募病情相对罕见的患者,招募时间长达数月之久。 大数据可以帮助绕过完全雇用控制组的需要。这个想法是使用基于过去试验中生成的制药大数据创建的“虚拟对照组”。 为了寻找可能的对照组候选者,研究人员使用研究试验中的关键资格标准,例如疾病的主要特征及其进展程度。标准临床试验以类似的方式选择对照患者。不同之处在于,不依赖当前试验期间收集的数据,而是使用过去的数据。不过,就目前而言,虚拟对照组并不能取代传统的临床试验,而是一种快速评估新疗法是否值得采用的方法。 药物临床试验中大数据的另一个方面是允许有针对性的招募。借助新技术,研究人员可以根据新的数据来源(例如社交媒体)招募患者。权衡遗传信息、疾病状况和个体特征等标准变得更加容易。 高效的试验管理 在制药领域使用大数据可以改变临床试验的设计和管理方式。现在,研究人员可以实时跟踪和检测药物暴露水平、药物提供的免疫力、治疗的耐受性和安全性,以及对新兵安全至关重要的其他因素,而不仅仅是在试验完成后。 研究人员通过利用制药大数据取得的成果包括: :分析历史试验数据可以帮助为样本量计算提供信息。 最佳样本量计算 :大数据可以帮助识别影响治疗反应的患者特征、生物标志物或遗传因素。这可以帮助研究人员将患者分为亚组,以分析特定人群中的治疗效果。 分层和亚组分析 :分析制药大数据可以促进适应性试验设计,并让研究人员根据中期结果改变试验参数。研究人员现在可以深入研究趋势、治疗反应或安全信号,以便就修改试验参数(例如样本量或入组标准)做出明智的决定。 适应性试验设计 质量控制和合规性 制药领域的大数据正在彻底改变传统的药品质量控制方法,使制药公司能够实施更好的质量控制流程、简化 并提供更安全、更有效的药品。制药大数据可以产生重大影响的领域包括: 合规工作 改善药物警戒和不良反应监测 由于临床试验中样本数量有限,许多不良反应,尤其是罕见的不良反应未被发现。这就是为什么即使在药物释放后也有必要对其进行监测的原因。 考虑到社交媒体已成为表达客户担忧和报告副作用的平台,制药公司开始利用大数据工具来利用这些宝贵的信息。 从社交媒体收集的患者报告的药物不良反应甚至可以比医疗专业人员记录的更准确。 FDA 和 Epidemico 进行的一项研究 ,发现其中 4,401 条类似于不良事件报告。进一步将研究结果与 FDA 持有的数据进行比较,发现非正式社交媒体报告与临床试验中记录的报告之间存在高度相关性。 检查了 690 万条推文 强化合规管理 制药行业的大数据在促进监管合规方面发挥着重要作用。制药行业的公司受到复杂的法规网络的约束,包括 GMP(良好生产规范)和 GCP(良好临床规范)以及严格的数据隐私法。药品大数据可以帮助公司监控关键绩效指标、识别合规差距并主动解决潜在问题。 制药公司可以通过使用自动化监控系统和 及早 、偏差和不合规活动,从而最大限度地降低监管风险。此外,通过结合历史数据、 和先进的统计技术,制药公司可以开发预测模型,预测潜在的质量风险,优化预防性维护计划,并促进数据驱动的决策。 大数据分析解决方案 检测异常 机器学习算法 销售和营销 通过利用医药大数据,企业可以预测行业趋势,并根据人口统计因素预测特定药品的销售情况。这可以帮助根据客户行为定制药品营销活动。 与上述用例类似,抓取互联网上可用的数据(包括社交媒体数据)可以帮助制药公司衡量 。这可能有助于制药公司了解他们的产品是如何被接收的。 客户对其产品的情绪 在制药行业采用大数据的挑战 尽管大数据给制药行业带来了诸多好处,但企业仍然有意识地彻底改革其数据管理流程。我们汇总了公司在制药行业采用大数据时可能面临的一系列挑战,以降低您的实施过程的风险。 挑战1. 整合数据源 将所有数据源紧密联系起来是制药行业获得大数据优势需要克服的关键挑战之一。在制药领域有效利用大数据需要整合药物开发过程各个阶段生成的数据,从发现到监管审批再到实际应用。 需要许多功能:收集可信数据、连接这些来源、执行可靠的质量保证、管理工作流程等等。 端到端数据集成 一般来说,由于涉及风险和成本,我们建议避免一次性彻底检修数据基础设施。更安全的方法是逐步集成您的数据源,首先确定需要处理的特定数据类型,并根据需要 。目标是首先处理关键数据,以便尽快获得投资回报。同时,您可以开发用于集成较低优先级的数据源的方案。 创建额外的仓储功能 挑战 2. 克服组织孤岛 如果不克服组织内的孤岛,端到端的数据集成几乎是不可能的。传统上,在制药行业,不同的团队对其系统和数据负责。转向以数据为中心的方法,为跨职能孤岛和数据管道的每种类型的数据提供明确的所有者,这将有助于提高制药行业从大数据中产生价值的能力。 挑战 3. 监管合规性 在制药行业采用大数据并推出集中式数据管理系统,必须确保数据得到安全可靠的处理。 FDA 要求该部门使用的软件(例如,用于处理电子健康记录或管理临床试验的系统)满足许多要求,包括访问控制程序、用户身份验证、执行操作的跟踪等。在规划项目时,请务必仔细研究相关的合规性要求并将其纳入数据管理解决方案的设计中。 挑战4.缺乏处理大数据的人才 传统上,制药行业在技术采用方面进展缓慢,因此许多公司仍然缺乏实现其雄心勃勃的计划所需的人才。制药行业参与者必须想出一种适当的方法来缩小知识差距——无论是培养内部人才还是求助于外部团队。 而不是下结论 制药业的大数据为创新、效率和改善患者治疗结果提供了巨大的机会。随着制药大数据市场的持续增长,公司正在采用这种变革性技术来保持竞争力。 如果您寻求释放大数据的真正力量并推动药物开发的突破, ,我们将回答任何尚未解答的问题。 请联系我们的专家 也发布 。 在这里