瑞士洛桑大学研究人员在Cancer Cell期刊上发表了一篇题为"Machine learning methods and harmonized datasets improve immunogenic neoantigen prediction"的研究论文,该研究开发了一种基于机器学习的方法,旨在改善对具有免疫原性的新抗原和突变的预测和筛选,以开发有效的个性化癌症免疫治疗方法。
过去的研究已经提出了多种算法,根据新抗原在患者HLA分子上表现的可能性和被高亲和性T细胞克隆型特异性识别的可能性对其进行评分和排名。也有研究团队提供了突变检测和新抗原优先排序的方法。然而,不同实验室对新抗原的排名几乎没有共同性,不同数据集的免疫原性预测方法的表现也不一致。
随着数百或数千个新抗原免疫原性测量数据集的出现,机器学习(ML)方法可以训练强大的免疫原性预测算法,同时考虑到数据的多维结构。最近的研究表明,基于机器学习模型的排名优于仅基于结合亲和力的排名。这种优先考虑免疫原性新抗原的改进对新抗原或mRNA疫苗尤为重要。
在这项研究中,研究团队使用了两个公共数据集,分别来自美国国家癌症研究所(NCI)的112位癌症患者和来自肿瘤新抗原筛查联盟(TESLA)的8位癌症患者,以及一个由11位癌症患者组成的数据集,用于研究最先进的机器学习算法的性能。
研究团队重新处理了所有120名癌症患者的全外显子组测序(WES)和RNA测序(RNA-seq)数据,并结合了11位患者的内部数据集,鉴定出46017个体细胞单核苷酸突变和1781445个新肽,其中212个突变和178个新肽具有免疫原性。
这些结果表明,在大型美国国家癌症研究所(NCI)数据集上训练的分类器可以准确地预测每个测试数据集上新抗原的免疫原性。通过正交特征,基于机器学习的方法优于之前已发表的方法,并将排名前20的免疫原性肽数量增加了30%。与肿瘤新抗原筛查联盟(TESLA)研究报道的排名相比,该研究开发的机器学习方法在三个排名评估指标中的两个排名第一。
除了通常用于新抗原优先排序的特征外,诸如新肽在HLA蛋白呈递热点内的位置、结合混杂性以及突变基因在致癌性中的作用等因素也是预测免疫原性的重要因素。除了对新抗原排序的机器学习方法的见解之外,该研究还提供了有价值的均匀化数据集,用于开发和基于新抗原的免疫疗法的配套算法。
这项研究为免疫原性新抗原的预测和筛选提供了新的方法和思路。通过利用机器学习的能力和结合多个数据集的信息,研究团队成功地提高了新抗原免疫原性的预测准确性,并扩大了排名前20免疫原性肽数量。这对于个性化癌症免疫治疗的发展具有重要意义。
未来的研究可以进一步优化和改进机器学习方法,探索更多的预测免疫原性的因素,并丰富均匀化数据集,以提供更准确和可靠的预测结果。这将有助于推动免疫疗法的发展,为患者提供更有效、个性化的治疗方案。
总之,基于机器学习方法和均匀化数据集的研究对于改善免疫原性新抗原的预测具有重要意义。该研究不仅提供了新的预测方法和排名指标,还为个性化癌症免疫治疗的发展奠定了基础。进一步的研究将进一步推动免疫疗法的发展,为患者提供更好的治疗选择。