滑铁卢大学的研究人员率先开发了一种软件工具,可以为世界上一些最引人入胜的问题提供确凿的答案。
该工具结合了有监督的机器学习和数字信号处理(ML-DSP),可以首次有可能明确地回答诸如地球和海洋中存在多少种不同物种的问题。现有的,新发现的和灭绝的物种如何相互关联?人类线粒体DNA的细菌来源是什么?寄生虫的DNA及其宿主是否具有相似的基因组特征?
该工具还有可能通过识别病毒的特定菌株来积极影响个性化医药行业,从而允许开发和处方精确药物来治疗它。
ML-DSP是一种无对齐的软件工具,它通过将DNA序列转换为数字(数字)信号来工作,并使用数字信号处理方法来处理和区分这些信号。
滑铁卢数学系教授Lila Kari说:“使用这种方法,即使我们只有小片段的DNA,我们仍然可以对DNA序列进行分类,无论它们的来源如何,或者它们是天然的,合成的还是计算机生成的。” 。“这个工具的另一个重要潜在应用是在医疗保健领域,因为在这个个性化医疗时代,我们可以根据影响他们的病毒的特定菌株对病毒进行分类并定制特定患者的治疗。”
在这项研究中,研究人员在两个小型基准数据集和一个大型4,322脊椎动物线粒体基因组数据集上与其他最先进的分类软件工具进行了定量比较。“我们的研究结果表明,ML-DSP在处理时间方面绝对优于基于对齐的软件,同时在小数据集的情况下具有可比性的分类精度,在大型数据集的情况下具有优势,”Kari说。“与其他无对齐软件相比,ML-DSP具有更好的分类精度,整体速度更快。”
作者还进行了初步实验,表明ML-DSP可用于其他数据集,将4,271个完整的登革病毒基因组分类为亚型,准确率为100%,将4,710个细菌基因组分为95.5%。
一篇详细介绍新软件工具的文章,名为ML-DSP:机器学习与数字信号处理,用于在所有分类水平上进行超快,准确和可扩展的基因组分类,由Kari与西方大学博士候选人Gurjit Randhawa和Kathleen Hill博士共同撰写,我们生物系副教授