最新新闻
三星显示器通过 Sync-OLED 平台在 OLED 研究上加倍努力 三星Galaxy S21 Ultra 在 Galaxy S22 Ultra 发布之前就停产了 三星电子英国加入沃达丰的 business.connected 计划 Galaxy S22 将在三星的 Decentraland 虚拟世界中推出 Galaxy S22 发布后加入三星的元宇宙寻宝游戏 斯巴鲁惨淡的财务报告及其对新车购买者的意义 消费者报告分析师推荐立即购买低于建议零售价的新车 这就是 Lucid Airs 内饰的特别之处 科尼赛克的夸克电动机重 63 磅 功率为 335 马力 经典雪佛兰发动机交换注意事项 BANSBAO斑消宝强势宣告品牌实力,霸屏纽约纳斯达克 为家庭而生的电视 创维守护者Q41 Pro革新智慧守护家庭新体验 Omega Plus奥鲑冠,爱宠的海洋营养专家,宠主的好帮手 【亚洲电缆】电缆进水的处理办法及预防措施 跨境电商卖家选择积加ERP,究竟能为自己带来哪些好处? 狗狗驱虫用什么牌子的好?驱虫要选爱沃克 Google 确认 Material You 动态主题将出现在更多设备上 适用于 Android 的 Apple Music 测试版参考了未发布的 Apple Classical 应用程序 如何为 Google Pixel 和其他 Android 设备下载 Android 13 Reddit 揭示了其 Clubhouse 克隆 Reddit Talk 的新功能 Windows 11 build 22000.526 为 Beta 的任务栏带来天气 微软将为心怀不满的 G Suite 旧用户提供 Microsoft 365 优惠 谷歌+最终将在 2023 年随着Currents的关闭而永远消失 三星 Galaxy S22 系列是否支持无线充电 谷歌确认三星 一加等公司将在 Android 12 上使用其动态颜色主题 HP CHROMEBOOK X360 14C 评测 只需一秒钟即可使用 ULEFONE ARMOR X10 打开应用程序 TECNO全球首发多色光异构技术 经济实惠的坚固型 OUKITEL WP18 即将推出 三星 Galaxy S22 Ultra 提供高达 1TB 的存储选项
您的位置:首页 >资讯 > 科技 >

基因检测存在数据问题 新软件可以提供帮助

2019-05-05 11:49:06   来源:
导读 近年来,直接面向消费者的基因检测市场已经爆发。2017年使用家庭DNA测试的人数增加了一倍以上,其中大部分在美国。现在,25个美国成年人中

近年来,直接面向消费者的基因检测市场已经爆发。2017年使用家庭DNA测试的人数增加了一倍以上,其中大部分在美国。现在,25个美国成年人中大约有1人知道他们的祖先来自哪里,这得益于AncestryDNA和23andMe等公司。

随着测试变得越来越流行,这些公司正在努力解决如何存储所有累积数据以及如何快速处理结果的问题。由Purdue大学的研究人员创建的一种名为TeraPCA的新工具现在可以提供帮助。结果发表在Bioinformatics期刊上。

尽管人们存在许多身体差异(由种族,性别或血统等因素决定),但任何两个人的遗传基因相同,都是99%。最常见的遗传变异类型,即导致我们不同的1%,被称为单核苷酸多态性或SNP(发音为“snips”)。

SNP在每1,000个核苷酸中几乎发生一次,这意味着每个人的基因组中存在大约4到5百万个SNP。即使是一个人,这也是需要跟踪的大量数据,但对数千或数百万人来说,这是一个真正的挑战。

大多数关于人类遗传学中人口结构的研究使用了一种称为主成分分析(PCA)的工具,该工具分析了大量变量并将其减少到仍包含大部分相同信息的较小集合。减少的变量集(称为主要因子)更容易分析和解释。

通常,要分析的数据存储在系统内存中,但随着数据集变大,运行的PCA由于计算开销而变得不可行,研究人员需要使用外部应用程序。对于最大的基因检测公司来说,存储数据不仅昂贵且技术上具有挑战性,而且还存在隐私问题。这些公司有责任保护成千上万人的极其详细的个人健康数据,并将其全部存储在硬盘上,这可能使他们成为黑客的一个有吸引力的目标。

与其他核外算法一样,TeraPCA设计用于处理数据太大而无法同时适应计算机的主存储器。它通过一次读取大块数据集来理解大型数据集。

“2017年,我遇到了一些来自大型基因检测公司的人,我问他们在运行PCA时做了些什么。他们使用的是FlashPCA2,这是行业标准,但他们对服用的时间不满意, “Aritra Bose博士说。普渡大学计算机科学专业的候选人。“对于一百万个人的基因数据和使用FlashPCA2的许多SNP运行PCA需要几天时间。可以在五到六个小时内用TeraPCA完成。”

新计划通过近似主要组成部分来缩短时间。Bose表示,舍入到三位或四位小数的结果与原始数字一样准确。

“在遗传学方面工作的人不需要16位精确度 - 这对练习者来说无济于事,”他说。“他们只需要三到四个。如果你可以减少它,那么你可以很快得到你的结果。”

通过使用多个计算线程(称为“多线程”),TeraPCA的时序也得到了改善。线程有点像装配线上的工人;如果流程是经理,则线程是勤奋的员工。这些员工依赖于相同的数据集,但他们执行自己的堆栈。

今天,大多数大学和大公司都有多线程架构,但FlashPCA2没有利用它。对于像分析遗传数据这样的任务,Bose认为这是错失的机会。

“我们认为我们应该利用现在存在的多线程架构来构建一些东西,而且我们的方法可以很好地扩展,”他说。“TeraPCA与您拥有的线程数呈线性关系.FlashPCA2不会这样做,这意味着需要很长时间才能达到所需的精度。”

根据该报告,与FlashPCA2相比,TeraPCA在单个线程上表现相似或更好,并且在多线程方面表现更好。该代码现在可在GitHub上获得。

该研究得到了国家科学基金会的支持。Vassilis Kalantzis是IBM Research的Herman H. Goldstine纪念博士后研究员,是该论文的共同第一作者。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。