比利时的一生微电子中心(IMEC)的研究人员已经开发出一个大数据平台,可以分析DNA数据,比当前方法快16倍。
该平台叫做ELPrep5,针对制药行业,科学研究,医学实验室,测序服务提供商,测序供应商和医院的用户。
IMEC表示,ELPREP5可以从广泛使用的基因组分析工具包(GATK),从数据准备到类似的硬件基础架构的变体调用,对ELPREP5进行8至16倍。
大部分速度改进是变体呼叫,分析基于原始DNA样品的重建DNA片段的过程以检测遗传变体。
执行此分析是一种计算沉重的挑战。尽管过去十年的DNA分析实质性降低了,但整个基因组可能需要2至三天。IMEC声称ELPrep5可以在几小时内进行全基因组分析,而不会影响输出的质量。
IMEC主要科学家Roel Wuyts表示,Elprep5的性能优势来自重写测序管道。“Elprep的软件架构内部熔化了用户所选步骤的执行,高度并行性算法和这些步骤的实现,并且在可用时充分利用了大的内存容量。特别是这三种技术的集成,从而导致这种快速执行速度。
“该集成还意味着整个测序管道由最终用户作为单个命令行调用制定。这使得ELPrep5比使用更常用的方法更容易使用多种不同工具来实现管道的各个步骤的更常见方法,“他补充道。
ELPREP5是通过Google开发的开放源编程语言的,并且可以在大多数医院在本地或云中运行的标准服务器运行。与C ++和Java相比,它选择了出现的研究,发现它在运行时性能和内存使用之间具有最佳平衡。
“这是我们多年来一直在预期的突破。最后,我们可以使用单一的软件平台解决方案运行整个DNA分析管道,比以往任何时候都更快,“IMEC研究员夏洛特赫尔拨。
“因为变体调用是最复杂的一步,收集结果快于先前方法的速度快16倍导致四到九倍的时间减少,而且保留了GATK-相同的结果。
“对于医疗领域,这允许大量效率提升,因为采样和诊断之间的时间急剧下降,医生可以在一夜之间运行分析。此外,由于许多医院通过租用的云解决方案进行了分析,因此降低的吞吐量可以立即导致每分析降低成本,“她补充道。
作为研究组织,IMEC虽然知识产权许可,但IMEC向合作伙伴提供了新技术。在ELPREP的情况下,可以使用开源许可证,以及升级开源限制和优先支持的高级许可证。
“这意味着用户可以通过为开源版本提供反馈或贡献代码来支持持续开发或在经济上支持我们。因此,我们可以实现进一步的ELPREP改进,进一步扩大其功能,“Wuyts表示。
根据技术研究公司IDC,亚太委员会的大数据和分析解决方案的收入将在2020年击中22.6亿美元,四家企业今年计划保留或增加其大数据分析投资。
版权及免责声明:凡本网所属版权作品,转载时须获得授权并注明来源“科技金融网”,违者本网将保留追究其相关法律责任的权力。凡转载文章,不代表本网观点和立场,如有侵权,请联系我们删除。