使用ascp下载ENA原始测序数据

2022-09-28

生物信息工具

背景介绍：小张准备把前辈文献里的二代测序数据下载进行重复分析，于是开心的查找从NCBI数据库下数据的方法。可是，事情并不是太顺利。从一些网络资料那里知道aspera下载速度快，但是我总是报错，最后还是转向prefetch下载，速度不太快。不过，今天，Aspera，YES！

日期：2020年8月26日

编辑：小张

Aspera的安裝（V3.9.6）

# 下载第3版本的软件安装包
# 官方网址：https://www.ibm.com/aspera/connect/
# 第4版本的软件与第3版本的密钥文件有差异
# 第4版本的下载地址：https://d3gcli72yxqn2z.cloudfront.net/downloads/connect/latest/bin/ibm-aspera-connect_4.2.7.445_linux_x86_64.tar.gz
wget -c https://download.asperasoft.com/download/sw/connect/3.9.6/ibm-aspera-connect-3.9.6.173386-linux-g2.12-64.tar.gz
# 解压并安装
tar xzvf ibm-aspera-connect-3.9.6.173386-linux-g2.12-64.tar.gz
bash ibm-aspera-connect-3.9.6.173386-linux-g2.12-64.sh
# 查看用户目录下是否有.aspera文件夹，如果有证明安装成功。
cd && ls -la
# 将命令路径添加到环境变量
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc && cp ~/.bashrc~ /.bash_profile
# 重新加载环境变量
source ~/.bashrc ~/.bash_profile
# 将ascp密钥复制到根目录下,缩短命令
cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ~/
# 新建存放数据的目录
mkdir -p raWdata/ascp

原始数据检索

是从宏基因组微信公众号上文章“252体现组间差异OTU模块的微生物网络图”中提到的参考文献。

从ENA-Browser查找PRJEB27162项目数据，单击Show Column Selection展开选项，勾选run_accession，fastq_md5，fastq_aspera，然后下载为TSV文档，其中包括项目数据名称和其fastq文件的aspera地址。

如：assesion号ERR3887438对应的aspera地址为：fasp.sra.ebi.ac.uk:/vol1/fastq/ERR388/008/ERR3887438/ERR3887438_1.fastq.gz;fasp.sra.ebi.ac.uk:/vol1/fastq/ERR388/008/ERR3887438/ERR3887438_2.fastq.gz。

数据下载

单一数据下载

# 下载单个fastq数据，保存到当前路径。
ascp -QT -l 400m -P33001 -k 1 -i ~/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/ERR388/008/ERR3887438/ERR3887438_1.fastq.gz ./

ascp_downloading

批量下载数据

使用ascp_download.sh脚本批量下载数据，首先需要从ENA下载含有fastq_aspera的TSV文件，fastq_aspera在第n列，就把ascp_download.sh中的$3改成$n。

# ascp_download.sh脚本内容如下
#!/bin/bash
read -p "please input your .tsvfile downloaded from ENA:" input
awk -F'\t' 'NR>1 {print $3}' $input | sed 's/;/\n/g'|awk '{print "ascp -QT -l 400m -P33001 -k 1 -i ~/asperaweb_id_dsa.openssh era-fasp@" $0" ./"}' > download.txt
bash download.txt && rm download.txt