背景介绍:小张准备把前辈文献里的二代测序数据下载进行重复分析,于是开心的查找从NCBI数据库下数据的方法。可是,事情并不是太顺利。从一些网络资料那里知道aspera下载速度快,但是我总是报错,最后还是转向prefetch下载,速度不太快。不过,今天,Aspera,YES!
日期:2020年8月26日
编辑:小张
Aspera的安裝(V3.9.6)
# 下载第3版本的软件安装包
# 官方网址:https://www.ibm.com/aspera/connect/
# 第4版本的软件与第3版本的密钥文件有差异
# 第4版本的下载地址:https://d3gcli72yxqn2z.cloudfront.net/downloads/connect/latest/bin/ibm-aspera-connect_4.2.7.445_linux_x86_64.tar.gz
wget -c https://download.asperasoft.com/download/sw/connect/3.9.6/ibm-aspera-connect-3.9.6.173386-linux-g2.12-64.tar.gz
# 解压并安装
tar xzvf ibm-aspera-connect-3.9.6.173386-linux-g2.12-64.tar.gz
bash ibm-aspera-connect-3.9.6.173386-linux-g2.12-64.sh
# 查看用户目录下是否有.aspera文件夹,如果有证明安装成功。
cd && ls -la
# 将命令路径添加到环境变量
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc && cp ~/.bashrc~ /.bash_profile
# 重新加载环境变量
source ~/.bashrc ~/.bash_profile
# 将ascp密钥复制到根目录下,缩短命令
cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ~/
# 新建存放数据的目录
mkdir -p raWdata/ascp
原始数据检索
是从宏基因组微信公众号上文章“252体现组间差异OTU模块的微生物网络图”中提到的参考文献。
从ENA-Browser查找PRJEB27162项目数据,单击
Show Column Selection
展开选项,勾选run_accession
,fastq_md5
,fastq_aspera
,然后下载为TSV文档,其中包括项目数据名称和其fastq文件的aspera地址。如:assesion号ERR3887438对应的aspera地址为:fasp.sra.ebi.ac.uk:/vol1/fastq/ERR388/008/ERR3887438/ERR3887438_1.fastq.gz;fasp.sra.ebi.ac.uk:/vol1/fastq/ERR388/008/ERR3887438/ERR3887438_2.fastq.gz。
数据下载
单一数据下载
# 下载单个fastq数据,保存到当前路径。
ascp -QT -l 400m -P33001 -k 1 -i ~/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/ERR388/008/ERR3887438/ERR3887438_1.fastq.gz ./
批量下载数据
使用ascp_download.sh
脚本批量下载数据,首先需要从ENA下载含有fastq_aspera
的TSV文件,fastq_aspera在第n列,就把ascp_download.sh
中的$3改成$n。
# ascp_download.sh脚本内容如下
#!/bin/bash
read -p "please input your .tsvfile downloaded from ENA:" input
awk -F'\t' 'NR>1 {print $3}' $input | sed 's/;/\n/g'|awk '{print "ascp -QT -l 400m -P33001 -k 1 -i ~/asperaweb_id_dsa.openssh era-fasp@" $0" ./"}' > download.txt
bash download.txt && rm download.txt