IgBlast本地化操作指南
网页IgBlast由于很难抓取数据进行处理(根本原因是我不太会网页数据抓取和AIRR格式的解析),因此使用NCBI的本地IgBlast程序进行部署,数据输出使用CSV文件,这样更方便的去进行后续处理。
本地版igblast下载地址:https://ftp.ncbi.nih.gov/blast/executables/igblast/release/LATEST/
在此我使用了win11与WSL-Ubuntu版本。
Ubuntu:
安装的是ncbi-igblast-1.22.0-x64-linux.tar.gz 。
将IMGT的Germline文件下载到本地后,新建IMGT文件夹,在igblast根目录下使用root分对VDJ三个文件进行以下两条命令:(来源:https://ncbi.github.io/igblast/cook/How-to-set-up.html)
数据库处理命令:
./bin/edit_imgt_file.pl [V文件fasta的位置] > ./IMGT/human_V.fasta
./bin/makeblastdb -parse_seqids -dbtype nucl -in ./IMGT/human_V.fasta
需要将H、K、L参考序列数据库文件合并成一个文件(例如Human的VH、VK、VL合并成一个human_gl_V.fasta)。
进行Fasta文件Igblast运行命令是:
./bin/igblastn \
-germline_db_V database/human_gl_V.fasta \
-germline_db_J database/human_gl_J.fasta \
-germline_db_D database/human_gl_D.fasta \
-organism human \
-query [fasta路径] \
-auxiliary_data optional_file/human_gl.aux \
-evalue 20 \
-show_translation > igblast_test.txt\
WIN11:
下载了perl解释器,ncbi-igblast-1.22.0-win64.exe,解压。
安装过程同ubuntu,命令在管理员模式下的命令行中运行。
值得注意的是在使用perl的时候,edit_imgt_file.pl输出的总是UTF-16LE编码的文件导致无法进行makeblastdb操作。没有解决,选择在Ubuntu中处理好再复制到win系统中进行makeblastdb。
这些是数据库处理命令
perl D:/NCBI/igblast/bin/edit_imgt_file.pl D:/NCBI/igblast/IMGT/IGHV_H.fasta > D:/NCBI/igblast/database/human_gl_V.fasta
perl D:/NCBI/igblast/bin/edit_imgt_file.pl D:/NCBI/igblast/IMGT/IGHD_H.fasta > D:/NCBI/igblast/database/human_gl_D.fasta
perl D:/NCBI/igblast/bin/edit_imgt_file.pl D:/NCBI/igblast/IMGT/IGHJ_H.fasta > D:/NCBI/igblast/database/human_gl_J.fasta
perl D:/NCBI/igblast/bin/edit_imgt_file.pl D:/NCBI/igblast/IMGT/IGHV_M.fasta > D:/NCBI/igblast/database/mouse_gl_V.fasta
perl D:/NCBI/igblast/bin/edit_imgt_file.pl D:/NCBI/igblast/IMGT/IGHD_M.fasta > D:/NCBI/igblast/database/mouse_gl_D.fasta
perl D:/NCBI/igblast/bin/edit_imgt_file.pl D:/NCBI/igblast/IMGT/IGHJ_M.fasta > D:/NCBI/igblast/database/mouse_gl_J.fasta
下面是工作命令:
D:/NCBI/igblast/bin/igblastn -germline_db_V D:/NCBI/igblast/database/human_gl_V.fasta -germline_db_J D:/NCBI/igblast/database/human_gl_J.fasta -germline_db_D D:/NCBI/igblast/database/human_gl_D.fasta -organism human -query D:/NCBI/igblast/test/1.fasta -auxiliary_data optional_file/human_gl.aux -evalue 20 -out D:/NCBI/igblast/1.tsv -outfmt -show_translation