宏基因组数据提交GSA实操手册—发表文章前必备技能-蚂蚁淘商城

新闻动态

宏基因组数据提交GSA实操手册—发表文章前必备技能

2025-11-08

GSA简介GSA是Genome Sequence Archive的缩写，即基因组序列存档，由中科院基因组所主办。网址：http://gsa.big.ac.cn/之前介绍过NCBI提交测序数据，- 原始数据极速上传NCBI SRA教程，还有中国核酸数据库GSA数据提交指南。这些教程太过于笼统，对于特定类型数据的信息填写大家还有很多困惑。因为，我们带来了微生物组领域最常用的扩增子和宏基因组数据提交教程。16S扩增子数据提交GSA实操手册—发表文章前必备技能今天为大家推荐由中科院基因组所创办的国内大数据中心GSA的宏基因组数据提交实例。网址：http://gsa.big.ac.cn/全中文界面，被Nature、Science和Cell等顶级杂志全面认可。可实现全自动化数据提交，无人值守，有问题邮箱和QQ群技术支持。联系方式：gsa@big.ac.cn；QQ群：548170081开始前准备：注册/登陆访问：http://gsa.big.ac.cn/ ，第一次使用请先点击菜单栏右侧的 Register ，按提示注册一个新用户。一定要记清楚你的用户名和密码，成功后重新访问主页点击 Login 登陆。登陆成功，右上角会显示 Welcome, XXX新建BioProject主页 http://gsa.big.ac.cn/点击主页面中的\"提交”——访问 http://gsa.big.ac.cn/ ，使用组内帐号登陆 Login，点击提交可看到历史提供GSA记录。新项目要建新BioProect。http://bigd.big.ac.cn/gsub/submit/bioproject/list必须的信息主要是提交者个人基本信息，还有项目的名称、基金和简介等。如下为一个示例的项目信息供参考：项目标题: Human gut microbiome涉及领域: Medical项目说明: Human gut microbiota relation with cancer数据类型：Metagenome 和 Metagenomic assembly样品范围：Enviroment一般提交后马上可获得项目编号，如PRJCA00xxxx这种格式，请记录好，马上要用，文章里也要写。注：一篇文章中一般有一个项目号，但一个项目可以有多种类型、多批次的数据，即可以包括下次不同批次的GSA。数据上传使用Filezilla登陆 submit.big.ac.cn ，帐号和密码同网站注册账号，登陆Filezill新建站点填写内容：主机、账号和密码登陆成功后，上传数据至GSA目录中(最好每批数据建一个子目录，再把左侧数据选中后右键上传或托入右侧)批量提交样本信息主页 http://gsa.big.ac.cn/提交 —— 新建GSA批量提交01 提交者信息默认会自动填写你注册时预留的信息，可直接点击保存并进入下一项02 基本信息发布日期默认选择审核通过后即可发布（推荐）阅读下方声明请后，选择I accept it.填写样本标题和描述，如下示例标题：A simple metagenome project for pipeline test描述：Shotgun metagenome of human gut microbiota. Two groups include normal and caner. Each group has 6 individuals.项目编号可以选择你之前创建的BioProject。点击保存并进入下一项03 样本类型选择Metagenome，有人类肠道（human-gut）、土壤（soil）和水（water）三大类。我们选择human=gut注：不是以上三类，属于其它，选择Metagenome/Environmental Sample (GSC MIMS unsupported)点击保存并进入下一项04 样本属性下载 BioSample批量提交模板文件 MetagenomeMIMS.me_human-gut.cn.xlsx，也有示例文件e.g.MetagenomeMIMS.me_human-gut.cn.xlsx供参考(注：这个模板是人类扩增子的模板，对于宏基因组参考意义不大)。注：模板经常更新，请以官网为准，本次提供的文件仅供参考。主要填写的字段介绍，详见e.g.MetagenomeMIMS.me_human-gut.cn.xlsx表格中的Description页面有比较详细的中文简介：可以只读星红色的必填部分下面是一些我的个人经验*sample_name: 样品名，推荐字母开头，字母和数据组合的名称，且必须唯一，详见样品命名注意事项实例教程。*public_description：填写样本的详细描述，重点突出你的实验分组信息，比如我们实验是分为2组，每组有6个个体，这些分类和个体描述是重点。如\"Gut microbiota from cancer patient 1”*project_accession填写；即本项目注册的项目编号 PRJCA00xxxx*sample title；可以是样本名的全称描述。如”Shotgun metagenomic sequencing of human fecal C1。*organism：物种，单一物种要填拉丁名，我们研究肠道宏基因组是多物种，填写human gut metagenome*host：宿主来源，添宿主的拉丁名，如人类填写Homo sapiens*collection_date：采样时间，年月日格式，如2014/8/1*geographic_location：采样地点，国家：省/市，如China: Beijing*latitude_longitude：经纬度，最好采样的时间用手机指南指定位下，格式到小数点后两位分，如：39.91 N 116.34 E。百度地图中——开放平台——坐标拾取器，可显示目标的经纬度。*env_broad_scale: 样本生存大环境的描述，如人类肠道填写\"digestive tract enviroment”，土壤就填 soil*env_local_scale：添加对样本有因果影响的小环境描述，支持多个词用逗号分隔，此处填\"Intestinal”*environment_medium：样本中包含的物质，此处填\"fecal material”其它非必须选项可如实填写即可，没有可不填填写完的示例格式填写并保存好Excel样本信息后（MetagenomeMIMS.me_human-gut.cn.xlsx），点击请选择文件选择样本信息文件，然后点上传，然后再点击校验。没问题会提示Checked OK上传并校验成功。如果校验失败，请参考error.txt报告和参考的模板修改，直到通过校验。点击保存并进入下一项05 元数据信息下载元数据提交模板文件 GSA_Template.cn.xlsx，也有示例文件e.g.GSA_Template.cn.xlsx供参考(不过这个示例是m6A转录组测序数据，不是扩增子或宏基因组，参考意义不大)包括Experiment(实验样品)和Run(测序样品，一个实验样品可能有多个测序样品)两页：实验样品信息下面是官方描述可以读一下实验样本信息的填写说明。再往下有我的填写经验指南：*ID：E1, E2, …，不够的按顺序补，多余的删除。我们有12个样品，则删除E13起的样品名*Experiment title：如果你的实验和样本是一一对应，此处可以填写上面样品的public_description(样本描述)，或者进一步技术简介，如样本描述sample_title，如\"Shotgun metagenomic sequencing of human fecal C1”*BioProject accession: 同上 project_accession*BioSample name：同上 sample_nameBioSample accession：不填*Platform：选择测序平台，有几十种可选，宏基因组PE150测序常用 Illumina HiSeq X ten，NovaSeq 6000两种平台，PE100常用 BGISEQ-500 平台。这里我们使用的是 BGISEQ-500 产出的PE100数据，支持国产测序仪。*DNA for each sample was extracted with FastDNA SPIN Kit (MP Biomedicals), sheared to approximately 300-500 bp using a Covaris S220 instrument. Then the libraries were constructed through end-repair, A-tailing, adapter ligation. Then it was sequenced on BGISEQ-500 platform in PE100 mode.”Library name：文库名称，样本来源的文库ID，可用于研究批次效应，可不填*Strategy：建库类型，选择\"WGS”*Source：实验材料来源类型，选择\"METAGENOMIC”*Selection：片段的富集或选择方法，鸟枪法宏基因组选\"unspecified”*Layout：测序模式，这里选\"PAIRED”*Read length for mate1(bp)：填写 100。Illumina 平台产出数据多为150，华大BGISEQ-500产出为100Read Insert size (bp)length for mate 2(bp)：填写 100，同上Insert size (bp)：填写400，为片段的中位数，可以查看建库的胶图，也可以问实验人员打断的长度主体。实验信息填写的结果预览。测序样品信息填写说明，请阅读：下有是我的填写经验：ID: R1, R2, …，不够的按顺序补，多余的删除。12个样删除R12后面的行*Run title：与Experiment title 一致。注：存在一个Experiemnt有多个Run的情况，在宏基因组中很常见，如一个样本需要300GB的数据，可能需要几个文库分别建库测序才能获得目标数据量。*BioProject accession: 同上project_accession*Experiment accession，复制自Experiment页第一列*Run data file type: 选择 fastq*File name 1: 如命令 ls|grep \'_1.\' 获得左端序列文件名，并复制填入表(默认按字母顺序，需要确定样本已经按名称排序才能对应)MD5 checksum 1: 在命令行用md5sum *_1.fq.gz 计算左端数据md5值，并按Alt矩形选择数据粘贴入表格即可File name 2: 如 ls|grep \'_2.\' 获得右端序列文件名，并复制填入表(默认按字母顺序，需要确定样本已经按名称排序才能对应)MD5 checksum 2: 在命令行用 md5sum *_2.fq.gz 计算右端数据md5值，并按Alt矩形选择数据粘贴入表格即可获取文件名列表和计算md5sum值和过程。注意文件名和顺序。测序文件信息填写的结果预览。填写并保存好Excel样本信息后，点击请选择文件选择样本信息文件，然后点上传，校验。没问题会提示Checked OK点击保存并进入下一项06 文件上传我们之前已经通过Filezilla的FTP方式上传了文件，此处什么也不用操作。点击保存并进入下一项即可。如果提示 \"离开此网站”，点击\"离开”即可。07概况信息展示提交项目的基本信息，最后阅读确定。有问题可以点击上方的各步数字按扭跳转修改。下面是每个样本的信息，没问题点击提交。大功告成。注：宏基因组一般几G-几十G要等1-2天，数据检查通过后才会分配GSA编号。文件校验需要时间，上TB级别的数据，可能校验需要几周。而且过大的文件也容易报错，如果归档失败，请及时联系数据中心工作人员处理。如果自己文件有问题，需要删除损坏的文件重新上传。常见问题数据上传速度我使用GSA上传数据，推荐使用Filezilla的FTP模式，支持断点续传，速度非常快。建义在教育网、科技网环境下使用，最快可达40 MB/S，即一般千兆网速的速度(代宽是由你的网络供应商决定的)，和移动硬盘往电脑上复制飞一般的感觉。如果你的数据特别多，而且传输速度也不快，可以联系GSA的邮箱或QQ（见主页），应该可以邮寄硬盘的。在北京，离基因组所不远可以亲自去现场复制。上传Clean data还是Raw data一般公司返回的数据，分有clean data和raw data两类，区别是raw data是下机按index拆分的原始数据，clean data是去除建库引物、接头污染和低质量后的序列。公司一般是按clean data收费的，而用户推荐直接使用 clean data开展下游分析。clean data 去掉的都是垃圾，raw data一般情况下真的没什么用，即浪费空间，又增长传输时间。除非你发现clean data中有问题，需要自己设置规则重新过滤，才需要使用raw data。结论：一般只使用或上传clean data即可。上传宏基因组数据是否要去除宿主关于这个问题，答案是都可以。但人类最好要去除宿主在上传，因为有个人隐私的问题。对于宿主污染特别高的宏基因组样本，如阴道液、皮肤、口腔、植物根或叶相关等。也建议去除宿主后再上传。举个简单的例子，研究叶片的宏基因组，微生物含量仅为0.2%。你想获得6 Gb的宏基因组数据，如果叶片不进行微生物富集实验，则需要测序 6 / 0.2% = 3000 Gb的数据，一是成本过高，二是数据上传也是极耗时的。这种情况非常推荐你过滤宿主基因组相关序列，仅上传非宿主部分的宏基因组即可。恭喜你成为个图VIP！在打印前，点击\"下一步”观看2个提示下一步全部全站无广告全屏阅读全站电子书免费读VIP专属标识微信支付查找\"商户单号”方法：1.打开微信app，点击消息列表中和\"微信支付”的对话2.找到扫码支付给360doc个人图书馆的账单，点击\"查看账单详情”3.在\"账单详情”页，找到\"商户单号”4.将\"商户单号”填入下方输入框，点击\"恢复VIP特权”，等待系统校验完成即可。支付宝查找\"商户订单号”方法：1.打开支付宝app，点击\"我的”-\"账单”2.找到扫码支付给个人图书馆的账单，点击进入\"账单详情”页3.在\"账单详情”页，找到\"商家订单号”4.将\"商家订单号”填入下方输入框，点击\"恢复VIP特权”，等待系统校验完成即可。请通过以下步骤，尝试恢复VIP特权第1步在下方输入你支付的微信\"商户单号”或支付宝\"商家订单号”第2步点击\"恢复VIP特权”，等待系统校验完成即可如何查找商户单号？订单号过期！该订单于2020/09/09 23:59:59支付，VIP有效期：2020/09/09 23:59:59至2020/09/11 23:59:59！如需使用VIP功能，建议重新开通VIP返回上一页

本文链接： https://www.ebiomall.cn/b15-covaris/info-1312748542.html

免责声明本文仅代表作者个人观点，与本网无关。其创作性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不做任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

没有了

...Fixed Paraffin-Embedded and Fresh Frozen Tissue Samples

1970-01-01

Covaris ML230 聚焦超声样本处理系统全新发布

1970-01-02

宏基因组数据提交GSA实操手册—发表文章前必备技能

2024-01-08

ki67免疫组化步骤_ki67免疫组化步骤【价格,厂家,图片,批发,采购】_丁...

2011-08-22

ABgene代理21_化学试剂_常用实验试剂_普通试剂_产品库_中国化工...