GEO 数据上传指南
在完成了高通量测序分析以后,为了将用户的实验数据与全世界其它研究者共享,在用户的研究转化为论文发表之前,用户需要先向 GEO 数据库上传用户的原始数据。GEO 数据库,全称 Gene Expression Omnibus,中文直译意为“基因表达集锦”,为美国国家生物信息中心(NCBI)管理的基因表达谱和 RNA 修饰谱的数据库。
今天小编就为用户介绍 GEO 数据上传的基本操作。在上传数据之前,用户需要事先创建 NCBI 账号,准备需上传的文件,并安装 FTP 上传软件。
1、创建NCBI账号
自 2021 年 6 月起,NCBI 因为安全理由已停止新用户注册。若用户未在以前创建过 NCBI 账号,则需要借由第三方账户登入。
首先,在电脑浏览器中访问 NCBI 网站(https://www.ncbi.nlm.nih.gov),点击右上角的“Sign in to NCBI”。
随后,在左侧面板中选择“Sign in with”中选择任意一个的第三方登入选项。
如用户不具备 NCBI 首推的 Google、NIH、eRA这三个第三方登录选项的账号,用户仍可以点击“See more 3rd party sign in options”从中搜寻用户所具备的第三方登录方式。对于大学在校师生而言,用户可以尝试搜索你所在的大学名称;我们还建议在中国大陆网络环境下的用户,可以搜索“Microsoft”,以微软账户登入。
完成了 NCBI 账号的创建以后,用户还需要完善用户的 GEO 个人信息(浏览器访问 https://www.ncbi.nlm.nih.gov/geo/submitter/),填写用户的姓名、所在单位、电子邮箱地址等,其中带星号(*)的项目为必填。填写完成后,请点击“Save”键保存。NCBI 官方提示,请用户避免使用qq.com、 163.com 或 foxmail.com 等中国国内商用邮箱,以保证用户能稳定收到 NCBI 发送给用户的电子邮件。
2、上传数据
在用户完成 NCBI 账号注册和 GEO 个人信息填写后,就可以开始上传用户的实验数据了。在 NCBI 网站(https://www.ncbi.nlm.nih.gov)点击如下图灰色方框所示的“Submit”图标,浏览器即会跳转至“Submission Portal”界面。在“Submission Portal”界面的输入框中输入“GEO”,搜索框下方就会显示 GEO 链接,请点击进入。
进入 GEO 主页
(https://www.ncbi.nlm.nih.gov/geo/info/submission.html)请选择用户需要上传的数据类型。下面以高通量测序实验数据为例,请点击“Submit high-throughput sequencing”。
准备需上传的文件
有以下三部分文件需要上传:元数据表格、处理过的数据,以及原始数据。
(1)元数据表格
向下拖动网页,看到“Download metadata spreadsheet (template and examples)”的超链接,点击即可下载“seq_template.xlsx”元数据表格文件。下载后,请按照要求填写元数据表格,内容包括研究的描述性信息、各样本信息、所有实验方法和数据处理方法、以及对处理过的数据和原始数据文件名的说明等。
(2)处理过的数据
(3)原始数据
继续向下拖动网页,看到对处理过的数据文件(“Processed data files”)以及原始数据文件(“Raw data files”)的要求。请用户仔细阅读并按照要求准备文件。处理过的数据文件,可以直接使用云序生物提供的表达谱结果表格(注:请勿将 BAM 文件当作 Processed data files 上传);原始数据文件,建议使用 Gzip 压缩后的 FASTQ 文件,云序生物已经为用户将 FASTQ 文件压缩为 GZ 格式,用户可以直接用于上传。
创建个人上传空间
在用户按照要求准备好上传所需的元数据表格、处理过的数据文件,以及原始数据文件后,请继续向下拖动网页,点选“Transfer Files”按钮。在随后进入的网页里,点击“Create personalized upload space”按钮。等待数秒后,刷新网页,即可看到用户的个人上传空间已经创建完成。
FTP 上传文件
随后,点击“Transfer Files”左侧的三角形箭头,可展开如下图所示的文件传输说明。其中,有 FTP 上传文件所需的服务器主机地址(host address)、用户名(username)、密码(password)以及用户的个人上传空间的文件夹路径,请用户记录下来,并在 FTP 上传软件中填写(操作方法描述见后)。
在用户按照文件传输说明执行完 a 到 i 的全部数据上传步骤后,请不要忘记提醒告知 GEO 你已完成上传:继续向下拖动网页,点击“Notify GEO”按钮。
3、FTP上传软件的安装和使用
但凡在云序生物做测序的用户,我们已经为用户下载好了 FTP 软件 FileZilla 客户端的安装文件,请在用户的实验报告文件夹的下述路径中到照与用户系统版本(32位或64位 Windows 操作系统)对应的安装文件,双击后按照指引完成软件安装:
“Report\Sequence_Results\GEO_Upload\ftp software”
如果用户使用的电脑操作系统为 macOS 或 Linux,可以前往 FileZilla 官网的下载页面(https://filezilla-project.org/download.php?type=client)下载与用户操作系统对应的客户端版本。
安装好 FTP 上传软件 FileZilla 后,打开软件,在相应位置填写用户之前记录下来的服务器主机地址(host address)、用户名(username)和密码(password),端口可留空。随后点击“快速连接”按钮。首次连接时,软件可能会弹窗警告,请勾选“总是允许在该服务器上执行不安全的明文 FTP(A)”,然后点击“确定”按钮。如果用户的电脑上安装了安全软件或开启了防火墙,建议用户暂时停用,或单独允许 FileZilla 软件的 FTP 连接。
由于上传的原始数据文件较大,且服务器位于国外,所以上传时间可能较久,请用户耐心等候。请注意文件名和文件夹路径当中,须避免出现汉字等非 ASCII字符。若很长时间仍未完成上传,或出现软件卡死等现象,建议用户删除上传了一半的内容,重新尝试上传。
4、上传成功以后
全部数据上传完成以后,请逐一检查本地文件(下例图左)和服务器上同名文件(下例图右)的大小是否相同,若出现同名文件大小不同的情况,说明文件上传过程中可能受损,请用户删除该文件后重新上传。
最后,请用户不要忘记在 GEO 的网站上点击“Notify GEO”按钮
(https://www.ncbi.nlm.nih.gov/geo/info/submissionftp.html)。
在此之后,用户将收到一封来自 GEO 的电子邮件,告知你所上传的文件是否已被 GEO 成功收录。
5、温馨提示
由于 GEO 数据上传对于大部分杂志的论文发表是必需的,而操作过程的繁琐以及网络的不稳定等因素又可能导致数据难以一次性上传成功,加之 GEO 需要大约 5 个工作日来检查用户上传的数据,基于小编的经验,建议客户至少在截止日期一个月前开始进行 GEO 数据上传的工作,以免耽误论文的正常发表。
如果用户不希望用户的数据在论文发表前公开发布,以避免数据泄露的可能性,那么用户可以通过 GEO 网站设置或电子邮件的方式,指定一个论文发表后的日期作为 GEO 数据公布的时间。
咨询
- 465
- 点赞
- 复制链接
- 举报