科研必看，你有担心过数据库的基因是错的吗？？？-环球风云-资讯-生物在线

科研必看，你有担心过数据库的基因是错的吗？？？

作者：上海吉凯基因医学科技股份有限公司 2022-07-01T11:24 (访问量:5159)

做为一个在科研服务圈摸爬滚打七年之久的老干部，见过形形色色的实验问题，但要说最悲催的，还属一个即将博士毕业的老师，在论文即将投稿之计，偶然发现NCBI数据库将其当做编码基因研究的分子，更新为了非编码基因，这如同一个晴天霹雳砸懵了他，最终换了课题延迟毕业。

如果你觉得上述案例只是个例，那就错了。

以NCBI为例，人基因下辖转录本数量动辄数十个，甚至上百个，但小鼠就没这么多了，其他物种一个基因往往只收录了一个转录本，是人类太高级了？一个基因需要表达很多模板行使功能？答案是否定的，自然面前人与动物是平等的，在基因数量方面，人的少于很多生物，甚至少于昆虫，转录本数量也是一样。

以当前生物圈研究极为深入的分子TP53为例，谷歌以“TP53”为词条搜索，结果达一千五百万条，按理说，其序列应该是确定的了，但在两大核酸数据库里，两者的信息：

Ensembl数据库收录的TP53转录本数量：

NCBI数据库收录的TP53转录本数量：

可以看出，在Ensembl数据库中，共收录了27个转录本，三个非编码，二十四个编码；而NCBI收录了十五个编码的转录本，转录本数量就差了接近一倍；再看转录本长度，完全一致的不超过三个；蛋白差异只有一半的转录本是一致的。

想想看，研究透彻程度超过TP53分子的不会超过十个，但是人光编码基因就有2w+，如果连人的基因研究都不够透彻，那其他物种的就没法看了。

当前数据库信息的更新情况

以C9orf62为例，其在2020年八月之前转录本为NM_173520.3，是典型的编码转录本，而现在是NR_171012.1，名称也修正为非编码的名称LINC02907

小鼠Gm10033在2019年四月之前转录本是非编码的NR_038044.1；之后变为编码基因且含有两种不同形式的蛋白转录本NM_001374600.1，NM_001374599.1

在短短的三年时间之内，人、小鼠、大鼠三大物种的基因及转录本条目数更新信息如下：

新增基因17,461个，新增的基因下的新增转录本30,202条
修改基因163,800个，修改的基因下新增了转录本135,739条，修改的基因下修改了转录本268,789条，修改的基因下删除了转录本51,9007条
删除基因98,014个，删除的基因下删除了转录本70,182条

这是个多么恐怖的更新数量，由此，我们对当前数据库的很多基因序列是抱着怀疑的态度审视的。

为何基因会有如此多的转录本呢？

在蛋白数据库UNIPROT的expression处对TP53标注如下：

由此可见，虽然一个基因有很多转录本，但这些转录本有明显的组织倾向性或者在限定的发育时间表达，众多的转录本不是一窝蜂表达出来的；此外，一些转录本在特定情况，如免疫，缺氧，精神紧张这些外部刺激的因素下限定表达。

基因or转录本为何出现不准确的情况

测序技术：测序技术在不断的发展，基因组或者基因序列如果存在复杂情况（高/低GC、重复序列等），序列是测不准，测不通的；测出来的序列可能也存在误差；

样本问题：当前数据库收录的数据也是从样本测序得来的，要代表全人类的基因，则需要足够的样本量；不同时期，若数据库测序所用样本不一样，则基因数据肯定也存在差异；

数据库收录基因是否编码属性时，很多以软件预测是否有足够长的编码区而编订，并不是依据RNA测序+蛋白质谱相匹配标定转录本，因此会存在很多编码属性错误的转录本。

基因or转录本信息异常可能导致的后果

基因及转录本是否存在：如果因为测序样本或技术的问题，将原本不存在的分子纳入研究范畴，无疑是水中捞月，白忙活；

功能标注错误：最代表的就是非编码基因标注为编码属性、非编码属性标注为编码基因，这种错误是极为致命的；

启动子错误：启动子是基因表达的重要开关，也是研究的热点，由于转录本在不断更新，有相当多的转录本其5UTR序列在更新前后是存在差异的；而启动子是根据5UTR的第一个碱基作为转录起始位点，通常取其上游2000bp做为研究对象，因此，转录本更新前后的启动子序列也是不一样的，可能对结果造成实际的影响；

3UTR错误：同，转录本序列的频繁更新是一定会波及3UTR，而3UTR一直以来都是研究miRNA、蛋白结合的热点区域，再加上现在RNA修饰如m6A的调控，如果序列不一样，验证结果也是不一样的。

如何避开因数据库信息错误导致的坑

重点来了，作为一位科研工作者，如何避免掉入错误数据的坑呢？

文献支撑：对于有参考文献的，重点核实文献的转录本信息（当然，文献一般不给转录本ID，那就根据引物、编码区长度、蛋白大小等有用的信息确认转录本），寻找数据库跟其一致的转录本；

信息核实：对于没有参考文献的基因，核实不同数据库转录本数量、基因长度、编码属性等信息的异同；

初步验证：针对目的基因进行WB，以确认细胞表达的蛋白大小，从而锁定目标转录本；或更为简便的方法是，针对目的基因的RNA同源区设计引物，进行扩增测序，确认细胞实际表达哪些转录本，再进行挑选研究，避免太多无效转录本的干扰（这也是关键问题，很多老师问，转录本太多，我怎么知道挑选哪个进行研究，所以比较简便的是验证下实际表达的转录本）；

对于较新的分子，或者是未曾研究过的分子，无论是编码基因还是非编码基因，对于其是否具有编码能力，可以采取构建质粒验证下，成本不高，周期也很快；

对于启动子、3UTR研究的老师，可以做RACE测序，确认全长的UTR序列；觉得RACE麻烦的话，可以针对目标UTR设计PCR引物，验证是否存在对应的RNA序列（例如：在预测miRNA-3UTR结合时，targetscan经常引用旧数据，取结合位点，但是新的转录本序列不含此结合序列，那么简单的方法就是验证细胞的此基因是否含有此结合序列，就针对结合序列两侧设计PCR引物扩增cdna，能够扩增出，就说明结合序列存在的，数据库信息有误，则可以放心大胆的验证）。

最后

古语有云，尽信书，不如无书，经过小编上面简单的论述，相信大家对基因数据有一定的了解，希望各位在科研的路上，不要太执迷于数据库的信息，凡是抱着怀疑的态度看待问题，一切以实验数据，而不是固定的信息为准，才能少走弯路。

吉凯基因可以提供一站式的基因查询，比对，及各类验证方案的设计、定制服务，有需要的老师，多多咨询！！！

上海吉凯基因医学科技股份有限公司商家主页

地址：上海市浦东新区张江高科技园区爱迪生路332号

联系人：

电话： 4006210302

传真：

Email：service@genechem.com.cn