久久无码中文字幕_日韩精品无码一本二本三_久久精品呦女暗网_欧美一级夜夜爽_久久精品国产99久久99久久久

11
2022/04

TCGA數(shù)據(jù)庫悄咪咪更新了—RNAseq沒有HTSeqCou

發(fā)布時間:2022-04-11 13:44:07
發(fā)布者:sgz
瀏覽量:
0

前面的小編給大家詳細介紹了一下TCGA這個數(shù)據(jù)庫,以及如何從這個數(shù)據(jù)庫下載并合并表達譜數(shù)據(jù)。然后進行差異表達分析和構(gòu)建ceRNA網(wǎng)絡(luò)。

?如何合并TCGA表達譜數(shù)據(jù)

?零代碼合并TCGA表達譜數(shù)據(jù)

?零代碼TCGA差異表達分析

?R代碼TCGA差異表達分析

?一文掌握ceRNA網(wǎng)絡(luò)構(gòu)建

最近發(fā)現(xiàn),TCGA的RNAseq這些數(shù)據(jù)似乎已經(jīng)更新了。這應(yīng)該是2022年4月初發(fā)生的事情。讓我們來看看具體的區(qū)別。我們?nèi)匀徽J為CHOL以這套數(shù)據(jù)為例,解釋如何下載和處理新版本TCGA中的RNAseq數(shù)據(jù)。miRNA數(shù)據(jù)沒有變化。

1.打開TCGA官網(wǎng)https://portal.gdc.cancer.gov/.輸入搜索框chol,選擇第一個PR(project),TCGA-CHOL

2.單擊跳轉(zhuǎn)頁面RNA-Seq后面的數(shù)字

3. 點擊新打開的頁面左上角Files

4.接下來是不同的地方,你可以看到workflow type里面沒有HTSeq-Counts取而代之的是STAR-Counts。我們選擇這個STAR-Counts。

你會發(fā)現(xiàn)STAR-Counts有88份文件,其中44份是Gene Expression Quantification,這是我們合并表達譜所需的文件。剩下的44份文件是Splice Junction Quantification,這主要是檢測新的轉(zhuǎn)錄本或集成文件。此外,這44份文件屬于controlled下載文件需要申請權(quán)限。

5.勾選Gene Expression Quantification,點擊右邊的Add All Files to Cart。

6. 這個時候在我們的購物車(右上角)里面就會出現(xiàn)剛才選擇的44個文件。

我們需要在這里下載sample sheet,點擊Sample Sheet。下載的文件打開如下,可以看到新版本TCGA的counts文件的名稱不再是帶有的htseq.counts.gz后綴的壓縮文件變成了star_gene_counts.tsv為后綴的文本文件。

還需要下載包含表達譜數(shù)據(jù)的所有內(nèi)容star_gene_counts.tsv文件。點擊Download,點擊下拉框中的Cart。將下載壓縮文件。

解壓后會有44個文件夾

每個文件夾都有一個star_gene_counts.tsv,我們可以隨意打開一個,這個文件的內(nèi)容與舊版本完全不同,包含更多的信息。甚至包括RNA類型很容易區(qū)分mRNA和lncRNA此外,你不必擔(dān)心基因的名稱ID轉(zhuǎn)換問題。

這里除了有STAR-counts,還有TPM,F(xiàn)PKM和FPKM_UQ。這些數(shù)據(jù)的具體計算方法可以參考TCGA官方文檔https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/
STAR-counts計算比較直接,就是有幾個reads比較相應(yīng)的基因,counts就是幾。

TPM,F(xiàn)PKM和FPKM_UQ定義如下。

FPKM The fragments per kilobase of transcript per million mapped reads (FPKM) calculation aims to control for transcript length and overall sequencing quantity.Upper Quartile FPKM The upper quartile FPKM (FPKM-UQ) is a modified FPKM calculation in which the protein coding gene in the 75th percentile position is substituted for the sequencing quantity. This is thought to provide a more stable value than including the noisier genes at the extremes.TPM The transcripts per million calculation is similar to FPKM,but the difference is that all transcripts are normalized for length first. Then,instead of using the total overall read count as a normalization for size,the sum of the length-normalized transcript values are used as an indicator of size.

TPM,F(xiàn)PKM和FPKM_UQ計算方法如下。

官方網(wǎng)站還給出了詳細的例子,幫助您理解計算過程

Examples Sample 1: Gene AGene length: 3,000 bp1,000 reads mapped to Gene A1,000,000 reads mapped to all protein-coding regionsRead count in Sample 1 for 75th percentile gene: 2,000Number of protein coding genes on autosomes: 19,029Sum of length-normalized transcript counts: 9,000,000FPKM for Gene A = 1,000 * 10^9 / (3,000 * 50,000,000) = 6.67FPKM-UQ for Gene A = 1,000) * 10^9 / (3,000 * 2,000 * 19,029) = 8.76TPM for Gene A = (1,000 * 1000 / 3000* 1,000,000 / (9,000,000)= 37.04

今天的分享先到這里,我們將介紹如何合并新版本TCGA數(shù)據(jù)庫中的counts表達譜矩陣。

TCGA數(shù)據(jù)庫悄悄更新—RNAseq沒有HTSeq-Counts了

   

返回列表