「DEG解析(Differentially Expressed Genes解析)」は、バイオインフォマティクス・ゲノム科学・分子生物学の分野で広く使われる重要な解析手法です。
遺伝子発現データを統計的に解析し、特定の条件下で発現量が変化する遺伝子を同定するこの手法は、疾患研究・創薬・農業・食品科学など幅広い分野で活用されています。
本記事では、DEG解析の基本概念・原理・代表的な解析ツール・統計的手法・実際の活用事例まで、わかりやすく解説していきます。
DEG 解析とは?差次発現遺伝子解析の基本を理解する
それではまず、DEG解析の基本的な概念と目的について解説していきます。
DEGは「Differentially Expressed Genes(差次発現遺伝子・発現変動遺伝子)」の略で、2つ以上の条件間(例:疾患 vs. 正常、薬物処理 vs. 対照)で発現量が統計的に有意に異なる遺伝子を指します。
DEG解析とは、RNA-seqデータやマイクロアレイデータを統計的に処理し、条件間で発現差のある遺伝子を同定・リスト化するバイオインフォマティクスの解析手法です。
DEG 解析の基本情報
・略称:DEG(Differentially Expressed Genes)
・主なデータ入力:RNA-seqデータ・マイクロアレイデータ
・目的:条件間で発現変動する遺伝子の同定・リスト化
・活用分野:疾患研究・創薬・農業・食品科学・環境科学
・代表的ツール:DESeq2・edgeR・limma(Bioconductor/R)
RNA-seq と DEG 解析の関係
現代のDEG解析の主要な入力データは「RNA-seq(RNA シーケンシング)」データです。
RNA-seqは、細胞内の全mRNA(転写産物)を次世代シーケンサーで読み取り、各遺伝子の発現量(リードカウント)をデジタル的に定量化する技術です。
RNA-seqデータを統計モデルで処理し、条件間の発現変動を検定するのがDEG解析の本質といえるでしょう。
DEG 解析の基本的なワークフロー
DEG 解析の一般的なフロー:
ステップ1:RNA-seqデータの品質管理(QC)・トリミング
ステップ2:参照ゲノム・トランスクリプトームへのマッピング
ステップ3:遺伝子ごとのリードカウントの定量化
ステップ4:統計解析(正規化・DEG検定)
ステップ5:DEGリストの出力(fold change・p値・adjusted p値)
ステップ6:機能解析(GO解析・KEGG解析・GSEA)
ステップ7:可視化(ボルケーノプロット・ヒートマップ)
DEG 解析の主要ツールと統計手法
続いては、DEG解析に使われる主要なツールと統計手法を確認していきます。
代表的な DEG 解析ツール
| ツール名 | プラットフォーム | 特徴 |
|---|---|---|
| DESeq2 | R / Bioconductor | 負の二項分布モデル・小サンプルに強い |
| edgeR | R / Bioconductor | 負の二項分布・高速処理 |
| limma-voom | R / Bioconductor | 線形モデル・マイクロアレイにも対応 |
| DEGseq | R / Bioconductor | ポアソン分布モデル |
| Sleuth | R | 転写産物レベルの発現解析に特化 |
DEG 解析における重要な統計パラメータ
DEG解析の結果を解釈するために必要な主要な統計パラメータを理解しておきましょう。
主要パラメータの意味:
Fold Change(FC):条件間の発現比率(例:2倍発現上昇 = FC 2.0)
Log2 Fold Change(log2FC):発現変動をlog2スケールで表示(上昇 = 正、低下 = 負)
p値(p-value):統計的有意性の指標(通常 p < 0.05 を閾値とすることが多い)
adjusted p値(FDR):多重検定補正後のp値(BH法などによる補正)
閾値の目安:|log2FC| > 1 かつ FDR < 0.05 が一般的なDEG判定基準
DEG 解析結果の可視化方法
DEG解析の結果は、主に以下の方法で可視化されます。
| 可視化方法 | 内容 | 特徴 |
|---|---|---|
| ボルケーノプロット | log2FCとp値の散布図 | DEGの全体像を一目で把握 |
| ヒートマップ | DEGの発現パターンを色で表示 | クラスター構造の把握 |
| MAプロット | 平均発現量と発現変動の関係 | 正規化のチェックに使用 |
| 主成分分析(PCA) | サンプル間の類似性を可視化 | 外れ値・バッチ効果の確認 |
DEG 解析の活用事例と注意点
続いては、DEG解析の具体的な活用事例と解析上の注意点を確認していきます。
DEG 解析の主な活用分野
DEG解析はバイオメディカル研究・農業・環境科学など多様な分野で活用されています。
主な活用事例:
・疾患研究:がん細胞 vs. 正常細胞の発現比較による疾患マーカーの同定
・創薬:薬物処理後の遺伝子発現変動解析による作用機序の解明
・植物科学:ストレス応答・品種間比較による有用遺伝子の探索
・環境科学:汚染物質への曝露による生物の遺伝子応答解析
DEG 解析の注意点と限界
DEG解析を行う上での重要な注意点も把握しておきましょう。
サンプル数が少ない場合は統計的検出力が低下し、偽陰性が増える可能性があります。
適切な生物学的反復実験(通常3反復以上)の確保が信頼性の高いDEG解析の基本といえるでしょう。
また、統計的有意性と生物学的意義は必ずしも一致しないため、機能解析・文献調査と組み合わせた総合的な解釈が重要です。
まとめ
本記事では、DEG解析の基本概念・ワークフロー・主要ツール・統計パラメータ・可視化方法・活用事例まで詳しく解説しました。
DEG解析は現代バイオメディカル・ゲノム科学研究の中核をなす解析手法であり、RNA-seqデータを活用した遺伝子発現研究に不可欠なスキルです。
DESeq2・edgeR などのツールを活用し、適切な統計基準と生物学的解釈を組み合わせた質の高い研究を目指していきましょう。