摘要: | 代謝症候群 (Metabolic Syndrome) 是引起多種慢性疾病的源頭之一,近年來相關之研究指出代謝症候群是腦血管疾病、心臟病、糖尿病及高血壓的高風險因子;隨著基因定序工程的完成,人們得以藉由基因檢測,在早期發現與疾病相關的基因而及早預防疾病之發生。而基因檢測方法的良窳,關係到能否找出與疾病確實相關的基因。目前偵測複雜性疾病的基因-基因交互作用,在生物醫學領域,一般以邏輯斯迴歸 (Logistic Regression, LR) 為最主要的檢測方式。此外,近幾年由資訊領域發展出來的分類迴歸樹 (Classification and Regression Tree, CART) 也受到廣泛應用。2001年新的檢測技術—多因子降維法(Multifactor Dimensionality Reduction, MDR) 被發表,其無母數且不需模型假設的優點,使得檢測的方法有了更進一步的發展。
本研究之目的有二,首先藉由模擬的資料,比較邏輯斯迴歸、分類迴歸樹及多因子降維法三種不同統計方法,對資料中具有兩階交互作用項 (Two-way interaction) 時的檢測能力,比較其檢定力(POWER)。其次,利用所選定的統計方法,從11個與代謝症候群因子相關的基因中,尋找單核苷酸多型性 (Single-Nucleotide Polymorphism, SNP) 與代謝症候群的相關性。
本研究使用軟體R (版本:2.12.2) 產生模擬資料,模擬基因的套件 (package)為scrime。藉由不同SNP個數(n.snp=10和20)、樣本數(n=300、600及1200)、病例對照比例(case:control=1:1、1:2、1:3及1:4)及次要對偶基因頻率(maf=0.05、0.1、0.2、0.3及0.4)產生不同模式的病例對照組(Case-Control)基因資料;並以檢定力為標準,對不同模式下的統計量進行比較。真實資料的來源,則選自大台中地區,為一個以群體為基底的病例對照研究 (Population-Based, Case-Control Study),其資料收錄期間從2004年10月至2005年10月,共收錄439位年齡在40歲以上 (平均年齡約為57歲)的居民,其中有238位代謝症候群病例及201位對照組(case/control=1.184)。
研究結果顯示,模擬資料在SNP的個數越多時,邏輯斯迴歸的檢測結果越差;當樣本數越大,三個檢測統計方法表現相對良好;而當病例對照比例差異越大時,可以發現邏輯斯迴歸檢測的效果也越差;當對偶基因頻率越大時三個檢測方法都會受到其影響,造成檢定力的下降,綜合所有模式的結果,以分類迴歸樹的檢定力表現最為穩定,檢定力都能維持在90%以上的水準。而在代謝症候群資料的分析,以邏輯斯迴歸及多因子降維法所得到顯著的二階交互作用項為rs7539542和rs2302559,基因型組合在GG / TC、CC / TT、GC / TC及CC / TC的勝算比依序為Inf、1.689、1.478及1.126,而分類迴歸樹所得模式為rs1501299和rs17782313,在CA / CC、CC / TC、CC / CC、AA / CC、CC / TT及AA / TT基因型組合下,勝算比為Inf、3.506、2.337、1.558、1.204及1.151,發展成為代謝症候群的風險較高,可能是影響代謝症候群的危險因子。透過交叉驗證一致性(Cross Validation Consistency,CV)分析,邏輯斯迴歸的CV為4/10,分類迴歸樹為6/10,而多因子降維法為8/10。
由模擬資料結果發現,分類迴歸樹及多因子降維法在任何參數的設定下,都有較佳的檢測能力,樣本數、病例對照比例及SNP個數皆對檢定力沒有影響,此結果可能與分類迴歸樹在樹狀分層分析時,即將病例對照比例等變數考慮在內有關。此外,多因子降維法在分析的過程中,可依原來病例對照比例設定區分高低風險兩群的門檻值,所以在樣本數及病例對照比例改變時,並不受其影響;但在控制其他參數下,多因子降維法易受到次要對偶基因頻率的影響,檢定力會隨著次要對偶基因頻率的增加而減少。而邏輯斯迴歸則是受到了需要估計迴歸係數的影響,分析所需的時間及分析之能力皆不盡理想,尤其當樣本數小的時候,其檢測能力均低於10%。
Metabolic Syndrome originates several kinds of chronic diseases, which could be prevented with early-stage discovery of the correlative genes. This study adopts three methods, including Logistic Regression (LR), Classification and Regression Tree (CART) and Multifactor Dimensionality Reduction (MDR), to discover the correlation between Single-Nucleotide Polymorphism (SNP) and Metabolic Syndrome. The data comes from a population-based case-control study conducted in Taichung City by China Medical University Hospital from Oct. 2004 to Oct. 2005. Eleven genes associated with Metabolic Syndrome are examined in this study. Totally 439 citizens over age forty are enrolled, consisting of 238 with Metabolic Syndrome and 201 as the control group. In addition, we have simulated two-locus interaction models under different scenarios of minor allele frequency (MAF), sample size, and SNP number to compare performances of three methods in terms of power for identification of SNP-SNP interaction.
In the simulation study, CART performs better than MDR and LR with respect to power and classification error. MDR and CART yields the similar results in the presence of small MAF, whereas MDR could be influenced by the sample proportion and MAF. In summary, LR performs poor to detect true association in this pure interaction models. In the Metabolic Syndrome dataset, LR and MDR identify rs7539542 and rs2302559, as well as CART identifies rs1501299 and rs17782313 as candidate biomarkers with a marked increased risk of Metabolic Syndrome. This finding provides an opportunity to identify adults who may benefit from Metabolic Syndrome prevention. Further investigations are needed to examine the causal pathways in these associations. |