主成分のパワーとライトの固定指数分析の評価ホルスタイン牛の群れ間のゲノム全体の遺伝的差異を明らかにするために適用される

評価MAFと連鎖不平衡の対応

Ldベースの剪定がSnpの数に及ぼす影響は大きかった(追加ファイル1:図を参照)。s1)。 SnpのMAFに対するLDベースのプルーニングの影響を推定するために、8つのビンにおけるMAFの分布を計算した(図1 0A)。 1). 完全データと剪定されたデータにおけるMAFビンに関するSnpの割合は著しく異なっていた。 LDベースの剪定は完全に単形Snpを除去し、MAF0.2–0.4で不釣り合いに除去されたSnpを除去したが、MAF0.0001–0.1および0.5でまれで一般的なSnpの割合が増加した(図。 1). MAFを持つ平均Snpでは、それらの間の最大のLDにつながる残りのSnpよりも互いに近いゲノムに分布する0.1–0.4ことを示唆することができます。

図1.1.1. 1
図1

完全データおよび剪定されたデータにおけるSnpの割合

fstデータに対する外れ値除去の影響の評価

最初のステップで、fst値に対する外れ値の影響を評価しました。 外れ値の補正と補正なしの両方の完全なデータのペアワイズセットのFst値を計算しました(追加ファイル1:表S1を参照)。 固有ソフト799牛と46,626Snpの外れ値補正後に残っていました。

外れ値補正がないと、fst値のバイアスが生じますが、群れの6対から78対に対してのみです。 すべての場合において、Fst値の差は±0.001であり、4対と13対の群れを除いて0.002差があった。 MAF<0.01のSnpを除外したペアワイズセットについても、ほぼ同じFst値が格納されました。 これらのFst値の中で、表S2の完全なデータのFst値から0.001だけ異なっていた群れの六つのペア(追加のファイル1を参照)とそれらの三つは外れ値補正の結果と同じであった。

評価FST値に対するLDベースのプルーニング方法

連鎖不平衡プルーニング(LD<0.1)は、fst値±0.001に対して外れ値と同じ効果サイズを持っていたが、群れ22対6のより多くのペアに影響を与えた外れ値効果(表1および追加ファイル1:表1を参照)。 実際のところ、Fstに対する効果サイズは、Snpの総数(5 8 2 7対4 8,1 0 8)およびSnpビンにおけるそれらの割合がかなり減少したにもかかわらず、大きくはなかった(図 1). したがって、LDベースの剪定は、Fst値に適度な効果を持っていたが、それは群れのより多くのペアに影響を与えた。

表1完全データおよび剪定データのFst値の推定値

Fst値に対するSNPs MAFの評価の影響

Fst値に対するSNPs MAFの影響を評価するために、MAF間隔全体0.0001〜0.5を6つのビンに分割し、それらの各々について、完全なデータと剪定されたデータから形成されたペアワイズセット全体の平均Fst値を計算した(図1)。 2). MAF0.0001–0.005を有するまれなSNPs対立遺伝子は、残りのSnpのものよりもすべての群れにわたって最小の平均Fst値(0.0027)を有していた(追加ファイル1:表S3を参照)。 まれな対立遺伝子について計算された群れ間の平均差は、共通の対立遺伝子の差よりも少なかったと結論することができる。 0.1–0.5の範囲のMAFでは、二つのデータセットのbean間の平均Fst値の差は有意ではありませんでした。 MAF範囲全体における完全データおよび剪定されたデータにおける平均Fst値の相互補償の結果として、それらの間のFst値の合計された合計値は重要ではな したがって、これらの結果は、一般的なSNPs対立遺伝子ではないまれなSNPsについてのみ、FST値に対するLDベースの剪定の小さな効果サイズを再び確認する。

図1.1.1. 2
図2

平均FstのMAF範囲への依存性

Fst値の評価有意性

表1のFst値の有意性を評価するために、それらをH null分布として扱う牛のペアワイズ群れの順列を行った。 これらのFst値の計算結果を表S4に示します(追加ファイル1を参照)。 次に、Studentのt検定を使用して、ペアワイズセット内の群れの各ペアのP値を計算します(表2)。 それらのすべては、1.0e–06から3.6e-60までの範囲のP値であり、平均6.5e-18および中央値3.6e-40であり、それによって非常に歪んだ分布である。 時間のかかるプロセスであり、P値推定の結果はわずかに過小評価されるだけであるため、H null分布のFstを計算するために、群れの5組ごとに78の順 表1では、最小Fst値は0.002–0.003でした。 これらの値に対応する群れのペアは、遺伝的に最も類似した群れの候補です。 しかし、表1のこれらの群れを比較するとき、エラーは考慮されなかった。 すべての78の群れの組み合わせについてタイプ1の誤差を作る確率を表2に示します。 群れ間の遺伝的差異を評価するために、我々は、原則として、Fst値0.002-0.003での群れ間の差は重要ではないはずである、p≤1.0e-30(P≤1.28e–32を考慮してBonferroni補正)を その結果を表3に示す。 群れのわずかなペアは、2と8、9、11、12(4ペア);3と5、8、9、10(4ペア);8と2、3、9、11(4ペア);9と2、3、11、12(4ペア)でした。 2、3、8および9の群れを持つ群れのペアは、4–6のFst値0.002-0.003を持っていた(表1)。 したがって、重要でない群れのペアを識別した結果(表3)は、表1の最小Fstデータに対応する。 表3において、この切断時の群れの最も重要な対は、4(1 0対)、7(1 2対)、1 3(1 2対)、または切断P≧1時のより厳格なレベルの有意性であった。28e-39群れ4、7、および13は、群れの10、8、および11の重要なペアを持っていた(表3)。

表2群れ間の推定値遺伝的差異(P値)a

Fst分析によって明らかにされた完全なデータのための群れの遺伝的差異の間の表3

最も重要な群れのペアを決定する必要がありました。 群れのp≧1.28e-50対で最も有意であったのは、2および5、6;4および2、3、5、12;5および11;7および1、2、9;13および5、9、12であった(表2)。 群れのこれらのペアは、群れの最も遺伝的に異なるペアに対応し、Fstデータエラーも考慮された。 P値を計算した結果を要約すると、Fst分析の高いレベルの有意性について主張することができます。

評価PCA解析データ

803頭の牛の対立遺伝子の共分散行列から計算された100個の固有ベクトルの固有値は、単調に9.5からゼロに減少しました。 共分散行列の構造が十分に均質であることが証明されています。 完全および剪定されたデータに対して計算された10個の固有ベクトルの全体的なP値と分散率(ブレーキ単位)は2.8eでした-15 (1.16), 0.20 (1.05), 3.9e-14(1.02)、1.9e-08(0.88)、9.7e-03(0.76)、2.3e-03(0.72)、8.2e-03(0.71)、6.0E-09(0.66)、4.9E-05(0.62)、5.6E-04(0.59)(1)および3.3e-16(0.84)、6.4E-06(0.79),2.0E-04(0.76),3.4E-06(0.70),2.6E-05(0.67),3.2E-08(0.58),2.0E-03(0.55),4.0E-04(0.54),2.2E-07(0.53),3.0e-03(0.51)(6.4E-06(0.79),2.0E-04(0.76),3.4E-06(0.70),2.6E-05(0.67),3.2E-08(0.58),2.0E-03(0.55),4.0E-04(0.54),2.2E-07(0.53),3.0e-03(0.51)2)それぞれ、すなわちそれらは類似していた。 しかし、剪定されたデータの2番目の固有ベクトルの全体的なP値は有意になっています(6.4e-06)と同時に、多くの桁で第三固有ベクトルの全体的なP値が減少しました(3.9e-14対2.0e-04)。 そのようなものは、全体的なP値に対するLDベースの剪定の効果であった。 全体的なP値のリストから、主に重要な”変動軸”が何であったかが明らかになるはずです。 各固有ベクトル(1)および(2)の分散のリストから、10個の固有ベクトルを合計した後に使用される分散を計算することができる。 それは完全なデータのための8.17%および剪定されたデータのための6.47%でした。 そこから、より多くの固有ベクトルが合計されるほど、より多くの分散値が使用されます。

fst値が小さく、固有値が徐々に減少しているため、PCスケールのすべての群れの平均を計算し、PCAによって明らかにされた群れの遺伝的差異の統計的記述 PC1およびPC3に沿った全ての群れのための平均のプロットは、図1に示されている。 図3およびPC1およびPC4に沿って図に示されている。 4. PC1に基づいて13の群れの間の遺伝的差の有意性を評価するために、我々は、有意性のカットオフがP≥0で取られた表2のP値から得られた表4に(+)(05しかし、Bonferroni補正を考えると、P≥6.4e-4が得られます。 さらに、簡潔にするために、P≤6.4e-4の代わりにP≤0.05と書きます。 PC1の群れの78ペアのうち、群れの14の重要なペアがありました。 ほとんどの場合、群れ4および13について有意なデータが観察された。 Fst統計量で得られたいくつかの重要な結果は、固有ベクトル1のPCAでも確認されました。 例えば、群れ4についての最大の対Fst値は、PCAによって明らかにされた顕著に高いレベルの有意性によって確認された(表2)。 さらに、PC1のための群1および4、4および6、4および1 3の重要でない対は、群4と形成された群の対のための最小のFst値に対応する(表1)。 固有ベクトル1に対する群間の有意性に基づくLDの無視できる効果サイズに留意すべきである(表2)。

図1.1.1. 3
図3

PC1およびPc3に沿った群れの平均Fst値の位置。 各ポイントは、完全なデータのためのPC1とPC3に沿った平均群れの位置を示します

図1.1.1. 4
図4

PC1およびPc4に沿った群れの平均Fst値の位置。 各ポイントは、完全なデータのためのPC1とPC4に沿った平均群れの位置を示します

表4PC1とPCによって明らかにされた完全なデータの群れの遺伝的差3

同じ手順をPC3について行った(表4)。 ペアワイズセットの中には、16の重要なペアの群れがありました。 最も頻繁に重要なデータは、群れ4ではなく群れ13についても得られた。 群れの十四の重要なペアのうち、pc1を明らかにした唯一の9は、群れの十六の重要なペアがPC3を明らかにしたと一致します。 したがって、PC3のスコアはPC1のスコアとは異なる。 明らかに、別々の固有ベクトルのデータを使用した場合、群れ間の有意差について結論を出すことは間違っています(表2)。

PC1-3とPC1-4に沿った群れの平均値を位置の可視パターンと比較すると、いくつかの一般的な結論を引き出すことができます(図。 3および4)。 4-7-6-13-1を結ぶ軌道は、両方の図に保存されています。 固有ベクトル1と3に沿って示されているように、これらの変位のすべてがP<0.05で有意ではなかったが、他の群れは互いに視覚的にシフトした。 しかし、これらの群れのペア間の差は、Fst統計でそれらを測定したときに非常に有意であった(表2)。 このように、図上の群れの位置の視覚的な違い。 別々の固有ベクトルに沿って視覚情報のみを使用した場合、3と4は間違っている可能性があります。

全体的な有意性の欠如(P<0.完全なデータのための第二固有ベクトルの20)とペアワイズセット内の群れのほとんどのペアの無意味は、この軸のための群れの遺伝的差の間に存在しないことを示しています。 したがって、これらのデータは考慮から除外された。

さらに、完全なデータに基づいて、ペアワイズセットのP値を合計した10PCから計算した場合のPCAデータ有意性のレベルをテストしました。 適切なP値が表2に与えられ、(+)として示された群れの有意な対が、カットオフP≤0.05で表5に記載されている。 その中には、合計されたPC1-10の群れの47対の重要な組み合わせがありました。 最も重要な結果は群れ4および7のために得られたが、群れ8、9および10のための重要でない結果であった。 したがって、10個の固有ベクトルから合計された遺伝的分散を与えることは、有意性のレベルを著しく増加させ、PC1およびPC3で示されたようにデータ

合計されたPC1-10およびPCによって明らかにされる完全なデータのための群れの遺伝の相違間の表5 1-20

有意性のレベルをさらに検証するために、合計された20個の固有ベクトルにわたる完全なデータから群れのペアワイズセットのP値を計算した(表2)。 P≤0.05でのカットオフでは、群れの61対から78対が有意であったことが判明した(表5)。 群れの最も重要なペアは1、4、7、8、11および12であり、群れの最も重要でないペアは群れ3で形成された。 総和された十と二十固有ベクトルのデータを考慮すると,群れの有意な対は総和された固有ベクトルの数の増加とともに大きく変化することに注意することが重要である。 したがって、合計された固有ベクトルの数を増やすと、有意水準の全体的な増加につながります。

PCA分析から利用可能な完全分散を含めるために、100個の合計固有ベクトルのP値を計算しました(表2)。 完全なデータの場合、P値の分布は平均2.2e-07と中央値2.2e-15を持っていたため、分布は非常に歪んでいます。 群れ3は、他の群れとの最小P値を有していた(表2)したがって、これらの値に基づいて、カットオフP≤1.0e-10で群れの有意なペアを選択し、Bonferroni補正P≤1.28e-12 その結果を表6に示す。 群れ3は6組の群れを形成し、3つの群れを形成した。6, 8, 9, 10, 11, 12 そして、群れ8は、群れ8の9つの重要でないペアを形成し、1, 2, 3, 5, 6, 9, 10, 11, 12. したがって、群れ8および3は、他の群れと最も遺伝的に関連しており、この結果は、これらの群れのペアワイズセットで支配的なFst値0.002および0.003と矛盾しない(表1)。 群れの最も重要なペアを決定する必要がありました。 カットオフp≤1.28e-20で群れの最も重要なペアは4であり、2, 3, 7, 9, 12, 13 (6 ペア);7と1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 13 (年11月13日-)は、日本の元av女優、元av女優。2, 3, 4, 7, 9, 10, 12 (7 ペア)。 群れ7と13のこの結果は、群れ4よりもこれらの群れの標準エラーが小さいためです(追加ファイル1:表5を参照)。

PCによって明らかにされた完全なデータのための群れの遺伝的差異の間の表6 1-100

剪定されたデータの場合、P値の分布は平均2.6e-06および中央値1を有していた。8月16日にfaとなった。 これにより、完全なデータ分布と剪定されたデータ分布は類似しています。 完全データと同じカットオフP≤1.28e-12について、表2のデータをランク付けしました(表7)。 群れ3は、群れ3と6、8、9、12の4つの重要でないペアを形成した。 群れ8は、群れ8の9つの重要なペアを形成し、1, 2, 3, 4, 5, 6, 9, 11, 12. 完全なデータのための15組の群れ3と8のうち、それらのペアのうちの11だけが剪定されたデータと一致します。 カットオフP≥1.28e-20と群れの最も重要なペアは、4と2、3、7(3ペア)であった;5と1、2、7、11(4ペア); 7と1, 2, 4, 5, 6, 9, 10, 11, 12, 13 (10 ペア);13および2, 7, 9, 10, 12 (5 ペア)。 したがって、完全なデータと剪定されたデータのP値は十分に一致します(群れ4と5を除く)。

表7集計されたPCによって明らかにされた剪定されたデータの群れの遺伝的差異1-100

FSTおよびPCA分析のパワーを評価する

PCAおよびFst分析で計算された群れのペアワイズセットのP値を表2に記載しました。 合計された100個の固有ベクトルのこれらのデータによると、P値は他の固有ベクトルまたは合計された10個と20個の固有ベクトルのうち最小であった。 この結果は、初期データからの完全な分散を使用するためのものでした。 さらに、PCAとFstの分析のP値を比較すると、FstのP値は合計された100固有ベクトルのp値よりも数桁少ないという結論が導かれます。 ペアワイズセット全体では、PCA計算されたパワーは0.8–1.0の範囲内であり、Fstの場合はタイプIIエラーの確率が類似している0.9–1の範囲内であった。 合計で、FstのP値が数桁小さいことを考慮すると、fst分析の確率タイプI誤差はPCA誤差よりもはるかに小さいと結論付けることができます。 したがって、Fst分析からのデータはより信頼性が高いことが認められるべきである。

You might also like

コメントを残す

メールアドレスが公開されることはありません。