a főkomponensek teljesítményének értékelése és a wright fixációs index elemzése a Holstein tehenek állományai közötti genomszintű genetikai különbségek feltárására

értékelés a MAF és a kapcsolódási egyensúlyhiány megfelelése

az LD-alapú metszés hatása az SNP-k számára nagy volt (lásd az 1.kiegészítő fájlt: S1 ábra). Az LD – alapú metszés SNP-k MAF-jára gyakorolt hatásának becsléséhez kiszámítottuk a MAF eloszlását nyolc kukában (ábra. 1). Az SNP-k aránya a teljes és a metszett adatokban észrevehetően eltérő volt. Az LD-alapú metszés teljesen eltávolította a monomorf SNP–ket, aránytalanul eltávolította az SNP–ket a MAF 0,2-0,4-rel, míg a ritka és gyakori SNP-k aránya a MAF 0,0001-0,1 és 0,5-rel nőtt (ábra. 1). Javasolható, hogy az átlagos SNP-kben a MAF 0,1-0,4 a genomban közelebb kerül egymáshoz, mint a fennmaradó SNP-k, amelyek a legnagyobb LD-hez vezetnek közöttük.

Fig. 1
1. ábra

az SNP-k aránya a teljes és metszett adatokban

a kiugró értékek eltávolításának az Fst adatokra gyakorolt hatásának értékelése

az első lépésben értékeltük a kiugró értékek hatását az Fst értékekre. FST értékeket számítottunk ki a teljes adatok páros halmazára mind korrekcióval, mind korrekció nélkül a kiugró értékeken (lásd az 1.kiegészítő fájlt: S1 táblázat). Miután kiugró korrekció EIGENSOFT 799 tehenek és 46.626 SNP maradt.

a kiugró értékek korrekciójának hiánya az Fst értékek elfogultságához vezet, de csak 6-ra az állományok 78 párjából. Az Fst-értékek közötti különbség minden esetben 0,001 volt, kivéve a 4 és 13 pár állományt, amelyek különbsége 0,002 volt. Majdnem ugyanazokat az Fst értékeket tároltuk a páronkénti készlethez is, ahol kizárták az SNP-ket MAF < 0,01. Ezek közül az állományok közül csak hat pár különbözött 0,001-gyel az S2 táblázatban szereplő teljes adatok Fst értékeitől (lásd az 1.kiegészítő fájlt), és ezek közül három megegyezett a kiugró értékek korrekciójának eredményével.

Értékelés LD alapú metszési módszer Fst értékeken

kapcsolat egyensúlyhiány a metszés (LD < 0,1) ugyanolyan hatást gyakorolt az FST értékekre, mint a kiugró értékek, de az állományok több párját érintette 22 vs.6 a kiugró hatások esetében (1. táblázat, Lásd az 1. kiegészítő fájlt: 1. táblázat). Valójában az Fst-re gyakorolt hatás mérete nem volt nagy annak ellenére, hogy jelentősen csökkent az SNP-k teljes száma (5827 vs.48,108) és arányuk az SNP-tartályokban (ábra. 1). Így az LD-alapú metszés mérsékelt hatást gyakorolt az Fst értékekre, de több állománypárt érintett.

1. táblázat a teljes és metszett adatok Fst-értékeinek becslései

az SNPs MAF értékelése az FST értékekre

az SNPs MAF Fst értékekre gyakorolt hatásának értékeléséhez a teljes 0,0001–0,5 MAF intervallumot 6 rekeszre osztottuk, és mindegyikre kiszámítottuk a teljes és metszett adatokból képzett páros halmazok átlagos Fst értékét (ábra. 2). A ritka SNPs allélok MAF 0,0001–0,005 volt a legkisebb átlagos Fst érték (0,0027) az összes állományban, mint a fennmaradó SNP-k esetében (lásd 1.kiegészítő fájl: S3 táblázat). Megállapítható, hogy az állományok között a ritka allélokra számított különbségek átlagosan kisebbek voltak, mint a közönséges allélok esetében. A 0,1–0,5 tartományba eső MAF esetében a két adathalmaz esetében az átlagos FST-értékek közötti különbség nem volt szignifikáns. Az átlagos Fst értékek kölcsönös kompenzációjának eredményeként a teljes és a metszett adatokban a teljes MAF-tartományban az FST-érték összesített összértéke jelentéktelen volt (lásd az 1. kiegészítő fájlt: S3 táblázat). Így ezek az eredmények ismét megerősítik az LD – alapú metszés kis hatásméretét az Fst értékeken csak ritka SNP-k esetében, nem gyakori SNPs allélek.

Fig. 2
2. ábra

az átlagos Fst függése a MAF tartománytól

az FST értékek kiértékelési jelentősége

az Fst értékek jelentőségének értékeléséhez az 1. táblázatban elvégeztük a tehenek páronkénti Perm permutációit, H null-eloszlásként kezelve őket. Ezen Fst-értékek kiszámításának eredményeit az S4 táblázat tartalmazza (lásd az 1.kiegészítő fájlt). Ezután kiszámítjuk a P-értékeket az állományok minden párjára páros halmazban a Student t-tesztjével (2.táblázat). Mindegyik P-értéke az 1,0 e-06 és 3,6 e-60 közötti tartományban volt, az átlagos 6,5 e-18 és a medián 3,6 e-40 között, ezáltal erősen torz Eloszlás. Az Fst kiszámításához a H null-eloszláshoz csak 5 permutációt végeztünk az állományok 78 párja mindegyikére, mivel ez időigényes folyamat volt, és a p – értékek becslésének eredményét csak kissé alábecsülték. Az 1. táblázatban a minimális Fst értékek 0,002–0,003 voltak. Az ezeknek az értékeknek megfelelő állománypárok a genetikailag leginkább hasonló állományok jelöltjei. Az 1. táblázatban szereplő állományok összehasonlításakor azonban a hibákat nem vették figyelembe. Az 1.típusú hiba előfordulásának valószínűségét mind a 78 állománykombináció esetében a 2. táblázat tartalmazza. Az állományok közötti genetikai különbségek értékeléséhez a P 6,0 e-30 (p 1,28 e-32, A Bonferroni korrekció figyelembevételével) cut off–ot választottuk, amelyben az állományok közötti különbségeknek a 0,002-0,003 Fst értékeknél általában jelentéktelennek kell lenniük. Az eredményeket a 3.táblázat mutatja. A jelentéktelen állománypárok a következők voltak: 2 és 8, 9, 11, 12 (4 pár); 3 és 5, 8, 9, 10 (4 pár); 8 és 2, 3, 9, 11 (4 pár); 9 és 2, 3, 11, 12 (4 pár). A 2, 3, 8 és 9 állományból álló állománypárok Fst értéke 4-6 0,002–0,003 volt (1.táblázat). Ezért a jelentéktelen állománypárok azonosításának eredményei (3.táblázat) megfelelnek az 1. táblázatban szereplő minimális Fst-adatoknak. A 3. táblázatban a legjelentősebb állománypárok ebben a levágásban a 4 (10 pars), 7 (12 pár), 13 (12 pár) vagy szigorúbb szignifikancia szint volt a levágáskor P 6.28e – 39 A 4., 7. és 13. állományban 10, 8. és 11 jelentős állománypár volt (3. táblázat).

2. táblázat becslések az állományok genetikai különbségei között (P – értékek) a
3. táblázat az állományok között az Fst elemzéssel feltárt teljes adatok genetikai különbségei

meg kellett határozni a legjelentősebb állománypárokat. A P 6.28 e-50 határnál a legjelentősebb állománypárok a következők voltak: 2 és 5, 6; 4 és 2, 3, 5, 12; 5 és 11; 7 és 1, 2, 9; 13 és 5, 9, 12 (2.táblázat). Ezek az állománypárok megfelelnek az állományok genetikailag leginkább eltérő párjainak, miközben az Fst adathibákat is figyelembe vették. A p – értékek kiszámításának eredményeit összegezve az Fst analízis nagy jelentőségű.

értékelési PCA elemzési adatok

100 sajátvektor sajátértékei, amelyeket 803 tehén alléljainak kovariancia mátrixából számítottak ki, monoton módon 9,5-ről nullára csökkentek. Bizonyítja, hogy a kovariancia mátrix szerkezete elég homogén volt. A teljes és metszett adatokra számított tíz sajátvektor teljes P – értéke és szórásszázaléka (fékekben) 2,8 e volt-15 (1.16), 0.20 (1.05), 3.9 e-14 (1, 02), 1, 9 e-08 (0, 88), 9, 7 e-03 (0, 76), 2, 3 e-03 (0, 72), 8, 2 e-03 (0, 71), 6, 0 e-09 (0, 66), 4, 9 e-05 (0, 62), 5, 6 e-04 (0, 59) (1) és 3, 3 e-16 (0, 84), 6, 4 e-06 (0, 79), 2, 0 e-04 (0, 76), 3, 4 ee-06 (0, 70), 2, 6 e-05 (0, 67), 3, 2 e-08 (0, 58), 2, 0 E-03 (0, 55), 4, 0 e-04 (0, 54), 2, 2 e-07 (0, 53), 3, 0 E-03 (0, 51) (2) vagyis hasonlóak voltak. A metszett adatok második sajátvektorának teljes P – értéke azonban szignifikánssá vált (6.4e-06), ugyanakkor a harmadik sajátvektor teljes P – értéke sok nagyságrendben csökkent (3,9 e-14 vs.2,0 e-04). Ilyen volt az LD-alapú metszés hatása az Általános P-értékekre. A teljes P – értékek listájából világossá kell tenni, hogy mi volt a fő jelentős “variációs tengely”. Az egyes sajátvektorok varianciáinak listájából (1) és (2) kiszámítható a tíz sajátvektor összegzése után használandó variancia. A teljes adatok esetében 8,17%, a metszett adatok esetében pedig 6,47% volt. Honnan, minél több sajátvektor kerül összegzésre,annál nagyobb a variancia értéke.

a kis Fst értékekkel és a sajátértékek fokozatos csökkenésével kiszámítottuk a PC-skálák minden állományának átlagát a PCA által feltárt állományok közötti genetikai különbségek statisztikai leírására. A PC 1 és PC 3 mentén az összes állományra vonatkozó eszközök ábrája az ábrán látható. 3 és mentén PC 1 és PC 4 ábrán látható. 4. A 13 állomány közötti genetikai különbség szignifikanciájának felmérése a PC 1 alapján a 4. táblázatban (+) (az állományok közötti szignifikanciát jelöli) a 2.TÁBLÁZAT P – értékeiből nyertük, ahol a szignifikancia határát P 0-nál vettük.05 de a Bonferroni korrekciót figyelembe véve P 6,4 e-4-et kapunk. Továbbá a rövidség kedvéért P 0,05-öt írunk P 6,4 e-4 helyett. A PC 1 esetében az állományok 78 párja között 14 jelentős állománypár volt. Leggyakrabban a 4-es és 13-as állományok esetében figyeltek meg szignifikáns adatokat. Az Fst statisztikával kapott néhány jelentős eredményt a SAJÁTVEKTOROKRA vonatkozó PCA is megerősítette 1. Például a 4. állomány legnagyobb páros Fst – értékeit a PCA által feltárt szignifikánsan magasabb szignifikancia szint igazolta (2.táblázat). Továbbá az 1.és 4., 4. és 6., 4. és 13. állomány jelentéktelen párjai a PC 1 esetében a legkisebb Fst-értékeknek felelnek meg a 4. állományhoz tartozó állományok párjai esetében (1. táblázat). Meg kell jegyezni, hogy az LD-alapú metszés elhanyagolható hatásmérete az állományok 1.sajátvektorra gyakorolt jelentősége között (2. táblázat).

Fig. 3
3. ábra

az állományok átlagos Fst-értékeinek elhelyezkedése a PC 1 és Pc 3 mentén. Minden pont az állomány átlagos helyzetét jelöli a PC 1 és PC 3 mentén a teljes adathoz

Fig. 4
4. ábra

az állományok átlagos Fst-értékeinek elhelyezkedése a PC 1 és Pc 4 mentén. Minden pont az állomány átlagos helyzetét jelöli a PC 1 és PC 4 mentén a teljes adathoz

4. táblázat az állományok közötti genetikai különbség a PC 1 és PC által feltárt teljes adatok tekintetében 3

ugyanezt az eljárást hajtottuk végre a PC 3 esetében (4.táblázat). A Páros halmazok között 16 jelentős állománypár volt. A leggyakrabban a 4., nem pedig a 13. állományra vonatkoztak a legjelentősebb adatok. Az állományok tizennégy jelentős párjából kiderült, hogy PC 1 csak 9 egybeesik az állományok tizenhat jelentős párjával, amely PC-t mutatott 3. Így a PC 3 pontszám eltér a PC 1-től. Nyilvánvaló, hogy helytelen lenne az állományok közötti jelentős különbségekre vonatkozó következtetést levonni, ha külön sajátvektorra vonatkozó adatokat használnánk (2.táblázat).

az állományok látható elhelyezkedési mintázatának összehasonlításával a PC 1-3 és PC 1-4 mentén általános következtetéseket vonhatunk le (ábra. 3 és 4). A 4-7-6-13-1 állományokat összekötő pálya mindkét ábrán megmaradt. Más állományok vizuálisan eltolódtak egymáshoz képest, bár nem mindegyik elmozdulás volt szignifikáns a p < 0,05 értéknél, amint az az 1.és 3. sajátvektor mentén látható. Az állománypárok közötti különbség azonban igen jelentős volt, amikor Fst statisztikákkal mértük őket (2.táblázat). Így az állományok vizuális különbségei a Fügén helyezkednek el. A 3.és 4. pont helytelen lehet, ha csak vizuális információkat használunk külön sajátvektorok mentén.

az Általános szignifikancia hiánya (P < 0.20) a második sajátvektor a teljes adat és a jelentéktelenség a legtöbb pár az állományok páronként azt jelzi, hogy nincs genetikai különbség az állományok között ebben a tengelyben. Ezért ezeket az adatokat nem vették figyelembe.

továbbá a teljes adatok alapján teszteltük a PCA-adatok szignifikanciájának szintjét, ha a páronkénti halmaz P – értékeit az összegzett tíz PC-ből számítottuk ki. A megfelelő P-értékeket a 2. táblázat tartalmazza, a ( + ) – ként jelölt állományok jelentős párjait pedig az 5.táblázat sorolja fel a p 0,05-ös határértéknél. Közülük az állományok 47 páronként szignifikáns kombinációja volt a summed PC 1-10 esetében. A legjelentősebb eredményt a 4.és a 7. állomány esetében, míg a 8., a 9. és a 10. állomány esetében érték el. Így a 10 sajátvektor összesített genetikai varianciájának megadása észrevehetően növeli a szignifikancia szintjét és megváltoztatja az adatok szignifikanciájára vonatkozó következtetéseket, amint azt a PC 1 és PC 3 esetében kimutatták.

5. táblázat az állományok közötti genetikai különbség a summed PC 1-10 és PC által feltárt teljes adatok tekintetében 1-20

a szignifikancia szintjének további ellenőrzése érdekében az állományok páros halmazára vonatkozóan p – értékeket számítottunk ki az összesített 20 sajátvektor teljes adataiból (2.táblázat). Kiderült, hogy a p 0,05-ös határértéknél 61 az állományok 78 párjából szignifikáns volt (5.táblázat). A legjelentősebb állománypárok az 1., 4., 7., 8., 11. és 12. állománypárok voltak, a legjelentéktelenebb pár pedig a 3. állományból alakult ki. Figyelembe véve az összesített tíz-húsz sajátvektor adatait, fontos megjegyezni, hogy az állományok jelentős párjai nagymértékben változtak az összesített sajátvektorok számának növekedésével. Így az összesített sajátvektorok számának növelése a szignifikancia szintjének általános növekedéséhez vezet.

a PCA analízisből elérhető teljes variancia figyelembevételéhez 100 összesített sajátvektorra számítottuk ki a P – értékeket (2.táblázat). A teljes adatok esetében a P-értékek eloszlása átlagosan 2, 2 e-07 és medián 2, 2 e-15 volt, így az eloszlás erősen torz. A 3. állománynak más állományoknál is volt minimális P – értéke (2.táblázat), ezért ezen értékek alapján a P 6,0 e-10 határérték alatti állományokból jelentős párokat választottunk ki, a P 1,28 e-12 Bonferroni korrekciót figyelembe véve. Az eredményeket a 6.táblázat mutatja. A 3 csorda 6 jelentéktelen csordapárt alkotott 3 és 6, 8, 9, 10, 11, 12 és csorda 8 alakult 9 jelentéktelen pár a csordák 8 és 1, 2, 3, 5, 6, 9, 10, 11, 12. Így a 8-as és 3-as állomány volt a legnagyobb genetikai rokonságban más állományokkal, és ez az eredmény nem mond ellent az ezen állományok páronként meghatározott 0,002-es és 0,003-as Fst-értékeknek (1.táblázat). Meg kellett határozni az állományok legjelentősebb párjait. Az állományok legjelentősebb párjai a P 6.28 e-20 határnál 4 és 2, 3, 7, 9, 12, 13 (6 pár); 7 és 1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 13 (11 pár); 13 és 2, 3, 4, 7, 9, 10, 12 (7 Párok). Ez az eredmény a 7.és 13. állomány esetében kisebb standard hibáknak tudható be, mint a 4. állomány esetében (lásd az 1. kiegészítő fájlt: 5. táblázat).

6. táblázat az állományok közötti genetikai különbségek a PC által feltárt teljes adatokhoz 1-100

a metszett adatok esetében a P-értékek eloszlása átlagosan 2,6 e-06 és medián 1 volt.8e-16. Így a teljes és metszett adateloszlás hasonló. Ugyanazon p 6.28 e-12 határérték esetében, mint a teljes adatok esetében, a 2. táblázatban szereplő adatokat rangsoroltuk (7.táblázat). A 3. csorda 4 jelentéktelen párt alkotott a 3.és 6., 8., 9., 12. csordából. A 8 csorda 9 jelentéktelen párt alkotott a 8 csordából és 1, 2, 3, 4, 5, 6, 9, 11, 12. A 15 csordapár közül a 3. és a 8. teljes adat esetében csak 11 pár esik egybe a metszett adatokkal. A P 6,28 e-20 határvonalú állományok közül a legjelentősebb pár a 4 és 2, 3, 7 (3 pár); 5 és 1, 2, 7, 11 (4 pár)volt; 7 és 1, 2, 4, 5, 6, 9, 10, 11, 12, 13 (10 pár); 13 és 2, 7, 9, 10, 12 (5 Párok). Így a teljes és metszett adatok P-értékei elég jól egyeznek (kivéve a 4 és 5 állományokat).

7. táblázat az állományok között a summed PC által feltárt metszett adatok genetikai különbségei 1-100

az Fst és PCA analízisek teljesítményének értékelése

a 2.táblázatban felsorolt p – értékek az állományok PCA és Fst analízissel számított páros halmazára vonatkozóan. Ezen adatok szerint az összesített 100 sajátvektor esetében a p – értékek voltak a legkisebbek bármely más sajátvektor esetében, vagy az összesített 10 és 20 sajátvektor esetében. Ennek az eredménynek a kezdeti adatok teljes eltérését kellett felhasználnia. Továbbá, a PCA és az Fst analízisek P – értékeinek összehasonlítása arra a következtetésre jut, hogy az Fst P – értékek sok nagyságrenddel kisebbek voltak, mint az összesített 100 sajátvektoré. Páronként a PCA számított teljesítménye a 0,8–1,0 tartományon belül volt, míg az Fst esetében a 0,9–1 tartományon belül volt, vagyis a II.típusú hiba valószínűsége hasonló. Összességében, figyelembe véve több nagyságrenddel kisebb P-értékeket az Fst-re, arra a következtetésre juthatunk, hogy az FST-elemzés I. típusú valószínűségi hibája sokkal kisebb volt a PCA-nál. Ezért el kell fogadni, hogy az Fst elemzés adatai megbízhatóbbak.

You might also like

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.