CaliPopGen: Kalifornijos faunos ir floros genetinė ir gyvenimo istorijos duomenų bazė

Populiacijos genetinių duomenų rinkimas iš pirminių duomenų šaltinių

4 paveiksle aprašoma bendra duomenų rinkimo darbo eiga keturiems duomenų rinkiniams, kuriuos sudaro CaliPopGen. Pirmiausia nustatėme literatūrą, kurioje gali būti Kalifornijos populiacijos genetinių duomenų, pateikę užklausą Web of Science Core Collection (https://webofknowledge.com/) atitinkamos literatūros nuo 1900 iki 2020 m. su terminais: topic = (Kalifornija *) IR tema = ( genetinis * ARBA genominis *) IR tema = (rūšis ARBA taksonai * AR populiacija *). Mes įtraukėme tik empirinę recenzuojamą literatūrą ir neįtraukėme nerecenzuotų išankstinių spaudinių. Naudodami šiuos paieškos terminus, mūsų tikslas buvo plačiai identifikuoti genetinius dokumentus, orientuotus į Kaliforniją, atliekant populiacijos ar rūšių analizę, vengiant grynai filogenetinių tyrimų arba tų, kurie orientuoti į žemės ūkio ar modelių rūšis. Taip buvo gauti 4942 unikalūs įrašai.

Fig. 4
4 paveikslas

Duomenų rinkimo proceso, kuris sugeneravo CaliPopGen duomenų bazes, schema.

Toliau patikrinome pavadinimus ir santraukas, kad išsaugotume straipsnius, kurie: (1) pateikė duomenis apie rūšių populiacijas, kurios išsilaiko be antropogeninio poveikio; (2) apėmė bent kai kurias eukariotų rūšis; (3) įtraukta (-os) populiacija (-os), atrinktos Kalifornijoje; (4) paminėtos genetinės įvairovės arba diferenciacijos priemonės; ir (5) nebuvo apžvalgos (todėl mūsų paieška apribota tik pirmine literatūra). Po šio pirmojo literatūros patikrinimo mes išsaugojome 1869 tyrimus (žr. Techninį patvirtinimą, kad įvertintumėte tarpinio ir vidinio tikrintojo šališkumą).

Antrasis, išsamesnis atrankos leidimas, apėmė visą šių 1869 m. tyrimų tekstą. Įmušėme du įvarčius. Pirma, patvirtinome, kad išsaugoti dokumentai visiškai atitiko visus penkis mūsų įtraukimo kriterijus (pirmasis ekranas buvo labai liberalus šių kriterijų atžvilgiu, o daugelis straipsnių neatitiko bent vieno kriterijaus po atidaus skaitymo). Antra, pašalinome dokumentus, kuriuose duomenys nebuvo pateikti taip, kad galėtume išgauti informaciją apie gyventojų skaičių. Pavyzdžiui, daugelis labiau sistemingų tyrimų sujungė pavyzdžius iš didelių, šiek tiek blogai apibrėžtų regionų („Siera Nevada“ arba „Pietų Kalifornija“); Jei tokie regionai linijiniu matmeniu buvo didesni nei 50 km, manėme, kad jie netinkami geografiškai informatyvioms išvadoms daryti. Kiti tyrimai pateikė populiacijos duomenų santraukas, dažnai filogenetinių tinklų ar medžių pavidalu, tačiau neįtraukė informacijos apie faktinius populiacijos genetinius parametrus, todėl nebuvo svarbūs mūsų duomenų bazei. Po šio antrojo praėjimo išsaugojome 528 publikacijas.

Iš šio dokumentų rinkinio išskyrėme kiekvienos Kalifornijos populiacijos ar mėginių ėmimo vietos rūšis, vietovę ir genetinius duomenis, aprašytus kiekviename tyrime (3A pav.). Tai apima lotynišką dvinarį / trinomį, anglišką bendrinį pavadinimą, populiacijos identifikatorius ir geografines mėginių ėmimo vietų koordinates. Taip pat atkreipėme dėmesį į populiacijos / mėginių ėmimo vietas, kurios buvo aiškinamos kaip sudarytos iš tarprūšinių hibridų, ir išvardijome abi tėvines rūšis. Surinkome populiacijos genetinės įvairovės ir diferenciacijos statistiką kiekvienam unikaliam genetiniam žymeniui kiekvienai populiacijai / mėginių ėmimo vietai; dėl to atrankos vietovėje gali būti kelios įvesties eilutės, po vieną kiekvienam lokusui arba žymeklio tipui. Kiekvienos populiacijos / žymenų derinio parametrai apima mėginio dydį, genetinio žymeklio tipą, genų taikinius, lokusų skaičių, mėginių ėmimo metus ir praneštas efektyvaus populiacijos dydžio vertes (N.e), tikimasi (H.E.) ir stebėjo (H.O,) heterozigotiškumas, nukleotidų įvairovė (3pi), aleliai per lokusą (APL), alelių turtingumas (AR.), polimorfinių lokusų procentas (PPL), haplotipų įvairovė (HDV), giminystės koeficientas (pvz F.YRA, F.IT, G.YRA) ir porinių populiacijų genetinio palyginimo parametrus (F.ST, G.ST, DST, Nei D, Jostas Darba phi). Atkreipiame dėmesį, kad nors yra techninių skirtumų tarp alelių turtingumo ir alelių pagal lokusą, šaltinio literatūroje terminai dažnai vartojami pakaitomis, o parametrus ir jų reikšmes įtraukiame, kaip nurodyta šaltinyje. Žymeklio tipą apibrėžiame kaip bendrą naudojamo genetinio žymeklio kategoriją (pvz., „mikrosatelitas“ arba „branduolinis“), o genų taikiniai yra specifinis lokusas / lokusai (pvz., „COI“). Šiuos duomenis pateikiame dviejuose atskiruose duomenų rinkiniuose, kurių viename yra visa populiacijos lygio genetinė suvestinė statistika (1 duomenų rinkinys21, žr. pav. 3C ir išsamus aprašymas 1 lentelėje), o antrasis – porinės genetinės diferenciacijos įvertinimams (2 duomenų rinkinys21, žr. pav. 3D ir išsamus aprašymas 2 lentelėje).

1 lentelė Populiacijos genetinių duomenų aprašymas 1 duomenų rinkinys21.
2 lentelė Porinio genetinio atstumo duomenų aprašymas 2 duomenų rinkinys21.

Visi genetiniai duomenys buvo gauti tiesiai iš šaltinio literatūros. Tačiau mes taip pat atnaujinome arba papildėme šių populiacijos genetinių verčių metaduomenis keliais būdais. Mes įtraukėme karalystę, prieglobstį ir žemesnio lygio taksonominę grupavimą kiekvienai rūšiai (dažniausiai klasei) ir atnaujinome mokslinius bei bendrinius pavadinimus, pagrįstus šiuo metu priimta Pasaulinės biologinės įvairovės informacijos priemonės taksonomija.22. Kai nebuvo pateiktos atrankos vietovės geografinės koordinatės, kaip dažnai būdavo senesnėje literatūroje, naudojome „Google“ žemėlapius (https://www.google.com/maps), kad pateiktume geografines nuorodas pagal teksto aprašymus arba įterptuosius. Figūriniai žemėlapiai, vadovaujami nuolatiniais orientyrais, pavyzdžiui, upės vingiais ar administracinėmis ribomis. Kadangi taip galima gauti tik apytiksles koordinates, įvertintą tikslumą įrašėme kaip geriausio galimos paklaidos įvertinimo spindulį kilometrais. Jei koordinatės buvo pateiktos laipsniais / minutėmis / sekundėmis, naudojome „Google“ žemėlapius, kad išverstume jas dešimtainiais laipsniais. Tais atvejais, kai koordinatės nebuvo pateiktos, o vietovių aprašymai buvo per neaiškūs, kad būtų galima nustatyti koordinates, kurių koordinačių paklaida yra mažesnė nei 50 km, mes nebandėme išgauti koordinačių, bet vis tiek pateikiame genetinius duomenis. Visos koordinatės pateiktos žiniatinklio Mercator projekcijoje (EPSG: 3857). Mes neįtraukėme tyrimų, kuriuose buvo pranešta tik apie regioninius mėginius („Pietų Kalifornija“ arba „Siera Nevada“) genetinių parametrų vertes. Jei žymeklio tipas nebuvo aiškiai įtrauktas, klasifikavome žymeklio tipą pagal praneštus genų taikinius, jei tokie buvo.

Gyvenimo istorijos bruožų duomenų rinkimas

Siekdami padidinti CaliPopGen naudingumą, mes taip pat surinkome duomenis apie visų gyvūnų gyvenimo istorijos bruožus (3 duomenų rinkinys21) ir augalas (4 duomenų rinkinys21) rūšys, esančios Duomenų rinkiniai 121 ir 221. Surinkome duomenis apie bruožus, kurie anksčiau buvo koreliuojami su genetine įvairove, įskaitant tuos, kurie susiję su dauginimu, gyvenimo ciklu ir kūno dydžiu, taip pat su išsaugojimo būkle (pvz.,23,24,25,26,). Gyvenimo istorijos duomenys buvo surinkti pirmiausia nurodant dideles internetines saugyklas, dažnai būdingas taksonominėms grupėms, pvz., TRY augalų požymių duomenų bazę.27ir Karališkojo botanikos sodo Kew sėklų informacijos duomenų bazė28. Jei iš šių rinkinių nebuvo gauti dominančių rūšių bruožų duomenų, atlikome raktinių žodžių literatūros paieškas kiekvienam rūšies ir gyvenimo istorijos bruožo deriniui ir ištraukėme duomenis iš pirminės literatūros. Kai nėra duomenų apie porūšį ar rūšis, apie kurias turėjome genetinių duomenų, pateikiame kito artimiausio taksonominio lygio reikšmes iki šeimos imtinai, kaip yra literatūroje.

Tiek gyvūnams, tiek augalams buveinių tipus apibrėžėme kaip jūrinius, gėlavandenius, diadrominius, amfibinius ar sausumos. Jūrinėms rūšims priskiriamos tos, kurios aptinkamos sūrokose arba pelkėse-jūrinėse buveinėse, taip pat paukščių rūšys, kurios daugiausia gyvena jūrinėse buveinėse. Gėlavandenėms rūšims priskiriamos tos, kurios randamos šlapžemių ir gėlo vandens buveinėse, taip pat rūšys, kurios daugiausia gyvena gėlame vandenyje. Diadrominė kategorija apima žuvų rūšis, kurios yra katadromos arba anadrominės. Laikėme, kad rūšys yra amfibijos, jei jų gyvenimo cikle yra privalomas vandens etapas, bet taip pat didelę gyvenimo ciklo dalį praleidžia sausumoje. Sausumos rūšys buvo apibrėžiamos kaip tos, kurios didžiąją gyvenimo ciklo dalį praleidžia sausumoje ir jokią gyvenimo ciklo dalį nėra vandenyje. Kai kuriais atvejais (pvz., vandens paukščiai, kurie yra ir gėlavandeniai, ir jūriniai, pusiau vandens ropliai), rūšis pagrįstai galėjo būti priskirta daugiau nei vienai kategorijai, ir mes padarėme viską, kad nustatytų pirminę tokių taksonų gyvenimo istorijos kategoriją. Jei įrašo taksonominė tapatybė buvo hibridinė tarp rūšių ar porūšių, tai buvo pažymėta rūšies ID stulpelyje ir nebuvo pranešta apie gyvybės istoriją.

„CaliPopGen“ gyvūnų gyvenimo istorijos bruožai 3 duomenų rinkinys21 (duomenų rinkinio aprašymas 3 lentelėje) apima buveinės tipą, gyvenimo trukmę, vaisingumą, reprodukcijos sėkmę visą gyvenimą, lytinę brandą, veisimosi įvykių skaičių per metus, dauginimosi būdą, suaugusiųjų ilgį ir masę, Kalifornijos vietinę būseną, įtraukimo į sąrašą statusą pagal JAV. Nykstančių rūšių aktas (ESA), įtrauktas į Kalifornijos nykstančių rūšių aktą (CESA) ir Kalifornijos ypatingo susirūpinimo rūšių (SSC) statusas. Kai kuriems požymiams buvo užregistruoti verčių intervalai – pavyzdžiui, nuo minimalios iki maksimalios gyvenimo trukmės. Kitais atvejais įrašėme atskiras vertes ir, jei įmanoma, šios vienos vertės apibrėžimą (pavyzdžiui, minimalią, vidutinę arba maksimalią gyvenimo trukmę). Priklausomai nuo turimos literatūros, pateikiame arba lytinės brandos amžiaus intervalą (nuo mažiausios iki didžiausios), arba vieną reikšmę. Kalbant apie lytiškai dimorfines rūšis, pranešame apie suaugusių patelių ilgį ir svorį, jei įmanoma, nes patelės kūno dydis dažnai koreliuoja su vaisingumu. Visose gyvūnų taksonominėse grupėse dažnai naudojami skirtingi kūno dydžio ir ilgio matavimai, atspindintys bendruomenės sutarimą dėl dydžio matavimo. Atsižvelgdami į šį variantą, nurodome ilgio matavimo tipą, jei įmanoma, kaip standartinį ilgį (SL), šakės ilgį (FL), bendrą ilgį (TL), ilgį nuo snukio iki angos (SVL), tiesiosios linijos karkasą (SLC). ) ), arba sparnų plotis (WS).

3 lentelė Gyvūnų gyvenimo istorijos duomenų aprašymas 3 duomenų rinkinys21.

„CaliPopGen“ augalų gyvenimo istorijos bruožai 4 duomenų rinkinys21 (duomenų rinkinio aprašymas 4 lentelėje) apima buveinės tipą, gyvenimo trukmę, gyvavimo ciklą, suaugusio žmogaus ūgį, savarankiškumą, vienanamį ar dvinamistį, dauginimosi būdą, apdulkinimą ir sėklų sklaidos būdus, sėklos masę, Kalifornijos vietinę būklę, NatureServe.29 elementų eilės (pasaulio ir valstijos rangai, apibrėžimus rasite 5 lentelėje), sąrašo būsena pagal Federalinį nykstančių rūšių įstatymą (ESA) ir sąrašo būsena pagal Kalifornijos nykstančių rūšių įstatymą (CESA). Skirtingai nuo daugelio gyvūnų rūšių, augalų gyvenimo trukmė paprastai buvo nurodyta kaip viena vertė. Mes apibrėžiame gyvavimo ciklus taip: Metinis: užbaigia visą gyvavimo ciklą per vienerius metus; Bienalė: visą gyvavimo ciklą užbaigia per dvejus metus; Daugiametis: visą gyvavimo ciklą užbaigia per daugiau nei dvejus metus; Daugiametis-Evergreen: daugiametis ir išlaiko funkcinius lapus ištisus metus; Daugiametis lapuočių: daugiametis ir dalį metų sinchroniškai praranda visus lapus. Kai kurios rūšys yra kintamos (pavyzdžiui, turi metinius ir dvejų metų individus), ir tais atvejais bandėme apibūdinti labiausiai paplitusią modalumą.

4 lentelė Augalų gyvenimo istorijos duomenų aprašymas 4 duomenų rinkinys21.
5 lentelė Apsaugos būklės aprašymas (paveldo reitingas) iš Kalifornijos gamtos įvairovės duomenų bazės29.

Kadangi duomenų apie chromistus ir grybus yra nedaug, mes neištraukėme santykinai nedaugelio šių taksonominių grupių rūšių gyvenimo istorijos bruožų.

Duomenų vizualizacija ir apibendrinimas

Mes naudojome R paketą rastras (v3.1–5), kad vizualizuotų erdvinį duomenų apimtį CaliPopGen pav. 3. Skydelyje (A) pateikiamas visų unikalių populiacijų genetinės įvairovės populiacijų suvestinės diagramos. 1 duomenų rinkinys21 ir porinė populiacijos diferenciacija 2 duomenų rinkinys21. Skydelyje (B) rodomas bendras unikalių populiacijų skaičius kiekviename Kalifornijos antžeminiame ekoregione. Skydelyje (C) pavaizduoti visi populiacijos genetinės įvairovės duomenų įrašai 1 duomenų rinkinys21, susumavus kiekvienam 20×20 km tinklelio elementui. Skydelis (D) rodo porinių tiesių linijų, nubrėžtų tarp vietovių porų, tankį porinėje populiacijos diferenciacijoje 2 duomenų rinkinys21, pavaizduotas kaip bendras eilučių skaičius 20 x 20 km tinklelio langelyje. Abiejų populiacijų ir rūšių skaičius Duomenų rinkiniai 121 & 221 6 lentelėje yra apibendrinti kiekvienam jūros ir sausumos ekoregionui.

6 lentelė Bendro populiacijų ir rūšių skaičiaus Kalifornijos ekoregione suvestinė, atskirai populiacijos genetiniams ir poriniams duomenų rinkiniams.

Leave a Comment

Your email address will not be published.