Správa výzkumných dat

Z WikiSkript

Správa výzkumných dat (Research Data Management, RDM) je soubor postupů, které zajišťují, že výzkumná data jsou během celého životního cyklu (od plánování přes sběr až po archivaci a sdílení) ukládána, popisována a zpřístupňována tak, aby byla dohledatelná, znovupoužitelná a bezpečná.

Proč se Správou výzkumných dat zabývat[upravit | editovat zdroj]

Při práci na velkých projektech, na kterých spolupracuje řada pracovníků a institucí je obvykle třeba sbírat, ukládat a vyhledávat řadu informací a dat. Výsledky pokusů, nahrávky meetingů, zápisy z porad, laboratorní deníky, obrázky, tabulky, ... Tuto správu dat je potřeba plánovat, řídit a koordinovat, aby data byla dohledatelná, znovupoužitelná a bezpečná.

Je potřeba (pokud možno předem) přijmout pravidla a zásady, které bude nutno v projektu dodržovat a najít technické nástroje, které tyto umožní data efektivně a dlouhodobě spravovat.

Správně organizovaná správ dat nejen usnadňuje spolupráci v týmu i předávání projektu, ale i zvyšuje reprodukovatelnost výsledků a důvěryhodnost výzkumu. Současně s tím omezuje rizika ztráty dat a porušení pravidel (GDPR, etika, licence). U řady poskytovatelů financí je Správa výzkumných dat podmínkou udělení projektu.

Životní cyklus výzkumných dat[upravit | editovat zdroj]

Správa výzkumných dat (RDM) pokrývá zejména:

  1. plánování (co sbírat, jak ukládat, kdo má přístup),
  2. sběr a zpracování (verzování, kontrola kvality, dokumentace),
  3. analýzu (transparentní workflow, uchování kódu a parametrů),
  4. sdílení a publikaci (repozitář, licence, persistentní identifikátory),
  5. archivaci (dlouhodobé uložení, bezpečnost, přístupová pravidla).

FAIR principy[upravit | editovat zdroj]

Doporučeným rámcem pro práci s daty jsou principy FAIR – data mají být:

  • Findable (dohledatelná),
  • Accessible (přístupná),
  • Interoperable (interoperabilní),
  • Reusable (znovupoužitelná).[1]

Prakticky to znamená zejména:

  • používat standardizovaná metadata (popis datasetu, proměnné, metodika),
  • ukládat data do repozitářů s dlouhodobým provozem,
  • přidělit persistentní identifikátor (např. DOI),
  • jasně nastavit licenci a podmínky použití.

Data Management Plan (DMP)[upravit | editovat zdroj]

Plán správy dat (DMP) je dokument, který popisuje, jak budou data během projektu vytvářena, spravována, chráněna, sdílena a archivována. Často je vyžadován poskytovateli financí (např. v rámci programů EU).[2]

V DMP se typicky řeší:

  • jaká data vzniknou (typ, formát, objem),
  • jak bude zajištěno zálohování a bezpečnost,
  • kdo bude mít přístup a jak bude řešena autorizace (role, oprávnění),
  • jaká metadata a standardy budou použity,
  • kde a za jakých podmínek budou data sdílena (repozitář, licence),
  • dlouhodobá archivace (kdo, kde, jak dlouho).

Ukládání, zálohování a sdílení[upravit | editovat zdroj]

Základní doporučení[upravit | editovat zdroj]

  • Ukládejte data do strukturovaných složek a používejte jednotné názvosloví souborů.
  • Zaveďte verzování (alespoň u klíčových datasetů a skriptů).
  • Zajistěte zálohování (pravidlo 3–2–1: 3 kopie, 2 různá média, 1 mimo pracoviště).
  • Pro sdílení v týmu používejte systém s řízeným přístupem (role, audit).

Repozitáře (příklady)[upravit | editovat zdroj]

Repozitář vybírejte podle oboru, požadavků projektu a citovatelnosti (DOI). Následující výčet je pouze orientační:

  • obecné repozitáře: Zenodo, Figshare, Dryad,
  • repozitáře pro genomická a omics data (příklady): GEO, SRA/ENA,
  • institucionální repozitáře (dle instituce).

(Pokud je cílem stránku rozšířit o oborově specifické repozitáře, je vhodnější samostatná podstránka „Repozitáře pro výzkumná data“.)

Metadata a identifikátory[upravit | editovat zdroj]

  • Metadata jsou „data o datech“ – umožňují dataset dohledat a správně interpretovat.
  • DOI (Digital Object Identifier) zajišťuje citovatelnost datasetu.
  • ORCID identifikuje autora/řešitele napříč systémy.
  • Pro biomedicínské pojmy se často používají kontrolované slovníky (např. MeSHMedical Subject Headings).

Etické a právní aspekty[upravit | editovat zdroj]

U biomedicínských dat je nutné řešit zejména:

  • ochranu osobních údajů (GDPR),
  • informovaný souhlas a etické schválení (dle typu studie),
  • anonymizaci/pseudonymizaci,
  • nastavení přístupových práv a sdílení citlivých dat (např. pouze na žádost nebo po schválení).

Doporučený postup pro studenta/doktoranda[upravit | editovat zdroj]

  1. Ujasněte si, jaká data budou vznikat a kdo je bude spravovat.
  2. Dohodněte strukturu složek, názvy souborů, formáty a postup verzování.
  3. Nastavte zálohování a přístupová práva.
  4. Průběžně dokumentujte metodiku (metadata, datový katalog, protokoly).
  5. Před publikací vyberte repozitář (ideálně takový, který datasetu přidělí DOI) a zvolte vhodnou licenci.
  6. U citlivých dat ověřte právní/etické podmínky sdílení.

Užitečné odkazy[upravit | editovat zdroj]

  • FAIR principy (GO FAIR): [3]
  • OpenAIRE (podpora open science a DMP): [4]

Kontakty[upravit | editovat zdroj]

Univerzita Karlova (příklady kontaktů)
  • (doplní se dle aktuální organizační struktury – např. univerzitní podpora Open Science/RDM, knihovna, grantové odd.)

Reference[upravit | editovat zdroj]

  1. Nature. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 2016, vol. 3, no. 1, s. 16-18, ISSN 2052-4463. DOI: 10.1038/sdata.2016.18.
  2. European Commission. Horizon Europe – Data Management Plan (template) [online]. European Commission, [cit. 2026-02-14]. <https://ec.europa.eu/info/funding-tenders/opportunities/docs/2021-2027/horizon/temp-form/report/data-management-plan_he_en.docx>.
  3. GO FAIR. FAIR Principles [online]. [cit. 2026-02-14]. <https://www.go-fair.org/fair-principles/>.
  4. OpenAIRE. OpenAIRE [online]. [cit. 2026-02-14]. <https://www.openaire.eu/>.