Standardizované formáty dat

Z WikiSkript

Standardizované formáty dat umožňují výměnu, ukládání a zpracování informací mezi různými systémy a aplikacemi. Jejich cílem je zajistit srozumitelnou strukturu dat, dlouhodobou čitelnost a interoperabilitu.

Mezi nejčastěji používané formáty patří:

Formát Plný název Stručný popis Typ struktury
XML eXtensible Markup Language Značkovací jazyk pro reprezentaci strukturovaných dat; hierarchická stromová struktura Strukturovaná, hierarchická
JSON JavaScript Object Notation Textový formát pro výměnu strukturovaných dat; využívá objektovou/klíč–hodnota reprezentaci Strukturovaná (objektová)
CSV Comma-Separated Values Jednoduchý tabulkový formát, kde jsou hodnoty odděleny čárkou (případně jiným oddělovačem) Tabulková
TOON* Token-Oriented Object Notation Úsporný formát navržený pro efektivní výměnu dat mezi velkými jazykovými modely Nový, experimentální
  • Formát TOON není dosud mezinárodně standardizovaný; je uváděn jako příklad nově vznikajícího formátu vhodného pro úsporný přenos dat mezi LLM (spotřebuje málo tokenú).

Ukázky formátů[upravit | editovat zdroj]

Zapíšeme v různém kódování jednoduchý seznam uživatelů: Každý uživatel má tři vlastnosti:

  • <id> – jedinečné číslo uživatele
  • <name> – jméno uživatele
  • <role> – role uživatele v systému (například „admin“ nebo „user“)

Kód obsahuje dva uživatele"

  • Uživatele s ID 1, který se jmenuje Anna a má roli admin.
  • Uživatele s ID 2, který se jmenuje Dana a má roli user.

XML kód se seznamem uživatelů

<users>
    <user>
        <id>1</id>
        <name>Anna</name>
        <role>admin</role>
    </user>
    <user>
        <id>2</id>
        <name>Dana</name>
        <role>user</role>
    </user>
</users>

JSON kód pro stejný seznam

{
  "users": [
    { "id": 1, "name": "Anna", "role": "admin" },
    { "id": 2, "name": "Dana", "role": "user" }
  ]
}

Totéž v "tabulkovém" formátu CSV

id,name,role
1,Anna,admin
2,Dana,user

A nakonec formát TOON

users[2]{id,name,role}:
  1,Anna,admin
  2,Dana,user

V tomto jednoduchém příkladu vypadá TOON jako CSV. Rozdíl je v tom, že CSV je vhodné jen pro plochou strukturu (tabulky), kdežto TOON zachovává celou datovou strukturu JSONu a umožňuje pracovat se zanořenými objekty. Počet položek je u TOON obsažen v hlavičce, takže lze validovat, zda se načetl plný počet řádků. TOON je nadmnožinou JSONu.[1].


Odkazy[upravit | editovat zdroj]