Standardizované formáty dat
Standardizované formáty dat umožňují výměnu, ukládání a zpracování informací mezi různými systémy a aplikacemi. Jejich cílem je zajistit srozumitelnou strukturu dat, dlouhodobou čitelnost a interoperabilitu.
Mezi nejčastěji používané formáty patří:
| Formát | Plný název | Stručný popis | Typ struktury |
|---|---|---|---|
| XML | eXtensible Markup Language | Značkovací jazyk pro reprezentaci strukturovaných dat; hierarchická stromová struktura | Strukturovaná, hierarchická |
| JSON | JavaScript Object Notation | Textový formát pro výměnu strukturovaných dat; využívá objektovou/klíč–hodnota reprezentaci | Strukturovaná (objektová) |
| CSV | Comma-Separated Values | Jednoduchý tabulkový formát, kde jsou hodnoty odděleny čárkou (případně jiným oddělovačem) | Tabulková |
| TOON* | Token-Oriented Object Notation | Úsporný formát navržený pro efektivní výměnu dat mezi velkými jazykovými modely | Nový, experimentální |
- Formát TOON není dosud mezinárodně standardizovaný; je uváděn jako příklad nově vznikajícího formátu vhodného pro úsporný přenos dat mezi LLM (spotřebuje málo tokenú).
Ukázky formátů[upravit | editovat zdroj]
Zapíšeme v různém kódování jednoduchý seznam uživatelů: Každý uživatel má tři vlastnosti:
- <id> – jedinečné číslo uživatele
- <name> – jméno uživatele
- <role> – role uživatele v systému (například „admin“ nebo „user“)
Kód obsahuje dva uživatele"
- Uživatele s ID 1, který se jmenuje Anna a má roli admin.
- Uživatele s ID 2, který se jmenuje Dana a má roli user.
XML kód se seznamem uživatelů
<users>
<user>
<id>1</id>
<name>Anna</name>
<role>admin</role>
</user>
<user>
<id>2</id>
<name>Dana</name>
<role>user</role>
</user>
</users>
JSON kód pro stejný seznam
{
"users": [
{ "id": 1, "name": "Anna", "role": "admin" },
{ "id": 2, "name": "Dana", "role": "user" }
]
}
Totéž v "tabulkovém" formátu CSV
id,name,role 1,Anna,admin 2,Dana,user
A nakonec formát TOON
users[2]{id,name,role}:
1,Anna,admin
2,Dana,user
V tomto jednoduchém příkladu vypadá TOON jako CSV. Rozdíl je v tom, že CSV je vhodné jen pro plochou strukturu (tabulky), kdežto TOON zachovává celou datovou strukturu JSONu a umožňuje pracovat se zanořenými objekty. Počet položek je u TOON obsažen v hlavičce, takže lze validovat, zda se načetl plný počet řádků. TOON je nadmnožinou JSONu.[1].
