|
36 | 36 | }</style> |
37 | 37 | <h2>Navodila za vnos podatkov v repozitorij CLARIN.SI</h2> |
38 | 38 | <div id="intro"> |
39 | | - <p style="margin-top: 10px; margin-bottom: 10px;">Repozitorij CLARIN.SI ne sprejema vnosov brez datotek (brez bitnih tokov, ki so dodani vnosu). V tem dokumentu so zbrani napotki glede ustrezne strukture deponiranih jezikovnih virov, primernih formatov podatkov in zahtevanih formatov označenih besedilnih datotek.</p> |
| 39 | + <p style="margin-top: 10px; margin-bottom: 10px;">Repozitorij CLARIN.SI praviloma ne sprejema vnosov brez datotek |
| 40 | + (tj. brez bitnih tokov, ki so dodani vnosu). |
| 41 | + V tem dokumentu so zbrani napotki glede ustrezne strukture deponiranih jezikovnih virov, primernih formatov |
| 42 | + podatkov in zahtevanih formatov označenih besedilnih datotek. |
| 43 | + Seznam formatov podatkov, ki jih sprejema CLARIN.SI je na voljo tudi v |
| 44 | + <a href="https://standards.clarin.eu/sis/views/view-centre.xq?id=CLARIN.SI">vnosu za CLARIN.SI</a> |
| 45 | + v okviru "CLARIN Standards Information System". |
| 46 | + </p> |
40 | 47 | </div> |
41 | 48 | <div id="toc_container"> |
42 | 49 | <p class="toc_title">Vsebina</p> |
@@ -184,8 +191,16 @@ <h4>Datum in čas</h4> |
184 | 191 | </div> |
185 | 192 | <div id="binary"> |
186 | 193 | <h3>Ustrezni binarni formati</h3> |
187 | | - <p style="margin-top: 10px; margin-bottom: 10px;"> Repozitorij CLARIN.SI sprejema podatke v standardnih in/ali splošno znanih odprtih formatih (dodatne informacije najdete v dokumentu CLARIN ERIC »<a href='http://www.clarin.eu/sites/default/files/Standards%20for%20LRT-v6.pdf'>Standardi za jezikovne vire in tehnologije</a>«). Pri večini vnosov v repozitorij gre za (večinoma) označene ali drugače strukturirane besedilne podatke. Ker zanje velja več zahtev kot za druge datoteke, jih podrobneje obravnavamo v nadaljevanju. Spodaj pa so našteti drugi (binarni) formati, ki jih repozitorij CLARIN.SI sprejema: |
188 | | - <ul> |
| 194 | + <p style="margin-top: 10px; margin-bottom: 10px;">Repozitorij CLARIN.SI sprejema podatke v standardnih in/ali splošno znanih |
| 195 | + odprtih formatih. |
| 196 | + Seznam formatov, ki jih sprejema CLARIN.SI je na voljo v |
| 197 | + <a href="https://standards.clarin.eu/sis/views/view-centre.xq?id=CLARIN.SI">vnosu za CLARIN.SI</a> |
| 198 | + v okviru "CLARIN Standards Information System", v nadaljevanju pa naštejemo sprejete format glede na njihov namen.</p> |
| 199 | + |
| 200 | + <p style="margin-top: 10px; margin-bottom: 10px;">Pri večini vnosov v repozitorij gre za (večinoma) označene ali drugače |
| 201 | + strukturirane besedilne podatke. Ker zanje velja več zahtev kot za druge datoteke, jih podrobneje obravnavamo v nadaljevanju. |
| 202 | + Spodaj pa so našteti drugi (binarni) formati, ki jih repozitorij CLARIN.SI sprejema: |
| 203 | + <ul> |
189 | 204 | <li><b>Stiskanje in paketiranje virov:</b> GNU ZIP (.gz), ZIP (.zip), TAR (.tar), stisnjeni format TAR (.tgz).</li> |
190 | 205 | <li><b>Datoteke dokumentov:</b> dokumenti, pripravljeni na tisk, so lahko deponirani v formatu PDF (.pdf), vendar v tem formatu sprejemamo samo spremno dokumentacijo (objavljeni članki ali poročila o naboru podatkov, navodila za označevanje itn.), glavnega nabora podatkov pa ne. Izjema so faksimili, ki so lahko deponirani v obliki zapisa slike ali v formatu PDF. </li> |
191 | 206 | <li><b>Jezikovni modeli:</b> če orodja za označevanje ali druga odprtokodna orodja za analizo jezika ustvarjajo samo binarne jezikovne modele ali jih uporabljajo, jih repozitorij sprejema, vendar pa so bolj zaželene različice modelov v besedilnem formatu.</li> |
|
0 commit comments