Kommentar til HISTFORM

Kommentar til "Felles registrerings-instrukser for folketellingene 1865-1910"

Ang. markering av utydeligheter, 1)a).

Både uklarheter i slutten av ordet og usikkerhet på hele ordet markeres som "bokstaver??". Det er ikke enkelt mulig å skille disse tilfellene. Jeg foreslår at man markerer usikkerhet i hele ordet som "bokstaver ??" mens uklarheter i slutten av ordet som "bokstaver??", dvs. mellomrom før ??.

Kommentar til teknisk spec. av utvekslingsformat

Punkt 2

Tegnet '<' brukes som skilletegn. "Dette medfører at tegnet '<' ikke må forekomme i dataverdiene."

Det er for dumt å nekte å akseptere et bestemt tegn fordi det brukes som feltseperator. Det må istedet velges en brukbar koding av dette tegnet. Aktuelle kodingsmetoder er '\<' (slik som unix. '\' kodes med '\\') Annet alternativ er '&lt;' slik HTML bruker. & blir da kodet &amp;

Punkt 4

Ang. CR + LF som linjeskille. Det kunne være en ide å standardisere bruk av CR + LF men også akseptere bruk av bare LF (som unix) eller bare CR (som Mac.) slik at mye brukte metoder for linjeslutt er akseptert. Programmene skal da kunne håndtere alle variantene.

Punkt 6

Man bør ikke legge seg på et utvekslingsformat med tegnsett som ikke følger internasjonale konvensjoner for tegnsett!

ISO 8859/1 er i dag det tegnsettet som er spesifisert av internasjonale standardiseringsorganer for bruk i Norge. MS-DOS' tegnkoder gir en risiko ved transport over linker med stripping til 7-bits. De norske tegnene for æ, ø og å ender opp som kontrollkoder. Dette oppstår ikke ved ISO 8859/1. I tillegg har ISO spesifisert andre tegnsett som gir mulighet for russisk, hebraisk og det meste i sine standarder ISO 8895/[1-15]. Jeg ber om at man legger seg på den første som standard utvekslingsformat. Dette er også det MS-Windows har som standard tegnsett under navnet ANSI, og som danner utgangpunktet for UNICODE - 16-bits tegnsett.

Man bør heller ikke kreve at alle filene følger et spesiellt tegnsett.

Det bør legges inn informasjon i formatet som forteller hvilket tegnsett som benyttes. Det kan oppstå tilfeller da denne standarden brukes for å registrere data med tegn som ikke finnes i standard-tegnsettet, og det bør da være mulig å spesifisere alternativ.

Punkt 7

Det er ingen tungtveiende argumenter for å la utvekslingsformatet bestå av flere filer. Det er mye enklere å håndere en fil pr. registrering. Ved å legge dokumentasjonsfila først i utvekslingsfila kan alt sendes som en fil. Et dertil egnet skilletegn for start på datafeltene kan være '--- Data starts here ---' eller noe slikt.


Petter Reinholdtsen - petterr@stud.cs.uit.no