Likevel viser Riksrevisjonens rapport om Bruk av kunstig intelligens i staten at KI fortsatt er lite brukt i staten. Selv om noen statlige virksomheter har kommet langt, er det foreløpig få eksempler på KI-systemer i praktisk bruk for å forbedre tjenester eller effektivisere arbeidsprosesser i norsk offentlig sektor. Hvorfor er det så vanskelig med KI i det offentlige?
KI kan brukes til så mangt. Gjennom å lære mønstre fra data kan KI forutsi behovet for og planlegge ressurser, varsle om værforhold eller naturkatastrofer, og lage nytt innhold som bilder eller tekst. Den kan også oppdage feil, for eksempel i et regnskap.
Alt dette forutsetter data av riktig type, kvalitet og omfang. Mens noen virksomheter kan dra nytte av rikholdige datakilder, sliter andre med en digital infrastruktur som ikke er egnet å håndtere og analysere store mengder data for å utvikle KI-systemer.
Den største hemskoen er likevel ikke de tekniske utfordringene. Ifølge Riksrevisjonens funn er det større problemer knyttet til manglende kompetanse og usikkerhet om både juridisk handlingsrom, og hvordan abstrakte etiske prinsipper og prinsipielle føringer skal omsettes til tekniske spesifikasjoner i KI-systemer.
Ifølge Riksrevisjonens funn er det større problemer knyttet til manglende kompetanse og usikkerhet om både juridisk handlingsrom, og hvordan abstrakte etiske prinsipper og prinsipielle føringer skal omsettes til tekniske spesifikasjoner i KI-systemer.
Hvordan innretter man KI etter etiske prinsipper når disse er ikke omsatt til tekniske krav? En fartsbegrensning på motorveien er vanskelig å følge hvis bilen ikke er utstyrt med en fartsmåler eller bremser. Men hvilke reguleringer finnes egentlig for KI, som en revisjon kan bygges på?
Loven krever etisk bruk av KI
Riksrevisjonens undersøkelse er den første omfattende revisjon i Norge som omhandler KI. Norge har ingen særskilte lover og regler for KI, og Stortinget har ikke uttalt seg mye om den nye teknologien. Samtidig er norsk lov og regelverk teknologinøytralt og anvendbar på KI. Prinsipper som personvern, menneskets selvbestemmelse og kontroll, likebehandling, transparens, sikkerhet og ansvarlighet er forankret i menneskerettsloven og Grunnloven, personvernforordningen, likestillings- og diskrimineringsloven, alminnelige forvaltningsrettslige lover og prinsipper, og i generelle krav om en effektiv og god forvaltning. Prinsippene gjelder selvsagt også i forbindelse med utvikling og bruk av KI. Revisjonskriterier for etisk bruk av KI kan dermed utledes fra eksisterende norsk lov og regelverk.
Den nasjonale strategien for kunstig intelligens i Norge bygger på definisjoner for tillitsvekkende KI utarbeidet av EUs ekspertgruppe for kunstig intelligens. Disse gjentas i digitaliseringsstrategien for 2024-2030.
Utfordringen er hvordan disse prinsippene kan omsettes i praksis i utvikling og bruk av KI. Hva skal virksomhetene gjøre for å sikre etisk og forsvarlig bruk av KI? Når praksisnær veiledning mangler, er det lett å forstå at virksomhetene stort sett holder seg til små KI-prosjekter med liten risiko.
Det er ikke bare forvaltningen som møter slike utfordringer. Mangelen på standarder for teknisk omsetting av etiske prinsipper er også en utfordring for revisjonsmyndigheter. Revisjonsstandarder for KI må utvikles i tråd med den teknologiske utviklingen, forbedret risikoforståelse og endringer i regelverk.
Riksrevisjonen har over flere år, i samarbeid med revisjonsmyndigheter fra andre land, utviklet et rammeverk for revisjon av KI-systemer basert på maskinlæringsalgoritmer. Auditing machine learning algorithms ble først publisert i 2020, oppdatert i 2023 og skal i løpet av 2025 bli oppdatert igjen mht. bl.a. generativ KI og KI-forordningen.
Revisorer må følge med på utviklingen for å forstå nye KI-løsninger som reviderte virksomheter kommer til å ta i bruk i årene som kommer.
Revisorer må følge med på utviklingen for å forstå nye KI-løsninger som reviderte virksomheter kommer til å ta i bruk i årene som kommer. En grunnleggende forståelse av ulike algoritmer brukt i KI-systemer, risikoer som kan følge disse og eventuelle metodikker for avbøting av risikoene er en forutsetning for å kunne revidere slike systemer.
Risiko med KI i offentlig forvaltning
Mangelen på standarder øker også risikoen for feil. De siste årene har vi sett stadig flere eksempler fra offentlig sektor i ulike land, som f.eks. i Nederland, der regjeringen måtte gå av etter at mange innbyggerne ble feilaktig beskyldt for trygdesvindel av en maskinlæringsalgoritme.
Utvikling og bruk av KI-systemer kan utfordre etablerte rettsprinsipper som personvern, likebehandling, transparens og sikkerhet på nye og særegne måter. Riksrevisjonen anbefaler i sin rapport at Digitaliserings- og forvaltningsdepartementet tar en mer aktiv rolle for å bidra til en samordnet forståelse av hva de etiske prinsippene innebærer, og veiledning om hvordan disse kan ivaretas i praksis.
Et viktig bidrag i så måte er Likestillings- og diskrimineringsombudets veileder for innebygd diskrimineringsvern, som beskriver typiske diskrimineringsutfordringer i utvikling og bruk av KI-systemer.
Første spørsmål for vurderingen er om systemet forskjellsbehandler slik at noen personer blir dårligere stilt en andre. KI-utviklere kan måle om KI-systemet presterer like godt for ulike grupper av mennesker. Matematisk er det relativt enkelt å beregne en relevant ytelsesmetrikk separat for ulike grupper[1]. En avveiing KI-utviklere ofte må gjøre er hvilken ytelsesmetrikk som skal definere oppførselen til modellen ovenfor ulike grupper.
Er det f.eks. viktigere at en lik andel av de som trenger og har krav på en ytelse faktisk også får den, eller at en lik andel av de som får ytelsen faktisk har behov for og krav på den? Sjelden er det mulig å ta hensyn til begge deler samtidig, og tiltak for å utligne forskjeller i ett forhold kan føre til at forskjeller kommer til syne i andre. Hvilket forhold er viktigst å få utlignet mellom grupper? Hvor mye forskjell er greit, og når utgjør en forskjell usaklig forskjellsbehandling eller diskriminering i lovens forstand?
Når KI-systemer innrettes på den ene eller andre måten, blir etiske verdier kodet inn i KI-systemene. Uten felles forståelse og nasjonal veiledning må KI-utviklere selv bevisst eller ubevisst kode inn slike avveiinger. Etisk KI avhenger derfor av enkeltpersoners kompetanse, og kan ikke forventes å være enhetlig i offentlig forvaltning. Dette er naturlig nok ikke uproblematisk.
Transparens og forklarbarhet er tett koblet til både personvern og likebehandling. For å unngå algoritmisk diskriminering må utviklere kunne teste hvordan KI-systemets resultater påvirkes av ulike variabler som kan føre til diskriminering.
Hvis et KI-system brukes i saksbehandling til beslutning eller støtte for enkeltvedtak, krever forvaltningsloven at vedtaket kan grunngis, og at utfallet av KI-systemet kan forklares. Forklarbar KI er et aktivt forskningsfelt, og hvordan en slik forklaring kan og skal se ut avhenger av både systemet, virkeområdet og behovene til mottakere av forklaringen.
Resultater av maskinlæringskomponenten i et KI-system er som regel sannsynligheter som må oversettes til forståelig informasjon for brukerne. I beslutningsstøttesystemer kan det være nyttig å gi en forklaring på resultatet i tillegg til selve resultatet. Samtidig kan det i avanserte KI-systemer være vanskelig å forstå hvordan systemet fungerer og kommer frem til et visst resultat.
Riksrevisjonens rapport viser at arbeidet for å sikre transparens og likebehandling i utvikling av KI-systemer er mindre fremtredende i statlige virksomheter enn sikring av personvern og sikkerhet. Mange opplever tolkning av personvernregelverket som krevende, og noen KI-initiativer stopper opp på grunn av langtrukne interne personvernutredninger.
Riksrevisjonens rapport viser at arbeidet for å sikre transparens og likebehandling i utvikling av KI-systemer er mindre fremtredende i statlige virksomheter enn sikring av personvern og sikkerhet.
Når offentlige virksomheter innhenter data fra innbyggerne, er det gjerne for å utføre lovpålagte forpliktelser. Da er det ikke rett fram å benytte persondata til utvikling av KI, for å forbedre framtidige tjenester rettet mot andre personer. Dataminimerings- og proporsjonalitetsprinsippene krever videre at persondata kun blir behandlet hvis det er nødvendig og i rimelig forhold til nytten.
Selve nytten av enkelte variabler til avanserte modeller blir imidlertid gjerne bestemt i treningsprosessen, siden det er vanskelig å forutse hvilke mønstrer modellene oppdager og hvor mye enkelte variabler bidrar. Datatilsynets regulatoriske sandkasse diskuterer slike personvernutfordringer i utvalgte KI-systemer. Selv om kapasiteten av sandkassen ikke tillater behandling av mange KI-prosjekter, er ideen at utvalget av KI-systemer i sandkassen tjener som eksempler andre KI-prosjekter kan lære av. Riksrevisjonens rapport peker her på for lite analyser på tvers som grunnlag for generelle lærdommer flere kan ha nyte av.
I etterkant av Riksrevisjonen undersøkelse har generative KI-systemer, som produserer tekst eller bilder, blitt mer tilgjengelig. Forståelse av risikoene med slike systemer øker med økt bruk. For eksempel har det blitt påvist at generative KI-systemer potensielt kan manipuleres til å gi ut informasjon om treningsdata (pdf).
Offentlige virksomheter vil trolig sjelden utvikle språkmodeller fra bunnen av, men mest sannsynlig tilpasse eller bruke språkmodeller utviklet av andre. Da er det viktig å vite hvilke data modellen er trent på, mulige skjevheter og hvordan innretningen av modellen kan slå ut. Det er et åpent spørsmål hvordan språkmodeller kan kvalitetssikres for bruk i offentlig forvaltning. Dette er derfor et område både offentlige virksomheter og revisorer må følge med på.
Systemer for KI risikostyring, rammeverk og standarder for ansvarlig bruk av KI blir utviklet av internasjonale aktører [2], [3]. I Norge er det for lite samordnet veiledning og få verktøy, som Riksrevisjonens rapport har påvist.
Her kan man tenke seg at veiledningsrollen muligens kan bli like viktig som kontroll for revisor.
Revisjon av KI-systemer kan bidra til å sikre etisk og pålitelig bruk av KI. Samtidig er det viktig å ikke hemme viktige utviklingsinitiativer av enkeltaktører som kan bidra til å utvikle metodikken for teknisk implementering av etisk KI. Her kan man tenke seg at veiledningsrollen muligens kan bli like viktig som kontroll for revisor.
Revisjon av KI-systemer
Revisjon av KI-systemer kan innrettes på ulike måter. Spørsmålene kan dreie seg om virksomhetens generelle kontroll over KI-systemene, fokusere på ett spesifikt KI-system, eller vurdere hvordan et etisk prinsipp ivaretas i KI-bruken innen en virksomhet eller sektor.
Riksrevisjonens KI-undersøkelse var innrettet som en forvaltningsrevisjon. Sammenlignet med andre forvaltningsrevisjoner, krever en KI-revisjon kunnskap om algoritmer brukt i KI-systemer, og metoder knyttet til forklarbarhet og likebehandling i modellene. Siden KI er et fagfelt under rask utvikling, må revisor hele tiden holde seg oppdatert.
Riksrevisjonen har i sin rapport utarbeidet et rammeverk (vedlegg 3 (pdf)) for vurdering av hvorvidt de etiske prinsippene for ansvarlig KI er ivaretatt på styringsnivå. Utgangspunkt kan være en analyse av prosesstyring, ressursstyring og risikostyring på virksomhets- og prosjektstyringsnivå.
Flere virksomheter har nå utviklet en egen KI-strategi, KI-satsing eller virksomhetsinterne retningslinjer for KI. Hvilke av de etiske prinsippene er dekket i disse styringsdokumentene? Er de helt overordnete eller mer konkrete og tilpasset virksomhetens oppgaver og rammebetingelser?
På prosjektnivå er det særlig viktig at KI-livsyklusstyringen inkluderer innebygd vern av det etiske prinsippene. Har hele prosessen fra planleggingen til vedlikehold av KI-systemet i så fall blitt dokumentert? Er KI-systemet utformet for å oppfylle prinsippet om innebygd personvern, likebehandling, transparens og sikkerhet? Datatilsynets veiledning for innebygd personvern og personvern som standard, og LDOs veileder for innebygd diskrimineringsvern (pdf), er et godt utgangspunkt for kriterier som kan vurderes i en revisjon.
Hvordan de overordnete styringsprinsippene er fulgt i praksis kan variere, og i noen prosjekter utvikles styringsprinsippene i etterkant basert på erfaringer gjort gjennom datahåndtering og modellutvikling. Har KI-systemet et klart definert formål, og er algoritmen utviklet i tråd med dette? Er datakildene, kriteriene for datautvelgelse og det rettslige grunnlaget for innsamling og behandling tilstrekkelig dokumentert? Ble modellen sammenlignet med alternative metoder og modeller, og blir resultatene overvåket?
Dokumentanalyser og intervjuer kan gi informasjon om hvor god kontroll virksomheten har med KI-systemene sine. For å vurdere om KI-systemene fungerer som den skal, må de undersøkes i praksis. En slik undersøkelse var ikke del av Riksrevisjonen KI-revisjon, men eksempler på mulige tester av KI-systemene er beskrevet i Auditing machine learning algorithms nevnt ovenfor.
Gjennomgang av utviklings- og produksjonskode kan vise kriteriene for valg av algoritmer og deres konfigurasjon. Koden viser også om og hvordan resultatene overvåkes automatisk for å sikre at de er i tråd med både forventet ytelse og med likebehandlingsprinsippet.
Sammenligning av ytelse over tid, spesiell produksjonsytelse opp mot forventninger fra utviklingen, viser hvor robust systemet er. Datagrunnlaget og modellresultater kan ses på separat for ulike grupper, for å teste for eventuelle skjevheter. Revisorer kan videre undersøke hvordan resultatene påvirkes av ulike variabler, og vurdere hensiktsmessigheten av å bruke personopplysninger eller ugjennomsiktige modeller.
Ulike revisjonsdybder krever ulike nivåer av teknisk ekspertise og tilgang til de tekniske komponentene. Sistnevnte kan være en utfordring i leverandørsystemer, siden reviderte virksomheter som benytter KI-systemene ofte ikke er kjent med den underliggende teknologien eller datagrunnlaget selv.
For en mer detaljert revisjon av KI-systemet, må tilstrekkelig informasjon om KI-systemets algoritme, treningsprosessen og datagrunnlaget bli innhentet fra leverandøren.
I en mer overordnet revisjon kan anskaffelsesprosessen, oppfølging av utvalgskriterier som er knyttet til ansvarlig KI og eventuell tilpasning og testing i virksomheten legges til grunn for en vurdering. For en mer detaljert revisjon av KI-systemet, må tilstrekkelig informasjon om KI-systemets algoritme, treningsprosessen og datagrunnlaget bli innhentet fra leverandøren. Dette kan være tidkrevende, men håpet er at KI-forordningen fra EU kommer til å forenkle prosessen, spesielt for KI-systemer som etter forordningen er klassifisert som høyrisiko.
Leverandørsystemer og KI-forordningen
Forordningen om kunstig intelligens (KI-forordningen) er en vedtatt EU-forordning for produktregulering, som kommer til å bli gjennomført i norsk lov, jf. DFD (2024), Fremtidens digitale Norge – Nasjonal digitaliseringsstrategi 2024–2030. Forordningen kan både forenkle revisjon av noen KI-systemer, men også tilføre flere aspekter å revidere i andre. Den bruker en risikobasert tilnærming, med flere regulatoriske krav avhengig av risikoen knyttet til et KI-system.
Kravene er naturlig nok mest inngående for KI-systemer som antas å ha høy risiko, og dokumentasjonskrav for slike systemer kan derfor forenkle informasjonsinnhenting i en revisjon av leverandørsystemer. KI-systemer i områder som allerede er sterk regulert, som f.eks. i medisinsk utstyr, vil også faller inn under høyrisiko klassifiseringen[4] men kan muligens imøtekomme dokumentasjonskravene lettere basert på etablerte standarder.
Forordningen definerer videre bruksområder som kan være høyrisiko under visse forutsetninger, og listen inneholder klassiske ansvarsområder i offentlig sektor som eksempelvis tilgang til velferdsytelser eller utdanning. Klassifiseringen av KI-systemer i disse bruksområdene forutsetter to vurderinger av vesentlighet, for graden av risiko og graden av KI-systemets påvirkning på beslutninger.[5]
Det gjenstår å se hvordan offentlige virksomheter kommer til å vurdere vesentlighet av egenutviklete KI-systemer, men en mulig risiko er at KI-systemets påvirkning på beslutninger og vedtak blir bagatellisert for å unngå klassifisering som høyrisikosystem.
Argumentasjonen med en menneskelig beslutningstaker blir allerede brukt til begrunnelse av liten risiko for diskriminering, selv om mye tyder på at det ikke er tilstrekkelig[6]. Standarder for hva som utgjør tilstrekkelig menneskelig kontroll over KI-systemer mangler foreløpig. Revisorer må følge med på utviklingen for å være i stand til å vurdere virksomhetenes avgjørelser.
KI-forordningen gir både virksomhetene og revisorene en liste med krav å forholde seg til, og hjelper på denne måten å øke kunnskap om risiko med KI. Samtidig er forordningen en ny regulering som krever tolking og veiledning for praktisk gjennomføring.
En arbeidsgruppe, sitert i Riksrevisjonens rapport, påpeker at veiledningsbehovet vil øke når KI-forordningen trer i kraft, og understreker behovet for økt KI-kompetanse i alle sektorer for å unngå at usikkerhet rundt riktig bruk hindrer teknologibruk.
Det er viktig at revisjonsmyndigheter er på ballen, og aktivt bidrar med utvikling av revisjonsstandarder i tråd med utviklingen av ny teknologi.
Digitaliseringsstrategien frem mot 2030 har som mål at offentlig sektor skal bruke KI for å forbedre og effektivisere tjenester, og at Norge skal være i front på etisk og trygg bruk av KI. Det er å håpe at Norge lykkes med å transformere etisk KI fra den flaskehalsen det kan oppleves som i dag, til en markedsfordel og et eksempel til etterfølge for andre land. Det er viktig at revisjonsmyndigheter er på ballen, og aktivt bidrar med utvikling av revisjonsstandarder i tråd med utviklingen av ny teknologi.
____________________________
Noter:
- Forutsatt at gruppetilhørighet er tilgjengelig informasjon, som kan være i strid med personvern.
- NIST (2023), Artificial Intelligence Risk Management Framework (AI RMF 1.0) (pdf).
- González, F., Ortiz, T., Sánchez Ávalos, R. (2021). Responsible use of AI for public policy: Data science toolkit. OECD, IDB.
- Jf. KI-forordningen, artikkel 6 (1)
- Jf. KI-forordningen, artikkel 6 (2,3) og Annex III. KI-systemer i disse bruksområdene er høyrisiko dersom de utgjør en vesentlig risiko for helse, sikkerhet eller grunnleggende rettigheter, gjennom vesentlig påvirkning av relaterte beslutninger.
- Også LDOs veileder for innebygd diskrimineringsvern beskriver risikoen at en menneskelig overprøving av enkeltstående beslutninger er farget av KI-systemets anbefaling og ikke en er reell overprøving.
__________________________________
Carolin Prabhu er spesialrådgiver i Riksrevisjonen. Hun har en doktorgrad i fysikk med flere års erfaring fra forskning. Siden 2018 har hun jobbet i Riksrevisjonen med dataanalyse og KI til støtte i revisjon. Hun har også utviklet metodikk til revisjon av KI-systemer, og var prosjektleder i forvaltningsrevisjonen om bruk av kunstig intelligens i staten som ble offentliggjort i september 2024.
Lenke til kontroll & revisjon nr. 2/2025: