Si hei til Nancy, Nasjonalbibliotekets kunstige intelligens

---

Kunstig intelligens

Intelligens utøvd av maskiner.

Intelligens er evnen til å samle informasjon, gjøre den til kunnskap, og bruke den til å tilpasse seg selv eller miljøet rundt for å oppnå mål.

Nasjonalbiblioteket presenterte denne uken «Nancy», sitt første forsøk på å benytte kunstig intelligens. Arbeidet er i startfasen, men Nancy kan allerede hjelpe til med å klassifisere innhold og gjøre tekstsøk i radio- og tv.

---

– Vi har laget et digitalt bibliotek – fra A til Å – uten mennesker til å tilrettelegge eller beskrive informasjonen. Vår digitale bibliotekar forstår selv innholdet.

Det sier Svein Arne Brygfjeld, som har ledet arbeidet med å utvikle digitale tjenester ved biblioteket. Nå har han ansvar for den siste satsingen: kunstig intelligens.

De kom fra blant annet Silicon Valley og Vatikanstaten, bibliotekarene og forskerne som i går møttes til konferanse på i Nasjonalbiblioteket i Oslo for å diskutere bruk av kunstig intelligens i fremtidens biblioteker. Da presenterte også Nasjonalbiblioteket sin siste nyvinning for verden: En splitter ny kunstig intelligens – det vil si en programvare som til en viss grad er selvlærende – med navnet «Nancy», oppkalt den spill levende bibliotekaren Nancy Pearl som er noe av en kultfigur blant bibliotekarer (hun har fra før sin egen actionfigur).

«Fra Gutenberg-galaksen til cyberspace» kunne vi lese på en plakat like ved konferanserommet, hvor Nasjonalbibliotekets nyeste utstilling «Fantastiske fremtider» for tiden pågår.

– Biblioteker og kunstig intelligens er en perfekt match, konkluderte Brygfjeld under sitt foredrag.

Nancys fødsel.

Arbeidet med å skape «Nancy» begynte for kun halvannet år siden. Brygfjeld forklarer at tanken i første omgang bare var å gjøre seg kjent med ulike teknologier for kunstig intelligens. De forsto nemlig at teknologien i fremtiden ville komme til å forandre også bibliotekene, og de så at vi i Norge hadde spesielt gode forutsetninger, fordi Nasjonalbiblioteket er i verdenstoppen når det gjelder digitalisering. Nesten hele samlingen er digitalisert siden arbeidet ble påbegynt i 2006: Bøker og aviser, radio- og tv-sendinger, kart og fotografier – datamaterialet er enormt. En gruppe på tre personer (alle som én «blodteknologer», ifølge Brygfjeld) begynte så smått å gjøre eksperimenter med maskinlæring: Hva var mulig å få til?

Forstår innholdet.

I noen av eksperimentene ble «Nancy», som egentlig er satt sammen av flere ulike selvlærende dataprogrammer, satt til å gjøre vanlig bibliotekararbeid, som å klassifisere innholdet i tekster, lydopptak, fotografier og film/video. I en viss forstand kan Nancy nemlig «forstå» innholdet i samlingen helt selv, og oppdage sammenhenger mennesker kanskje ikke ville ha sett. Det betyr at hun kan gjenkjenne og koble emner, personer, ansikter og steder og gjøre dem søkbare for brukeren.

Biblioteker og kunstig intelligens er en perfekt match.
— Svein Arne Brygfjeld

– Poenget er at Nancy lærer av erfaring. Vi programmerer ikke inn alle mulige muligheter, men lar den kunstige intelligensen finne ut av det selv, sier Brygfjeld.

Til dette bruker de såkalt veiledet maskinlæring. Det betyr at de mater Nancy med eksempler på hvordan innhold kan klassifiseres og sorteres. Her har biblioteket et fortrinn fremfor mange andre som ønsker å bruke kunstig intelligens fordi man kan ta utgangspunkt i det enorme arbeidet bibliotekarer av kjøtt og blod allerede har gjort for å katalogisere og beskrive innholdet.

– Når vi for eksempel gir henne noen tusen bøker, lærer hun seg å skille mellom kokebøker, kriminalromaner og diktsamlinger, uten at vi gir noen definisjon, sier Bygfjeld.

Etter «opplæringen», kan den kunstige intelligensen altså klare seg på egen hånd. I ett eksperiment klarte Nancy å plassere bøkene i riktig sjanger i 95 prosent av tilfellene, noe Brygfjeld mener er «godt nok». I et annet eksperiment fikk Nancy i oppgave å katalogisere bøkene etter Deweys desimalsystem, som er det bibliotekarene bruker til å plassere bøker på riktig hylle. I løpet av læringsprosessen økte presisjonen på Nancys vurderinger fra vel 70 til godt over 90 prosent.

Mer enn nøkkelord

. Det største prosjektet gikk imidlertid ut på å prøve å lage et fungerende digitalt mediebibliotek uten noen forhåndsklassifisering av innholdet, forteller Bygfjeld. Den kunstige intelligensen fikk bryne seg på alt innholdet fra aviser, radio og tv i januar 2011: 4,5 millioner avisartikler, 800 timer radio og 100 timer fjernsyn.

Ifølge Brygfjeld klarte Nancy da å trekke ut blant annet personnavn, organisasjoner og steder, slik at det ble søkbart. Hun klarer også til en viss grad også å se relasjonene mellom slike nøkkelord.

– Den kunstige intelligensen så for eksempel raskt at det var en sterk relasjon mellom Jens Stoltenberg og Arbeiderpartiet. Det anskueliggjør hva vil kunne gjøre fremover, sier Brygfjeld.

I Nancys lettfattelige brukergrensesnitt ser vi umiddelbart at den sterkeste «relasjonen» Jens Stoltenberg har i januar 2011 ikke er til Arbeiderpartiet, men til den tidligere asylsøkeren Maria Amelie som da var i sentrum av en opphetet politisk strid. Ved å trykke på navnet, får vi umiddelbart opp en oversikt over avissider, tv-innslag og radioprogrammer der Jens Stoltenberg debatterte Maria Amelie-saken. Du kan også få opp et kart over alle stedene man snakker om i de ulike artiklene og programmene.

En del av seminaret handlet om hvordan den nyeste forskningen lar kunstige intelligenser lære seg å forstå komplekse begreper i kontekst ved å finne slike koblinger mellom data – til og med uavhengig av språk. Ikke bare skjønner AI-en når du er på jakt etter kattedyret Jaguar og ikke bilmerket. I fremtiden vil den kanskje kunne forstå at en mange tusen år gammel hieroglyf og et nytt avisinnlegg omtaler samme fenomen eller idé. Da søker man ikke bare etter informasjon, men oppdager kunnskap, mente en av foredragsholderne.

– På sikt gir det mening å snakke om at disse kunstige intelligensene fremskaffer helt ny kunnskap, mener Brygfjeld.

Søk på radio.

I Norge er trolig det mest umiddelbart nyttige likevel nettopp at teknologien gjør det mulig å gjøre tekstbaserte søk i radio- og tv-sendinger. Denne delen av samlingen er i dag ikke indeksert og er dermed nesten umulig å finne frem i, med mindre man allerede vet nøyaktig hvor man skal lete.

Vi kunne saktens klassifisert det manuelt, men da måtte vi sikkert sysselsatt hele Norges befolkning.
— Svein Arne Brygfjeld

– Vi har store samlinger med lyd og video, men lite kunnskap om hva innholdet er. Vi kunne saktens klassifisert det manuelt, men da måtte vi sikkert sysselsatt hele Norges befolkning. Nå vil vi likevel kunne gi folk tilgang til relevant innhold, sier Brygfjeld.

Selv om Googles talegjenkjenning neppe klarer å få alle norske dialekter riktig, er det de klarer tilstrekkelig godt til at søkesystemet fungerer bra. Du kan også gjøre bildesøk i tv-historien og for eksempel gjenfinne et ansikt eller et bilde som ligner et bilde man viser til den kunstige intelligensen.

Endelig moden.

Det høres kanskje rart ut at tre personer med økonomiske midler som de selv sier er «ubetydelige», kan klare å skape noe slikt som Nancy så hurtig. Men ifølge Brygfjeld er dette et uttrykk for at maskinlæring nå begynner å bli en moden teknologi. Markedet tilbyr nå rimelig regnekraft og god programvare, som kan benyttes også av andre enn de aller fremste ekspertene på kunstig intelligens. De store mengdene data, som også trengs for å lykkes med maskinlæring, har jo Nasjonalbiblioteket fra før. Teamet ved Nasjonalbiblioteket har benyttet maskinlæringstjenester fra Google og det er også dette selskapets system for å gjenkjenne tale som leverer transkripsjonene av radio- og tv-sendingene som Nancy analyserer. I tillegg utvikler de egen programvare.

– Er det ikke problematisk å la Google få kloa i denne informasjonen?

– Nei. Det er bare en tjeneste de tilbyr, de bruker ikke informasjonen til noe. Vi sender dem for eksempel en lydfil og får transkripsjonen tilbake etterpå. Og da har vi det, selv uten tilgang til Google. Så kjører vi vår digitale bibliotekar oppå der etterpå.

– Hva nå?

– Vi må for det første ta dette i bruk for å effektivisere arbeidet. Neste skritt må bli å gjøre det slik at Nancy kan kommunisere med brukerne. På sikt forestiller jeg meg at vi har en digital bibliotekar som kan føre en fullverdig samtale med brukerne, og som kan være med på et resonnement, slik at brukerne får den informasjonen de trenger.

Du vil for eksempel kunne vise et bilde av sted i Norge til AI-en og raskt få opp alt som finnes av bilder fra det samme stedet i hele den enorme samlingen. En historiker vil kunne be Nancy finne informasjon i avisarkivet om et bestemt navn eller emne, og så be Nancy om å sammenholde funnene med relevant innhold fra radio- og tv.

– Du gjør bibliotekarene arbeidsløse?

– Vi er i utvikling, og på NB er ikke akkurat blitt mindre i omfang selv om vi har digitalisert. Oppgavene blir flere, og NB har stadig mye ugjort.

Den største utfordringen med bruk av maskinlæring i bibliotekene er ifølge Brygfjeld noe annet. Før visste bibliotekarene nøyaktig hva de hadde av bøker og annet, men de visste lite om hva innholdet var. Med maskinlæring kan man også vite «noe» om innholdet, men nå er alt basert på sannsynlighet.

– Vi går fra en forutsigbar og presis verden til en omtrentlig verden. Det er et vanskelig skifte for oss alle, sier han.

Kan ta feil.

Blant deltagerne på konferansen var Michael Keller, som er universitetsbibliotekar ved det teknologitunge Stanford University i Silicon Valley. De skal nå samarbeide med Nasjonalbiblioteket om bruken av maskinlæring.

– De har noen avanserte ideer, og de har evner og vilje, sier han når vi møter ham i pausen.

Også farene med å innføre kunstig intelligens ble drøftet på seminaret, ikke minst hvordan skjevheter (bias) i datamaterialet kan lede galt av sted. I sin innledning spøkte Nasjonalbibliotekar Aslak Sira Myhre med hva som skjer når AI-en leser dårlige bøker. Hvilke konklusjoner vil datamaskinen for eksempel trekke av å lese 1930-tallets antisemittisme? Keller mener den største faren ved AI i bibliotekene er at vi kan misforstå datamaskinens slutninger.

– Noe kan bli foreslått, som bare er tull. Man må alltid diskutere relevansen. Vi må være forsiktige. Systemene gir oss ikke svar, men forslag, men det er forslag som ellers ikke ville kommet frem, sier Michael Keller.