Delivery 2: Exploring Iris.ai and Yewno with Think-Aloud tests - a mid-term perspective

Research output: Book/Report › Report

Wildgaard, Lorna Elizabeth
Julie Kiersgaard Lyngsfeldt
Anne Vils
Solveig Sandal Johnsen

The full report is in English.

(Danish Resumé)
Artificial intelligence (AI) er et felt inden for informationsvidenskab som er i hastig udvikling og deraf bunder denne rapport i måden hvorvidt og i hvilken retning AI kan supportere forskere og studerende i litteratursøgninger og litteratursynteser på universitet Dette fokus er især i forhold til den voksende mængde artikler og data, der dagligt bliver større på tværs af samtlige fagområder som Det kongelige bibliotek servicerer. AI har potentialet til at analysere store mængder komplekse tekst korpora og via matematiske formler, at eftergøre menneskers måde at lære, træffe beslutninger og løse problemer på. Til gengæld kan opgaven oftest udføres med en hastighed og nøjagtighed, der langt overstiger et menneskes evne. Men alt dette kræver større krav til træningen af brugere og detaljeringsgraden ifm., hvordan AI software fungerer i øjemed af litteraturforskning, dens transparens, validitet og reliabilitet, da værktøjerne, der er tilgængelige via biblioteket, burde understøtte en akademiske tilgang til litteratursøgninger. Akademisk søgning forstås som søgemetoder hvor gennemsigtighed, reproducerbarhed, dokumentation og pålidelighed er nøglen for at sikre det altafgørende i en søgeproces: effektivitet, troværdighed, kvalitet, pålidelighed.

Formålet med denne rapport er at sammenfatte brugeroplevelsen og ydeevnen af to AI-søgesystemer på baggrund af flere tænke-højt tests. Rapporten arbejder med mål og forskningsspørgsmål som bunder i hvordan ovenstående faktorer for akademisk søgning understøttes af AI systemerne og om – eller hvordan disse systemer kan skabe værdi for henholdsvis brugere og informationsfolk. Vi har en arbejdshypotese i projektet om, at forskellige typer brugere (studerende, seniorforskere og bibliotekspersonale) lægger forskellige værdier i forskellige former for support og at vi med disse tests vil få belyst hvilke værdier og hvilken vej inden for vores biblioteksservices vi ønsker at gå.

Forskningsspørgsmål:

Hvordan understøtter de AI-drevne søgesystemer Iris.ai og Yewno Discover en akademisk søgning, hvor værdier som effektivitet, troværdighed, kvalitet, pålidelighed, dokumentation og gennemsigtighed i et system er altafgørende?

Hvilken værdi tilføjer Iris.ai og Yewno til den akademiske søgeproces med henblik på brugere?

Hvilken værdi tilføjer Iris.ai og Yewno til den akademiske søgeproces med henblik på informationsfagfolk?

De to AI systemer der er blevet testet er Iris.ai og Yewno. Tests blev foretaget i perioden april til maj 2021. Testpersonerne var informationsspecialister der med hands-on i systemerne har kunne udforske om – og hvordan funktionaliteten i systemerne understøtter akademiske søgemetoder og handlinger. Der var 9 informationsspecialister som deltog i tænke-højt testene. Fem tests i Iris.ai og fire i Yewno, som blev afholdt på henholdsvis universitetsbibliotekerne i Aarhus og København. To testere kørte hver test. Moderatoren førte dialogen og guidede testpersonen gennem de opgaver der var beskrevet i tænke-højt-testen. Den anden tester noterede testpersoners adfærd, reaktioner og kommentarer. Alle tests blev dokumenteret ved hjælp af Zoom-optagelser. Testene var delt i tre dele – 1) til at begynde med blev testpersonen interviewet med nogle præ-spørgsmål for at få viden om deres ekspertise indenfor informationssøgning samt eventuel AI-drevet teknologisk kunnen, 2) derefter begyndte testen hands-on søgningerne i det AI-drevne søgesystem ved hjælp af den samme case-opgave og 3) efter at testen var gennemført, besvarede hver testperson et sæt spørgsmål, der var designet til at reflektere over søgningen og give deres tilfredshed med systemet.

De fleste testpersoner beskrev Yewno som et opdagelsesværktøj. Den primære funktionalitet i Yewno er at udforske et emne frem for at være et værktøj der understøtter akademisk litteratursøgning. Selvom Yewno ikke blev betragtet som understøttende for en systematisk tilgang til søgning, påpegede testpersonerne, at Yewno godt kunne spille en supplerende rolle i den akademiske litteratursøgningsproces. Alle var enige om, at det nu kunne være nyttigt ved projektstart at udforske mere om et forskningsproblem, undersøge begreber, få overblik over indbyrdes forhold og mulige retninger i et forskningsområde og gennem serendipitet opdage nye og uventede begreber og relationer. Ligeledes den sømløse bevægelse fra det søgte begreb til fuldtekst af relevante artikler fik meget ros. Eksport og dokumentations muligheder var kritiseret for manglende tilpasningsmuligheder og en interaktiv søgninghistorik var savnet. Testpersoner blev bedt om at bedømme deres overordnede tilfredshed med Yewno på en skala fra 1 til 5 (5 er højeste/bedste bedømmelse), og den samlede tilfredsheds score for Yewno var 3.

Den samlede oplevelse af Iris.ai bundede i at testpersonerne som udgangspunkt godt kunne lide systemets design, men de stod over for en skuffelse på grund af systemets manglende funktionalitet til at hjælpe med at sortere, filtrere og evaluere relevansen af det fundne materiale. Dette gjorde testpersonerne mistroiske over kvaliteten af Iris.ai. Stor forventning til strukturerede og avancerede søgninger gjorde testpersonerne frustrerede, fordi Iris.ai viste sig at være mere ‘explorative’. I så fald så testpersonerne det som et nyttigt supplement til andre databaser. Flertallet mente, at tillid til resultatet kræver ekspertviden om både emnet og Iris.ai. Ydermere ville det være meget tidskrævende at opnå færdigheder i Iris.ai. Desuden blev testpersonerne bedt om at reflektere over evnen til at dokumentere deres arbejde i Iris.ai. Kun nogle var tilfredse med dokumentationen i forbindelse med deres søgning. Alle testpersoner fandt det skuffende, at de ikke kunne eksportere deres søgeresultat og referencer direkte til andre referenceprogrammer end Zotero. De var imidlertid tilfredse med mulighederne i Iris.ai for at eksportere til CSV og Excel. Dataene i de eksporterede filer var tilfredsstillende, men nogle ønskede, at Iris.ai også ville eksportere indholdet fra de fremsøgte topics. Tilfredshedsbedømmelserne var igen på en skala fra 1 til 5 (5 er højeste/bedste bedømmelse), og den samlede tilfredsheds score for Iris.ai var 2,8.

Iris.ai og Yewno’s metode til AI-drevet søgning er på baggrund af teknikker såsom beregningssemantik, grafteori og maskinlæring (Hoeppner, 2018). Resultaterne af tænke-højt-testene viser, at informationsspecialister påvirkes af deres baggrund inden for informationsvidenskab hvor de i kuraterede databaser arbejder med bloksøgninger, tesaurus og dokumentrepræsentationer. Det er meget tydeligt, at testsystemerne præsenterer en helt ny måde at arbejde med informationssøgning og litteratur reviews. Vores testpersoner syntes, det var interessant at dykke ned i disse systemer, men det frustrerede testpersonerne at de ikke kunne forstå, hvad der foregik "bag scenen" og i "maskinrummet". Forståelsen af systemarkitekturen er et meget vigtigt aspekt for informationsspecialister i forhold til undervisning, support, og yde professionel søgning- og forskningsstøtte af høj kvalitet. Både Iris.ai og Yewno konfronterede vores testpersoners faglige kompetence og udfordrede måden at søge og være systematisk på. Dette er en øjenåbner for brugen af AI-systemer i en bibliotekskontekst der kræver nye fagligheder og definitioner af hvad en akademisk søgning kan være. Dette er noget vi bør være meget opmærksomme på.

I denne midtvejsrapport kunne vi ikke analysere om hvorvidt målene for hvordan akademisk søgning understøttes af AI systemerne og hvordan disse systemer kan skabe værdi for henholdsvis brugere og informationsfolk er nået. Der vil blive foretaget yderligere tests af flere forskellige brugertyper (forskere og studerende) i efteråret, så vi på baggrund af de allerede foretaget tænke-højt test i denne rapport, samt de forestående tests, kan vurdere effektiviteten og merværdien af de to systemer. Det er væsentligt at undersøge kvaliteten af de kilder systemerne søger nærmere i samt den akademiske kvalitet af de fremfundne dokumenter set fra brugerens perspektiv. Yderligere tests vil også omfatte brugernes faglige bedømmelse af relevans, om dokumentation og eksportmulighederne i systemerne opfylder deres forventninger til videnskabelige arbejde, metodologiske transparens og systemernes stabilitet.

Med denne samlede indsigt i informationsspecialisters og brugernes (forskere/studerende) professionelle adfærd i skabelsen af videnskabelige produkter ved brug af ai-systemer, foreligger der os en samlet vurdering som vi kan inddrage i anbefalinger for implementering af ai-søgesystemer og support i KB infrastruktur og sammenhængen med nuværende services.

Original language	English

Publication status	Published - Sep 2021

Research

Delivery 2: Exploring Iris.ai and Yewno with Think-Aloud tests - a mid-term perspective

Links