Weging van onderdelen omwille van variatie eindscores

wilkovip · 14 december 2022 om 09:47

Hey,
Het valt me op dat meerdere beoordelingen van een tool niet enorm variëren. E/o tools in eindscores niet erg variëren. Dat komt mogelijk door:
o Zijn we niet te soft voor tools die we zelf gebruiken
o Hebben we het wel grondig genoeg beoordeeld
o Dus ook commerciële bedrijven scoren vaak best okee op de diverse
onderdelen, behalve veelal transparantie.
Suggestie 1: Moet je daarom bepaalde onderdelen niet verschillend/zwaarder/lichter wegen? Zodat je mogelijk meer variatie krijgt tussen eindscores van tools
Suggestie 2: Moet je tools niet door een onafhankelijke commissie willen laten scoren obv de Spoelkeuken-criteria?

bjornw · 22 december 2022 om 16:07

Hi Wilko,

Sorry voor de late reactie! Deze periode zo aan het eind van het jaar is beetje hectisch.

Wat betreft je suggesties:

“Moet je daarom bepaalde onderdelen niet verschillend/zwaarder/lichter wegen? Zodat je mogelijk meer variatie krijgt tussen eindscores van tools”.

Dat is een goede vraag. Een soortgelijke vraag & discussie vind je hier:

Ik heb er nog geen volledig antwoord op en ben ook benieuwd naar de insteek van anderen. Wat vinden jullie (@onnob @BartM @Sandervk et al) hiervan?

Wat betreft je tweede suggestie:

“Moet je tools niet door een onafhankelijke commissie willen laten scoren obv de Spoelkeuken-criteria?”

Goed punt, hier worstel ik persoonlijk ook een beetje mee.

Het idee is dat doordat meerdere organisaties de (software) tool toetsen dit een beter beeld geeft dan slechts van 1 organisaties. Daarmee heb je dan een counter review of een dubbelcheck. Het is nog te vroeg om te zeggen of dit echt zal gaan werken, want daarvoor hebben we meer deelnemers nodig en moet er ook een overlap in de gebruikte (software) tools zijn. Maar ik ben er persoonlijk nog niet van overtuigd dat dit 100% zo zal gaan werken. De optie van een onafhankelijke commissie of steekproeven vanuit PS hou ik daarom ook zeker in gedachten.

onnob · 2 januari 2023 om 11:53

Wij hebben destijds bewust gekozen om de losse waarden als uitgangspunt te hanteren omdat die het meest concreet zeggen wat we als PS nastreven, maar tegelijk heel verschillend zijn. Waar het om gaat is dat je díe vragen stelt die relevant zijn om iets te zeggen over de kernwaarde. Vandaar dat er bij ‘transparant’ veel meer vragen te stellen zijn dan bij ‘open’.

Het zou heel mooi zijn als je overal een gelijk aantal vragen zou hebben of een uniforme methode om te scoren, maar de ervaring leert dat dat best complex is. Wij waren al blij dat we een fatsoenlijke score per waarde konden berekenen. Een robuuste overall score is iets dat ons niet is gelukt, omdat sommige aspecten gewoon zwaarder wegen. Hopelijk levert de discussie hier nieuwe inzichten op.

Een onafhankelijke commissie: Zou mooi zijn als de gezamenlijke uitslagen van een tool vroeg of laat worden getoetst. We zijn allemaal serieus betrokken bij PS, maar niet feilloos, dus een realitycheck kan helpen iedereen scherp te houden, en ook de manier waaróp je de tools beoordeelt, inzichtelijk maken.

Al ontkom je er dan vermoedelijk niet aan om naast de scores ook aanbevelingen te doen over het gebruik ervan. Maar wellicht hoeft dat niet per tool en kan dat generiek worden gemaakt. “Public Spaces richtlijnen voor online tools” of zoiets.

BartM · 4 januari 2023 om 11:21

@wilkovip @bjornw : goed nadenken over weging is inderdaad belangrijk. Of je elke vraag dan wel elke kernwaarde even zwaar wil laten wegen is een beoordeling op zich die uitgaat van een waardekader. Conceptueel is zo’n weging bepalen niet erg moeilijk. De moeilijkheid ligt hem denk ik vooral in:

Wie bepaalt de weging? Uit mijn ervaring met andere tools (bv. https://digitalematuriteit.be/) blijkt dat dit best om een voldoende grote representatieve groep van eindgebruikers gaat (in dit geval misschien in combinatie met externe experten).
Welke mogelijkheden biedt de gehanteerde software om die weging ook te implementeren. Voor digitalematuriteit.be zijn we na een marktstudie tot het besluit moeten komen dat we het vanaf nul moesten bouwen, wat natuurlijk een serieuze budgettaire impact heeft.

Dat gezegd zijnde, staat de vraag rond implementatie uiteraard niet het beantwoorden van de conceptuele vraag in de weg.

bjornw · 12 januari 2023 om 17:00

“omdat sommige aspecten gewoon zwaarder wegen.”

@onnob , dit stukje wat ik even uit je bijdrage citeer is precies de crux. Zoals, Bart ook stelt “Wie bepaalt de weging?”.

Daarom moeten we, wat mij betreft, voor de nieuwe versie van vragenlijst af van de impliciete weging die nu verwerkt zit in de score doordat het aantal vragen afwijkt. Dat is namelijk niet transparant en momenteel wordt het ook niet onderbouwd. Dat moet voor de nieuwe vragenlijst anders.

De manier die ik voor me zie is gebruik maken van een expliciete weging die voor iedereen direct zichtbaar is en toegelicht wordt. Zo kan je ook duidelijk zien welke vragen zwaarder wegen. Je hebt in mijn optiek volledig gelijk dat er aspecten zijn die zwaarder wegen, maar dan rest ons nog de vraag: wie bepaalt deze weging?

@BartM waardenkaders vaststellen tussen verschillende sectoren kon nog wel eens een hele kluif worden. Misschien is dit te omzeilen met een wat onorthodoxe oplossing?

Bijvoorbeeld door gebruik te maken van twee wegingen?

Eentje die bepaald wordt door PublicSpaces inclusief onderbouwing v.d. weging per vraag. Deze weging zorgt ervoor dat de resultaten makkelijk met elkaar vergeleken kunnen worden. Dat is volgens mij noodzakelijk om als benchmark te kunnen fungeren.
Een tweede weging die de organisatie zelf kan invullen (incl onderbouwing) zodat de context van de organisatie mee genomen kan worden. Dan heeft een organisatie de mogelijkheid om bepaalde kernwaarden zwaarder of lichter mee te nemen in de beoordeling, zonder dat dit de benchmark score beïnvloedt.

Wat denken jullie hiervan?

bjornw · 12 januari 2023 om 17:15

In ‘The Ethical Design Handbook’ wordt een ‘Ethical Design Scorecard’ (Excel bestand) gebruikt waarbij een organisatie zelf een aangeeft hoe goed ze al voldoen aan een bepaald statement. In de basis wordt hier gebruikt gemaakt van een Net Promotor Score aanpak

Per statement, zoals bijvoorbeeld dit statement: “Data transfer from the user’s platform uses a secure connection” beoordeel je met hoe goed je hier al aan voldoet door er een getal aan te koppelen tussen 1 en 5 (5 = 100%). Daarnaast volgt een column met wegingen per statement. De weging is een getal tussen 0-100 (100 belangrijkste). De uiteindelijke score per vraag wordt dan als volgt bepaald:

Mate van voldoen aan statement X Weging = Score

Wat nu als we een dergelijke aanpak hanteren? Maar toch een beetje anders doordat we er een column bij maken met de weging van de organisatie. De contextuele weging, die de toetser zelf mag bepalen? En moet de weging dan per vraag of per kernwaarde worden meegenomen? Of misschien beiden?

Per vraag zouden er dan twee scores uit rollen:

Mate van voldoen X Weging = Benchmark Score
Mate van voldoen X Context weging = Organisatie Score

Eventueel zou dit weer bij elkaar opgeteld kunnen worden en gemiddeld? Dan heb ik het waardenkader van zowel PublicSpaces als de individuele organisatie mee genomen. Of ben ik daarmee teveel aan het goochelen met cijfers?