Analyse van gender bias in word embeddings van de Nederlandse taal op basis van beroepsnamen

Publication date

DOI

Document Type

Bachelor Thesis

Collections

Open Access logo

License

CC-BY-NC-ND

Abstract

Eén van de belangrijkste elementen binnen Natural Language Processing (NLP) zijn word embeddings. Hierbij is elk woord gerepresenteerd door een vector en uit deze vectoren kunnen verschillende relaties worden gehaald die gebruikt kunnen worden binnen de analysemethoden en toepassingen van NLP. Binnen onze taal bevindt zich echter ook menselijke bias zoals vooroordelen en stereotypen waardoor woorden bepaalde associaties krijgen met een groep, gender of ras. Aangezien word embeddings worden geleerd op basis van onze taal middels grote corpora met teksten, zal de bias vermoedelijk ook in deze word embeddings aanwezig zijn. In dit onderzoek zal de gender bias in word embeddings van de Nederlandse taal op basis van beroepsnamen onderzocht worden. Deze beroepsnamen zijn in de Nederlands taal bijzonder moeilijk te analyseren op bias. In het Nederlands wordt er namelijk meestal een onderscheid gemaakt tussen mannelijke en vrouwelijke termen. Na het creëren van een gender subspace en een set met genderneutrale beroepsnamen, zal de directe gender bias geanalyseerd worden middels een cosinusgelijkenis tussen de embeddings van de beroepsnamen en de zelf gecreëerde gender richting uit die subspace. De resultaten hiervan bevestigen ondanks de vrij kleine set van genderneutrale beroepsnamen dat er inderdaad een gender bias in de word embeddings zit. Wel is er vervolgonderzoek nodig om met behulp van andere methoden en een bredere scope de gender bias (of een andere bias) duidelijk in kaart te brengen en te analyseren.

Keywords

word embeddings, NLP, natural language processing, Nederlands, gender bias,

Citation