Laatste Klantreferentie:
Croonwolter&dros bespaart meer dan 50% tijd met AI van Brainial
Product

Een beginner's kijk op data annotatie

5 min lezen
Gepubliceerd in
Product

Een beginner's kijk op data annotatie

Een beginner's kijk op data annotatie

Nog niet zo lang geleden kwam ik als data-analist voor het eerst bij het groeiende team van Brainial terecht. Elke dag, een paar uur lang, train ik onze modellen via een online interface. Als nieuweling op dit gebied krijg ik meer dan genoeg gelegenheden om stil te staan bij mijn workflow - en daar is deze kleine blogpost uit voortgekomen. Hopelijk helpt het je om na te denken over je eigen annotatiepraktijk, en helpt het je een beetje op te beuren.

Voor we erin duiken, wil ik vermelden dat we bij Brainial te maken hebben met drie soorten modeltraining. Artikelen van over het web worden opgehaald op mijn computerscherm, waar ik dan benoemde entiteiten moet markeren (Entity Recognition), labels moet kiezen op basis van de betekenis van de tekst (Signal Recognition) of gewoon moet aangeven of de inhoud relevant is voor onze klant (Relevancy Filter). Het volgende is vooral van toepassing op de eerste twee, aangezien de Relevancy Filter zeer weinig bewuste inspanning vereist om uit te voeren.

Laten we nu verder gaan met de echt interessante dingen!

Voorbereiding

Annotatiefouten wil je tot een minimum beperken, reden waarom ik aanraad de tijd te nemen om grondig te plannen. Een goede manier om trainingstaken te beginnen is door een verkennende test te doen. Annoteer een kleine hoeveelheid teksten met voldoende voorbeelden van het soort waar je mee te maken krijgt. Op die manier raakt u vertrouwd met de inhoud en bespreekt u de labels die u voor elk scenario zult gebruiken. Bij Brainial gebruiken we brede labels die meerdere onderwerpen omvatten (bv. "Acquisitie" voor zowel de aankoop van een bedrijf door een ander als het kopen van voorwerpen of objecten). Dit is natuurlijk een kwestie van persoonlijke voorkeur, hoewel ik vermoed dat zeer specifieke labels het werktempo zullen vertragen. Van meet af aan is het belangrijk dat men zich het concept "consistentie boven precisie" eigen maakt. De subtiele nuances die wij kunnen ontdekken, doen onze digitale tegenhangers gemakkelijk struikelen. Het is beter om ze te negeren tijdens het annoteren.

Werk

Nogmaals, u moet streven naar consistentie en fouten vermijden. Voorbereiding helpt daarbij, maar helaas zijn we als mensen onderhevig aan vermoeidheid en worden we afgeleid. Daarom werk ik meestal in sprints van 25 minuten met een pauze van vijf minuten ertussen. Als je in een team werkt, bespreek dan regelmatig je etikettering om ervoor te zorgen dat iedereen op één lijn zit. Omdat ons bedrijf veel met nieuwsartikelen werkt, heb ik de gewoonte ontwikkeld om de meest hilarische titels op onze Slack-groep te posten. Dit is niet alleen een bron van vermaak, maar leidt ook af en toe tot gesprekken over de annotatie. Feedback is cruciaal bij deze taak - het duurt meestal een tijdje voordat je resultaten begint te zien en het kan snel demotiverend worden door de repetitiviteit. Naarmate je vordert, is het de moeite waard om consequent modelanalyses uit te voeren, om verbetering te traceren, en kleine partijen geannoteerde tekst handmatig na te lopen, om te controleren op fouten.

Kanttekening

Ik studeer nog, maar mijn achtergrond ligt in Marketing. Maar toch, de eenvoud van annoteren en het enthousiasme van ons team brachten me ertoe om NLP te bestuderen, voorbij de grijze interface van de trainingssoftware en recht door Python-code, Spacy, Panda en een paar andere bibliotheken die we gebruiken. Inzicht in de effecten die mijn werk onder de motorkap heeft, heeft een positieve invloed gehad op het plezier in mijn werk. Ik zou iedereen die net begint met het trainen van modellen aanraden om op zijn minst de basis van de technologie te begrijpen om bewuster te worden van hun annotatiewerk.

Aan alle data-annotators daarbuiten: jouw werk is belangrijk! Hoe moet de software anders begrijpen dat de verordening waar jouw klant zich het meest zorgen over maakt, een "LAW" is en niet een modernistisch "WORK_OF_ART"?

Vergelijkbare berichten

Lees meer over de laatste ontwikkelingen van Brainial, tendering & de fascinerende wereld van AI.
Bekijk onze Tendering & AI Blog.

Leer hoe je sneller betere offertes kunt maken

We begeleiden je graag door onze AI-gestuurde Bid & Tender management oplossing
om het potentieel voor jou en jouw bedrijf te verkennen.
Ontdek onze waarde
Bekijk hoe we de grootste uitdagingen oplossen
Ervaar de waarde van AI voor Bid & Tender Management