Als mij wordt gevraagd naar mijn baan (Data Analist), kijkt men mij 9 van de 10 keer glazig aan. Echter hebben ze vaak wel enig idee wat machine learning inhoudt. Wat op zich logisch is, data annotaties kom je meestal niet in je dagelijkse leven tegen. In deze blogpost zal deze verwarring hopelijk wat worden opgehelderd.
Waarom is Annoteren zo essentieel? Ik neem altijd het voorbeeld van kinderen die een taal leren. Ze kunnen het allemaal, maar als er nooit tegen ze zou worden gesproken, zouden ze het ook nooit leren. Machine learning werkt soortgelijk. Je wil een bepaald systeem juiste beslissingen/voorspellingen laten maken, net zoals je kinderen fatsoenlijk een taal wilt laten beheersen. Om deze systemen juiste beslissingen te laten maken, moet je ze met voorbeelden (data) trainen. Net zoals dat je met kinderen moet praten om ze een taal te laten leren.
We weten dus dat trainings data erg belangrijk is, maar waar verkrijgen we dit? Hier komen de data annotaties bij kijken. Je creëert zelf wat juiste data voorbeelden, om zo hiervan het systeem te laten leren. In vergelijking met kinderen is dit met correcte zinnen tegen ze praten. Natuurlijk maak je soms een grammaticale fout. Dit hoeft echter niet erg te zijn, het doel is namelijk om kinderen een algemeen principe te leren. Dit werkt ook zo bij systemen, een fout data voorbeeld betekent niet dat het hele systeem niet meer werkt, de andere wel goede voorbeelden zullen dit corrigeren.
Een andere misvatting over machine learning en data annoteren is in hoeverre ze verschillen van klassiek programmeren. Waar klassiek programmeren het toekennen van enkele opdrachten aan een computer is, en machine learning het maken van voorspellingen zonder dat ze daar expliciet toe geprogrammeerd zijn. Dus door het leren uit data.
Wat betekent dit voor jou? Het eindresultaat van correcte training (en dus annotatie) is bijvoorbeeld dat ons model onderscheid kan maken in het verschil tussen: gunningscriteria, uitsluitingsgronden en toelatingsvoorwaarden. Ook al zijn deze drie categorieën op zichzelf enkel stukken tekst voor een computer. Meerdere voorbeelden samen kunnen de onderliggende structuren van deze categorieën leren. Hier wordt het praktisch voor tender- en bidmanagers. Ze kunnen simpelweg een categorie kiezen, van welke ze alle gevallen die voorkomen in een tender, in één overzicht kunnen zien. Wat uiteindelijk veel tijd kan besparen.