Ondersteuning van wetenschappelijk onderzoek
Amsterdam university medical centers - location Vumc
Kort samengevat, behelst het onderzoek van Mark van de Wiel het volgende:
Rare cancers pose a major problem for machine learning algorithms: most genomic studies on rare cancers contain data on a relatively small number of patients and a large number of genomic features (e.g. genes). Such a setting is challenging for machine learners, because these may overfit, or fail to find relevant signal. Our aim is to steer the machine learners in the right direction. For that, we make use of vast amounts of complementary data (co-data) on the features, as available in online repositories. We propose to build a well-interpretable tree-based learner that unites strong elements of machine learning, statistics and biology: it accounts for complex molecular interactions, while improving predictive performance by estimating feature weigths using biological co-data and incorporating these weigths in the learner. We focus on prognosis for three rare disease entities of lymphoma cancer using a variety of genomics data. The project is a collaboration between: prof. Mark van de Wiel (PI), dr. Thomas Klausch and prof. Daphne de Jong, all at Amsterdam UMC.'
Ten eerste hebben we een artikel gepubliceerd over het gebruik van leercurven om voorspellers te evalueren. Vervolgens hebben de ontwikkeling van co-BART voltooid, een algoritme gebaseerd op Bayesiaanse additieve regressiebomen dat co-data gebruikt om de voorspellende prestaties en variabelen selectie te verbeteren. Dit algoritme is met succes toegepast in een lymfoomkanker setting, waarvoor we hebben laten zien dat de co-data aanpak de voorspelling van 2 jaars overleving o.b.v. moleculaire kenmerken en klassieke voorspellers verbetert. Ten slotte zijn we begonnen met het onderzoeken van technieken voor 'domain adaptation' om de generaliseerbaarheid van voorspellers naar (enigszins) andere patiëntenpopulaties te verbeteren.
Dit jaar (2022) hebben we de vorig jaar ontwikkelde methode, Learn2Evaluate, toegepast op de lymphoma data afkomstig van de HOVON-84 trial. De data omvat 220 behandelde DLBCL patiënten waarvoor DNA markers gemeten zijn. Met Learn2Evaluate zien we dat deze markers niet afdoende de terugkeer van de ziekte kan voorspellen. Wel geeft Learn2Evaluate een indicatie dat de toevoeging van extra samples de kwaleit van de predictie mogelijk flink kan verbeteren. We hebben toezegging gekregen van clinici op meer samples en wachten daar nu op.
Daarnaast zijn we verder gegaan met de ontwikkeling van co-BART waarbij we simulatie experimenten hebben gedaan die aantonen dat co-BART veelbelovend is voor zowel diagnose/prognose als selectie van belangrijke markers.
Voor zeldzame kankers is er weinig data beschikbaar om een predictiemodel goed te leren én vervolgens te schatten hoe accuraat de diagnose/prognose is. We hebben een bèta-versie ontwikkeld van coBART, een methode waarmee je op basis van beslisbomen predictiemodellen kunt leren, en waarbij co-data (bijv. data van publieke repositories) kan helpen om de predicties voor kleine data sets te verbeteren. Voor de evaluatie van de predictiemodellen (of algemener ‘learners’) hebben we afgelopen jaar een methodiek ontwikkeld om de accuraatheid en precisie beter te schatten o.b.v. leercurves, L2E: Learn2Evaluate. De methodiek is generiek, maar heeft de grootste impact op datasets met weinig samples en veel variabelen (bijv. genetisch), zoals vaak het geval bij studies naar zeldzame kankers. De methodiek is toegepast op bestaande kanker genomics data en learners, waarmee we konden aantonen dat
a) L2E een betere schatting geeft voor de prestaties dan andere bestaande methoden, vooral bij kleine steekproefgroottes;
b) het dynamisch vergelijk (voor verschillende groottes van de training set) van learners een completer beeld geeft; en
c) Random Forest als beslisboomtechniek competitief is met andere standaardtechnieken. Met coBART (bèta) en L2E zijn we daarom nu goed uitgerust om de co-data methodologie toe te passen en te evalueren op relevante data van zeldzame tumoren, zoals die van verschillende lymphoma subtypes.