The interpretation of quantitative microbial data:meeting the demands of quantitative microbiological risk assessment
In: Ribeiro Duarte , A S 2013 , The interpretation of quantitative microbial data : meeting the demands of quantitative microbiological risk assessment . National Food Institute, Technical University of Denmark , Søborg .
Fødevarebårne sygdomme har betydelige helbredsmæssige, sociale, økonomiske og politiske konsekvenser. Kvantitativ mikrobiologisk risikovurdering (QMRA) er et videnskabeligt baseret værktøj, der anvendes til at estimere antallet af sygdomstilfælde hos mennesker efter indtag af en given fødevare kontamineret med en specifik sygdomsfremkaldende mikroorganisme. Værktøjet kan ligeledes anvendes til at vurdere effekten af forskellige kontrolforanstaltninger i produktionen af den givne fødevare. Risikovurderinger benyttes af fødevaremyndigheder til udarbejdelse af regler og vejledninger, der kan mindske risikoen for fødevarebårne sygdomme. Det er derfor nødvendigt, at vurderingerne er så nøjagtige og gennemskuelige som muligt. Forbrugereksponeringen og den deraf følgende mulige infektion med en fødevarebåren bakterie afhænger af flere faktorer, herunder antallet af bakterier, der er tilstede i fødevaren samt den mikrobielle økologi (vækst, overlevelse og krydssmitte), som finder sted i alle trini fødevarekæden. Begge forhold er vigtige input til en QRMA. Antallet af bakterier vil variere naturligt mellem de prøver, der udtages af et parti fødevarer. I en QMRA tages der højde for denne variation ved at beskrive bakterieantallet ved anvendelse af sandsynlighedsfordelinger. Udviklingen i antallet af bakterier i en fødevare gennem produktionsprocessen afhænger både af fødevarens art, håndtering og opbevaringsforhold, og beregnes ved hjælp af prædiktive mikrobiologiske modeller, der bl.a. kan forudsige ændringer bakteriekoncentrationerunder specifikke fysiske og kemiske forhold. Både de valgte sandsynlighedsfordelinger og prædiktive mikrobiologiske modeller bidrager til usikkerheden af en QMRA. Dels er det muligt at vælge mellem flere forskellige alternative fordelinger for bakteriekoncentrationer samt måder at tilpasse fordelinger til aktuelle data; og dels er prædiktive mikrobiologiske modeller oftest baseret på kontrollerede laboratorieforsøg, der måske ikke i tilstrækkelig grad afspejler forholdene i de fødevarer, som forbrugerne indtager. Resultaterne af disse modeller bør derfor valideres med uafhængige data indsamlet fra "rigtige" fødevarer inden de indgår i en QMRA. Det overordnede mål med denne afhandling er at undersøgeforskellige faktorer relateret til kvantitative mikrobiologiske data, som kan påvirkeresultaterne af en QMRA med henblik på at finde løsninger, der kan minimere usikkerheden på risikoestimaterne. Til dette formål er der udviklet en metode, der kan tilpasse en fordeling til mikrobiologiske data og som angiver både et estimat for prævalens og en fordeling for antallet af bakterier (manuskript I). Forskellige sandsynlighedsfordelinger er derefter blevet anvendt til at beskrive bakterietantallet i en simpel QMRA model og de forskellige risikoestimater er blevet sammenlignet (manuskript II). Endelig er nøjagtigheden af resultaterne af de prædiktive mikrobiologiske modeller blevet undersøgt på basis af litteraturdata og sammenlignet med henblik på at identificere faktorer relateret til eksperimentelle data, der kan have afgørende indflydelse på evalueringen af en model (manuskript III). I manuscript I ("Fitting a distribution to microbial counts: making sense of zeroes") er hypotesen, at en manglende adskillelse af "falsk negative" mikrobiologiske tællinger, som opstår ved tilfældighed selvom fødevaren reelt er forurenet, fra "sandt negative" tællinger medfører, at estimater for prævalens og bakterieantal bliver unøjagtige. Sådanne unøjagtigheder kan især have betydning for en QMRA, når det drejer sig om særligt virulente bakterier, der kan opformeres i fødevarekæden. Der er derfor udviklet en metode, der kan tilvejebringe nøjagtige estimater for koncentrationen af bakterier og som kan skelne mellem falske og sande negative bakterietællinger og dermed også give mere nøjagtige prævalensestimater. Metoden demonstrerer, at det, afhængigt af den oprindelige fordeling af bakteriekoncentrationen og den aktuelle detektionsgrænse, kan lede til fejlbehæftede resultater, hvis falske 0-prøver ukritisk tolkes som negative. Den udviklede metode estimerer prævalensen af en forurening i et fødevareparti samt parametrene (middelværdi og standardafvigelse) for fordelingen af bakterieantallet på baggrund af direkte bakterietællinger på agarplader og uden antagelse af en detektionsgrænse. Ved at analysere bakterietællinger fra forurenede og ikke forurenede prøver samlet, kan proportionen af falsk negative tællinger ud af det totale antal negative tællinger estimeres. Metoden frembringer gode estimater over middelværdier, standardafvigelser og prævalenser, i særdeleshed ved lave prævalensniveauer og forventeligt lave standardafvigelser. Undersøgelsen viser, at en af de vigtigste faktorer til en nøjagtig karakterisering afden samlede mikrobiologiske forurening er en korrekt identifikation og adskillelse af sande og falske negative prøver, og at estimater over prævalens og bakteriekoncentrationer er afhængige og at disse derfor skal estimeres samtidigt. I manuskript II ("Impact of microbial count distributions on human health risk estimates") undersøges det, hvilken indflydelse den tilpassede fordelingen for bakteriekoncentrationen har på det endelig risikoestimat. Dette er gjort ved to forskellige scenarier for bakteriekoncentrationer og en række forskellige prævalensniveauer. Fire forskellige parametriske fordelinger er blevet anvendt til at undersøge betydningen af at inddrage tilfældige variationer knyttet til bakterietællinger, påvise forskellen mellem at behandle sandt negative som sådan eller som under en given detektionsgrænse, samt vise vigtigheden af at anvende korrekte antagelser om de underliggende fordelinger for bakteriekoncentrationer. Ved at gennemføre et simuleringseksperiment er det muligt at angive forskellen mellem den forventede risiko og det risikoestimat, der opnås ved at anvende en lognormal, en zero-inflated lognormal, en Poisson-gamma og en zero-inflated Poisson-lognormal fordeling. Metoden, beskrevet i manuskript I, er anvendt til attilpasse den sidstnævnte fordeling. Resultatet viser at valget af sandsynlighedsfordeling til at beskrive bakteriekoncentrationen i fødevaren i detailleddet har betydning for risikoestimatet og afhængerbåde af bakteriekoncentration og prævalens, men at valget generelt betyder mere jo højere prævalensniveauet og koncentrationen er. Anvendelse af zeroinflation har også en tendens til at forbedre nøjagtigheden af risikoskøn. I manuscript III ("Variability and uncertainty in the evaluation of predictive models with literature data – consequences to quantitative microbiological risk assessment") vurderes det, hvordan forskellige vækstvilkår, som anvendt i publicerede datasæt, påvirker resultaterne afen vækstmodel sammenlignet med de resultater, der opnås med de data der blev anvendt til at udvikle selve modellen. Betydningen af antal observationer, temperaturforhold, vandaktivitet og pH, tilstedeværelse eller fravær af mælkesyre i vækstmiljøet, anvendelse af en patogen stamme eller ej, samt typen af vækstmiljø på modellens resultater blev analyseret. Modellens præstationsevne blev målt som DifAf, forskellen mellem modellens nøjagtighedsfaktor udregnet med de data der blev anvendt til at lave modellen (Af original) og en nøjagtighedsfaktor, bestemt på basis af et uafhængigt datasæt (Af evaluation). Undersøgelen er lavet med en "square root-type model" for vækstraten af Escherichia colipå baggrund af fire miljøfaktorer og de samme litteraturdata som tidligere blev anvendt til at evaluere modellen. Det er hypotesen, at Aforiginal, vil afspejle den optimale præstation af modellen, og at DifAfreduceres og bliver mindre variabel jo mere betingelserne bag et uafhængigt datasæt nærmer sig det datasæt, der blevanvendt til at udvikle modellen. Fordelingen af DifAf værdier, opnået på baggrund af forskellige datasæt sammenlignes grafisk og statistisk. Resultaterne indikerer at når anvendelse af prædiktive modeller, der er udviklet under kontrollerede eksperimentelle vilkår, bliver valideret med uafhængige datasæt fra litteraturen, så er det en forudsætning for at minimere variation i model outputtet, at datasættene indeholder et stort antal observationer og at de er baseret på tilsvarende vækstvilkår som den prædiktive model er udviklet under. Ved at mindske denne variation, mindskes også usikkerhed og variation fra de prædiktive modeller i den samlede QMRA analysen, hvilket øger præcisionen af risikoestimatet. Det konkluderes at denne afhandling: bidrager til at afdække hvilken betydning analyse af de mikrobiologiske data kan have på en QMRA, fremlægger en ny og nøjagtig metode til at tilpasse fordelinger til mikrobiologiske data, og foreslår retningslinjer for,hvordan man kan vælge egnede publicerede datasæt til validering af prædiktive modeller for mikrobiel vækst og overlevelse, før de anvendes i en QMRA. Perspektiver for det fremtidige arbejde inkludere validering af metoden udviklet i Manuskript I med data indsamlet fra 'den virkelige verden', og at præsentere metoden som et værktøj til andre forskere fx som en arbejdspakke i statistikprogrammet R. Ligeledes bør man blive enige om en standardiseret metode til rapportering af kvantitative mikrobiologiske data, dettydeligt beskriver dataindsamlingsprocessen. En videreudvikling af arbejdet i Manuskript II vil gøre det muligt, at underbygge konklusionerne om hvilken indflydelse forskellige fordelinger har på det endelige risikoestimat. Som en opfølgning på Manuskript III kan der gennemføres et simuleringsstudie med henblik på undersøge i hvilken grad målrettet udvikling af QMRA metoder og validering af prædiktive modeller er nødvendige for et retvisende risikoestimat. Fremtidige behov i fødevaremikrobiologi og QMRA omfatter udviklingen af egnede statistiske metoder til at analysere data fra de forskellige "omics" teknologier, tilpasning af den nuværende struktur i QMRA modeller, så disse kan håndtere sådanne data, samt vurdering af variation og usikkerhed på disse data. ; Foodborne diseases carry important social, health, political and economic consequences. Quantitative microbiological risk assessment (QMRA) is a science based tool used to estimate the risk that foodborne pathogens pose to human health, i.e. it estimates the number of cases of human foodborne infection or disease due to ingestion of a specific pathogenic microorganism conveyed by specific food products; it is also used to assess the effect of different control measures. In their role of risk managers, public authorities base their policies on the outcome of risk assessmentstudies. Therefore, they need to be transparent and affected by minimum imprecision. The potential exposure to and infection by foodborne microorganisms depend, among other factors, on the microbial concentrations in food and on the microbial behaviour (growth, survival and transfer) along the food chain. Both factors are therefore important inputs in QMRA. Since microbial concentrations vary among different samples of a food lot, probability distributions are used to describe these concentrations in QMRA. As microbial behaviour varies with food storage conditions (because it depends on intrinsic properties of food andextrinsic environmental variables), predictive models of bacterial growth and survival that account for those factors are used in QMRA, to describe expected changes in bacterial concentrations. Both probability distributions and predictive models may contribute to the imprecision of QMRA: on one hand, there are several distribution alternatives available to describe concentrations and several methods to fit distributions to bacterial data; on the other hand predictive models are built based on controlled laboratory experiments of microbial behaviour, andmay not be appropriate to apply in the context of real food. Hence, these models need to be validated with independent data for conditions of real food before use in QMRA. The overall goal of the work presented in this thesis is to study different factors related to quantitative microbial data that may have an impact on the outcome ofQMRA, in order to find appropriate solutions that limit the imprecision of risk estimates. A new method of fitting a distribution to microbial data is developed that estimates both prevalence and distribution of concentrations (manuscript I). Different probability distributions are used to describe concentrations in a simple QMRA model and the risk estimates obtained are compared (manuscript II). The predictive accuracy ofa microbial growth model against different literature datasets are compared in order to identify different factors related to experimental data collection with a relevant impact on the model evaluation process (manuscript III). In manuscript I ("Fitting a distribution to microbial counts: making sense of zeroes") it is hypothesised that when "artificial" zero microbial counts, which originate by chance from contaminated food products, are not separated from "true" zeroes originating from uncontaminated products, the estimates of prevalence and concentration may be inaccurate. Such inaccuracy may have an especially relevant impact in QMRA in situations where highly pathogenic microorganisms are involved and where growth can occur along the food pathway. Hence, a method is developed that provides accurate estimates of concentration parameters and differentiates between artificial and true zeroes, thus also accurately estimating prevalence. It is demonstrated that depending on the original distribution of concentrations and the limit of quantification (LOQ) of microbial enumeration, it may be incorrect to treat artificial zeroes as censored below a quantification threshold. The method that is presented estimates the prevalence of contamination within a food lot and the parameters (mean and standard deviation)characterizing the within-lot distribution of concentrations, without assuming a LOQ, and using raw plate count data as input. Counts resulting both from contaminated and uncontaminated sample units are analysed together, which allows estimating the proportion of artificial zeroes among the total of zero counts. The method yields good estimates of mean, standard deviation and prevalence, especially at low prevalence levels and low expected standard deviation. This study shows that one of the keys to an accurate characterization of the overall microbial contamination is the correct identification and separation of true and artificial zeroes, and that estimation of prevalence and estimation of the distribution of concentrations are interrelated and therefore should be done simultaneously. In manuscript II ("Impact of microbial count distributionson human health risk estimates") the impact of fitting microbial distributions on risk estimates is investigated at two different concentration scenarios and at a range of prevalence levels. Four different parametric distributions are used to investigate the importance of accounting for the randomness in counts, the difference between treating true zeroes as such or as censored below a LOQ and the importance of making the correct assumption about the underlying distribution of concentrations. By running a simulation experiment it is possible to assess the difference between expected risk and the risk estimated with using a lognormal, a zero-inflated lognormal, a Poissongamma and a zero-inflated Poisson-lognormal distribution.The method developed in manuscript I is used in this study to fit the latter. The results show that the impact of the choice of different probability distributions to describe concentrations at retail on risk estimates depends both on the concentration and prevalence levels, but that in general it is larger at high levels of microbial contamination (high prevalence and high concentration). Also, a zeroinflation tends to improve the accuracy of the risk estimates. In manuscript III ("Variability and uncertainty in the evaluation of predictive models with literature data – consequences to quantitative microbiological risk assessment") it is assessed how different growth settings inherent to literature datasets affect the performance of a growth model compared to its performance with the data used to generate it. The effect of the numberof observations, the ranges of temperature, water activity and pH under which observations were made, the presence or absence of lactic acid in the growth environment, the use of a pathogenic or non-pathogenic strain and the type of growth environment on model performance are analysed. Model performance is measured in terms of DifAf- the difference between the accuracy factor (Af) of the model with the data used to generate it and the Af with an independent dataset. The study is performed using a square root-type model for the growth rate of Escherichia coliin response to four environmental factors and literature data that have been previously used to evaluate this model. It is hypothesised that the Afof the model with the data used to generate it reflects the model's best possible performance, and hence DifAfis smaller and less variant when the conditions of an independent dataset are closer to the data that originated the model. The distributions of DifAfvalues obtained with different datasets are compared graphically and statistically. The results suggest that if predictive models developed under controlled experimental conditions are validated against independent datasets collected from published literature, these datasets must contain a high number of observations and be based on a similar experimental growth media in order to reduce the variation of model performance. By reducing this variation, the contribution of the predictive model with uncertainty and variability sources in QMRA also decreases, which affects positively the precision of the risk estimates. To conclude, this thesis contributes to the clarification of the impact that the analysis of microbial data may have in QMRA, provides a new accurate method of fitting a distribution to microbial data, and suggests guidelines for the selection of appropriate published datasets for the validation of predictive models of microbial behaviour, before their use in QMRA. Perspectives of future work include the validation of the method developed in manuscript I with real data, and its presentation as a tool made available to the scientific community by developing, for example, a working package for the statistical software R. Also, the author expects that a standardized way of reporting microbial counts that clearly specifies the steps taken during data collection should be adopted in the future. Extending the work presented on manuscript II will allow obtaining more sound conclusions about the general impact of different frequency distributions on risk estimates. Following manuscript III, a simulation study could help to investigate to what level QMRA-targeted development and validation of predictive models are necessary for the accurate estimation of risk. Future needs in food microbiology and QMRA include the development of appropriate statistical methods to summarize novel data obtained from different "omics" technologies, adaptation of the current structure of QMRA studies to allow them to make the use of such data, and the assessment of the variabilityand uncertainty attending those data.