Méthodes d'évaluation des programmes

Informations archivées

Les informations archivées sont fournies aux fins de référence, de recherche ou de tenue de documents. Elles ne sont pas assujetties aux normes Web du gouvernement du Canada et n’ont pas été modifiées ou mises à jour depuis leur archivage. Pour obtenir ces informations dans un autre format, veuillez communiquez avec nous.

Chapitre 2 - STRATÃ‰GIES D'Ã‰VALUATION

Le prÃ©sent chapitre commence par une Ã©tude des types de conclusions qu'il est possible de tirer d'une Ã©valuation des rÃ©sultats d'un programme. Il traite des divers obstacles qui sapent typiquement la validitÃ© des conclusions de l'Ã©valuation puis passe Ã un cadre conceptuel pour l'Ã©laboration des stratÃ©gies d'Ã©valuation, avant de se terminer par une analyse de la nÃ©cessitÃ© d'avoir recours Ã des stratÃ©gies de mesure multiples pour produire des conclusions crÃ©dibles.

2.1 InfÃ©rence causale en Ã©valuation

L'Ã©valuation est censÃ©e dÃ©terminer les rÃ©sultats obtenus ou Â«causÃ©sÂ» par un programme. Dans cette section, nous essayons de prÃ©ciser la signification des dÃ©clarations sur les causes des rÃ©sultats d'un programme; la section suivante est une analyse des problÃ¨mes d'Ã©tablissement d'infÃ©rences causales.

CommenÃ§ons par Ã©tudier les genres de rÃ©sultats qu'un programme peut Â«causerÂ». Dans le plus simple des cas, le programme produit des changements positifs. Cette interprÃ©tation suppose toutefois qu'aucun changement positif n'aurait, Ã©tÃ© constatÃ© en l'absence du programme, ce qui n'est pas nÃ©cessairement le cas, car la situation aurait pu s'amÃ©liorer ou se dÃ©tÃ©riorer quand mÃªme. De mÃªme, un programme peut maintenir le statu quo en empÃªchant la situation de se dÃ©tÃ©riorer, et cela peut Ãªtre son seul effet positif, de sorte qu'il est essentiel de dÃ©terminer son effet incrÃ©mentiel.

Il s'ensuit que, pour bien comprendre les rÃ©sultats causÃ©s par un programme, nous devons savoir ce qui serait arrivÃ© sans l'exÃ©cution d'un programme. Cette notion est la clÃ© des infÃ©rences causales. Autrement dit, si l'on conclut qu'un programme a produit ou causÃ© un certain rÃ©sultat, cela signifie que, s'il n'avait pas existÃ©, le rÃ©sultat ne se serait pas concrÃ©tisÃ©. Pourtant, cette interprÃ©tation de la causalitÃ© s'applique plus logiquement Ã certains programmes qu'Ã d'autres. Elle vaut particuliÃ¨rement pour les programmes pouvant Ãªtre considÃ©rÃ©s comme des interventions gouvernementales pour modifier le comportement de particuliers ou d'entreprises par l'octroi de subventions, la prestation de services ou l'application de rÃ¨glements. Dans ces cas-lÃ , il est logique et habituellement possible d'arriver Ã une estimation de ce qui se serait produit si le programme n'avait pas existÃ©.

Il existe toutefois d'autres programmes (dans les secteurs des services mÃ©dicaux, du contrÃ´le de la circulation aÃ©rienne et de la dÃ©fense, par exemple) qu'il faut considÃ©rer logiquement comme partie intÃ©grante du cadre Ã l'intÃ©rieur duquel notre sociÃ©tÃ© et notre Ã©conomie fonctionnent. Ils tendent Ã exister dans des contextes oÃ¹ l'Ã‰tat assume le rÃ´le d'intervenant principal. En outre, ils sont habituellement universels, ce qui signifie, dans le langage des Ã©conomistes, que leurs rÃ©sultats sont des Â«biens publicsÂ». Leur Ã©valuation pose des difficultÃ©s parce qu'ils ne se prÃªtent pas Ã un modÃ¨le d'Ã©valuation dans lequel on les ramÃ¨ne Ã des interventions prÃ©cises. En outre, ce sont des programmes permanents, dont l'envergure est habituellement trop grande pour qu'on puisse leur appliquer des mÃ©thodes d'Ã©valuation classiques. Certains programmes peuvent faire exception Ã la rÃ¨gle, mais il reste qu'il faudrait soulever des questions sur la portÃ©e de l'Ã©valuation dans le cadre de l'Ã©tude prÃ©paratoire, Ã l'intention du client.

Un des derniers aspects de la causalitÃ© prÃ©sente une importance critique dans les cas oÃ¹ les rÃ©sultats de l'Ã©valuation doivent influer sur la prise de dÃ©cisions. On ne peut gÃ©nÃ©raliser Ã partir des rÃ©sultats de programmes que l'Ã©valuation a dÃ©terminÃ©s Ã moins que le programme lui-mÃªme ne puisse Ãªtre reproduit. Si le programme ne peut exister qu'Ã un moment, Ã un endroit ou dans des conditions donnÃ©es, il devient trÃ¨s difficile d'Ã©tablir des infÃ©rences crÃ©dibles sur ce qui se produirait dans l'Ã©ventualitÃ© oÃ¹ un programme analogue serait mis en oeuvre ailleurs dans d'autres circonstances.

2.2 InfÃ©rences causales

Conceptuellement, la faÃ§on d'Ã©tablir une infÃ©rence causale semble Ã©vidente : il suffit de comparer deux situations absolument identiques, exception faite de leur exposition au programme. Toute diffÃ©rence entre deux situations peut Ãªtre attribuÃ©e au programme. Ce principe fondamental est illustrÃ© Ã la figure 2. On choisit deux groupes identiques de sujets (des personnes, des entreprises et des Ã©coles), un seul des deux (le groupe expÃ©rimental ou traitÃ©) Ã©tant exposÃ© au programme, l'autre (le groupe tÃ©moin) Ã©tant soumis Ã toutes les mÃªmes influences extÃ©rieures que le groupe expÃ©rimental, hormis le programme. Les rÃ©sultats postÃ©rieurs Ã l'exÃ©cution du programme sont mesurÃ©s de la mÃªme faÃ§on pour les deux groupes. Ã€ ce moment-lÃ , on peut attribuer au programme n'importe quelle diffÃ©rence entre les rÃ©sultats des deux groupes, puisque ceux-ci Ã©taient au dÃ©part identiques et qu'ils ont Ã©tÃ© exposÃ©s aux mÃªmes influences extÃ©rieures.

Malheureusement, dans la pratique, il n'existe pas de modÃ¨le idÃ©al susceptible d'Ãªtre appliquÃ© parfaitement, puisqu'on ne peut jamais pleinement obtenir l'Ã©quivalence absolue du groupe expÃ©rimental et du groupe tÃ©moin. Des groupes diffÃ©rents sont constituÃ©s de sujets diffÃ©rents et diffÃ¨rent donc Ã certains Ã©gards, mÃªme si les mesures moyennes d'une variable donnÃ©e sont identiques. En outre, Ã supposer que le mÃªme groupe serve Ã la fois de groupe expÃ©rimental et de groupe tÃ©moin, les observations antÃ©rieures et postÃ©rieures au programme sont faites Ã des moments diffÃ©rents, de sorte que d'autres facteurs peuvent influer sur les rÃ©sultats observÃ©s aprÃ¨s l'exÃ©cution du programme.

L'impossibilitÃ© d'atteindre Ã l'Ã©quivalence absolue sape la validitÃ© de l'infÃ©rence causale, de sorte qu'il est plus difficile pour les dÃ©cideurs de dÃ©terminer le rendement antÃ©rieur du programme et de s'en inspirer dans leurs dÃ©cisions Ã l'Ã©gard des programmes Ã venir. C'est d'autant plus complexe que les programmes gouvernementaux ne sont qu'un facteur parmi d'autres qui influent sur les rÃ©sultats attendus. La rigueur de l'Ã©valuation - et, par consÃ©quent, son utilitÃ© pour le processus, dÃ©cisionnel - est fonction de sa conformitÃ© au modÃ¨le idÃ©al prÃ©sentÃ© auparavant.

Il s'ensuit que la capacitÃ© d'une infÃ©rence selon laquelle le programme a causÃ© un certain rÃ©sultat dÃ©pend, dans la pratique, de la mesure dans laquelle l'Ã©valuation permet de rejeter comme d'autres explications plausibles, souvent appelÃ©es Â«obstacles Ã la validitÃ© de l'infÃ©rence causaleÂ». D'habitude, l'Ã©valuation ne permet pas d'Ã©tablir de faÃ§on concluante des rapports de cause Ã effet, mais elle permet de rÃ©duire l'incertitude Ã cet Ã©gard tout en produisant des Ã©lÃ©ments assez concluants pour qu'on puisse rÃ©futer les autres hypothÃ¨ses. Par exemple, l'Ã©valuation pourrait produire des preuves que le programme est l'explication la plus probable du rÃ©sultat observÃ©, alors qu'Ã peu prÃ¨s rien d'autre ne prouve que les autres explications sont valables. Elle pourrait aussi permettre Ã l'Ã©valuateur de distinguer et de quantifier les effets des autres facteurs en jeu ou des autres explications possibles. Bref, faire des infÃ©rences causales sur les rÃ©sultats signifie qu'on rejette ou infirme les autres explications plausibles.

Revenons Ã notre exemple d'un programme d'aide Ã l'industrie en vue de crÃ©er des emplois. Si nous constatons la crÃ©ation d'un certain nombre d'emplois par les entreprises qui touchent une subvention, nous serions portÃ©s Ã conclure que c'est un effet attribuable au programme et que si celui-ci n'avait pas existÃ©, les nouveaux emplois n'auraient pas Ã©tÃ© crÃ©Ã©s. NÃ©anmoins, avant de pouvoir tirer cette conclusion, il nous faut examiner un certain nombre d'autres explications plausibles. Il se pourrait, par exemple, que les nouveaux emplois aient Ã©tÃ© crÃ©Ã©s par suite d'une reprise Ã©conomique dans le secteur d'activitÃ© en question. De mÃªme, on pourrait aussi allÃ©guer que les entreprises qui ont crÃ©Ã© les emplois avaient l'intention de le faire de toute faÃ§on, et que les subventions Ã©taient Ã toutes fins utiles des paiements de transfert inespÃ©rÃ©s. Afin de prÃ©ciser l'effet incrÃ©mentiel d'un programme sur la crÃ©ation d'emplois, il faudrait avoir rejetÃ© toutes ces autres explications, voire d'autres encore, ou bien tenir compte de leur influence.

L'Ã©limination des autres explications (celles qui font obstacle Ã la validitÃ© de l'infÃ©rence causale posÃ©e comme hypothÃ¨se) ou l'estimation de leur importance relative est le principal objet d'une Ã©valuation ayant pour but d'Ã©tablir les rÃ©sultats d'un programme. C'est une dÃ©marche fondÃ©e sur une combinaison d'hypothÃ¨ses, d'Ã©lÃ©ments logiques et d'analyses empiriques; dans ce manuel, nous appelons chacune de ces approches une stratÃ©gie d'Ã©valuation.

Revenons encore Ã l'exemple du programme d'aide Ã l'industrie : il serait possible de rÃ©futer la conclusion que la crÃ©ation d'emplois rÃ©sulte d'une reprise Ã©conomique gÃ©nÃ©rale en prouvant qu'il n'y a pas eu de reprise dans la rÃ©gion oÃ¹ l'entreprise est Ã©tablie (ou dans son secteur de l'Ã©conomie). Pour ce faire, on Ã©tudierait des entreprises du mÃªme genre qui n'ont pas reÃ§u de subvention. Si l'on devait constater que des emplois ont Ã©tÃ© crÃ©Ã©s uniquement dans celles qui ont touchÃ© une subvention, l'explication d'une reprise Ã©conomique ne serait plus plausible. D'un autre cÃ´tÃ©, on pourrait remarquer qu'il s'est crÃ©Ã© plus de nouveaux emplois dans les entreprises qui ont obtenu une subvention que dans les autres, auquel cas il serait toujours possible de rejeter l'explication d'une reprise en attribuant au programme la diffÃ©rence entre le nombre d'emplois crÃ©Ã©s dans les deux groupes d'entreprises (Ã condition, bien entendu, que les deux groupes se ressemblent suffisamment). Il convient de souligner que cette constatation modifie la conclusion initiale - Ã savoir que tous les nouveaux emplois sont attribuables au programme - compte tenu de l'effet d'une reprise Ã©conomique. De plus, malgrÃ© ses limitations, ce modÃ¨le de comparaison permet d'Ã©liminer bon nombre d'explications, y compris celle que les entreprises auraient crÃ©Ã© les emplois en question de toute faÃ§on. Dans cet exemple, si ces deux autres explications sont les seules qu'on juge vraisemblables, la conclusion que le nombre accru de nouveaux emplois est attribuable au programme deviendrait assez plausible, d'aprÃ¨s les Ã©lÃ©ments de preuve prÃ©sentÃ©s. Toutefois, comme nous le verrons au chapitre suivant, il y a de plus fortes chances que les deux groupes d'entreprises n'aient pas Ã©tÃ© tout Ã fait semblables, de sorte que d'autres obstacles sapent la validitÃ© des conclusions. En pareil cas, il faut Ã©laborer d'autres stratÃ©gies d'Ã©valuation pour Ã©liminer ces obstacles.

Jusqu'ici, nous avons tentÃ© de dÃ©terminer dans quelle mesure un programme produit un rÃ©sultat observÃ©. Il reste un autre facteur qui vient compliquer l'Ã©quation : mÃªme si le programme est indispensable pour que le rÃ©sultat se produise, il n'est pas nÃ©cessairement suffisant. Autrement dit, le rÃ©sultat peut aussi Ãªtre attribuable Ã d'autres facteurs, en l'absence desquels il n'est pas atteint. Sans le programme, il n'y a pas de rÃ©sultat, mais cela ne signifie pas nÃ©cessairement que son existence assurera le rÃ©sultat dÃ©sirÃ©. Tout ce qu'on peut dÃ©duire, c'est que le rÃ©sultat se produira si le programme est mis en oeuvre et que les autres facteurs favorables sont rÃ©unis.

L'intÃ©rÃªt de ces autres facteurs s'explique du fait que, lorsqu'on a abouti Ã une conclusion au sujet de l'effet d'un programme existant, on veut normalement la gÃ©nÃ©raliser en l'appliquant Ã d'autres lieux, Ã d'autres moments ou Ã d'autres situations. Cette possibilitÃ© de gÃ©nÃ©raliser, appelÃ©e la validitÃ© externe de l'Ã©valuation, se limite Ã affirmer que, dans des conditions identiques, la mise en oeuvre du programme ailleurs entraÃ®nerait le mÃªme rÃ©sultat. Bien sÃ»r, ni les conditions, ni le programme ne peuvent Ãªtre parfaitement reproduits, de sorte que les infÃ©rences de ce genre sont souvent chancelantes au point que, pour les rendre crÃ©dibles, il faut poser de nouvelles hypothÃ¨ses, trouver d'autres arguments logiques ou rÃ©aliser d'autres analyses empiriques. Il peut alors Ãªtre utile d'avoir recours Ã des stratÃ©gies d'Ã©valuation multiples.

Revenons une fois de plus Ã l'exemple du programme de subventions Ã l'industrie. Qu'arrivera-t-il si nous devons Ã©tablir que le programme existant a effectivement permis de crÃ©er un certain nombre d'emplois, grÃ¢ce Ã certaines compÃ©tences en marketing et Ã d'autres facteurs? Ce rÃ©sultat peut Ãªtre utile du point de vue de la responsabilisation, mais les questions posÃ©es au sujet de l'Ã©laboration de nouveaux programmes devraient alors normalement porter sur l'opportunitÃ© de poursuivre le programme, de lui donner de l'expansion ou d'en rÃ©duire l'ampleur. La validitÃ© externe de la conclusion selon laquelle la poursuite ou l'expansion du programme entraÃ®nerait la crÃ©ation de nouveaux emplois pourrait Ãªtre sujette Ã caution si l'Ã©chantillon des entreprises Ã©tudiÃ©es n'Ã©tait pas reprÃ©sentatif de toutes celles auxquelles le programme s'appliquerait, ou si les conditions qui ont contribuÃ© au succÃ¨s du programme dans le passÃ© Ã©taient peu susceptibles de se reproduire. Il se pourrait que les autres entreprises n'aient pas les aptitudes en marketing nÃ©cessaires, de sorte que le programme Ã©largi n'aurait pas un effet comparable sur elles. Bref, c'est compte tenu de la question Ã l'Ã©tude et du genre de dÃ©cisions Ã prendre que l'Ã©valuateur pourra cerner d'autres facteurs explicatifs et explorer leurs liens avec le programme.

Il existe diverses stratÃ©gies pour qui veut minimiser l'effet des obstacles Ã la validitÃ© externe, tout comme Ã la validitÃ© interne, d'ailleurs. Malheureusement, elles ne sont pas toujours compatibles, de sorte qu'il faut parfois opter pour une solution de compromis. Quand l'Ã©valuateur doit formuler des conclusions crÃ©dibles sur lesquelles la direction peut se fonder utilement, il est clair que, malgrÃ© l'importance indÃ©niable de la validitÃ© interne, la validitÃ© externe de l'Ã©valuation ne saurait Ãªtre nÃ©gligÃ©e. L'Ã©valuateur devrait toujours Ãªtre conscient du genre de dÃ©cisions Ã prendre et, partant, du genre de conclusions qu'il doit prÃ©senter. Il doit donc bien comprendre les principaux obstacles Ã la validitÃ© externe, si des points ne sont pas traitÃ©s, ainsi qu'Ã la crÃ©dibilitÃ© et Ã l'utilitÃ© de ces conclusions pour les dÃ©cideurs.

principe fondamental

RÃ©sumÃ©

Les difficultÃ©s d'Ã©tablissement d'infÃ©rences causales quant aux programmes et Ã leurs rÃ©sultats sont l'un des principaux thÃ¨mes du manuel. L'autre thÃ¨me principal est celui de la mesure des rÃ©sultats. Avant de pouvoir tirer des conclusions sur les effets d'un programme, l'Ã©valuateur doit Ãªtre conscient des autres facteurs ou des autres circonstances susceptibles d'expliquer les rÃ©sultats observÃ©s, puis prÃ©senter des arguments pour rÃ©futer ces explications. S'il fait des gÃ©nÃ©ralisations Ã partir de ses conclusions, il devrait surveiller de prÃ¨s les obstacles Ã la validitÃ© externe de son Ã©valuation. Les mÃ©thodes utilisÃ©es pour dÃ©terminer les rÃ©sultats d'un programme sont bonnes dans la mesure oÃ¹ elles permettent de produire les meilleurs arguments possibles, compte tenu des ressources et du temps disponibles.

RÃ©fÃ©rences : InfÃ©rence causale

Campbell, D.T. et J.C. Stanley, Experimental and Quasi-experimental Designs for Research, Chicago : Rand-McNally, 1963.

Cook, T.D. et D.T. Campbell,Quasi-experimentation : Design and Analysis Issues for Field Settings, Chicago : Rand-McNally, 1979.

Cook, T.D. et C.S. Reichardt, Ã©d.,Qualitative and Quantitative Methods in Evaluation Research, Thousand Oaks : Sage Publications, 1979.

Heise, D.R., Causal Analysis, New York : Wiley, 1985.

Kenny, D.A., Correlation and Causality, Toronto : John Wiley and Sons, 1979.

Suchman, E.A., Evaluative Research : Principles and Practice in Public Service and Social Action Programs, New York : Russell Sage, 1967.

Williams, D.D., Ã©d., Naturalistic Evaluation, Vol. 30 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1986.

2.3 StratÃ©gies d'Ã©valuation

Il faut tenir compte de deux types de facteurs afin d'Ã©laborer des mÃ©thodes de dÃ©termination des rÃ©sultats d'un programme : les facteurs qui sont liÃ©s Ã la recherche (autrement dit Ã la qualitÃ© des Ã©lÃ©ments de preuve rÃ©unis) et les facteurs qui dÃ©coulent du contexte dÃ©cisionnel dans lequel l'Ã©valuation a lieu. Les deux facteurs sont importants, mais, quoi qu'il en soit, il faut ordinairement concilier la rigueur scientifique de l'Ã©valuation et sa pertinence pour les dÃ©cideurs.

Il existe plusieurs faÃ§ons de recueillir les donnÃ©es sur lesquelles on se fonde pour dÃ©terminer les rÃ©sultats d'un programme. Dans ce chapitre, nous Ã©tudions les principales stratÃ©gies d'Ã©valuation, qui comprendront toutes un modÃ¨le d'Ã©valuation (chapitre 3), une mÃ©thode de collecte des donnÃ©es (chapitre 4) et une mÃ©thode analytique (chapitre 5).

Dans notre exemple du programme d'aide Ã l'industrie, on pourrait dÃ©cider de dÃ©terminer si les emplois crÃ©Ã©s sont attribuables au programme en menant une enquÃªte auprÃ¨s des entreprises participantes pour leur demander ce qui serait arrivÃ© s'il n'y avait pas eu de subvention gouvernementale. Une autre stratÃ©gie pourrait consister Ã faire un sondage pour dÃ©terminer le nombre d'emplois crÃ©Ã©s dans des entreprises analogues, les unes ayant reÃ§u une subvention et les autres pas, puis Ã comparer les rÃ©sultats afin de mesurer les importantes diffÃ©rences statistiques. Une troisiÃ¨me stratÃ©gie pourrait faire appel Ã des Ã©tudes de cas approfondies sur des entreprises ayant bÃ©nÃ©ficiÃ© d'une subvention pour dÃ©terminer si elles auraient vraisemblablement crÃ©Ã© les emplois en question de toute faÃ§on. Chacune de ces stratÃ©gies porte sur la mÃªme question et fournit des preuves de nature et de qualitÃ© diffÃ©rentes; aucune ne fournit normalement de preuve incontestable des rÃ©sultats du programme. C'est pourquoi il est donc souvent appropriÃ© d'avoir recours Ã plusieurs stratÃ©gies. Par exemple, on peut vouloir aussi dÃ©terminer les effets du programme Ã d'autres Ã©gards, celui de la concurrence dÃ©loyale que les subventions auraient pu crÃ©er. Cela pourrait se faire en partie au moyen d'une des stratÃ©gies susmentionnÃ©es, et en partie aussi grÃ¢ce Ã une stratÃ©gie diffÃ©rente. La stratÃ©gie globale pour laquelle l'Ã©valuateur opte est le plus souvent une combinaison de stratÃ©gies diffÃ©rentes conÃ§ue pour trancher une sÃ©rie de questions prÃ©cises. Ã€ la section 2.4.3, nous verrons comment on Ã©labore de telles stratÃ©gies ou des dÃ©marches d'Ã©valuation multiples.

La figure 3 illustre les Ã©tapes gÃ©nÃ©rales de l'Ã©laboration d'une stratÃ©gie d'Ã©valuation. Il est utile d'envisager cette dÃ©marche comme une sÃ©rie d'Ã©tapes que nous dÃ©crivons dans l'ordre, bien qu'elle soit beaucoup plus itÃ©rative dans la pratique, puisque chaque Ã©tape est Ã©troitement liÃ©e aux autres.

Pour commencer, l'Ã©valuateur doit choisir un modÃ¨le. Le modÃ¨le d'Ã©valuation s'entend du modÃ¨le logique utilisÃ© pour parvenir Ã des conclusions sur les rÃ©sultats. Afin de le choisir, l'Ã©valuateur doit dÃ©terminer simultanÃ©ment le genre d'information qu'il veut obtenir et le type d'analyse auquel il va soumettre cette information. Par exemple, si l'Ã©valuation a pour objet de dÃ©terminer dans quelle mesure un programme a atteint un objectif donnÃ©, l'Ã©valuateur doit choisir un indicateur appropriÃ© et opter pour une mÃ©thode d'analyse qui lui permettra d'isoler l'effet du programme. Les modÃ¨les d'Ã©valuation servent de base logique pour mesurer des rÃ©sultats et les attribuer aux programmes.

Une fois le modÃ¨le d'Ã©valuation choisi, l'Ã©valuateur passe au choix des mÃ©thodes et des techniques nÃ©cessaires pour l'appliquer. Le genre d'information nÃ©cessaire - indicateurs qualitatifs ou indicateurs quantitatifs de la rÃ©alisation des objectifs- est dÃ©terminÃ© Ã l'Ã©tape de la conception du modÃ¨le. L'Ã©tape suivante consiste Ã dÃ©finir les donnÃ©es nÃ©cessaires pour produire cette information. Les donnÃ©es sont des faits, c'est-Ã -dire des choses qu'on peut observer et consigner et leur nature et leur qualitÃ© peuvent varier nettement. Ã€ cet Ã©gard, la tÃ¢che de l'Ã©valuateur se complique parce que les donnÃ©es sont plus ou moins accessibles et que leur coÃ»t et leur pertinence varient. C'est lÃ qu'intervient la question de la mesure, puisqu'il faut dÃ©cider quelles donnÃ©es sont les plus pertinentes et comment les recueillir. Comme nous le verrons ultÃ©rieurement, la mesure est une question mÃ©thodologique d'importance cruciale pour l'Ã©valuation.

AprÃ¨s avoir bien dÃ©fini les donnÃ©es nÃ©cessaires, l'Ã©valuateur doit dÃ©terminer leurs sources potentielles. S'il lui est impossible d'obtenir des donnÃ©es fiables d'une source secondaire, il doit avoir recours Ã une mÃ©thode de collecte de donnÃ©es primaires (Cook et Campbell, 1970, chapitre 1; Cronbach, 1982, chapitre 4). Cette approche est gÃ©nÃ©ralement plus coÃ»teuse que celle de l'utilisation de donnÃ©es secondaires, et on devrait s'en Ã©carter dans la mesure du possible. Lorsqu'on dÃ©cide de recueillir des donnÃ©es primaires, il faut normalement choisir une mÃ©thode de collecte (observations sur le terrain et sondages postaux, par exemple), mettre au point des instruments de mesure (questionnaires, guides d'entrevue, fiches d'enregistrement des observations, etc.) et formuler un plan d'Ã©chantillonnage.

Enfin, compte tenu du type d'analyse nÃ©cessaire et du genre de donnÃ©es disponibles, l'Ã©valuateur doit choisir des mÃ©thodes d'analyse des donnÃ©es (analyse coÃ»ts-avantages, rÃ©gression multiple, analyse de la variance, etc.). Ces analyses ont pour objet de traduire les donnÃ©es recueillies pour produire l'information nÃ©cessaire pour l'Ã©valuation.

les Ã©tapes gÃ©nÃ©rales de l'Ã©laboration d'une stratÃ©gie d'Ã©valuation

2.4 Ã‰valuations crÃ©dibles

Avant d'analyser les Ã©lÃ©ments prÃ©cis d'une stratÃ©gie d'Ã©valuation de faÃ§on plus dÃ©taillÃ©e, nous devrions examiner les Ã©lÃ©ments clÃ©s dont on doit tenir compte pour assurer la crÃ©dibilitÃ© de l'Ã©valuation elle-mÃªme. Ces Ã©lÃ©ments clÃ©s sont rÃ©sumÃ©s au tableau 2.

Tableau 2 - Ã‰lÃ©ments nÃ©cessaires Ã la crÃ©dibilitÃ© des Ã©valuations

A. CritÃ¨res de recherche

questions de mesure
- fiabilitÃ©
- validitÃ© de la mesure
- profondeur et portÃ©e
questions d'attribution
- validitÃ© des infÃ©rences causales

B. CritÃ¨res du contexte dÃ©cisionnel

possibilitÃ© de formuler des conclusions crÃ©dibles
- objectivitÃ©
- pertinence pour le contexte dÃ©cisionnel
- pertinence du niveau et du genre de donnÃ©es
- exhaustivitÃ©
questions pratiques
- faisabilitÃ©
- coÃ»t abordable
- Ã©thique

2.4.1 CritÃ¨res de recherche

a) Questions de mesure

Bien des effets des programmes sont fondamentalement difficiles Ã mesurer. Voici quelques exemples :

amÃ©lioration du bien-Ãªtre des personnes Ã¢gÃ©es, grÃ¢ce Ã des programmes leur permettant de continuer Ã vivre seules chez elles;
amÃ©lioration de la sÃ©curitÃ© nationale grÃ¢ce Ã la mise au point d'un important systÃ¨me d'armes;
amÃ©lioration des stimulants Ã la R-D industrielle grÃ¢ce Ã des modifications du rÃ©gime fiscal.

Comme bien d'autres, ces effets exigent Ã la fois des mÃ©thodes de mesure perfectionnÃ©es et une connaissance approfondie de domaines spÃ©cialisÃ©s de la politique publique.

Trois des aspects de la mesure nÃ©cessitent une attention particuliÃ¨re : la fiabilitÃ©, la validitÃ© de la mesure, ainsi que la profondeur et la portÃ©e.

FiabilitÃ©

Une mesure est dite fiable si elle donne les mÃªmes rÃ©sultats lorsqu'elle est appliquÃ©e de faÃ§on rÃ©pÃ©tÃ©e dans une situation donnÃ©e. Par exemple, un test d'intelligence serait considÃ©rÃ© comme fiable dans la mesure oÃ¹ il donnerait un rÃ©sultat identique s'il Ã©tait administrÃ© deux fois Ã la mÃªme personne (dont l'intelligence n'aurait pas changÃ©). Dans le contexte d'un programme, la fiabilitÃ© peut correspondre Ã la stabilitÃ© de la mesure dans le temps, ou Ã son uniformitÃ© d'un endroit Ã l'autre.

Le manque de fiabilitÃ© peut Ãªtre attribuable Ã plusieurs facteurs. Par exemple, il peut rÃ©sulter d'une mauvaise mÃ©thode de collecte des donnÃ©es : si l'enquÃªteur ne lit pas attentivement les instructions du guide d'entrevue, il risque d'obtenir des rÃ©sultats lÃ©gÃ¨rement diffÃ©rents de ceux des enquÃªteurs qui les ont lues. Le manque de fiabilitÃ© peut aussi Ãªtre imputable Ã l'instrument de mesure lui-mÃªme, ou au plan d'Ã©chantillonnage. Si la procÃ©dure d'Ã©chantillonnage n'est pas bien suivie, l'Ã©chantillon risque de ne pas Ãªtre reprÃ©sentatif de la population visÃ©e et, par consÃ©quent, les rÃ©sultats qu'il gÃ©nÃ¨re peuvent n'Ãªtre pas fiables.

ValiditÃ© de la mesure

Une mesure est valide dans la mesure oÃ¹ elle reprÃ©sente fidÃ¨lement ce qu'elle est censÃ©e reprÃ©senter. Les mesures (indicateurs) valides ne prÃ©sentent pas d'erreurs systÃ©matiques et saisissent les donnÃ©es voulues. Les donnÃ©es signifient-elles ce que nous croyons qu'elles signifient? La technique employÃ©e mesure-t-elle ce qu'elle est censÃ©e mesurer? Ces questions ont une importance critique pour l'Ã©valuation des programmes.

Les problÃ¨mes de validitÃ© d'une mesure peuvent Ãªtre conceptuels ou techniques. Ã€ moins d'y avoir bien rÃ©flÃ©chi, il est rare qu'on sache exactement quelles donnÃ©es correspondent le mieux aux rÃ©sultats Ã mesurer. La dÃ©cision est trop souvent fondÃ©e uniquement sur des donnÃ©es faciles Ã obtenir, mais qui gÃ©nÃ¨rent des mesures moins probantes qu'on n'aurait pu le souhaiter. En outre, des erreurs techniques (de mesure et d'Ã©chantillonnage, par exemple) peuvent se produire et fausser les rÃ©sultats de l'Ã©valuation.

Profondeur et portÃ©e

Les notions de profondeur et de portÃ©e sont indissociables de celles de la fiabilitÃ© et de la validitÃ© de la mesure. Dans certaines situations, l'Ã©valuateur peut souhaiter mesurer certains rÃ©sultats trÃ¨s prÃ©cisÃ©ment et d'autres de faÃ§on moins dÃ©taillÃ©e, mais avec plusieurs instruments diffÃ©rents.

Pour mesurer les avantages d'un programme pour une personne, il faut parfois rÃ©aliser des entrevues et des sondages en profondeur. Dans certains cas, il peut arriver aussi qu'on doive avoir recours Ã diffÃ©rents indicateurs reflÃ©tant tous des points de vue distincts sur les consÃ©quences envisagÃ©es. Par exemple, lorsqu'on Ã©value l'effet d'une subvention pour une entreprise, il peut Ãªtre nÃ©cessaire d'analyser ses ventes, l'Ã©volution de son effectif, celle de la qualitÃ© de ses emplois, l'effet de l'achat de nouvelles machines sur sa compÃ©titivitÃ©, et ainsi de suite.

Par ailleurs, la population cible d'un programme peut Ãªtre importante et hÃ©tÃ©rogÃ¨ne, auquel cas il est important que l'Ã©valuation porte de faÃ§on relativement peu dÃ©taillÃ©e sur tous ses segments. Ainsi, pour Ã©valuer convenablement les consÃ©quences pour les entreprises d'un programme d'aide Ã un secteur d'activitÃ© donnÃ©, il faudrait prendre soin d'assurer une reprÃ©sentation suffisante de tous les types d'entreprises visÃ©es (grandes et petites, de diffÃ©rents secteurs et de rÃ©gions diffÃ©rentes).

La profondeur et la portÃ©e de la mesure posent un problÃ¨me Ã©pineux. Comme le temps et les ressources sont limitÃ©s, l'Ã©valuateur doit inÃ©vitablement nÃ©gliger l'une au profit de l'autre. S'il privilÃ©gie la portÃ©e, son Ã©valuation peut gagner en pertinence et avoir un champ d'application plus vaste, mais elle perd alors en profondeur, et les mesures individuelles sont alors moins valides et moins fiables.

b) Questions d'attribution

Le programme n'est souvent qu'un des nombreux facteurs influant sur le rÃ©sultat constatÃ©. En fait, il peut Ãªtre assez difficile de dÃ©terminer dans quelle proportion les rÃ©sultats sont vraiment attribuables au programme plutÃ´t qu'Ã d'autres facteurs. C'est peut-Ãªtre l'aspect le plus difficile d'une Ã©tude d'Ã©valuation.

La clÃ© de l'attribution des rÃ©sultats est donc une bonne comparaison. En laboratoire, il est possible de le faire grÃ¢ce Ã des groupes tÃ©moins rigoureusement contrÃ´lÃ©s. Par contre, dans le cas des programmes du gouvernement fÃ©dÃ©ral, les comparaisons qui sont gÃ©nÃ©ralement possibles sont moins rigoureuses, et de nombreux obstacles risquent de saper la validitÃ© interne et la validitÃ© externe.

Les obstacles Ã la validitÃ© interne les plus courants sont les suivants :

Ã©vÃ©nements historiques - Ã©vÃ©nements externes influant sur les participants au programme autrement que sur les membres des groupes tÃ©moins;
maturation - changements des rÃ©sultats dÃ©coulant du temps Ã©coulÃ© plutÃ´t qu'attribuables au programme lui-mÃªme (p. ex., le vieillissement des participants d'un groupe comparativement Ã ceux d'un autre Ã une Ã©tape diffÃ©rente);
attrition - abandon du programme par des rÃ©pondants (ce facteur pourrait nuire Ã la comparabilitÃ© des groupes expÃ©rimental et tÃ©moin);
biais de la sÃ©lection - propension initialement inÃ©gale des groupes expÃ©rimental et tÃ©moin Ã rÃ©agir au programme;
facteurs de rÃ©gression -pseudo-changements des rÃ©sultats dÃ©coulant de la rÃ©tention de personnes pour un programme en raison des rÃ©sultats extrÃªmes obtenus (Ã la longue, tout groupe extrÃªme a tendance Ã se rapprocher de la moyenne, qu'il ait bÃ©nÃ©ficiÃ© du programme ou pas);
diffusion ou imitation du traitement - obtention par les rÃ©pondants d'un groupe de l'information destinÃ©e Ã un autre groupe;
essai - diffÃ©rences observÃ©es entre les groupes expÃ©rimental et tÃ©moin pouvant Ãªtre imputables Ã une meilleure connaissance d'un instrument de mesure pour les membres du premier groupe;
instruments - consÃ©quence du changement de l'instrument utilisÃ© selon le groupe (p. ex., lorsqu'on a recours Ã diffÃ©rents enquÃªteurs).

Il existe aussi de nombreux obstacles Ã la validitÃ© externe, autrement dit empÃªchant l'Ã©valuateur de gÃ©nÃ©raliser ses constatations pour les appliquer dans d'autres contextes, Ã d'autres moments ou Ã d'autres programmes. Dans le contexte de l'administration fÃ©dÃ©rale, la validitÃ© externe a toujours une grande importance, puisque les constatations de l'Ã©valuation sont censÃ©es appuyer la prise de dÃ©cisions ultÃ©rieures.

Il existe trois types d'obstacles Ã la gÃ©nÃ©ralisation des constatations :

interaction entre la sÃ©lection et le programme - non-reprÃ©sentativitÃ© des effets sur les participants au programme, parce que ceux-ci ont une caractÃ©ristique (influant sur les effets) non reprÃ©sentative de l'ensemble de la population;
interaction entre le contexte et le programme - non-reprÃ©sentativitÃ© du contexte du programme expÃ©rimental ou pilote comparativement Ã celui dans lequel le programme aurait Ã©tÃ© exÃ©cutÃ©, s'il avait Ã©tÃ© entiÃ¨rement mis en oeuvre;
interaction entre les Ã©vÃ©nements historiques et le programme - non-reprÃ©sentativitÃ© des conditions dans lesquelles le programme s'est dÃ©roulÃ© par rapport aux conditions futures.

Lorsqu'on est appelÃ© Ã choisir des stratÃ©gies d'Ã©valuation, il est manifestement trÃ¨s utile d'Ãªtre conscient des obstacles Ã leur validitÃ©. Une grande partie du jugement qui est nÃ©cessaire Ã la conception d'une Ã©valuation ainsi qu'Ã la collecte et Ã l'analyse des donnÃ©es consiste Ã savoir trouver les moyens de dÃ©terminer les effets attribuables au programme. Pour y arriver, il faut Ã©tablir de bonnes comparaisons, en Ã©vitant de donner prise au plus grand nombre d'obstacles possible Ã la validitÃ©.

Lorsque l'Ã©valuation est axÃ©e sur les rÃ©sultats, les modÃ¨les diffÃ¨rent surtout quant Ã l'efficacitÃ© avec laquelle ils permettent de dÃ©terminer les effets attribuables au programme et, le cas Ã©chÃ©ant, Ã la facilitÃ© de gÃ©nÃ©ralisation des conclusions. Les modÃ¨les d'Ã©valuation sont prÃ©sentÃ©s au chapitre 3, en ordre dÃ©croissant de crÃ©dibilitÃ©.

RÃ©fÃ©rences : StratÃ©gies d'Ã©valuation

Campbell, D.T. et J.C. Stanley, Experimental and Quasi-experimental Designs for Research, Chicago : Rand-McNally, 1963.

Cook, T.D. et D.T. Campbell, Quasi-experimentation : Designs and Analysis Issues for Field Settings, Chicago : Rand-McNally, 1979.

Kerlinger, F.N., Behavioural Research : A Conceptual Approach, New York : Holt, Rinehart and Winston, 1979, chapitre 9.

Mercer, Shawna L. et Vivek Goel, Â«Program Evaluation in the Absence of Goals : A Comprehensive Approach to the Evaluation of a Population-Based Breast Cancer Screening ProgramÂ», Canadian Journal of Program Evaluation, Vol. 9, N^o 1, avril-mai 1994, p. 97 Ã 112.

Patton, M.Q., Utilization-focussed Evaluation (2^e Ã©dition), Thousand Oaks : Sage Publications, 1986.

Rossi, P.H. et H.E. Freeman, Evaluation : A Systematic Approach (2^e Ã©dition), Thousand Oaks : Sage Publications, 1989.

Ryan, Brenda et Elizabeth Townsend, Â«Criteria MappingÂ», Canadian Journal of Program Evaluation, Vol. 4, N^o 2, octobre-novembre 1989, p. 47 Ã 58.

Watson, Kenneth, Â«Selecting and Ranking Issues in Program Evaluations and Value-for-money AuditsÂ», Canadian Journal of Program Evaluation, Vol. 5, N^o 2, octobre-novembre 1990, p. 15 Ã 28.

2.4.2 CritÃ¨res du contexte dÃ©cisionnel

Puisque l'Ã©valuation est censÃ©e faciliter la prise de dÃ©cisions, les critÃ¨res de choix d'une mÃ©thode d'Ã©valuation appropriÃ©e doivent garantir l'obtention d'une information utile. Cela suppose qu'on comprenne le contexte dans lequel les dÃ©cisions seront prises et oÃ¹ les constatations de l'Ã©valuation seront prÃ©sentÃ©es. Il faut donc tenir compte de facteurs qui s'ajoutent aux aspects techniques des mÃ©thodes, bien que celles-ci conservent une importance critique pour la crÃ©dibilitÃ© des constatations.

L'Ã©laboration d'une dÃ©marche d'Ã©valuation des rÃ©sultats d'un programme peut donc devenir une tÃ¢che trÃ¨s dÃ©licate, qui tient probablement plus de l'art que de la science, puisqu'il faut tenir compte Ã la fois des avantages et des inconvÃ©nients des stratÃ©gies envisagÃ©es pour recueillir des donnÃ©es et du contexte dans lequel l'Ã©valuation se dÃ©roule. La conciliation de ces deux Ã©lÃ©ments doit en outre se faire en fonction des contraintes imposÃ©es par les ressources et le temps limitÃ© dont l'Ã©valuateur dispose. Bref, c'est une tÃ¢che qui exige de toute Ã©vidence l'expÃ©rience de la recherche, et de la gestion.

Lorsqu'on examine les dÃ©marches d'Ã©valuation possibles Ã l'Ã©tape prÃ©paratoire de la planification, il faudrait constamment se poser la question suivante : la mÃ©thode ou solution recommandÃ©e fournira-t-elle des donnÃ©es suffisantes sur les questions visÃ©es, dans les dÃ©lais fixÃ©s et sans dÃ©passer le budget? Le tableau 2 prÃ©sente deux Ã©lÃ©ments dont il faut se rappeler dans le contexte dÃ©cisionnel : le degrÃ© auquel on peut s'attendre que la mÃ©thode aboutisse Ã des conditions crÃ©dibles et celui auquel elle peut Ãªtre appliquÃ©e. Nous allons maintenant dÃ©crire chacun de ces Ã©lÃ©ments gÃ©nÃ©raux en traitant aussi des questions connexes qui sont dÃ©crites ci-dessous. Il convient de souligner que ces Ã©lÃ©ments s'appliquent Ã tous les aspects de l'Ã©valuation, pas seulement Ã ceux qui sont liÃ©s aux rÃ©sultats du programme.

a) Formulation de conclusions crÃ©dibles (recommandations judicieuses fondÃ©es sur une analyse prÃ©cise)

La dÃ©marche d'Ã©valuation devrait tenir compte de la possibilitÃ© de formuler des conclusions crÃ©dibles.

On recueille des donnÃ©es afin de formuler des conclusions objectives et crÃ©dibles basÃ©es sur elles, avec assez de preuves Ã l'appui pour qu'on y ajoute foi. Il peut Ãªtre difficile d'aboutir Ã de telles conclusions, et l'Ã©valuateur devrait en tenir compte lorsqu'il Ã©labore sa stratÃ©gie. En outre, la crÃ©dibilitÃ© des conclusions est en partie fonction de leur formulation, autrement dit de leur prÃ©sentation.

Les donnÃ©es recueillies et les conclusions formulÃ©es devraient Ãªtre objectives, et toutes les hypothÃ¨ses devraient Ãªtre clairement prÃ©cisÃ©es.

L'objectivitÃ© des Ã©valuations est extrÃªmement importante. En effet, elles sont souvent contestÃ©es par quelqu'un, soit un gestionnaire de programme, un client, un membre de la haute direction, un reprÃ©sentant d'un organisme central ou un ministre. L'objectivitÃ© signifie que les donnÃ©es et les conclusions peuvent Ãªtre vÃ©rifiÃ©es et confirmÃ©es par d'autres personnes que les auteurs de l'Ã©valuation. Autrement dit, les conclusions doivent dÃ©couler de l'information recueillie. L'information et les donnÃ©es d'Ã©valuation devraient donc Ãªtre rÃ©unies, analysÃ©es et prÃ©sentÃ©es de telle faÃ§on que d'autres personnes qui feraient la mÃªme Ã©valuation en se fondant sur les mÃªmes hypothÃ¨ses de base aboutiraient Ã des conclusions analogues. C'est beaucoup plus difficile Ã faire lorsqu'on opte pour certaines stratÃ©gies d'Ã©valuation que pour d'autres, notamment si la stratÃ©gie utilisÃ©e repose largement sur le jugement professionnel de l'Ã©valuateur. En particulier, on devrait toujours prÃ©ciser clairement au lecteur les Ã©lÃ©ments sur lesquels les conclusions sont fondÃ©es (l'information et les donnÃ©es recueillies ainsi que les hypothÃ¨ses posÃ©es). Si les conclusions sont ambiguÃ«s, il est particuliÃ¨rement important que les hypothÃ¨ses sous-jacentes soient clairement Ã©noncÃ©es. En effet, lorsqu'elles ne sont pas bien prÃ©cisÃ©es, il arrive souvent que les conclusions soient mal formulÃ©es.

Les conclusions doivent Ãªtre pertinentes, c'est-Ã -dire compatibles avec le contexte dÃ©cisionnel et elles doivent absolument porter sur les questions Ã©tudiÃ©es.

Au cours d'une Ã©tude, les chercheurs perdent parfois de vue les questions sur lesquelles l'examen doit porter; il devient alors difficile pour le lecteur (le client de l'Ã©valuation) de comprendre le lien entre les conclusions et les questions Ã Ã©valuer cernÃ©es au dÃ©part. Ce phÃ©nomÃ¨ne peut Ãªtre dÃ» Ã plusieurs facteurs. Il se peut par exemple que la stratÃ©gie d'Ã©valuation n'ait pas Ã©tÃ© suffisamment bien conÃ§ue, de sorte qu'il est difficile d'obtenir de l'information valide sur certaines questions et de tirer certaines conclusions. Par ailleurs, il est possible aussi que les intÃ©rÃªts de l'Ã©valuateur l'emportent, auquel cas les questions qui intÃ©ressent la haute direction ne reÃ§oivent pas toute l'attention voulue. Enfin, d'autres questions peuvent se poser pendant qu'on Ã©tudie le programme et son contexte. Cela ne devrait toutefois pas prÃ©senter de difficultÃ©, pourvu que les questions initiales soient bel et bien Ã©tudiÃ©es et qu'on prÃ©cise clairement les questions supplÃ©mentaires et les conclusions correspondantes.

La prÃ©cision des conclusions est largement fonction de la qualitÃ© et de la nature de l'information recueillie, lesquelles devraient Ãªtre choisies compte tenu des facteurs contextuels.

On constate souvent deux types de difficultÃ©s dans les Ã©valuations. Il est souvent impossible d'arriver Ã des conclusions dÃ©finitives, et l'information et les donnÃ©es recueillies grÃ¢ce aux stratÃ©gies utilisables ne sont pas complÃ¨tes.

Dans le premier cas, il est frÃ©quent qu'on n'arrive pas Ã prouver catÃ©goriquement le rapport de causalitÃ© entre un programme et un rÃ©sultat observÃ©, en raison surtout de l'impossibilitÃ© de surmonter les problÃ¨mes de mesure et d'attribution dont nous avons dÃ©jÃ fait Ã©tat. En gÃ©nÃ©ral, il est peu probable qu'une stratÃ©gie d'Ã©valuation produise Ã elle seule suffisamment d'informations pour donner une rÃ©ponse sans Ã©quivoque aux questions posÃ©es.

Cela nous amÃ¨ne directement au second type de difficultÃ©s : il y a normalement plusieurs stratÃ©gies d'Ã©valuation envisageables, chacune produisant de l'information et des donnÃ©es de qualitÃ© et de nature diffÃ©rentes. Il s'ensuit donc qu'il faudrait choisir la stratÃ©gie en se fondant sur les facteurs contextuels liÃ©s aux dÃ©cisions Ã prendre au sujet du programme, et pas seulement sur des questions de recherche prÃ©dÃ©finies. C'est sensiblement la mÃªme chose qu'en droit, oÃ¹ le genre d'Ã©lÃ©ments de preuve Ã produire est fonction de la gravitÃ© et du type de crime. Ainsi, dans bien des poursuites au civil, il suffit de prouver l'existence de motifs raisonnables, alors que la culpabilitÃ© d'un criminel doit Ãªtre prouvÃ©e Â«au-delÃ de tout doute raisonnableÂ» (Smith, 1981). Les facteurs contextuels dont l'Ã©valuateur devrait tenir compte sont le degrÃ© d'incertitude sur le programme et sur ses rÃ©sultats, l'importance de ses effets, son coÃ»t et la probabilitÃ© que les conclusions soient contestÃ©es. Il devrait Ãªtre capable de prÃ©voir quelles contestations d'envergure ses conclusions susciteront Ã©ventuellement, et Ãªtre prÃªt Ã les rÃ©futer.

Le choix de l'information Ã recueillir et, partant, de la mÃ©thode d'Ã©valuation Ã utiliser est l'une des tÃ¢ches les plus difficiles pour l'Ã©valuateur. En principe, c'est le client de l'Ã©tude et non l'Ã©valuateur qui fera ce choix. La tÃ¢che de l'Ã©valuateur consiste Ã prÃ©senter au client les dÃ©marches d'Ã©valuation susceptibles de gÃ©nÃ©rer les conclusions crÃ©dibles qu'on attend de lui, Ã un coÃ»t et dans des dÃ©lais raisonnables. Pour choisir la dÃ©marche, le client devrait avoir une bonne comprÃ©hension de l'information qui sera produite et Ãªtre par consÃ©quent en mesure de juger si l'Ã©valuation est suffisamment rigoureuse pour pouvoir s'en inspirer dans ses dÃ©cisions. Bien entendu, l'Ã©valuateur devrait proposer des dÃ©marches d'Ã©valuation qui reflÃ¨tent le mieux possible le contexte dÃ©cisionnel afin de faciliter le choix du client.

L'exhaustivitÃ© - ou son absence - est un autre facteur qui pose souvent des problÃ¨mes aux Ã©valuateurs. (Bien qu'elle soit liÃ©e Ã la pertinence de l'information, elle constitue un point distinct dans le tableau 2, parce qu'on a souvent tendance Ã produire de l'information et des donnÃ©es objectives et pertinentes sur la plupart des questions Ã l'Ã©tude, mais Ã en nÃ©gliger plus ou moins d'autres.) Il s'agit lÃ d'un problÃ¨me de macromesure. L'Ã©valuateur devrait s'efforcer d'avoir une idÃ©e aussi exacte que possible de la question du point de vue du client. Cela suppose qu'il Ã©tudie toutes les questions d'intÃ©rÃªt qu'il peut, compte tenu du temps et des ressources financiÃ¨res dont il dispose. Ã€ cet Ã©gard, il ne faut jamais oublier que, pour le gouvernement fÃ©dÃ©ral, le Â«clientÂ» est en dÃ©finitive le public canadien. Il est parfois difficile de faire en sorte que la portÃ©e de l'Ã©valuation soit suffisante. Pourtant, si l'on dÃ©cide de la sacrifier pour analyser de faÃ§on plus approfondie certaines des questions envisagÃ©es, on risque d'aboutir Ã des conclusions correctes, mais sans vue d'ensemble. Pour Ã©viter cet Ã©cueil, on prend habituellement soin de discuter des questions d'Ã©valuation avec le client et avec d'autres parties ayant des points de vue diffÃ©rents. De cette faÃ§on, on a toutes les chances d'arriver Ã une stratÃ©gie d'Ã©valuation d'une portÃ©e satisfaisante.

Si l'Ã©valuateur estime que sa tÃ¢che consiste Ã fournir un complÃ©ment d'information pertinente sur un programme et sur ses rÃ©sultats (autrement dit de proposer une mÃ©thode permettant de rÃ©duire l'incertitude au sujet d'un programme) plutÃ´t qu'Ã produire des preuves concluantes de son efficacitÃ©, il aboutira donc vraisemblablement Ã des conclusions plus utiles. Avec cette approche, il risque de devoir faire des choix difficiles entre la pertinence et la rigueur de son travail, mais il doit choisir des mÃ©thodes d'Ã©valuation qui lui permettront de maximiser les chances d'arriver Ã des conclusions utiles, mÃªme avec des rÃ©serves.

L'Ã©valuateur peut Ãªtre frÃ©quemment appelÃ© Ã donner des conseils Ã son client et Ã lui prÃ©senter des recommandations. Il doit alors absolument Ã©tablir une distinction entre les constatations qui sont tirÃ©es de l'information gÃ©nÃ©rÃ©e par son Ã©tude et les recommandations sur le programme qui s'inspirent des conclusions de son Ã©valuation ou de renseignements provenant d'autres sources, par exemple des directives stratÃ©giques. Les conclusions de l'Ã©valuation perdent de leur crÃ©dibilitÃ© si cette distinction n'est pas maintenue.

Par exemple, les constatations d'une Ã©valuation d'un programme d'Ã©conomie d'Ã©nergie rÃ©sidentielle peuvent permettre Ã l'Ã©valuateur de conclure que le programme a eu des rÃ©percussions favorables sur l'Ã©conomie d'Ã©nergie. Toutefois, des renseignements obtenus d'autres sources peuvent laisser entendre que d'autres programmes d'Ã©conomie d'Ã©nergie sont plus rentables, auquel cas l'Ã©valuateur est portÃ© Ã recommander que le programme rÃ©sidentiel soit abandonnÃ©. Dans ce cas-lÃ , il doit clairement prÃ©ciser que sa recommandation n'est pas fondÃ©e sur l'information obtenue dans le contexte de l'Ã©valuation elle-mÃªme, mais bien sur d'autres renseignements.

b) Questions pratiques

Lorsqu'il Ã©labore sa mÃ©thode d'Ã©valuation, l'Ã©valuateur doit tenir compte d'Ã©lÃ©ments fondamentaux tels que la praticabilitÃ©, la viabilitÃ© financiÃ¨re et l'Ã©thique.

Une dÃ©marche est jugÃ©e praticable dans la mesure oÃ¹ elle peut Ãªtre appliquÃ©e efficacement sans consÃ©quences nÃ©fastes et dans les dÃ©lais impartis. La viabilitÃ© financiÃ¨re s'entend du coÃ»t de mise en oeuvre de la dÃ©marche. Il se peut que le coÃ»t d'utilisation de la mÃ©thode considÃ©rÃ©e comme la plus appropriÃ©e dans une situation donnÃ©e soit exorbitant. Or, il faut toujours prÃ©fÃ©rer la mÃ©thode d'Ã©valuation susceptible Ã la fois de gÃ©rer les problÃ¨mes de mesure et d'attribution et d'aboutir Ã des conclusions crÃ©dibles, tout en pouvant Ãªtre appliquÃ©e dans les limites des ressources disponibles.

L'Ã©thique (principes ou valeurs morales) doit Ãªtre Ã©valuÃ©e dans l'Ã©laboration d'une mÃ©thode d'Ã©valuation. Par exemple, il peut Ãªtre contraire Ã l'Ã©thique d'exÃ©cuter un programme exclusivement pour un sous-groupe d'une population donnÃ©e. Ce serait le cas si une Ã©valuation portant sur un programme social devait Ãªtre fondÃ©e sur un Ã©chantillon alÃ©atoire de prestataires et privait de services d'autres personnes y ayant pourtant autant droit. Les principes d'Ã©thique dont il faut tenir compte dans le contexte des Ã©valuations de programmes de l'administration fÃ©dÃ©rale sont prÃ©cisÃ©s dans divers textes lÃ©gislatifs et stratÃ©giques sur la collecte, l'utilisation, la prÃ©servation et la diffusion de l'information, dont la Loi sur l'accÃ¨s Ã l'information, la Loi sur la protection des renseignements personnels et la Loi sur la statistique, ainsi que la Politique du gouvernement en matiÃ¨re de communications et la Politique sur la gestion des renseignements dÃ©tenus par le gouvernement du Conseil du TrÃ©sor, laquelle porte notamment sur les mesures Ã prendre pour minimiser la collecte de donnÃ©es inutile et pour assurer l'examen mÃ©thodologique prÃ©alable des activitÃ©s de collecte de donnÃ©es.

Alkin, M.C., A Guide for Evaluation Decision Makers, Thousand Oaks : Sage Publications, 1986.

Baird, B.F., Managerial Decisions under Uncertainty, New York : Wiley Interscience, 1989.

Cabatoff, Kenneth A., Â«Getting On and Off the Policy Agenda : A Dualistic Theory of Program Evaluation UtilizationÂ», Canadian Journal of Program Evaluation,. Vol. 11, N^o 2, automne 1996, p. 35 Ã 60.

Goldman, Francis et Edith Brashares, Â«Performance and Accountability : Budget Reform in New ZealandÂ», Public Budgeting and Finance, Vol. 11, N^o 4, hiver 1991, p. 75 Ã 85.

Mayne, John et R.S. Mayne, Â«Will Program Evaluation be Used in Formulating Policy?Â», in Atkinson, M. et M. Chandler, Ã©d., The Politics of Canadian Public Policy, Toronto : University of Toronto Press, 1983.

Moore, M.H., Creating Public Value : Strategic Management in Government, Boston : Harvard University Press, 1995.

Nutt, P.C. et R.W. Backoff, Strategic Management of Public and Third Sector Organizations, San Francisco : Jossey-Bass, 1992.

O'Brecht, Michael, Â«Stakeholder Pressures and Organizational StructureÂ», Canadian Journal of Program Evaluation, Vol. 7, N^o 2, octobre-novembre 1992, p. 139 Ã 147.

Peters, Guy B. et Donald J. Savoie, Centre canadien de gestion, Governance in a Changing Environment, MontrÃ©al et Kingston : McGill-Queen's University Press, 1993.

Pressman, J.L. et A. Wildavsky, Implementation, Los Angeles : UCLA Press, 1973.

Reavy, Pat, et al., Â«Evaluation as Management Support : The Role of the EvaluatorÂ», Canadian Journal of Program Evaluation, Vol. 8, N^o 2, octobre-novembre 1993, p. 95 Ã 104.

Rist, Ray C., Ã©d., Program Evaluation and the Management of the Government, New Brunswick (NJ) : Transaction Publishers, 1990.

Schick, Allen, The Spirit of Reform : Managing the New Zealand State, rapport commandÃ© par le ministÃ¨re du TrÃ©sor et la Commission des services gouvernementaux de la Nouvelle-ZÃ©lande, 1996.

Seidle, Leslie, Rethinking the Delivery of Public Services to Citizens, MontrÃ©al : Institut de recherches en politiques publiques (IMPP), 1995.

Thomas, Paul G., The Politics and Management of Performance Measurement and Service Standards, Winnipeg : St.-John's College, University of Manitoba, 1996.

Une stratÃ©gie d'Ã©valuation produit des preuves d'un rÃ©sultat, tandis qu'une Ã©tude d'Ã©valuation porte ordinairement sur plusieurs questions, ce qui signifie qu'on a donc intÃ©rÃªt Ã faire appel Ã plusieurs stratÃ©gies, d'autant plus qu'il peut aussi Ãªtre souhaitable d'en utiliser plus d'une pour examiner une question donnÃ©e, afin d'accroÃ®tre l'exactitude et la crÃ©dibilitÃ© des constatations de l'Ã©valuation.

La plupart des stratÃ©gies d'Ã©valuation Ã©laborÃ©es pour Ã©tudier une question prÃ©cise peuvent aussi Ãªtre utilisÃ©es pour en examiner d'autres, avec certaines modifications. MÃªme si une stratÃ©gie n'est pas idÃ©ale pour Ã©tudier une autre question, il peut Ãªtre utile de s'en servir parce que son coÃ»t marginal est faible. Supposons par exemple qu'on fasse une Ã©tude afin de dÃ©terminer l'aptitude Ã la lecture de deux groupes, dont l'un participant Ã un programme donnÃ©. On fait passer aux membres de chaque groupe un test destinÃ© Ã mesurer leur aptitude Ã la lecture, en leur posant aussi diverses questions sur l'utilitÃ© et l'efficacitÃ© du programme. Les rÃ©sultats reflÃ¨tent bien entendu les lacunes inhÃ©rentes Ã tous les rÃ©sultats des enquÃªtes sur les attitudes, mais ajoutent quand mÃªme des indications aux rÃ©sultats objectifs du test de lecture, Ã un coÃ»t relativement faible.

La seconde raison d'envisager le recours Ã plusieurs stratÃ©gies de recherche dans une Ã©valuation, c'est qu'il est souvent souhaitable de mesurer ou d'Ã©valuer le mÃªme rÃ©sultat en fonction de plusieurs sources de donnÃ©es, ou en appliquant des modÃ¨les d'Ã©valuation diffÃ©rents. En effet, il est souvent difficile, sinon impossible, de mesurer exactement et sans Ã©quivoque un rÃ©sultat donnÃ©. Des facteurs de confusion, des erreurs de mesure et des prÃ©jugÃ©s personnels risquent de se combiner pour saper la validitÃ© ou la fiabilitÃ© des rÃ©sultats obtenus lorsqu'on n'a utilisÃ© qu'une seule et unique mÃ©thode d'analyse. En effet, les modÃ¨les d'Ã©valuation sont habituellement vulnÃ©rables Ã plusieurs obstacles Ã la validitÃ© interne; il est donc impossible d'Ã©liminer ou de tenir compte de toutes les autres explications plausibles. Par consÃ©quent, on doit souvent avoir recours Ã des stratÃ©gies complÃ©mentaires pour infirmer les explications indÃ©sirables des rÃ©sultats observÃ©s.

C'est pour ces deux raisons qu'il est prÃ©fÃ©rable d'Ã©tudier les questions Ã Ã©valuer de plusieurs points de vue, en se fondant sur plusieurs modalitÃ©s d'Ã©tablissement de la preuve afin d'accroÃ®tre la crÃ©dibilitÃ© des constatations. Quand des stratÃ©gies distinctes qui sont fondÃ©es sur des sources de donnÃ©es et des mÃ©thodes d'analyse diffÃ©rentes aboutissent Ã la mÃªme conclusion, l'Ã©valuateur peut raisonnablement les considÃ©rer comme fiables. Par contre, lorsqu'elles mÃ¨nent Ã des conclusions diffÃ©rentes, la situation est Ã©videmment beaucoup moins facile Ã trancher. NÃ©anmoins, c'est un rÃ©sultat prÃ©fÃ©rable Ã ce qui se produit quand on se fonde sur une seule stratÃ©gie, en aboutissant sans s'en rendre compte Ã des conclusions qui pourraient Ãªtre contradictoires pour peu qu'on en utilise une autre. Lorsque les conclusions diffÃ¨rent, c'est peut-Ãªtre parce que les rÃ©sultats du programme sont trop sensibles pour pouvoir Ãªtre mesurÃ©s avec prÃ©cision (ce qui signifie que l'erreur d'Ã©chantillonnage l'emporte sur l'effet incrÃ©mentiel); pour corriger le problÃ¨me, il faut alors avoir recours Ã une meilleure mÃ©thode d'analyse ou recueillir plus de donnÃ©es, ou encore Ã une combinaison de ces deux approches.

Supposons par exemple qu'on tente d'Ã©valuer les effets de notre fameux problÃ¨me d'aide Ã un secteur d'activitÃ© industrielle. L'Ã©valuation devrait porter sur l'effet incrÃ©mentiel du projet, ce qui reviendrait Ã essayer de dÃ©terminer si l'aide fournie a menÃ© Ã la rÃ©alisation du projet envisagÃ©. Cette question pourrait Ãªtre Ã©tudiÃ©e sous plusieurs angles diffÃ©rents. Une stratÃ©gie consisterait Ã mener un sondage auprÃ¨s des cadres des entreprises visÃ©es en leur posant la question directement ou indirectement. Cependant, pour diverses raisons, notamment parce qu'ils voudraient obtenir d'autres subventions, les rÃ©pondants pourraient tendre Ã exagÃ©rer l'effet incrÃ©mentiel du programme. Il faudrait donc utiliser d'autres mÃ©thodes pour le dÃ©terminer. Par exemple, un examen dÃ©taillÃ© des registres financiers et de marketing pour la pÃ©riode prÃ©cÃ©dant immÃ©diatement la mise en oeuvre du projet permettrait de juger si le rendement attendu des investissements justifiait son exÃ©cution sans l'aide de l'Ã‰tat. On pourrait aussi avoir recours Ã un modÃ¨le quasi expÃ©rimental avec une analyse correspondante comme nous le verrons au chapitre 3, pour comparer la rÃ©alisation de projets non subventionnÃ©s Ã celle de projets qui l'ont Ã©tÃ©, ou encore pour comparer la frÃ©quence des projets exÃ©cutÃ©s avant et aprÃ¨s la mise en oeuvre du programme.

Prenons aussi un autre exemple, celui des enquÃªtes postales qui peuvent avoir un trÃ¨s vaste rayonnement dans une population cible. Malheureusement, il s'agit lÃ d'une stratÃ©gie qui ne se prÃªte gÃ©nÃ©ralement pas Ã des Ã©tudes en profondeur, bien qu'elle puisse Ãªtre renforcÃ©e grÃ¢ce Ã des Ã©tudes de cas ou Ã des entrevues individuelles.

De mÃªme, les modÃ¨les implicites faisant appel Ã une analyse du contenu en soi sont peu fiables. MÃªme si ces modÃ¨les sont utiles pour l'examen d'avantages difficiles Ã mesurer, il convient de les complÃ©ter par des stratÃ©gies plus fiables Ã fondement quasi expÃ©rimental, ce qui augmente Ã©normÃ©ment la crÃ©dibilitÃ© globale des constatations de l'Ã©valuation.

Jorjani, Hamid, Â«The Holistic Perspective in the Evaluation of Public Programs : A Conceptual FrameworkÂ», Canadian Journal of Program Evaluation, Vol. 9, N^o 2, octobre-novembre 1994, p. 71 Ã 92.

2.5 RÃ©sumÃ©

Dans ce chapitre, nous avons analysÃ© les aspects de la recherche et du contexte dÃ©cisionnel dont il faut tenir compte pour l'Ã©laboration et l'application de mÃ©thodes d'Ã©valuation crÃ©dibles. Ce faisant, nous avons insistÃ© sur la nÃ©cessitÃ© de ne jamais nÃ©gliger les facteurs contextuels inhÃ©rents Ã toutes les Ã©tudes d'Ã©valuation menÃ©es dans l'administration fÃ©dÃ©rale. Ces facteurs sont au moins aussi importants que les questions de recherche qui sont traditionnellement associÃ©es Ã une stratÃ©gie d'Ã©valuation.

De plus, le prÃ©sent chapitre dÃ©crit le bien-fondÃ© de multiples Ã©lÃ©ments probants, soit le recours Ã plus d'une stratÃ©gie d'Ã©valuation pour appuyer les infÃ©rences sur les effets du programme. Compte tenu des contraintes temporelles et financiÃ¨res on devrait toujours rechercher de multiples Ã©lÃ©ments probants pour appuyer les conclusions de l'Ã©valuation.

Date de modification :: 2010-02-25

Sélection de la langue

Recherche et menus

Recherche

Méthodes d'évaluation des programmes

Informations archivées

Chapitre 2 - STRATÃ‰GIES D'Ã‰VALUATION

2.1 InfÃ©rence causale en Ã©valuation

2.2 InfÃ©rences causales

2.3 StratÃ©gies d'Ã©valuation

2.4 Ã‰valuations crÃ©dibles

2.4.1 CritÃ¨res de recherche

2.4.2 CritÃ¨res du contexte dÃ©cisionnel

2.4.3 StratÃ©gies multiples

2.5 RÃ©sumÃ©

Nous procédons actuellement au transfert de nos services et de nos renseignements sur le Web vers Canada.ca.

Méthodes d'évaluation des programmes

Informations archivées

Chapitre 2 - STRATÃ‰GIES D'Ã‰VALUATION

2.1 InfÃ©rence causale en Ã©valuation

2.2 InfÃ©rences causales

2.3 StratÃ©gies d'Ã©valuation

2.4 Ã‰valuations crÃ©dibles

2.4.1 CritÃ¨res de recherche

2.4.2 CritÃ¨res du contexte dÃ©cisionnel

2.4.3 StratÃ©gies multiples

2.5 RÃ©sumÃ©