Méthodes d'évaluation des programmes

Informations archivées

Les informations archivées sont fournies aux fins de référence, de recherche ou de tenue de documents. Elles ne sont pas assujetties aux normes Web du gouvernement du Canada et n’ont pas été modifiées ou mises à jour depuis leur archivage. Pour obtenir ces informations dans un autre format, veuillez communiquez avec nous.

Avis aux lecteurs

La Politique sur les résultats est entrée en vigueur le 1^er juillet 2016 et elle a remplacé la Politique sur l’évaluation et ses instruments.

Depuis 2016, le Centre d’excellence en évaluation a été remplacé par la Division des résultats.

Pour de plus amples renseignements sur les évaluations et les sujets connexes, veuillez consulter la section Évaluation du site Web du Secrétariat du Conseil du Trésor du Canada.

Mesure et attribution des rÃ©sultats des programmes

TroisiÃ¨me Ã©dition - mars 1998

Pratiques d'examen et Ã©tudes
Revue gouvernementale et services de qualitÃ©
Direction du sous-contrÃ´leur gÃ©nÃ©ral

SecrÃ©tariat du Conseil du TrÃ©sor du Canada

Â© Ministre des Travaux publics et des Services gouvernementaux
PubliÃ© par la Direction des affaires publiques
SecrÃ©tariat du Conseil du TrÃ©sor du Canada

CHAPITRE 1 INTRODUCTION

CHAPITRE 2 STRATÃ‰GIES D'Ã‰VALUATION

CHAPITRE 3 MODÃˆLES D'Ã‰VALUATIONS

CHAPITRE 4 MÃ‰THODES DE COLLECTE DES DONNÃ‰ES

CHAPITRE 5 MÃ‰THODES ANALYTIQUES

CHAPITRE 6 CONCLUSION

ANNEXE 1 ENQUÃŠTES

ANNEXE 2 GLOSSAIRE

ANNEXE 3 BIBLIOGRAPHIE

ANNEXE 4 AUTRES RÃ‰FÃ‰RENCES

Chapitre 1 - INTRODUCTION

L'Ã©valuation du rendement des programmes est un Ã©lÃ©ment clÃ© de la stratÃ©gie de gestion des rÃ©sultats du gouvernement fÃ©dÃ©ral. Le cycle de chaque programme (conception, mise en oeuvre et Ã©valuation) s'inscrit dans celui, plus large, du SystÃ¨me de gestion des dÃ©penses du gouvernement. Les plans Ã©tablissent les objectifs du programme et les critÃ¨res d'Ã©valuation de son succÃ¨s; les rapports sur le rendement Ã©valuent les rÃ©sultats.

La mesure du rendement est un Ã©lÃ©ment essentiel de ce cycle. Les Ã©valuations devraient fournir au moment voulu des constatations et des conclusions Ã la fois pertinentes, fiables et objectives sur le rendement du programme, grÃ¢ce Ã des mÃ©thodes valides et fiables de collecte et d'analyse des donnÃ©es. IdÃ©alement, les Ã©valuations devraient prÃ©senter les constatations et les conclusions de faÃ§on claire et Ã©quilibrÃ©e, tout en prÃ©cisant leur degrÃ© de fiabilitÃ©.

Ce manuel est un exposÃ© des mÃ©thodes appropriÃ©es pour atteindre les objectifs analytiques. Dans une large mesure, les dÃ©fis de l'Ã©valuation sont typiques de ceux qui se posent dans toute la recherche en sciences sociales. La documentation pertinente foisonne d'excellentes descriptions du bon et du mauvais usage des mÃ©thodes d'Ã©valuation. Ã€ cet Ã©gard, il convient de souligner que la documentation sur les techniques et les objets de la recherche en sciences sociales traite de faÃ§on beaucoup plus dÃ©taillÃ©e que nous le faisons des questions mÃ©thodologiques abordÃ©es dans ces pages. Il faut aussi souligner que bien peu des mÃ©thodes dont nous parlons ici devraient Ãªtre utilisÃ©es sans que l'on consulte d'autres ouvrages et publications ou des praticiens d'expÃ©rience. C'est pour cette raison que la plupart des rubriques de notre manuel comprennent une liste de tels documents.

1.1 Objectifs et plan

Il est gÃ©nÃ©ralement difficile de choisir les mÃ©thodes appropriÃ©es d'Ã©valuation d'un programme. C'est d'autant plus complexe en raison des nombreux points qui peuvent devoir faire l'objet de l'Ã©valuation, du grand nombre de mÃ©thodes susceptibles d'Ãªtre utilisÃ©es pour recueillir et analyser les donnÃ©es, compte tenu des ressources et du temps disponibles, ainsi que de la nÃ©cessitÃ© de faire en sorte que tous les points pertinents soient analysÃ©s.

Ce manuel a Ã©tÃ© conÃ§u pour aider les praticiens et les autres parties intÃ©ressÃ©es Ã comprendre les facteurs mÃ©thodologiques intervenant dans la mesure et l'Ã©valuation des rÃ©sultats des programmes. L'accent est mis sur les avantages et les inconvÃ©nients des diverses mÃ©thodes Ã©tudiÃ©es. Il ne faut pas considÃ©rer le manuel comme un ensemble de lignes directrices contenant des instructions dÃ©taillÃ©es pour les Ã©valuateurs, mais plutÃ´t comme un exposÃ© des Ã©lÃ©ments mÃ©thodologiques dont il faut tenir compte pour rÃ©aliser une Ã©tude d'Ã©valuation crÃ©dible des rÃ©sultats d'un programme.

1.2 Processus d'Ã©valuation

Les Ã©valuations comprennent trois phases (reprÃ©sentÃ©es Ã la figure 1) :

l'Ã©tude prÃ©paratoire Ã l'Ã©valuation ou le cadre (la planification);
l'Ã©tude d'Ã©valuation;
la prise de dÃ©cisions fondÃ©es sur les constatations et les recommandations.

L'Ã©tude prÃ©paratoire Ã l'Ã©valuation dÃ©gage les principaux points et les principales questions sur lesquels l'Ã©valuation doit porter, en dÃ©terminant les mÃ©thodes les mieux adaptÃ©es Ã la collecte des donnÃ©es recherchÃ©es. L'information est ensuite prÃ©sentÃ©e au client sous forme d'options d'Ã©valuation, pour qu'il choisisse l'approche qui lui convient. L'Ã©tude d'Ã©valuation elle-mÃªme ne peut commencer qu'une fois son mandat Ã©tabli. Les donnÃ©es sont alors recueillies et analysÃ©es de faÃ§on qu'on puisse en dÃ©gager des constatations sur les points Ã Ã©valuer (voir les sous-Ã©tudes 1, 2 et 3 Ã la figure 1). On se base alors sur les constatations et sur les recommandations pour prendre des dÃ©cisions sur l'avenir du programme. La discussion des constatations permet d'aider Ã assurer qu'on rende compte des rÃ©sultats.

Ã©valuations comprennent trois phases

1.3 Questions Ã Ã©valuer

Lorsqu'on envisage les questions Ã Ã©valuer et les mÃ©thodes Ã utiliser Ã cet Ã©gard, il faut gÃ©nÃ©ralement faire une distinction entre deux types de rÃ©sultats :

les extrants opÃ©rationnels;
les rÃ©sultats qui comprennent Ã la fois des avantages pour les clients du programme (et parfois aussi les inconvÃ©nients imprÃ©vus pour les clients et pour d'autres personnes) ainsi que les retombÃ©es connexes, associÃ©es aux objectifs du programme (par exemple, la crÃ©ation d'emplois, l'amÃ©lioration de la santÃ©, de la sÃ©curitÃ© et du mieux-Ãªtre, ainsi que la sÃ©curitÃ© nationale).

Les Ã©valuations portent habituellement sur de nombreuses questions. Bien sÃ»r, chaque programme est unique, mais les questions Ã Ã©valuer peuvent souvent Ãªtre groupÃ©es sous les trois rubriques suivantes.

Maintien de la pertinence : Mesure dans laquelle le programme conserve sa pertinence pour les prioritÃ©s de l'Ã‰tat et les besoins des citoyens.
RÃ©sultats : Mesure dans laquelle le programme atteint ses objectifs dans les limites du budget, sans avoir d'importantes retombÃ©es indÃ©sirables.
RentabilitÃ© : Mesure dans laquelle le programme fait appel Ã la mÃ©thode la plus appropriÃ©e, la plus efficiente et la plus Ã©conomique pour atteindre ses objectifs.

Tableau 1 - Aspects fondamentaux de l'Ã©valuation d'un programme

A. MAINTIEN DE LA PERTINENCE

Raison d'Ãªtre du programme

Dans quelle mesure les objectifs et le mandat du programme sont-ils encore pertinents?
Les activitÃ©s et les extrants opÃ©rationnels sont-ils compatibles avec le mandat du programme et liÃ©s de faÃ§on plausible aux objectifs et aux autres rÃ©sultats escomptÃ©s?

B. RÃ‰SULTATS

Atteinte des objectifs

De quelle maniÃ¨re et dans quelle mesure le programme a-t-il permis d'atteindre des objectifs appropriÃ©s?

Effets et consÃ©quences

Quels avantages pour la clientÃ¨le et quelles retombÃ©es, volontaires ou involontaires, ont rÃ©sultÃ© de l'exÃ©cution du programme?
De quelle maniÃ¨re et dans quelle mesure peut-on dire que le programme complÃ¨te, reprend, chevauche ou contredit d'autres programmes?

C. RENTABILITÃ‰

Ã‰valuation des solutions de remplacement

Existe-t-il d'autres mÃ©thodes plus rentables pour atteindre les objectifs et obtenir les rÃ©sultats escomptÃ©s?
Existe-t-il des moyens plus rentables d'exÃ©cuter le programme actuel?

En ce qui concerne les mÃ©thodes d'Ã©valuation, on distingue deux groupes de questions Ã Ã©valuer. Le premier est celui des questions liÃ©es Ã la thÃ©orie et Ã la structure du programme, c'est-Ã -dire Ã sa raison d'Ãªtre et les autres solutions envisageables. Prenons par exemple un programme d'aide Ã l'industrie dans le cadre duquel le gouvernement accorde des subventions ponctuelles Ã tel ou tel projet. Dans ce cas, la question fondamentale qu'il faut se poser sur la raison d'Ãªtre du programme est la suivante : Â«Pourquoi le gouvernement inciterait-il des entreprises Ã lancer des projets qu'elles n'entreprendraient pas autrement?Â» Pour que le programme satisfasse Ã ce critÃ¨re, il doit exister une justification convaincante dans la politique publique. Les avantages sociaux du programme pour le Canada doivent l'emporter sur ses coÃ»ts sociaux afin qu'il puisse en valoir la peine, mÃªme si son rendement n'est pas suffisamment Ã©levÃ© pour qu'une entreprise soit disposÃ©e Ã investir ses propres fonds. Cela pourrait arriver parce que le gouvernement peut rÃ©partir son risque sur un grand nombre de projets qui, pris individuellement, reprÃ©senteraient un trop gros risque pour une entreprise privÃ©e.

Pour mieux comprendre cette question, prenons un deuxiÃ¨me exemple, celui d'un programme spÃ©cial d'enseignement du franÃ§ais ou de l'anglais aux immigrants. Sa raison d'Ãªtre pourrait Ãªtre justifiÃ©e par des lacunes des systÃ¨mes scolaires actuels. On se demanderait donc pourquoi le gouvernement fÃ©dÃ©ral devrait offrir un tel programme : parce que les Ã©coles sont surpeuplÃ©es, ou parce que seules les Ã©coles privÃ©es en offrent un, mais Ã un prix inabordable pour beaucoup d'immigrants? On pourrait aussi juger nÃ©cessaire d'offrir aux immigrants plus de cours d'anglais, tout en concluant qu'une aide directe aux Ã©coles qui en offrent dÃ©jÃ pourrait Ãªtre une solution de remplacement plus efficace.

L'autre groupe de questions Ã Ã©valuer (atteinte des objectifs, effets et consÃ©quences) est liÃ© aux rÃ©sultats du programme. Qu'est-il arrivÃ© grÃ¢ce Ã celui-ci? Revenons Ã notre premier exemple et supposons que le gouvernement a octroyÃ© une subvention pour un projet qui a crÃ©Ã© dix emplois. Peut-on dire, en ce qui concerne son objectif de crÃ©ation d'emplois sous-jacent, que le programme a Ã©tÃ© fructueux pour cette raison? Avant de faire une dÃ©claration crÃ©dible Ã ce sujet, nous devons rÃ©pondre aux questions suivantes :

Le projet aurait-il Ã©tÃ© entrepris sans l'aide de l'Ã‰tat? Si oui, aurait-il Ã©tÃ© rÃ©alisÃ© Ã plus petite Ã©chelle?
Les personnes embauchÃ©es Ã©taient-elles en chÃ´mage, ou ont-elles simplement quittÃ© un autre emploi? Si les emplois qu'elles occupaient sont restÃ©s vacants, ou s'ils ont Ã©tÃ© simplement repris par des personnes qui avaient dÃ©jÃ du travail, le projet n'a peut-Ãªtre eu aucun effet net de crÃ©ation d'emplois. Dans ce cas, l'objectif sous-jacent n'aurait pas Ã©tÃ© atteint.

L'Ã©valuation doit porter aussi bien sur les effets attendus qu'imprÃ©vus du programme. Dans l'exemple qui nous intÃ©resse, les effets attendus pourraient Ãªtre une augmentation du revenu personnel ou l'accroissement des exportations canadiennes. Les effets imprÃ©vus pourraient comprendre un soutien financier accru des entreprises Ã©trangÃ¨res, aux dÃ©pens des sociÃ©tÃ©s canadiennes, ou encore le maintien d'activitÃ©s incompatibles avec la restructuration indispensable du secteur industriel visÃ©. Si le projet avait pu Ãªtre rÃ©alisÃ© sans l'aide de l'Ã‰tat, il est impossible d'imputer au programme d'aide le blÃ¢me de ses effets nÃ©fastes, pas plus que de lui attribuer le mÃ©rite de ses effets favorables.

Par ailleurs, le programme de notre deuxiÃ¨me exemple pourrait avoir pour objectif l'amÃ©lioration de l'aptitude Ã la lecture des immigrants participants, mais il pourrait aussi avoir d'autres retombÃ©es, comme le revenu auquel des immigrants devraient renoncer pour assister aux cours, les emplois ou le revenu accru qu'ils pourraient obtenir grÃ¢ce Ã leur apprentissage de l'anglais (s'il ne s'agit pas lÃ d'objectifs du programme) et les rÃ©percussions du programme sur les Ã©coles qui offrent des cours analogues, par exemple, une baisse de leur clientÃ¨le ou la mise Ã pied d'enseignants.

Dans le tableau 1, les questions Ã Ã©valuer sont groupÃ©es sous deux rubriques : l'une thÃ©orique (raison d'Ãªtre et solutions de remplacement) et l'autre concrÃ¨te, axÃ©e sur les rÃ©sultats du programme (atteinte des objectifs, effets et consÃ©quences). La deuxiÃ¨me rubrique englobe deux grands types de problÃ¨mes d'analyse, Ã savoir a) les problÃ¨mes de mesure, sur la faÃ§on de mesurer les rÃ©sultats d'un programme et b) les problÃ¨mes d'attribution, sur la maniÃ¨re de dÃ©terminer si les rÃ©sultats constatÃ©s sont attribuables au programme (et dans quelle mesure ils le sont). Ces deux problÃ¨mes et la faÃ§on d'utiliser divers outils mÃ©thodologiques pour les surmonter constituent le thÃ¨me principal du manuel.

Il faudrait toutefois souligner que bon nombre de questions mÃ©thodologiques liÃ©es Ã la dÃ©termination des rÃ©sultats d'un programme sont tout aussi indissociables de l'analyse de sa raison d'Ãªtre et des autres solutions envisageables. Par exemple, si l'on remet en question le maintien d'un programme, on peut procÃ©der Ã une analyse approfondie pour en mesurer la pertinence (Poister, 1978, p. 6 et 7; Kamis, 1979). En pareil cas, il peut se poser des problÃ¨mes de mesure semblables Ã ceux qui se manifestent lorsqu'on Ã©tudie les rÃ©sultats d'un programme.

NÃ©anmoins, l'analyse de ces rÃ©sultats pose au moins un problÃ¨me qui ne se prÃ©sente pas lorsqu'on Ã©tudie les aspects thÃ©oriques d'un programme, celui de l'attribution. C'est typiquement le plus ardu des aspects de l'Ã©valuation, et pourtant le plus important. Les difficultÃ©s d'attribution sont l'un des principaux sujets traitÃ©s dans ces pages.

AprÃ¨s avoir soulignÃ© les difficultÃ©s associÃ©es Ã l'attribution des rÃ©sultats d'un programme, nous devrions prÃ©ciser que leur ampleur varie selon le genre de programme et les rÃ©sultats Ã©tudiÃ©s. Ainsi, la satisfaction de la clientÃ¨le pourrait Ãªtre le rÃ©sultat attendu d'un programme de service, lequel peut alors Ãªtre le seul facteur plausible auquel on puisse attribuer le niveau de satisfaction observÃ©. Un modÃ¨le d'Ã©valuation relativement rudimentaire fondÃ© sur quelques arguments seulement peut alors suffire Ã attribuer les rÃ©sultats. Il reste toutefois que l'attribution demeure un aspect Ã traiter soigneusement, puisqu'un lien apparemment manifeste avec le programme peut se rÃ©vÃ©ler invalide. Par exemple, le mÃ©contentement Ã l'Ã©gard des Centres d'emploi du Canada peut reflÃ©ter les conditions Ã©conomiques globales, plutÃ´t qu'Ãªtre attribuable au service effectivement assurÃ© grÃ¢ce au programme. Dans ce cas, la dÃ©termination du niveau de satisfaction de la clientÃ¨le attribuable au programme lui-mÃªme pourrait se rÃ©vÃ©ler trÃ¨s difficile.

Enfin, l'Ã©valuation ne devrait pas considÃ©rer le programme comme une Â«boÃ®te noireÂ» transformant automatiquement des intrants en extrants et en effets. Cette approche laisse une Ã©norme zone grise dans notre comprÃ©hension des raisons du succÃ¨s ou de l'Ã©chec des programmes. Pour interprÃ©ter une constatation quelconque sur les rÃ©sultats d'un programme, il faut Ãªtre en mesure de dÃ©terminer si la rÃ©ussite (ou l'Ã©chec) est attribuable au succÃ¨s (ou Ã l'Ã©chec) du cadre thÃ©orique du programme, de sa mise en oeuvre ou de ces deux Ã©lÃ©ments. Pour faire une interprÃ©tation comme celle-lÃ - Ã©lÃ©ment indispensable Ã la formulation de recommandations en vue de la prise de dÃ©cisions -, il faut connaÃ®tre la dynamique gÃ©nÃ©rale et les extrants opÃ©rationnels du programme. C'est cette connaissance qui permet Ã l'Ã©valuateur d'analyser les extrants dans le contexte de la raison d'Ãªtre du programme et de son cadre thÃ©orique afin de dÃ©terminer les raisons de sa rÃ©ussite ou de son Ã©chec.

RÃ©fÃ©rences : Introduction Ã l'Ã©valuation

Alberta, ministÃ¨re du TrÃ©sor, Measuring Performance : A Reference Guide, Edmonton, septembre 1996.

Alkin, M.C., A Guide for Evaluation Decision Makers, Thousand Oaks : Sage Publications, 1986.

Berk, Richard A. et Peter H. Rossi, Thinking About Program Evaluation, Thousand Oaks : Sage Publications, 1990.

Canada, SecrÃ©tariat du Conseil du TrÃ©sor, Aborder les annÃ©es 90 : Perspectives gouvernementales pour l'Ã©valuation de programmes, Ottawa, 1991.

Canada, SecrÃ©tariat du Conseil du TrÃ©sor, Â«Examen, vÃ©rification interne et Ã©valuationÂ», Manuel du Conseil du TrÃ©sor, Ottawa, 1994.

Canada, SecrÃ©tariat du Conseil du TrÃ©sor, Guide de la gestion de la qualitÃ©, Ottawa, octobre 1992.

Canada, SecrÃ©tariat du Conseil du TrÃ©sor, Guides des services de qualitÃ© : Services de qualitÃ© - Tour d'horizon, Ottawa, octobre 1995;
Guide I - Consultation des clients, Ottawa, octobre 1995;
Guide II - Mesure de la satisfaction des clients, Ottawa, octobre 1995;
Guide III - Collaboration avec les syndicats, Ottawa, octobre 1995;
Guide IV - Un milieu propice Ã l'apprentissage, Ottawa, octobre 1995;
Guide V - Reconnaissance du mÃ©rite, Ottawa, octobre 1995;
Guide VI - Sondages auprÃ¨s des employÃ©s, Ottawa, octobre 1995;
Guide VII - Normes de service, Ottawa, octobre 1995;
Guide VIII - Analyses comparatives et meilleures pratiques, Ottawa, octobre 1995;
Guide IX - Communications, Ottawa, octobre 1995;
Guide X - Analyse comparative et partage des pratiques exemplaires - Mise Ã jour du Guide VIII, Ottawa, mars 1996;
Guide XI - Gestion efficace des plaintes, Ottawa, juin 1996;
Guide XII - Qui est le client? - Document de travail, Ottawa, juillet 1996;
Guide XIII - Guide des gestionnaires pour la prestation de services de qualitÃ©, Ottawa, septembre 1996.

Canada, SecrÃ©tariat du Conseil du TrÃ©sor, L'Ã©valuation des programmes fÃ©dÃ©raux : RÃ©pertoire sur l'utilisation des Ã©valuations, Ottawa, 1991.

Canada, SecrÃ©tariat du Conseil du TrÃ©sor, Les normes de service : Un guide pour l'initiative, Ottawa, fÃ©vrier 1995.

Canada, SecrÃ©tariat du Conseil du TrÃ©sor, Normes d'Ã©valuation de programmes dans les ministÃ¨res et organismes fÃ©dÃ©raux, Ottawa, juillet 1989.

Canada, SecrÃ©tariat du Conseil du TrÃ©sor, Pour offrir aux Canadiens et aux Canadiennes des services de qualitÃ© : Ã‰tablissement de normes de service au gouvernement fÃ©dÃ©ral, Ottawa, dÃ©cembre 1994.

Canada, SecrÃ©tariat du Conseil du TrÃ©sor, Pour une fonction d'examen plus efficace - Rapport annuel au Parlement par le PrÃ©sident du Conseil du TrÃ©sor, Ottawa, octobre 1995.

Canada, SecrÃ©tariat du Conseil du TrÃ©sor, Repenser le rÃ´le de l'Ã‰tat : AmÃ©liorer la mesure des rÃ©sultats et de la responsabilisation - Rapport annuel au Parlement par le PrÃ©sident du Conseil du TrÃ©sor, Ottawa, octobre 1996.

Caron, Daniel, J., Â«Knowledge Required to Perform the Duties of an EvaluatorÂ», Canadian Journal of Program Evaluation. Vol. 8, N^o 1, avril-mai 1993, p. 59 Ã 78.

Chelimsky, Eleanor et William R. Shadish, Ã©d., Evaluation for the 21^st Century : A Handbook, Thousand Oaks : Sage Publications, 1997.

Chelimsky, Eleanor, Ã©d., Program Evaluation : Patterns and Directions, Washington : American Society for Public Administration, 1985.

Chen, Huey-Tsyh, Theory-Driven Evaluations, Thousand Oaks : Sage Publications, 1990.

Fitzgibbon, C.T. et L.L. Morris, Evaluator's Kit (2^e Ã©dition), Thousand Oaks : Sage Publications, 1988.

Hudson, Joe, et al., Ã©d., Action Oriented Evaluation in Organizations : Canadian Practices, Toronto : Wall and Emerson, 1992.

Krause, Daniel Robert, Effective Program Evaluation : An Introduction, Chicago : Nelson-Hall, 1996.

Leeuw, Frans L., Â«Performance Auditing and Policy Evaluation : Discussing Similarities and DissimilaritiesÂ», Canadian Journal of Program Evaluation, Vol. 7, N^o 1, avril-mai 1992, p. 53 Ã 68.

Love, Arnold J., Evaluation Methods Sourcebook II, Ottawa : SociÃ©tÃ© canadienne d'Ã©valuation, 1995.

Martin, Lawrence L. et Peter M. Kettner, Measuring the Performance of Human Service Programs, Thousand Oaks : Sage Publications, 1996.

Mayne, John, et al., Ã©d., Advancing Public Policy Evaluation : Learning from International Experiences, Amsterdam : North-Holland, 1992.

Mayne, John, Â«In Defence of Program EvaluationÂ», Canadian Journal of Program Evaluation, Vol. 1, N^o 2, 1986, p. 97 Ã 102.

Mayne, John et Eduardo Zapico-GoÃ±i, Monitoring Performance in the Public Sector : Future Directions from International Experience, New Brunswick (NJ) : Transaction Publishers, 1996.

Paquet, Gilles et Robert Shepherd, The Program Review Process : A Deconstruction, Ottawa : FacultÃ© d'administration de l'UniversitÃ© d'Ottawa, 1996.

Patton, M.Q., Creative Evaluation, (2^e Ã©dition), Thousand Oaks : Sage Publications, 1986.

Patton, M.Q., Practical Evaluation, Thousand Oaks : Sage Publications, 1982.

Patton, M.Q., Utilization Focused Evaluation, (2^e Ã©dition), Thousand Oaks : Sage Publications, 1986.

Perret, Bernard, Â«Le contexte franÃ§ais de l'Ã©valuation : Approche comparativeÂ», Canadian Journal of Program Evaluation, Vol. 9, N^o 2, octobre-novembre 1994, p. 93 Ã 114.

Posavac, Emil J. et Raymond G. Carey, Program Evaluation : Methods and Case Studies, (5^e Ã©dition), Upper Saddle River (NJ) : Prentice-Hall, 1997.

Rossi, P.H. et H.E. Freeman, Evaluation : A Systematic Approach (2^e Ã©dition), Thousand Oaks : Sage Publications, 1989.

Rush, Brian et Alan Ogborne, Â«Program Logic Models : Expanding their Role and Structure for Program Planning and EvaluationÂ», Canadian Journal of Program Evaluation. Vol. 6, N^o 2, octobre-novembre 1991, p. 95 Ã 106.

Rutman, L. et John Mayne, Â«Institutionalization of Program Evaluation in Canada : The Federal LevelÂ», in M.Q. Patton, Ã©d., Culture and Evaluation, Vol. 25 of New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1985.

Ryan, Allan G. et Caroline Krentz, Â«All Pulling Together : Working Toward a Successful EvaluationÂ», Canadian Journal of Program Evaluation, Vol. 9, N^o 2, octobre-novembre 1994, p. 131 Ã 150.

Shadish, William R., et al.,Foundations of Program Evaluation : Theories of Practice, Thousand Oaks : Sage Publications, 1991.

Shea, Michael P. et Shelagh M.J. Towson, Â«Extent of Evaluation Activity and Evaluation Utilization of CES MembersÂ», Canadian Journal of Program Evaluation, Vol. 8, N^o 1, avril-mai 1993, p. 79 Ã 88.

SociÃ©tÃ© canadienne d'Ã©valuation, ComitÃ© de normalisation, Â«Standards for Program Evaluation in Canada : A Discussion PaperÂ», Canadian Journal of Program Evaluation, Vol. 7, N^o 1, avril-mai 1992, p. 157 Ã 170.

Tellier, Luc-Normand, MÃ©thodes d'Ã©valuation des projets publics, Sainte-Foy : Presses de l'UniversitÃ© du QuÃ©bec, 1994, 1995.

Thurston, W.E., Â«Decision-Making Theory and the EvaluatorÂ», Canadian Journal of Program Evaluation, Vol. 5, N^o 2, octobre-novembre 1990, p. 29 Ã 46.

Wye, Chirstopher G. et Richard C. Sonnichsen, Ã©d., Evaluation in the Federal Government : Changes, Trends and Opportunities, San Francisco : Jossey-Bass, 1992.

Zanakis, S.H., et al., Â«A Review of Program Evaluation and Fund Allocation Methods within the Service and GovernmentÂ», Socio-economic Planning Sciences, Vol. 29, N^o 1, mars 1995, p. 59 Ã 79.

ZÃºÃ±iga, Ricardo, L'Ã©valuation dans l'action : choix de buts et choix de procÃ©dures, MontrÃ©al : Librairie de l'UniversitÃ© de MontrÃ©al, 1992.

Chapitre 2 - STRATÃ‰GIES D'Ã‰VALUATION

Le prÃ©sent chapitre commence par une Ã©tude des types de conclusions qu'il est possible de tirer d'une Ã©valuation des rÃ©sultats d'un programme. Il traite des divers obstacles qui sapent typiquement la validitÃ© des conclusions de l'Ã©valuation puis passe Ã un cadre conceptuel pour l'Ã©laboration des stratÃ©gies d'Ã©valuation, avant de se terminer par une analyse de la nÃ©cessitÃ© d'avoir recours Ã des stratÃ©gies de mesure multiples pour produire des conclusions crÃ©dibles.

2.1 InfÃ©rence causale en Ã©valuation

L'Ã©valuation est censÃ©e dÃ©terminer les rÃ©sultats obtenus ou Â«causÃ©sÂ» par un programme. Dans cette section, nous essayons de prÃ©ciser la signification des dÃ©clarations sur les causes des rÃ©sultats d'un programme; la section suivante est une analyse des problÃ¨mes d'Ã©tablissement d'infÃ©rences causales.

CommenÃ§ons par Ã©tudier les genres de rÃ©sultats qu'un programme peut Â«causerÂ». Dans le plus simple des cas, le programme produit des changements positifs. Cette interprÃ©tation suppose toutefois qu'aucun changement positif n'aurait, Ã©tÃ© constatÃ© en l'absence du programme, ce qui n'est pas nÃ©cessairement le cas, car la situation aurait pu s'amÃ©liorer ou se dÃ©tÃ©riorer quand mÃªme. De mÃªme, un programme peut maintenir le statu quo en empÃªchant la situation de se dÃ©tÃ©riorer, et cela peut Ãªtre son seul effet positif, de sorte qu'il est essentiel de dÃ©terminer son effet incrÃ©mentiel.

Il s'ensuit que, pour bien comprendre les rÃ©sultats causÃ©s par un programme, nous devons savoir ce qui serait arrivÃ© sans l'exÃ©cution d'un programme. Cette notion est la clÃ© des infÃ©rences causales. Autrement dit, si l'on conclut qu'un programme a produit ou causÃ© un certain rÃ©sultat, cela signifie que, s'il n'avait pas existÃ©, le rÃ©sultat ne se serait pas concrÃ©tisÃ©. Pourtant, cette interprÃ©tation de la causalitÃ© s'applique plus logiquement Ã certains programmes qu'Ã d'autres. Elle vaut particuliÃ¨rement pour les programmes pouvant Ãªtre considÃ©rÃ©s comme des interventions gouvernementales pour modifier le comportement de particuliers ou d'entreprises par l'octroi de subventions, la prestation de services ou l'application de rÃ¨glements. Dans ces cas-lÃ , il est logique et habituellement possible d'arriver Ã une estimation de ce qui se serait produit si le programme n'avait pas existÃ©.

Il existe toutefois d'autres programmes (dans les secteurs des services mÃ©dicaux, du contrÃ´le de la circulation aÃ©rienne et de la dÃ©fense, par exemple) qu'il faut considÃ©rer logiquement comme partie intÃ©grante du cadre Ã l'intÃ©rieur duquel notre sociÃ©tÃ© et notre Ã©conomie fonctionnent. Ils tendent Ã exister dans des contextes oÃ¹ l'Ã‰tat assume le rÃ´le d'intervenant principal. En outre, ils sont habituellement universels, ce qui signifie, dans le langage des Ã©conomistes, que leurs rÃ©sultats sont des Â«biens publicsÂ». Leur Ã©valuation pose des difficultÃ©s parce qu'ils ne se prÃªtent pas Ã un modÃ¨le d'Ã©valuation dans lequel on les ramÃ¨ne Ã des interventions prÃ©cises. En outre, ce sont des programmes permanents, dont l'envergure est habituellement trop grande pour qu'on puisse leur appliquer des mÃ©thodes d'Ã©valuation classiques. Certains programmes peuvent faire exception Ã la rÃ¨gle, mais il reste qu'il faudrait soulever des questions sur la portÃ©e de l'Ã©valuation dans le cadre de l'Ã©tude prÃ©paratoire, Ã l'intention du client.

Un des derniers aspects de la causalitÃ© prÃ©sente une importance critique dans les cas oÃ¹ les rÃ©sultats de l'Ã©valuation doivent influer sur la prise de dÃ©cisions. On ne peut gÃ©nÃ©raliser Ã partir des rÃ©sultats de programmes que l'Ã©valuation a dÃ©terminÃ©s Ã moins que le programme lui-mÃªme ne puisse Ãªtre reproduit. Si le programme ne peut exister qu'Ã un moment, Ã un endroit ou dans des conditions donnÃ©es, il devient trÃ¨s difficile d'Ã©tablir des infÃ©rences crÃ©dibles sur ce qui se produirait dans l'Ã©ventualitÃ© oÃ¹ un programme analogue serait mis en oeuvre ailleurs dans d'autres circonstances.

2.2 InfÃ©rences causales

Conceptuellement, la faÃ§on d'Ã©tablir une infÃ©rence causale semble Ã©vidente : il suffit de comparer deux situations absolument identiques, exception faite de leur exposition au programme. Toute diffÃ©rence entre deux situations peut Ãªtre attribuÃ©e au programme. Ce principe fondamental est illustrÃ© Ã la figure 2. On choisit deux groupes identiques de sujets (des personnes, des entreprises et des Ã©coles), un seul des deux (le groupe expÃ©rimental ou traitÃ©) Ã©tant exposÃ© au programme, l'autre (le groupe tÃ©moin) Ã©tant soumis Ã toutes les mÃªmes influences extÃ©rieures que le groupe expÃ©rimental, hormis le programme. Les rÃ©sultats postÃ©rieurs Ã l'exÃ©cution du programme sont mesurÃ©s de la mÃªme faÃ§on pour les deux groupes. Ã€ ce moment-lÃ , on peut attribuer au programme n'importe quelle diffÃ©rence entre les rÃ©sultats des deux groupes, puisque ceux-ci Ã©taient au dÃ©part identiques et qu'ils ont Ã©tÃ© exposÃ©s aux mÃªmes influences extÃ©rieures.

Malheureusement, dans la pratique, il n'existe pas de modÃ¨le idÃ©al susceptible d'Ãªtre appliquÃ© parfaitement, puisqu'on ne peut jamais pleinement obtenir l'Ã©quivalence absolue du groupe expÃ©rimental et du groupe tÃ©moin. Des groupes diffÃ©rents sont constituÃ©s de sujets diffÃ©rents et diffÃ¨rent donc Ã certains Ã©gards, mÃªme si les mesures moyennes d'une variable donnÃ©e sont identiques. En outre, Ã supposer que le mÃªme groupe serve Ã la fois de groupe expÃ©rimental et de groupe tÃ©moin, les observations antÃ©rieures et postÃ©rieures au programme sont faites Ã des moments diffÃ©rents, de sorte que d'autres facteurs peuvent influer sur les rÃ©sultats observÃ©s aprÃ¨s l'exÃ©cution du programme.

L'impossibilitÃ© d'atteindre Ã l'Ã©quivalence absolue sape la validitÃ© de l'infÃ©rence causale, de sorte qu'il est plus difficile pour les dÃ©cideurs de dÃ©terminer le rendement antÃ©rieur du programme et de s'en inspirer dans leurs dÃ©cisions Ã l'Ã©gard des programmes Ã venir. C'est d'autant plus complexe que les programmes gouvernementaux ne sont qu'un facteur parmi d'autres qui influent sur les rÃ©sultats attendus. La rigueur de l'Ã©valuation - et, par consÃ©quent, son utilitÃ© pour le processus, dÃ©cisionnel - est fonction de sa conformitÃ© au modÃ¨le idÃ©al prÃ©sentÃ© auparavant.

Il s'ensuit que la capacitÃ© d'une infÃ©rence selon laquelle le programme a causÃ© un certain rÃ©sultat dÃ©pend, dans la pratique, de la mesure dans laquelle l'Ã©valuation permet de rejeter comme d'autres explications plausibles, souvent appelÃ©es Â«obstacles Ã la validitÃ© de l'infÃ©rence causaleÂ». D'habitude, l'Ã©valuation ne permet pas d'Ã©tablir de faÃ§on concluante des rapports de cause Ã effet, mais elle permet de rÃ©duire l'incertitude Ã cet Ã©gard tout en produisant des Ã©lÃ©ments assez concluants pour qu'on puisse rÃ©futer les autres hypothÃ¨ses. Par exemple, l'Ã©valuation pourrait produire des preuves que le programme est l'explication la plus probable du rÃ©sultat observÃ©, alors qu'Ã peu prÃ¨s rien d'autre ne prouve que les autres explications sont valables. Elle pourrait aussi permettre Ã l'Ã©valuateur de distinguer et de quantifier les effets des autres facteurs en jeu ou des autres explications possibles. Bref, faire des infÃ©rences causales sur les rÃ©sultats signifie qu'on rejette ou infirme les autres explications plausibles.

Revenons Ã notre exemple d'un programme d'aide Ã l'industrie en vue de crÃ©er des emplois. Si nous constatons la crÃ©ation d'un certain nombre d'emplois par les entreprises qui touchent une subvention, nous serions portÃ©s Ã conclure que c'est un effet attribuable au programme et que si celui-ci n'avait pas existÃ©, les nouveaux emplois n'auraient pas Ã©tÃ© crÃ©Ã©s. NÃ©anmoins, avant de pouvoir tirer cette conclusion, il nous faut examiner un certain nombre d'autres explications plausibles. Il se pourrait, par exemple, que les nouveaux emplois aient Ã©tÃ© crÃ©Ã©s par suite d'une reprise Ã©conomique dans le secteur d'activitÃ© en question. De mÃªme, on pourrait aussi allÃ©guer que les entreprises qui ont crÃ©Ã© les emplois avaient l'intention de le faire de toute faÃ§on, et que les subventions Ã©taient Ã toutes fins utiles des paiements de transfert inespÃ©rÃ©s. Afin de prÃ©ciser l'effet incrÃ©mentiel d'un programme sur la crÃ©ation d'emplois, il faudrait avoir rejetÃ© toutes ces autres explications, voire d'autres encore, ou bien tenir compte de leur influence.

L'Ã©limination des autres explications (celles qui font obstacle Ã la validitÃ© de l'infÃ©rence causale posÃ©e comme hypothÃ¨se) ou l'estimation de leur importance relative est le principal objet d'une Ã©valuation ayant pour but d'Ã©tablir les rÃ©sultats d'un programme. C'est une dÃ©marche fondÃ©e sur une combinaison d'hypothÃ¨ses, d'Ã©lÃ©ments logiques et d'analyses empiriques; dans ce manuel, nous appelons chacune de ces approches une stratÃ©gie d'Ã©valuation.

Revenons encore Ã l'exemple du programme d'aide Ã l'industrie : il serait possible de rÃ©futer la conclusion que la crÃ©ation d'emplois rÃ©sulte d'une reprise Ã©conomique gÃ©nÃ©rale en prouvant qu'il n'y a pas eu de reprise dans la rÃ©gion oÃ¹ l'entreprise est Ã©tablie (ou dans son secteur de l'Ã©conomie). Pour ce faire, on Ã©tudierait des entreprises du mÃªme genre qui n'ont pas reÃ§u de subvention. Si l'on devait constater que des emplois ont Ã©tÃ© crÃ©Ã©s uniquement dans celles qui ont touchÃ© une subvention, l'explication d'une reprise Ã©conomique ne serait plus plausible. D'un autre cÃ´tÃ©, on pourrait remarquer qu'il s'est crÃ©Ã© plus de nouveaux emplois dans les entreprises qui ont obtenu une subvention que dans les autres, auquel cas il serait toujours possible de rejeter l'explication d'une reprise en attribuant au programme la diffÃ©rence entre le nombre d'emplois crÃ©Ã©s dans les deux groupes d'entreprises (Ã condition, bien entendu, que les deux groupes se ressemblent suffisamment). Il convient de souligner que cette constatation modifie la conclusion initiale - Ã savoir que tous les nouveaux emplois sont attribuables au programme - compte tenu de l'effet d'une reprise Ã©conomique. De plus, malgrÃ© ses limitations, ce modÃ¨le de comparaison permet d'Ã©liminer bon nombre d'explications, y compris celle que les entreprises auraient crÃ©Ã© les emplois en question de toute faÃ§on. Dans cet exemple, si ces deux autres explications sont les seules qu'on juge vraisemblables, la conclusion que le nombre accru de nouveaux emplois est attribuable au programme deviendrait assez plausible, d'aprÃ¨s les Ã©lÃ©ments de preuve prÃ©sentÃ©s. Toutefois, comme nous le verrons au chapitre suivant, il y a de plus fortes chances que les deux groupes d'entreprises n'aient pas Ã©tÃ© tout Ã fait semblables, de sorte que d'autres obstacles sapent la validitÃ© des conclusions. En pareil cas, il faut Ã©laborer d'autres stratÃ©gies d'Ã©valuation pour Ã©liminer ces obstacles.

Jusqu'ici, nous avons tentÃ© de dÃ©terminer dans quelle mesure un programme produit un rÃ©sultat observÃ©. Il reste un autre facteur qui vient compliquer l'Ã©quation : mÃªme si le programme est indispensable pour que le rÃ©sultat se produise, il n'est pas nÃ©cessairement suffisant. Autrement dit, le rÃ©sultat peut aussi Ãªtre attribuable Ã d'autres facteurs, en l'absence desquels il n'est pas atteint. Sans le programme, il n'y a pas de rÃ©sultat, mais cela ne signifie pas nÃ©cessairement que son existence assurera le rÃ©sultat dÃ©sirÃ©. Tout ce qu'on peut dÃ©duire, c'est que le rÃ©sultat se produira si le programme est mis en oeuvre et que les autres facteurs favorables sont rÃ©unis.

L'intÃ©rÃªt de ces autres facteurs s'explique du fait que, lorsqu'on a abouti Ã une conclusion au sujet de l'effet d'un programme existant, on veut normalement la gÃ©nÃ©raliser en l'appliquant Ã d'autres lieux, Ã d'autres moments ou Ã d'autres situations. Cette possibilitÃ© de gÃ©nÃ©raliser, appelÃ©e la validitÃ© externe de l'Ã©valuation, se limite Ã affirmer que, dans des conditions identiques, la mise en oeuvre du programme ailleurs entraÃ®nerait le mÃªme rÃ©sultat. Bien sÃ»r, ni les conditions, ni le programme ne peuvent Ãªtre parfaitement reproduits, de sorte que les infÃ©rences de ce genre sont souvent chancelantes au point que, pour les rendre crÃ©dibles, il faut poser de nouvelles hypothÃ¨ses, trouver d'autres arguments logiques ou rÃ©aliser d'autres analyses empiriques. Il peut alors Ãªtre utile d'avoir recours Ã des stratÃ©gies d'Ã©valuation multiples.

Revenons une fois de plus Ã l'exemple du programme de subventions Ã l'industrie. Qu'arrivera-t-il si nous devons Ã©tablir que le programme existant a effectivement permis de crÃ©er un certain nombre d'emplois, grÃ¢ce Ã certaines compÃ©tences en marketing et Ã d'autres facteurs? Ce rÃ©sultat peut Ãªtre utile du point de vue de la responsabilisation, mais les questions posÃ©es au sujet de l'Ã©laboration de nouveaux programmes devraient alors normalement porter sur l'opportunitÃ© de poursuivre le programme, de lui donner de l'expansion ou d'en rÃ©duire l'ampleur. La validitÃ© externe de la conclusion selon laquelle la poursuite ou l'expansion du programme entraÃ®nerait la crÃ©ation de nouveaux emplois pourrait Ãªtre sujette Ã caution si l'Ã©chantillon des entreprises Ã©tudiÃ©es n'Ã©tait pas reprÃ©sentatif de toutes celles auxquelles le programme s'appliquerait, ou si les conditions qui ont contribuÃ© au succÃ¨s du programme dans le passÃ© Ã©taient peu susceptibles de se reproduire. Il se pourrait que les autres entreprises n'aient pas les aptitudes en marketing nÃ©cessaires, de sorte que le programme Ã©largi n'aurait pas un effet comparable sur elles. Bref, c'est compte tenu de la question Ã l'Ã©tude et du genre de dÃ©cisions Ã prendre que l'Ã©valuateur pourra cerner d'autres facteurs explicatifs et explorer leurs liens avec le programme.

Il existe diverses stratÃ©gies pour qui veut minimiser l'effet des obstacles Ã la validitÃ© externe, tout comme Ã la validitÃ© interne, d'ailleurs. Malheureusement, elles ne sont pas toujours compatibles, de sorte qu'il faut parfois opter pour une solution de compromis. Quand l'Ã©valuateur doit formuler des conclusions crÃ©dibles sur lesquelles la direction peut se fonder utilement, il est clair que, malgrÃ© l'importance indÃ©niable de la validitÃ© interne, la validitÃ© externe de l'Ã©valuation ne saurait Ãªtre nÃ©gligÃ©e. L'Ã©valuateur devrait toujours Ãªtre conscient du genre de dÃ©cisions Ã prendre et, partant, du genre de conclusions qu'il doit prÃ©senter. Il doit donc bien comprendre les principaux obstacles Ã la validitÃ© externe, si des points ne sont pas traitÃ©s, ainsi qu'Ã la crÃ©dibilitÃ© et Ã l'utilitÃ© de ces conclusions pour les dÃ©cideurs.

principe fondamental

RÃ©sumÃ©

Les difficultÃ©s d'Ã©tablissement d'infÃ©rences causales quant aux programmes et Ã leurs rÃ©sultats sont l'un des principaux thÃ¨mes du manuel. L'autre thÃ¨me principal est celui de la mesure des rÃ©sultats. Avant de pouvoir tirer des conclusions sur les effets d'un programme, l'Ã©valuateur doit Ãªtre conscient des autres facteurs ou des autres circonstances susceptibles d'expliquer les rÃ©sultats observÃ©s, puis prÃ©senter des arguments pour rÃ©futer ces explications. S'il fait des gÃ©nÃ©ralisations Ã partir de ses conclusions, il devrait surveiller de prÃ¨s les obstacles Ã la validitÃ© externe de son Ã©valuation. Les mÃ©thodes utilisÃ©es pour dÃ©terminer les rÃ©sultats d'un programme sont bonnes dans la mesure oÃ¹ elles permettent de produire les meilleurs arguments possibles, compte tenu des ressources et du temps disponibles.

RÃ©fÃ©rences : InfÃ©rence causale

Campbell, D.T. et J.C. Stanley, Experimental and Quasi-experimental Designs for Research, Chicago : Rand-McNally, 1963.

Cook, T.D. et D.T. Campbell,Quasi-experimentation : Design and Analysis Issues for Field Settings, Chicago : Rand-McNally, 1979.

Cook, T.D. et C.S. Reichardt, Ã©d.,Qualitative and Quantitative Methods in Evaluation Research, Thousand Oaks : Sage Publications, 1979.

Heise, D.R., Causal Analysis, New York : Wiley, 1985.

Kenny, D.A., Correlation and Causality, Toronto : John Wiley and Sons, 1979.

Suchman, E.A., Evaluative Research : Principles and Practice in Public Service and Social Action Programs, New York : Russell Sage, 1967.

Williams, D.D., Ã©d., Naturalistic Evaluation, Vol. 30 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1986.

2.3 StratÃ©gies d'Ã©valuation

Il faut tenir compte de deux types de facteurs afin d'Ã©laborer des mÃ©thodes de dÃ©termination des rÃ©sultats d'un programme : les facteurs qui sont liÃ©s Ã la recherche (autrement dit Ã la qualitÃ© des Ã©lÃ©ments de preuve rÃ©unis) et les facteurs qui dÃ©coulent du contexte dÃ©cisionnel dans lequel l'Ã©valuation a lieu. Les deux facteurs sont importants, mais, quoi qu'il en soit, il faut ordinairement concilier la rigueur scientifique de l'Ã©valuation et sa pertinence pour les dÃ©cideurs.

Il existe plusieurs faÃ§ons de recueillir les donnÃ©es sur lesquelles on se fonde pour dÃ©terminer les rÃ©sultats d'un programme. Dans ce chapitre, nous Ã©tudions les principales stratÃ©gies d'Ã©valuation, qui comprendront toutes un modÃ¨le d'Ã©valuation (chapitre 3), une mÃ©thode de collecte des donnÃ©es (chapitre 4) et une mÃ©thode analytique (chapitre 5).

Dans notre exemple du programme d'aide Ã l'industrie, on pourrait dÃ©cider de dÃ©terminer si les emplois crÃ©Ã©s sont attribuables au programme en menant une enquÃªte auprÃ¨s des entreprises participantes pour leur demander ce qui serait arrivÃ© s'il n'y avait pas eu de subvention gouvernementale. Une autre stratÃ©gie pourrait consister Ã faire un sondage pour dÃ©terminer le nombre d'emplois crÃ©Ã©s dans des entreprises analogues, les unes ayant reÃ§u une subvention et les autres pas, puis Ã comparer les rÃ©sultats afin de mesurer les importantes diffÃ©rences statistiques. Une troisiÃ¨me stratÃ©gie pourrait faire appel Ã des Ã©tudes de cas approfondies sur des entreprises ayant bÃ©nÃ©ficiÃ© d'une subvention pour dÃ©terminer si elles auraient vraisemblablement crÃ©Ã© les emplois en question de toute faÃ§on. Chacune de ces stratÃ©gies porte sur la mÃªme question et fournit des preuves de nature et de qualitÃ© diffÃ©rentes; aucune ne fournit normalement de preuve incontestable des rÃ©sultats du programme. C'est pourquoi il est donc souvent appropriÃ© d'avoir recours Ã plusieurs stratÃ©gies. Par exemple, on peut vouloir aussi dÃ©terminer les effets du programme Ã d'autres Ã©gards, celui de la concurrence dÃ©loyale que les subventions auraient pu crÃ©er. Cela pourrait se faire en partie au moyen d'une des stratÃ©gies susmentionnÃ©es, et en partie aussi grÃ¢ce Ã une stratÃ©gie diffÃ©rente. La stratÃ©gie globale pour laquelle l'Ã©valuateur opte est le plus souvent une combinaison de stratÃ©gies diffÃ©rentes conÃ§ue pour trancher une sÃ©rie de questions prÃ©cises. Ã€ la section 2.4.3, nous verrons comment on Ã©labore de telles stratÃ©gies ou des dÃ©marches d'Ã©valuation multiples.

La figure 3 illustre les Ã©tapes gÃ©nÃ©rales de l'Ã©laboration d'une stratÃ©gie d'Ã©valuation. Il est utile d'envisager cette dÃ©marche comme une sÃ©rie d'Ã©tapes que nous dÃ©crivons dans l'ordre, bien qu'elle soit beaucoup plus itÃ©rative dans la pratique, puisque chaque Ã©tape est Ã©troitement liÃ©e aux autres.

Pour commencer, l'Ã©valuateur doit choisir un modÃ¨le. Le modÃ¨le d'Ã©valuation s'entend du modÃ¨le logique utilisÃ© pour parvenir Ã des conclusions sur les rÃ©sultats. Afin de le choisir, l'Ã©valuateur doit dÃ©terminer simultanÃ©ment le genre d'information qu'il veut obtenir et le type d'analyse auquel il va soumettre cette information. Par exemple, si l'Ã©valuation a pour objet de dÃ©terminer dans quelle mesure un programme a atteint un objectif donnÃ©, l'Ã©valuateur doit choisir un indicateur appropriÃ© et opter pour une mÃ©thode d'analyse qui lui permettra d'isoler l'effet du programme. Les modÃ¨les d'Ã©valuation servent de base logique pour mesurer des rÃ©sultats et les attribuer aux programmes.

Une fois le modÃ¨le d'Ã©valuation choisi, l'Ã©valuateur passe au choix des mÃ©thodes et des techniques nÃ©cessaires pour l'appliquer. Le genre d'information nÃ©cessaire - indicateurs qualitatifs ou indicateurs quantitatifs de la rÃ©alisation des objectifs- est dÃ©terminÃ© Ã l'Ã©tape de la conception du modÃ¨le. L'Ã©tape suivante consiste Ã dÃ©finir les donnÃ©es nÃ©cessaires pour produire cette information. Les donnÃ©es sont des faits, c'est-Ã -dire des choses qu'on peut observer et consigner et leur nature et leur qualitÃ© peuvent varier nettement. Ã€ cet Ã©gard, la tÃ¢che de l'Ã©valuateur se complique parce que les donnÃ©es sont plus ou moins accessibles et que leur coÃ»t et leur pertinence varient. C'est lÃ qu'intervient la question de la mesure, puisqu'il faut dÃ©cider quelles donnÃ©es sont les plus pertinentes et comment les recueillir. Comme nous le verrons ultÃ©rieurement, la mesure est une question mÃ©thodologique d'importance cruciale pour l'Ã©valuation.

AprÃ¨s avoir bien dÃ©fini les donnÃ©es nÃ©cessaires, l'Ã©valuateur doit dÃ©terminer leurs sources potentielles. S'il lui est impossible d'obtenir des donnÃ©es fiables d'une source secondaire, il doit avoir recours Ã une mÃ©thode de collecte de donnÃ©es primaires (Cook et Campbell, 1970, chapitre 1; Cronbach, 1982, chapitre 4). Cette approche est gÃ©nÃ©ralement plus coÃ»teuse que celle de l'utilisation de donnÃ©es secondaires, et on devrait s'en Ã©carter dans la mesure du possible. Lorsqu'on dÃ©cide de recueillir des donnÃ©es primaires, il faut normalement choisir une mÃ©thode de collecte (observations sur le terrain et sondages postaux, par exemple), mettre au point des instruments de mesure (questionnaires, guides d'entrevue, fiches d'enregistrement des observations, etc.) et formuler un plan d'Ã©chantillonnage.

Enfin, compte tenu du type d'analyse nÃ©cessaire et du genre de donnÃ©es disponibles, l'Ã©valuateur doit choisir des mÃ©thodes d'analyse des donnÃ©es (analyse coÃ»ts-avantages, rÃ©gression multiple, analyse de la variance, etc.). Ces analyses ont pour objet de traduire les donnÃ©es recueillies pour produire l'information nÃ©cessaire pour l'Ã©valuation.

les Ã©tapes gÃ©nÃ©rales de l'Ã©laboration d'une stratÃ©gie d'Ã©valuation

2.4 Ã‰valuations crÃ©dibles

Avant d'analyser les Ã©lÃ©ments prÃ©cis d'une stratÃ©gie d'Ã©valuation de faÃ§on plus dÃ©taillÃ©e, nous devrions examiner les Ã©lÃ©ments clÃ©s dont on doit tenir compte pour assurer la crÃ©dibilitÃ© de l'Ã©valuation elle-mÃªme. Ces Ã©lÃ©ments clÃ©s sont rÃ©sumÃ©s au tableau 2.

Tableau 2 - Ã‰lÃ©ments nÃ©cessaires Ã la crÃ©dibilitÃ© des Ã©valuations

A. CritÃ¨res de recherche

questions de mesure
- fiabilitÃ©
- validitÃ© de la mesure
- profondeur et portÃ©e
questions d'attribution
- validitÃ© des infÃ©rences causales

B. CritÃ¨res du contexte dÃ©cisionnel

possibilitÃ© de formuler des conclusions crÃ©dibles
- objectivitÃ©
- pertinence pour le contexte dÃ©cisionnel
- pertinence du niveau et du genre de donnÃ©es
- exhaustivitÃ©
questions pratiques
- faisabilitÃ©
- coÃ»t abordable
- Ã©thique

2.4.1 CritÃ¨res de recherche

a) Questions de mesure

Bien des effets des programmes sont fondamentalement difficiles Ã mesurer. Voici quelques exemples :

amÃ©lioration du bien-Ãªtre des personnes Ã¢gÃ©es, grÃ¢ce Ã des programmes leur permettant de continuer Ã vivre seules chez elles;
amÃ©lioration de la sÃ©curitÃ© nationale grÃ¢ce Ã la mise au point d'un important systÃ¨me d'armes;
amÃ©lioration des stimulants Ã la R-D industrielle grÃ¢ce Ã des modifications du rÃ©gime fiscal.

Comme bien d'autres, ces effets exigent Ã la fois des mÃ©thodes de mesure perfectionnÃ©es et une connaissance approfondie de domaines spÃ©cialisÃ©s de la politique publique.

Trois des aspects de la mesure nÃ©cessitent une attention particuliÃ¨re : la fiabilitÃ©, la validitÃ© de la mesure, ainsi que la profondeur et la portÃ©e.

FiabilitÃ©

Une mesure est dite fiable si elle donne les mÃªmes rÃ©sultats lorsqu'elle est appliquÃ©e de faÃ§on rÃ©pÃ©tÃ©e dans une situation donnÃ©e. Par exemple, un test d'intelligence serait considÃ©rÃ© comme fiable dans la mesure oÃ¹ il donnerait un rÃ©sultat identique s'il Ã©tait administrÃ© deux fois Ã la mÃªme personne (dont l'intelligence n'aurait pas changÃ©). Dans le contexte d'un programme, la fiabilitÃ© peut correspondre Ã la stabilitÃ© de la mesure dans le temps, ou Ã son uniformitÃ© d'un endroit Ã l'autre.

Le manque de fiabilitÃ© peut Ãªtre attribuable Ã plusieurs facteurs. Par exemple, il peut rÃ©sulter d'une mauvaise mÃ©thode de collecte des donnÃ©es : si l'enquÃªteur ne lit pas attentivement les instructions du guide d'entrevue, il risque d'obtenir des rÃ©sultats lÃ©gÃ¨rement diffÃ©rents de ceux des enquÃªteurs qui les ont lues. Le manque de fiabilitÃ© peut aussi Ãªtre imputable Ã l'instrument de mesure lui-mÃªme, ou au plan d'Ã©chantillonnage. Si la procÃ©dure d'Ã©chantillonnage n'est pas bien suivie, l'Ã©chantillon risque de ne pas Ãªtre reprÃ©sentatif de la population visÃ©e et, par consÃ©quent, les rÃ©sultats qu'il gÃ©nÃ¨re peuvent n'Ãªtre pas fiables.

ValiditÃ© de la mesure

Une mesure est valide dans la mesure oÃ¹ elle reprÃ©sente fidÃ¨lement ce qu'elle est censÃ©e reprÃ©senter. Les mesures (indicateurs) valides ne prÃ©sentent pas d'erreurs systÃ©matiques et saisissent les donnÃ©es voulues. Les donnÃ©es signifient-elles ce que nous croyons qu'elles signifient? La technique employÃ©e mesure-t-elle ce qu'elle est censÃ©e mesurer? Ces questions ont une importance critique pour l'Ã©valuation des programmes.

Les problÃ¨mes de validitÃ© d'une mesure peuvent Ãªtre conceptuels ou techniques. Ã€ moins d'y avoir bien rÃ©flÃ©chi, il est rare qu'on sache exactement quelles donnÃ©es correspondent le mieux aux rÃ©sultats Ã mesurer. La dÃ©cision est trop souvent fondÃ©e uniquement sur des donnÃ©es faciles Ã obtenir, mais qui gÃ©nÃ¨rent des mesures moins probantes qu'on n'aurait pu le souhaiter. En outre, des erreurs techniques (de mesure et d'Ã©chantillonnage, par exemple) peuvent se produire et fausser les rÃ©sultats de l'Ã©valuation.

Profondeur et portÃ©e

Les notions de profondeur et de portÃ©e sont indissociables de celles de la fiabilitÃ© et de la validitÃ© de la mesure. Dans certaines situations, l'Ã©valuateur peut souhaiter mesurer certains rÃ©sultats trÃ¨s prÃ©cisÃ©ment et d'autres de faÃ§on moins dÃ©taillÃ©e, mais avec plusieurs instruments diffÃ©rents.

Pour mesurer les avantages d'un programme pour une personne, il faut parfois rÃ©aliser des entrevues et des sondages en profondeur. Dans certains cas, il peut arriver aussi qu'on doive avoir recours Ã diffÃ©rents indicateurs reflÃ©tant tous des points de vue distincts sur les consÃ©quences envisagÃ©es. Par exemple, lorsqu'on Ã©value l'effet d'une subvention pour une entreprise, il peut Ãªtre nÃ©cessaire d'analyser ses ventes, l'Ã©volution de son effectif, celle de la qualitÃ© de ses emplois, l'effet de l'achat de nouvelles machines sur sa compÃ©titivitÃ©, et ainsi de suite.

Par ailleurs, la population cible d'un programme peut Ãªtre importante et hÃ©tÃ©rogÃ¨ne, auquel cas il est important que l'Ã©valuation porte de faÃ§on relativement peu dÃ©taillÃ©e sur tous ses segments. Ainsi, pour Ã©valuer convenablement les consÃ©quences pour les entreprises d'un programme d'aide Ã un secteur d'activitÃ© donnÃ©, il faudrait prendre soin d'assurer une reprÃ©sentation suffisante de tous les types d'entreprises visÃ©es (grandes et petites, de diffÃ©rents secteurs et de rÃ©gions diffÃ©rentes).

La profondeur et la portÃ©e de la mesure posent un problÃ¨me Ã©pineux. Comme le temps et les ressources sont limitÃ©s, l'Ã©valuateur doit inÃ©vitablement nÃ©gliger l'une au profit de l'autre. S'il privilÃ©gie la portÃ©e, son Ã©valuation peut gagner en pertinence et avoir un champ d'application plus vaste, mais elle perd alors en profondeur, et les mesures individuelles sont alors moins valides et moins fiables.

b) Questions d'attribution

Le programme n'est souvent qu'un des nombreux facteurs influant sur le rÃ©sultat constatÃ©. En fait, il peut Ãªtre assez difficile de dÃ©terminer dans quelle proportion les rÃ©sultats sont vraiment attribuables au programme plutÃ´t qu'Ã d'autres facteurs. C'est peut-Ãªtre l'aspect le plus difficile d'une Ã©tude d'Ã©valuation.

La clÃ© de l'attribution des rÃ©sultats est donc une bonne comparaison. En laboratoire, il est possible de le faire grÃ¢ce Ã des groupes tÃ©moins rigoureusement contrÃ´lÃ©s. Par contre, dans le cas des programmes du gouvernement fÃ©dÃ©ral, les comparaisons qui sont gÃ©nÃ©ralement possibles sont moins rigoureuses, et de nombreux obstacles risquent de saper la validitÃ© interne et la validitÃ© externe.

Les obstacles Ã la validitÃ© interne les plus courants sont les suivants :

Ã©vÃ©nements historiques - Ã©vÃ©nements externes influant sur les participants au programme autrement que sur les membres des groupes tÃ©moins;
maturation - changements des rÃ©sultats dÃ©coulant du temps Ã©coulÃ© plutÃ´t qu'attribuables au programme lui-mÃªme (p. ex., le vieillissement des participants d'un groupe comparativement Ã ceux d'un autre Ã une Ã©tape diffÃ©rente);
attrition - abandon du programme par des rÃ©pondants (ce facteur pourrait nuire Ã la comparabilitÃ© des groupes expÃ©rimental et tÃ©moin);
biais de la sÃ©lection - propension initialement inÃ©gale des groupes expÃ©rimental et tÃ©moin Ã rÃ©agir au programme;
facteurs de rÃ©gression -pseudo-changements des rÃ©sultats dÃ©coulant de la rÃ©tention de personnes pour un programme en raison des rÃ©sultats extrÃªmes obtenus (Ã la longue, tout groupe extrÃªme a tendance Ã se rapprocher de la moyenne, qu'il ait bÃ©nÃ©ficiÃ© du programme ou pas);
diffusion ou imitation du traitement - obtention par les rÃ©pondants d'un groupe de l'information destinÃ©e Ã un autre groupe;
essai - diffÃ©rences observÃ©es entre les groupes expÃ©rimental et tÃ©moin pouvant Ãªtre imputables Ã une meilleure connaissance d'un instrument de mesure pour les membres du premier groupe;
instruments - consÃ©quence du changement de l'instrument utilisÃ© selon le groupe (p. ex., lorsqu'on a recours Ã diffÃ©rents enquÃªteurs).

Il existe aussi de nombreux obstacles Ã la validitÃ© externe, autrement dit empÃªchant l'Ã©valuateur de gÃ©nÃ©raliser ses constatations pour les appliquer dans d'autres contextes, Ã d'autres moments ou Ã d'autres programmes. Dans le contexte de l'administration fÃ©dÃ©rale, la validitÃ© externe a toujours une grande importance, puisque les constatations de l'Ã©valuation sont censÃ©es appuyer la prise de dÃ©cisions ultÃ©rieures.

Il existe trois types d'obstacles Ã la gÃ©nÃ©ralisation des constatations :

interaction entre la sÃ©lection et le programme - non-reprÃ©sentativitÃ© des effets sur les participants au programme, parce que ceux-ci ont une caractÃ©ristique (influant sur les effets) non reprÃ©sentative de l'ensemble de la population;
interaction entre le contexte et le programme - non-reprÃ©sentativitÃ© du contexte du programme expÃ©rimental ou pilote comparativement Ã celui dans lequel le programme aurait Ã©tÃ© exÃ©cutÃ©, s'il avait Ã©tÃ© entiÃ¨rement mis en oeuvre;
interaction entre les Ã©vÃ©nements historiques et le programme - non-reprÃ©sentativitÃ© des conditions dans lesquelles le programme s'est dÃ©roulÃ© par rapport aux conditions futures.

Lorsqu'on est appelÃ© Ã choisir des stratÃ©gies d'Ã©valuation, il est manifestement trÃ¨s utile d'Ãªtre conscient des obstacles Ã leur validitÃ©. Une grande partie du jugement qui est nÃ©cessaire Ã la conception d'une Ã©valuation ainsi qu'Ã la collecte et Ã l'analyse des donnÃ©es consiste Ã savoir trouver les moyens de dÃ©terminer les effets attribuables au programme. Pour y arriver, il faut Ã©tablir de bonnes comparaisons, en Ã©vitant de donner prise au plus grand nombre d'obstacles possible Ã la validitÃ©.

Lorsque l'Ã©valuation est axÃ©e sur les rÃ©sultats, les modÃ¨les diffÃ¨rent surtout quant Ã l'efficacitÃ© avec laquelle ils permettent de dÃ©terminer les effets attribuables au programme et, le cas Ã©chÃ©ant, Ã la facilitÃ© de gÃ©nÃ©ralisation des conclusions. Les modÃ¨les d'Ã©valuation sont prÃ©sentÃ©s au chapitre 3, en ordre dÃ©croissant de crÃ©dibilitÃ©.

RÃ©fÃ©rences : StratÃ©gies d'Ã©valuation

Campbell, D.T. et J.C. Stanley, Experimental and Quasi-experimental Designs for Research, Chicago : Rand-McNally, 1963.

Cook, T.D. et D.T. Campbell, Quasi-experimentation : Designs and Analysis Issues for Field Settings, Chicago : Rand-McNally, 1979.

Kerlinger, F.N., Behavioural Research : A Conceptual Approach, New York : Holt, Rinehart and Winston, 1979, chapitre 9.

Mercer, Shawna L. et Vivek Goel, Â«Program Evaluation in the Absence of Goals : A Comprehensive Approach to the Evaluation of a Population-Based Breast Cancer Screening ProgramÂ», Canadian Journal of Program Evaluation, Vol. 9, N^o 1, avril-mai 1994, p. 97 Ã 112.

Patton, M.Q., Utilization-focussed Evaluation (2^e Ã©dition), Thousand Oaks : Sage Publications, 1986.

Rossi, P.H. et H.E. Freeman, Evaluation : A Systematic Approach (2^e Ã©dition), Thousand Oaks : Sage Publications, 1989.

Ryan, Brenda et Elizabeth Townsend, Â«Criteria MappingÂ», Canadian Journal of Program Evaluation, Vol. 4, N^o 2, octobre-novembre 1989, p. 47 Ã 58.

Watson, Kenneth, Â«Selecting and Ranking Issues in Program Evaluations and Value-for-money AuditsÂ», Canadian Journal of Program Evaluation, Vol. 5, N^o 2, octobre-novembre 1990, p. 15 Ã 28.

2.4.2 CritÃ¨res du contexte dÃ©cisionnel

Puisque l'Ã©valuation est censÃ©e faciliter la prise de dÃ©cisions, les critÃ¨res de choix d'une mÃ©thode d'Ã©valuation appropriÃ©e doivent garantir l'obtention d'une information utile. Cela suppose qu'on comprenne le contexte dans lequel les dÃ©cisions seront prises et oÃ¹ les constatations de l'Ã©valuation seront prÃ©sentÃ©es. Il faut donc tenir compte de facteurs qui s'ajoutent aux aspects techniques des mÃ©thodes, bien que celles-ci conservent une importance critique pour la crÃ©dibilitÃ© des constatations.

L'Ã©laboration d'une dÃ©marche d'Ã©valuation des rÃ©sultats d'un programme peut donc devenir une tÃ¢che trÃ¨s dÃ©licate, qui tient probablement plus de l'art que de la science, puisqu'il faut tenir compte Ã la fois des avantages et des inconvÃ©nients des stratÃ©gies envisagÃ©es pour recueillir des donnÃ©es et du contexte dans lequel l'Ã©valuation se dÃ©roule. La conciliation de ces deux Ã©lÃ©ments doit en outre se faire en fonction des contraintes imposÃ©es par les ressources et le temps limitÃ© dont l'Ã©valuateur dispose. Bref, c'est une tÃ¢che qui exige de toute Ã©vidence l'expÃ©rience de la recherche, et de la gestion.

Lorsqu'on examine les dÃ©marches d'Ã©valuation possibles Ã l'Ã©tape prÃ©paratoire de la planification, il faudrait constamment se poser la question suivante : la mÃ©thode ou solution recommandÃ©e fournira-t-elle des donnÃ©es suffisantes sur les questions visÃ©es, dans les dÃ©lais fixÃ©s et sans dÃ©passer le budget? Le tableau 2 prÃ©sente deux Ã©lÃ©ments dont il faut se rappeler dans le contexte dÃ©cisionnel : le degrÃ© auquel on peut s'attendre que la mÃ©thode aboutisse Ã des conditions crÃ©dibles et celui auquel elle peut Ãªtre appliquÃ©e. Nous allons maintenant dÃ©crire chacun de ces Ã©lÃ©ments gÃ©nÃ©raux en traitant aussi des questions connexes qui sont dÃ©crites ci-dessous. Il convient de souligner que ces Ã©lÃ©ments s'appliquent Ã tous les aspects de l'Ã©valuation, pas seulement Ã ceux qui sont liÃ©s aux rÃ©sultats du programme.

a) Formulation de conclusions crÃ©dibles (recommandations judicieuses fondÃ©es sur une analyse prÃ©cise)

La dÃ©marche d'Ã©valuation devrait tenir compte de la possibilitÃ© de formuler des conclusions crÃ©dibles.

On recueille des donnÃ©es afin de formuler des conclusions objectives et crÃ©dibles basÃ©es sur elles, avec assez de preuves Ã l'appui pour qu'on y ajoute foi. Il peut Ãªtre difficile d'aboutir Ã de telles conclusions, et l'Ã©valuateur devrait en tenir compte lorsqu'il Ã©labore sa stratÃ©gie. En outre, la crÃ©dibilitÃ© des conclusions est en partie fonction de leur formulation, autrement dit de leur prÃ©sentation.

Les donnÃ©es recueillies et les conclusions formulÃ©es devraient Ãªtre objectives, et toutes les hypothÃ¨ses devraient Ãªtre clairement prÃ©cisÃ©es.

L'objectivitÃ© des Ã©valuations est extrÃªmement importante. En effet, elles sont souvent contestÃ©es par quelqu'un, soit un gestionnaire de programme, un client, un membre de la haute direction, un reprÃ©sentant d'un organisme central ou un ministre. L'objectivitÃ© signifie que les donnÃ©es et les conclusions peuvent Ãªtre vÃ©rifiÃ©es et confirmÃ©es par d'autres personnes que les auteurs de l'Ã©valuation. Autrement dit, les conclusions doivent dÃ©couler de l'information recueillie. L'information et les donnÃ©es d'Ã©valuation devraient donc Ãªtre rÃ©unies, analysÃ©es et prÃ©sentÃ©es de telle faÃ§on que d'autres personnes qui feraient la mÃªme Ã©valuation en se fondant sur les mÃªmes hypothÃ¨ses de base aboutiraient Ã des conclusions analogues. C'est beaucoup plus difficile Ã faire lorsqu'on opte pour certaines stratÃ©gies d'Ã©valuation que pour d'autres, notamment si la stratÃ©gie utilisÃ©e repose largement sur le jugement professionnel de l'Ã©valuateur. En particulier, on devrait toujours prÃ©ciser clairement au lecteur les Ã©lÃ©ments sur lesquels les conclusions sont fondÃ©es (l'information et les donnÃ©es recueillies ainsi que les hypothÃ¨ses posÃ©es). Si les conclusions sont ambiguÃ«s, il est particuliÃ¨rement important que les hypothÃ¨ses sous-jacentes soient clairement Ã©noncÃ©es. En effet, lorsqu'elles ne sont pas bien prÃ©cisÃ©es, il arrive souvent que les conclusions soient mal formulÃ©es.

Les conclusions doivent Ãªtre pertinentes, c'est-Ã -dire compatibles avec le contexte dÃ©cisionnel et elles doivent absolument porter sur les questions Ã©tudiÃ©es.

Au cours d'une Ã©tude, les chercheurs perdent parfois de vue les questions sur lesquelles l'examen doit porter; il devient alors difficile pour le lecteur (le client de l'Ã©valuation) de comprendre le lien entre les conclusions et les questions Ã Ã©valuer cernÃ©es au dÃ©part. Ce phÃ©nomÃ¨ne peut Ãªtre dÃ» Ã plusieurs facteurs. Il se peut par exemple que la stratÃ©gie d'Ã©valuation n'ait pas Ã©tÃ© suffisamment bien conÃ§ue, de sorte qu'il est difficile d'obtenir de l'information valide sur certaines questions et de tirer certaines conclusions. Par ailleurs, il est possible aussi que les intÃ©rÃªts de l'Ã©valuateur l'emportent, auquel cas les questions qui intÃ©ressent la haute direction ne reÃ§oivent pas toute l'attention voulue. Enfin, d'autres questions peuvent se poser pendant qu'on Ã©tudie le programme et son contexte. Cela ne devrait toutefois pas prÃ©senter de difficultÃ©, pourvu que les questions initiales soient bel et bien Ã©tudiÃ©es et qu'on prÃ©cise clairement les questions supplÃ©mentaires et les conclusions correspondantes.

La prÃ©cision des conclusions est largement fonction de la qualitÃ© et de la nature de l'information recueillie, lesquelles devraient Ãªtre choisies compte tenu des facteurs contextuels.

On constate souvent deux types de difficultÃ©s dans les Ã©valuations. Il est souvent impossible d'arriver Ã des conclusions dÃ©finitives, et l'information et les donnÃ©es recueillies grÃ¢ce aux stratÃ©gies utilisables ne sont pas complÃ¨tes.

Dans le premier cas, il est frÃ©quent qu'on n'arrive pas Ã prouver catÃ©goriquement le rapport de causalitÃ© entre un programme et un rÃ©sultat observÃ©, en raison surtout de l'impossibilitÃ© de surmonter les problÃ¨mes de mesure et d'attribution dont nous avons dÃ©jÃ fait Ã©tat. En gÃ©nÃ©ral, il est peu probable qu'une stratÃ©gie d'Ã©valuation produise Ã elle seule suffisamment d'informations pour donner une rÃ©ponse sans Ã©quivoque aux questions posÃ©es.

Cela nous amÃ¨ne directement au second type de difficultÃ©s : il y a normalement plusieurs stratÃ©gies d'Ã©valuation envisageables, chacune produisant de l'information et des donnÃ©es de qualitÃ© et de nature diffÃ©rentes. Il s'ensuit donc qu'il faudrait choisir la stratÃ©gie en se fondant sur les facteurs contextuels liÃ©s aux dÃ©cisions Ã prendre au sujet du programme, et pas seulement sur des questions de recherche prÃ©dÃ©finies. C'est sensiblement la mÃªme chose qu'en droit, oÃ¹ le genre d'Ã©lÃ©ments de preuve Ã produire est fonction de la gravitÃ© et du type de crime. Ainsi, dans bien des poursuites au civil, il suffit de prouver l'existence de motifs raisonnables, alors que la culpabilitÃ© d'un criminel doit Ãªtre prouvÃ©e Â«au-delÃ de tout doute raisonnableÂ» (Smith, 1981). Les facteurs contextuels dont l'Ã©valuateur devrait tenir compte sont le degrÃ© d'incertitude sur le programme et sur ses rÃ©sultats, l'importance de ses effets, son coÃ»t et la probabilitÃ© que les conclusions soient contestÃ©es. Il devrait Ãªtre capable de prÃ©voir quelles contestations d'envergure ses conclusions susciteront Ã©ventuellement, et Ãªtre prÃªt Ã les rÃ©futer.

Le choix de l'information Ã recueillir et, partant, de la mÃ©thode d'Ã©valuation Ã utiliser est l'une des tÃ¢ches les plus difficiles pour l'Ã©valuateur. En principe, c'est le client de l'Ã©tude et non l'Ã©valuateur qui fera ce choix. La tÃ¢che de l'Ã©valuateur consiste Ã prÃ©senter au client les dÃ©marches d'Ã©valuation susceptibles de gÃ©nÃ©rer les conclusions crÃ©dibles qu'on attend de lui, Ã un coÃ»t et dans des dÃ©lais raisonnables. Pour choisir la dÃ©marche, le client devrait avoir une bonne comprÃ©hension de l'information qui sera produite et Ãªtre par consÃ©quent en mesure de juger si l'Ã©valuation est suffisamment rigoureuse pour pouvoir s'en inspirer dans ses dÃ©cisions. Bien entendu, l'Ã©valuateur devrait proposer des dÃ©marches d'Ã©valuation qui reflÃ¨tent le mieux possible le contexte dÃ©cisionnel afin de faciliter le choix du client.

Les conclusions formulÃ©es devraient Ãªtre fondÃ©es sur un examen exhaustif des questions pertinentes.

L'exhaustivitÃ© - ou son absence - est un autre facteur qui pose souvent des problÃ¨mes aux Ã©valuateurs. (Bien qu'elle soit liÃ©e Ã la pertinence de l'information, elle constitue un point distinct dans le tableau 2, parce qu'on a souvent tendance Ã produire de l'information et des donnÃ©es objectives et pertinentes sur la plupart des questions Ã l'Ã©tude, mais Ã en nÃ©gliger plus ou moins d'autres.) Il s'agit lÃ d'un problÃ¨me de macromesure. L'Ã©valuateur devrait s'efforcer d'avoir une idÃ©e aussi exacte que possible de la question du point de vue du client. Cela suppose qu'il Ã©tudie toutes les questions d'intÃ©rÃªt qu'il peut, compte tenu du temps et des ressources financiÃ¨res dont il dispose. Ã€ cet Ã©gard, il ne faut jamais oublier que, pour le gouvernement fÃ©dÃ©ral, le Â«clientÂ» est en dÃ©finitive le public canadien. Il est parfois difficile de faire en sorte que la portÃ©e de l'Ã©valuation soit suffisante. Pourtant, si l'on dÃ©cide de la sacrifier pour analyser de faÃ§on plus approfondie certaines des questions envisagÃ©es, on risque d'aboutir Ã des conclusions correctes, mais sans vue d'ensemble. Pour Ã©viter cet Ã©cueil, on prend habituellement soin de discuter des questions d'Ã©valuation avec le client et avec d'autres parties ayant des points de vue diffÃ©rents. De cette faÃ§on, on a toutes les chances d'arriver Ã une stratÃ©gie d'Ã©valuation d'une portÃ©e satisfaisante.

Si l'Ã©valuateur estime que sa tÃ¢che consiste Ã fournir un complÃ©ment d'information pertinente sur un programme et sur ses rÃ©sultats (autrement dit de proposer une mÃ©thode permettant de rÃ©duire l'incertitude au sujet d'un programme) plutÃ´t qu'Ã produire des preuves concluantes de son efficacitÃ©, il aboutira donc vraisemblablement Ã des conclusions plus utiles. Avec cette approche, il risque de devoir faire des choix difficiles entre la pertinence et la rigueur de son travail, mais il doit choisir des mÃ©thodes d'Ã©valuation qui lui permettront de maximiser les chances d'arriver Ã des conclusions utiles, mÃªme avec des rÃ©serves.

Enfin, on devrait clairement distinguer les constatations des recommandations de l'Ã©valuation.

L'Ã©valuateur peut Ãªtre frÃ©quemment appelÃ© Ã donner des conseils Ã son client et Ã lui prÃ©senter des recommandations. Il doit alors absolument Ã©tablir une distinction entre les constatations qui sont tirÃ©es de l'information gÃ©nÃ©rÃ©e par son Ã©tude et les recommandations sur le programme qui s'inspirent des conclusions de son Ã©valuation ou de renseignements provenant d'autres sources, par exemple des directives stratÃ©giques. Les conclusions de l'Ã©valuation perdent de leur crÃ©dibilitÃ© si cette distinction n'est pas maintenue.

Par exemple, les constatations d'une Ã©valuation d'un programme d'Ã©conomie d'Ã©nergie rÃ©sidentielle peuvent permettre Ã l'Ã©valuateur de conclure que le programme a eu des rÃ©percussions favorables sur l'Ã©conomie d'Ã©nergie. Toutefois, des renseignements obtenus d'autres sources peuvent laisser entendre que d'autres programmes d'Ã©conomie d'Ã©nergie sont plus rentables, auquel cas l'Ã©valuateur est portÃ© Ã recommander que le programme rÃ©sidentiel soit abandonnÃ©. Dans ce cas-lÃ , il doit clairement prÃ©ciser que sa recommandation n'est pas fondÃ©e sur l'information obtenue dans le contexte de l'Ã©valuation elle-mÃªme, mais bien sur d'autres renseignements.

b) Questions pratiques

Lorsqu'il Ã©labore sa mÃ©thode d'Ã©valuation, l'Ã©valuateur doit tenir compte d'Ã©lÃ©ments fondamentaux tels que la praticabilitÃ©, la viabilitÃ© financiÃ¨re et l'Ã©thique.

Une dÃ©marche est jugÃ©e praticable dans la mesure oÃ¹ elle peut Ãªtre appliquÃ©e efficacement sans consÃ©quences nÃ©fastes et dans les dÃ©lais impartis. La viabilitÃ© financiÃ¨re s'entend du coÃ»t de mise en oeuvre de la dÃ©marche. Il se peut que le coÃ»t d'utilisation de la mÃ©thode considÃ©rÃ©e comme la plus appropriÃ©e dans une situation donnÃ©e soit exorbitant. Or, il faut toujours prÃ©fÃ©rer la mÃ©thode d'Ã©valuation susceptible Ã la fois de gÃ©rer les problÃ¨mes de mesure et d'attribution et d'aboutir Ã des conclusions crÃ©dibles, tout en pouvant Ãªtre appliquÃ©e dans les limites des ressources disponibles.

L'Ã©thique (principes ou valeurs morales) doit Ãªtre Ã©valuÃ©e dans l'Ã©laboration d'une mÃ©thode d'Ã©valuation. Par exemple, il peut Ãªtre contraire Ã l'Ã©thique d'exÃ©cuter un programme exclusivement pour un sous-groupe d'une population donnÃ©e. Ce serait le cas si une Ã©valuation portant sur un programme social devait Ãªtre fondÃ©e sur un Ã©chantillon alÃ©atoire de prestataires et privait de services d'autres personnes y ayant pourtant autant droit. Les principes d'Ã©thique dont il faut tenir compte dans le contexte des Ã©valuations de programmes de l'administration fÃ©dÃ©rale sont prÃ©cisÃ©s dans divers textes lÃ©gislatifs et stratÃ©giques sur la collecte, l'utilisation, la prÃ©servation et la diffusion de l'information, dont la Loi sur l'accÃ¨s Ã l'information, la Loi sur la protection des renseignements personnels et la Loi sur la statistique, ainsi que la Politique du gouvernement en matiÃ¨re de communications et la Politique sur la gestion des renseignements dÃ©tenus par le gouvernement du Conseil du TrÃ©sor, laquelle porte notamment sur les mesures Ã prendre pour minimiser la collecte de donnÃ©es inutile et pour assurer l'examen mÃ©thodologique prÃ©alable des activitÃ©s de collecte de donnÃ©es.

RÃ©fÃ©rences - Le contexte dÃ©cisionnel

Alkin, M.C., A Guide for Evaluation Decision Makers, Thousand Oaks : Sage Publications, 1986.

Baird, B.F., Managerial Decisions under Uncertainty, New York : Wiley Interscience, 1989.

Cabatoff, Kenneth A., Â«Getting On and Off the Policy Agenda : A Dualistic Theory of Program Evaluation UtilizationÂ», Canadian Journal of Program Evaluation,. Vol. 11, N^o 2, automne 1996, p. 35 Ã 60.

Ciarlo, J., Ã©d., Utilizing Evaluation, Thousand Oaks : Sage Publications, 1984.

Goldman, Francis et Edith Brashares, Â«Performance and Accountability : Budget Reform in New ZealandÂ», Public Budgeting and Finance, Vol. 11, N^o 4, hiver 1991, p. 75 Ã 85.

Mayne, John et R.S. Mayne, Â«Will Program Evaluation be Used in Formulating Policy?Â», in Atkinson, M. et M. Chandler, Ã©d., The Politics of Canadian Public Policy, Toronto : University of Toronto Press, 1983.

Moore, M.H., Creating Public Value : Strategic Management in Government, Boston : Harvard University Press, 1995.

Nutt, P.C. et R.W. Backoff, Strategic Management of Public and Third Sector Organizations, San Francisco : Jossey-Bass, 1992.

O'Brecht, Michael, Â«Stakeholder Pressures and Organizational StructureÂ», Canadian Journal of Program Evaluation, Vol. 7, N^o 2, octobre-novembre 1992, p. 139 Ã 147.

Peters, Guy B. et Donald J. Savoie, Centre canadien de gestion, Governance in a Changing Environment, MontrÃ©al et Kingston : McGill-Queen's University Press, 1993.

Pressman, J.L. et A. Wildavsky, Implementation, Los Angeles : UCLA Press, 1973.

Reavy, Pat, et al., Â«Evaluation as Management Support : The Role of the EvaluatorÂ», Canadian Journal of Program Evaluation, Vol. 8, N^o 2, octobre-novembre 1993, p. 95 Ã 104.

Rist, Ray C., Ã©d., Program Evaluation and the Management of the Government, New Brunswick (NJ) : Transaction Publishers, 1990.

Schick, Allen, The Spirit of Reform : Managing the New Zealand State, rapport commandÃ© par le ministÃ¨re du TrÃ©sor et la Commission des services gouvernementaux de la Nouvelle-ZÃ©lande, 1996.

Seidle, Leslie, Rethinking the Delivery of Public Services to Citizens, MontrÃ©al : Institut de recherches en politiques publiques (IMPP), 1995.

Thomas, Paul G., The Politics and Management of Performance Measurement and Service Standards, Winnipeg : St.-John's College, University of Manitoba, 1996.

2.4.3 StratÃ©gies multiples

Une stratÃ©gie d'Ã©valuation produit des preuves d'un rÃ©sultat, tandis qu'une Ã©tude d'Ã©valuation porte ordinairement sur plusieurs questions, ce qui signifie qu'on a donc intÃ©rÃªt Ã faire appel Ã plusieurs stratÃ©gies, d'autant plus qu'il peut aussi Ãªtre souhaitable d'en utiliser plus d'une pour examiner une question donnÃ©e, afin d'accroÃ®tre l'exactitude et la crÃ©dibilitÃ© des constatations de l'Ã©valuation.

La plupart des stratÃ©gies d'Ã©valuation Ã©laborÃ©es pour Ã©tudier une question prÃ©cise peuvent aussi Ãªtre utilisÃ©es pour en examiner d'autres, avec certaines modifications. MÃªme si une stratÃ©gie n'est pas idÃ©ale pour Ã©tudier une autre question, il peut Ãªtre utile de s'en servir parce que son coÃ»t marginal est faible. Supposons par exemple qu'on fasse une Ã©tude afin de dÃ©terminer l'aptitude Ã la lecture de deux groupes, dont l'un participant Ã un programme donnÃ©. On fait passer aux membres de chaque groupe un test destinÃ© Ã mesurer leur aptitude Ã la lecture, en leur posant aussi diverses questions sur l'utilitÃ© et l'efficacitÃ© du programme. Les rÃ©sultats reflÃ¨tent bien entendu les lacunes inhÃ©rentes Ã tous les rÃ©sultats des enquÃªtes sur les attitudes, mais ajoutent quand mÃªme des indications aux rÃ©sultats objectifs du test de lecture, Ã un coÃ»t relativement faible.

La seconde raison d'envisager le recours Ã plusieurs stratÃ©gies de recherche dans une Ã©valuation, c'est qu'il est souvent souhaitable de mesurer ou d'Ã©valuer le mÃªme rÃ©sultat en fonction de plusieurs sources de donnÃ©es, ou en appliquant des modÃ¨les d'Ã©valuation diffÃ©rents. En effet, il est souvent difficile, sinon impossible, de mesurer exactement et sans Ã©quivoque un rÃ©sultat donnÃ©. Des facteurs de confusion, des erreurs de mesure et des prÃ©jugÃ©s personnels risquent de se combiner pour saper la validitÃ© ou la fiabilitÃ© des rÃ©sultats obtenus lorsqu'on n'a utilisÃ© qu'une seule et unique mÃ©thode d'analyse. En effet, les modÃ¨les d'Ã©valuation sont habituellement vulnÃ©rables Ã plusieurs obstacles Ã la validitÃ© interne; il est donc impossible d'Ã©liminer ou de tenir compte de toutes les autres explications plausibles. Par consÃ©quent, on doit souvent avoir recours Ã des stratÃ©gies complÃ©mentaires pour infirmer les explications indÃ©sirables des rÃ©sultats observÃ©s.

C'est pour ces deux raisons qu'il est prÃ©fÃ©rable d'Ã©tudier les questions Ã Ã©valuer de plusieurs points de vue, en se fondant sur plusieurs modalitÃ©s d'Ã©tablissement de la preuve afin d'accroÃ®tre la crÃ©dibilitÃ© des constatations. Quand des stratÃ©gies distinctes qui sont fondÃ©es sur des sources de donnÃ©es et des mÃ©thodes d'analyse diffÃ©rentes aboutissent Ã la mÃªme conclusion, l'Ã©valuateur peut raisonnablement les considÃ©rer comme fiables. Par contre, lorsqu'elles mÃ¨nent Ã des conclusions diffÃ©rentes, la situation est Ã©videmment beaucoup moins facile Ã trancher. NÃ©anmoins, c'est un rÃ©sultat prÃ©fÃ©rable Ã ce qui se produit quand on se fonde sur une seule stratÃ©gie, en aboutissant sans s'en rendre compte Ã des conclusions qui pourraient Ãªtre contradictoires pour peu qu'on en utilise une autre. Lorsque les conclusions diffÃ¨rent, c'est peut-Ãªtre parce que les rÃ©sultats du programme sont trop sensibles pour pouvoir Ãªtre mesurÃ©s avec prÃ©cision (ce qui signifie que l'erreur d'Ã©chantillonnage l'emporte sur l'effet incrÃ©mentiel); pour corriger le problÃ¨me, il faut alors avoir recours Ã une meilleure mÃ©thode d'analyse ou recueillir plus de donnÃ©es, ou encore Ã une combinaison de ces deux approches.

Supposons par exemple qu'on tente d'Ã©valuer les effets de notre fameux problÃ¨me d'aide Ã un secteur d'activitÃ© industrielle. L'Ã©valuation devrait porter sur l'effet incrÃ©mentiel du projet, ce qui reviendrait Ã essayer de dÃ©terminer si l'aide fournie a menÃ© Ã la rÃ©alisation du projet envisagÃ©. Cette question pourrait Ãªtre Ã©tudiÃ©e sous plusieurs angles diffÃ©rents. Une stratÃ©gie consisterait Ã mener un sondage auprÃ¨s des cadres des entreprises visÃ©es en leur posant la question directement ou indirectement. Cependant, pour diverses raisons, notamment parce qu'ils voudraient obtenir d'autres subventions, les rÃ©pondants pourraient tendre Ã exagÃ©rer l'effet incrÃ©mentiel du programme. Il faudrait donc utiliser d'autres mÃ©thodes pour le dÃ©terminer. Par exemple, un examen dÃ©taillÃ© des registres financiers et de marketing pour la pÃ©riode prÃ©cÃ©dant immÃ©diatement la mise en oeuvre du projet permettrait de juger si le rendement attendu des investissements justifiait son exÃ©cution sans l'aide de l'Ã‰tat. On pourrait aussi avoir recours Ã un modÃ¨le quasi expÃ©rimental avec une analyse correspondante comme nous le verrons au chapitre 3, pour comparer la rÃ©alisation de projets non subventionnÃ©s Ã celle de projets qui l'ont Ã©tÃ©, ou encore pour comparer la frÃ©quence des projets exÃ©cutÃ©s avant et aprÃ¨s la mise en oeuvre du programme.

Prenons aussi un autre exemple, celui des enquÃªtes postales qui peuvent avoir un trÃ¨s vaste rayonnement dans une population cible. Malheureusement, il s'agit lÃ d'une stratÃ©gie qui ne se prÃªte gÃ©nÃ©ralement pas Ã des Ã©tudes en profondeur, bien qu'elle puisse Ãªtre renforcÃ©e grÃ¢ce Ã des Ã©tudes de cas ou Ã des entrevues individuelles.

De mÃªme, les modÃ¨les implicites faisant appel Ã une analyse du contenu en soi sont peu fiables. MÃªme si ces modÃ¨les sont utiles pour l'examen d'avantages difficiles Ã mesurer, il convient de les complÃ©ter par des stratÃ©gies plus fiables Ã fondement quasi expÃ©rimental, ce qui augmente Ã©normÃ©ment la crÃ©dibilitÃ© globale des constatations de l'Ã©valuation.

RÃ©fÃ©rences : StratÃ©gies multiples

Jorjani, Hamid, Â«The Holistic Perspective in the Evaluation of Public Programs : A Conceptual FrameworkÂ», Canadian Journal of Program Evaluation, Vol. 9, N^o 2, octobre-novembre 1994, p. 71 Ã 92.

2.5 RÃ©sumÃ©

Dans ce chapitre, nous avons analysÃ© les aspects de la recherche et du contexte dÃ©cisionnel dont il faut tenir compte pour l'Ã©laboration et l'application de mÃ©thodes d'Ã©valuation crÃ©dibles. Ce faisant, nous avons insistÃ© sur la nÃ©cessitÃ© de ne jamais nÃ©gliger les facteurs contextuels inhÃ©rents Ã toutes les Ã©tudes d'Ã©valuation menÃ©es dans l'administration fÃ©dÃ©rale. Ces facteurs sont au moins aussi importants que les questions de recherche qui sont traditionnellement associÃ©es Ã une stratÃ©gie d'Ã©valuation.

De plus, le prÃ©sent chapitre dÃ©crit le bien-fondÃ© de multiples Ã©lÃ©ments probants, soit le recours Ã plus d'une stratÃ©gie d'Ã©valuation pour appuyer les infÃ©rences sur les effets du programme. Compte tenu des contraintes temporelles et financiÃ¨res on devrait toujours rechercher de multiples Ã©lÃ©ments probants pour appuyer les conclusions de l'Ã©valuation.

Chapitre 3 - MODÃˆLES D'Ã‰VALUATION

3.1 Introduction

Un modÃ¨le d'Ã©valuation dÃ©crit le systÃ¨me logique Ã appliquer pour recueillir de l'information sur les rÃ©sultats susceptibles d'Ãªtre attribuÃ©s Ã un programme. La figure 2 illustre le principe fondamental du modÃ¨le expÃ©rimental, qui implique la comparaison de deux groupes (dont l'un exposÃ© au programme), en attribuant toutes les diffÃ©rences entre les deux groupes au programme lui-mÃªme. On appelle ce type de modÃ¨le modÃ¨le d'Ã©valuation idÃ©al. Comme nous l'avons dÃ©jÃ vu, c'est un idÃ©al difficile Ã atteindre dans la pratique. Pourtant, il est utile aux fins de comparaison et d'explication. On peut l'illustrer de la faÃ§on suivante :

	Mesure avant	Exposition au programme	Mesure aprÃ¨s
Groupe expÃ©rimental	0₁	X	0₃
Groupe tÃ©moin	0₂		0₄

Dans ce schÃ©ma, Â«0Â» dÃ©signe une mesure ou une observation du rÃ©sultat du programme et Â«XÂ», l'exposition au programme. Les chiffres en indices indiquent des mesures ou des traitements diffÃ©rents. Le 0₁ reprÃ©sente des estimations (des moyennes estimatives, par exemple) fondÃ©es sur les observations relatives Ã des membres d'un groupe. Il faudrait interprÃ©ter des formules comme 0₃ - 0₄ comme des indications thÃ©oriques, plutÃ´t que comme des Ã©carts entre deux observations. Le schÃ©ma montre aussi Ã quel moment l'observation est faite (avant ou aprÃ¨s l'exposition au programme). Nous emploierons la mÃªme symbolisation dans tout le chapitre pour illustrer de faÃ§on schÃ©matique les modÃ¨les dÃ©crits.

Dans le modÃ¨le d'Ã©valuation idÃ©al, le rÃ©sultat attribuÃ© au programme est manifestement 0₃ - 0₄, puisque 0₁ = 0₂ et qu'il s'ensuit que 0₃ = 0₄ + X (le programme), ou que 0₃ - 0₄= X. Remarquons que, dans ce cas-ci, il n'est pas nÃ©cessaire que 0₁ et 0₂ dÃ©terminent le rÃ©sultat net du programme, puisqu'on postule que leurs valeurs sont Ã©gales. Il s'ensuit donc que le modÃ¨le idÃ©al pourrait Ãªtre reprÃ©sentÃ© comme suit :

	Exposition au programme	Mesure aprÃ¨s
Groupe expÃ©rimental	X	0₃
Groupe tÃ©moin		0₄

Il se peut toutefois que l'Ã©valuateur s'intÃ©resse au changement relatif qui s'est produit, auquel cas il doit absolument prendre la mesure avant le programme.

Le modÃ¨le idÃ©al est important parce qu'il sert de preuve sous-jacente de l'attribution des rÃ©sultats Ã un programme pour tous les modÃ¨les d'Ã©valuation dÃ©crits dans le prÃ©sent chapitre. Par exemple, pour faire des infÃ©rences causales, il faut comparer des groupes identiques, sauf pour l'exposition au programme, avant et aprÃ¨s celle-ci. (D'ailleurs, la caractÃ©ristique commune de tous les modÃ¨les examinÃ©s dans ces pages est l'utilisation de la comparaison.) Le facteur qui distingue les modÃ¨les d'Ã©valuation est le degrÃ© auquel on les compare aux groupes en tout point identiques, sauf pour l'exposition au programme.

Dans les modÃ¨les les plus rigoureux, appelÃ©s modÃ¨les expÃ©rimentaux ou alÃ©atoires, on tente d'assurer l'Ã©quivalence initiale des deux groupes en rÃ©partissant de faÃ§on alÃ©atoire les sujets en deux groupes, un groupe de participants et un groupe tÃ©moin. De cette faÃ§on, les groupes Ã comparer s'Ã©quivalent, c'est-Ã -dire que le processus fait en sorte que les valeurs attendues (ainsi que les autres caractÃ©ristiques de distribution) de 0₁ et 0₂ soient Ã©gales. Nous Ã©tudierons les modÃ¨les expÃ©rimentaux ou alÃ©atoires Ã la section 3.2.

Les modÃ¨les Â«intermÃ©diairesÂ», dits quasi expÃ©rimentaux, sont analysÃ©s Ã la section 3.3. Dans ces modÃ¨les, qui ressemblent aux modÃ¨les expÃ©rimentaux en ce sens que des groupes de comparaison servent Ã faire des infÃ©rences causales, on n'a pas recours aux modÃ¨les alÃ©atoires ou Ã la Â«randomisationÂ» pour crÃ©er un groupe de participants (ou expÃ©rimental) et un groupe tÃ©moin. On part gÃ©nÃ©ralement du principe que le groupe de participants est un acquis, ce qui signifie qu'on choisit un ou des groupes de comparaison (ou tÃ©moins) de faÃ§on qu'ils y correspondent le plus Ã©troitement possible. Lorsqu'il n'y a pas randomisation, il n'est plus possible de postuler la comparabilitÃ© des groupes, de sorte qu'il faut trouver des moyens de remÃ©dier Ã leur Ã©ventuelle incomparabilitÃ©. NÃ©anmoins, les modÃ¨les quasi expÃ©rimentaux demeurent les meilleurs lorsque la randomisation n'est pas possible.

On trouve Ã l'autre extrÃ©mitÃ© de l'Ã©chelle les modÃ¨les implicites, qui se prÃªtent habituellement mal Ã la mesure des changements et Ã leur attribution Ã un programme. En voici un exemple :

	Exposition au programme	Mesure aprÃ¨s
Groupe expÃ©rimental	X	0₁

Dans un modÃ¨le comme celui-lÃ , on prend une mesure aprÃ¨s l'exposition au programme, en posant des hypothÃ¨ses sur les conditions prÃ©sentes avant sa mise en oeuvre. On postule que tous les changements par rapport Ã la situation existante avant le programme lui sont attribuables. Autrement dit, on part de l'hypothÃ¨se qu'on ne constaterait aucun changement Ã l'Ã©gard d'un groupe tÃ©moin non prÃ©cisÃ© (ou du moins pas de changements de l'ampleur de ceux qui sont constatÃ©s pour le groupe expÃ©rimental). Nous reviendrons plus longuement sur les modÃ¨les implicites Ã la section 3.4.

Ces types de modÃ¨les ont tous des degrÃ©s diffÃ©rents de rigueur quant Ã l'Ã©tablissement des rÃ©sultats d'un programme; ils traduisent aussi une diffÃ©rence fondamentale entre les programmes expÃ©rimentaux et les programmes Â«ordinairesÂ», c'est-Ã -dire non expÃ©rimentaux. Or, la plupart des programmes gouvernementaux ont pour objet d'apporter des avantages aux participants, et les administrateurs partent du principe qu'ils sont bel et bien efficaces. La participation Ã ces programmes est typiquement dÃ©terminÃ©e en fonction de critÃ¨res d'admissibilitÃ©. C'est bien diffÃ©rent dans le cas des programmes expÃ©rimentaux ou pilotes, qui sont mis en oeuvre pour vÃ©rifier la validitÃ© thÃ©orique d'un programme et pour en dÃ©terminer l'efficacitÃ©. Les participants aux programmes de ce genre en retirent des avantages, mais c'est un rÃ©sultat secondaire, le but Ã©tant essentiellement de vÃ©rifier si les programmes sont efficaces. Il s'ensuit que les participants sont souvent choisis pour maximiser les chances d'obtention de rÃ©sultats concluants, pas nÃ©cessairement en fonction de critÃ¨res d'admissibilitÃ©.

Ces deux buts, Ã savoir gÃ©nÃ©rer des avantages et vÃ©rifier la validitÃ© de la thÃ©orie sur laquelle le programme est fondÃ©, sont presque toujours incompatibles. Les gestionnaires des programmes estiment normalement que ceux-ci ont pour objet de produire des avantages, mÃªme dans le cas d'un programme pilote. Les Ã©valuateurs et les planificateurs, d'autre part, prÃ©fÃ¨rent exÃ©cuter un programme expÃ©rimental pour dÃ©terminer d'emblÃ©e s'il vaut la peine de lui donner plus d'importance. Dans la pratique, la plupart des programmes ne sont pas mis Ã l'essai, ce qui signifie que l'Ã©valuateur doit frÃ©quemment opter pour des modÃ¨les d'Ã©valuation non expÃ©rimentaux.

Dans le prÃ©sent chapitre, nous allons analyser les trois types de modÃ¨les d'Ã©valuation dont nous venons de faire Ã©tat. Nous allons dÃ©crire des modÃ¨les de chaque type en prÃ©cisant leurs avantages et leurs inconvÃ©nients. Nous rÃ©partissons les modÃ¨les en trois types - alÃ©atoires, quasi expÃ©rimentaux et implicites - pour faciliter l'analyse, mais la distinction entre les trois n'est pas toujours rigoureuse. En effet, les modÃ¨les quasi expÃ©rimentaux se confondent souvent avec les modÃ¨les implicites. NÃ©anmoins, les distinctions sont utiles et rÃ©vÃ¨lent, dans la plupart des cas, un degrÃ© de rigueur diffÃ©rent. L'Ã©valuateur qui passe du modÃ¨le alÃ©atoire au modÃ¨le implicite doit tenir compte d'un nombre croissant d'obstacles Ã la validitÃ© de ses infÃ©rences causales.

RÃ©fÃ©rences : ModÃ¨les d'Ã©valuation

Abt, C.G., Ã©d., The Evaluation of Social Programs, Thousand Oaks : Sage Publications, 1976.

Boruch, R.F., Â«Conducting Social ExperimentsÂ», Evaluation Practice in Review, Vol. 34 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1987.

Campbell, D.T. et J.C. Stanley, Experimental and Quasi-experimental Designs for Research, Chicago : Rand-McNally, 1963.

Cook, T.D. et D.T. Campbell, Quasi-experimentation: Designs and Analysis Issues for Field Settings, Chicago : Rand-McNally, 1979.

Datta, L. et R. Perloff, Improving Evaluations, Thousand Oaks : Sage Publications, 1979, section II.

Globerson, AryÃ©, et al., You Can't Manage What You Don't Measure: Control and Evaluation in Organizations, Brookfield : Gower Publications, 1991.

Rossi, P.H. et H.E. Freeman, Evaluation: A Systematic Approach (2^e Ã©dition), Thousand Oaks : Sage Publications, 1989.

Trochim, W.M.K., Ã©d., Advances in Quasi-experimental Design and Analysis, Vol. 31 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1986.

Watson, Kenneth, Â«Program Design Can Make Outcome Evaluation Impossible: A Review of Four Studies of Community Economic Development ProgramsÂ», Canadian Journal of Program Evaluation, Vol. 10, N^o 1, avril-mai 1995, p. 59 Ã 72.

Weiss, C.H., Evaluation Research, Englewood Cliffs (NJ) : Prentice-Hall, 1972, chapitre 4.

3.2 ModÃ¨les expÃ©rimentaux alÃ©atoires

L'approche la plus rigoureuse pour Ã©tablir des relations causales entre un programme et ses rÃ©sultats est celle des modÃ¨les expÃ©rimentaux. S'ils sont bien appliquÃ©s, ces modÃ¨les fournissent les preuves les plus concluantes des effets du programme. Malheureusement, pour bien des programmes gouvernementaux, ils sont impossibles Ã mettre en oeuvre, pour peu que le programme soit offert depuis un certain temps. NÃ©anmoins, ils sont importants, et ce pour les deux raisons suivantes.

PremiÃ¨rement, ils sont aussi prÃ¨s que possible du modÃ¨le d'Ã©valuation idÃ©al que nous venons de dÃ©crire. Par consÃ©quent, mÃªme s'il n'est pas possible d'appliquer un modÃ¨le expÃ©rimental, les modÃ¨les moins rigoureux sont souvent cotÃ©s selon leur degrÃ© de conformitÃ© Ã ce modÃ¨le expÃ©rimental, et c'est pour cette raison qu'il est important de comprendre leurs avantages et leurs inconvÃ©nients.

DeuxiÃ¨mement, malgrÃ© leurs difficultÃ©s d'ordre pratique, les modÃ¨les expÃ©rimentaux peuvent Ãªtre utilisÃ©s pour Ã©valuer de nombreux programmes; ils l'ont souvent Ã©tÃ©, d'ailleurs. Par exemple, on s'est servi d'un modÃ¨le expÃ©rimental pour Ã©valuer les programmes scolaires conÃ§us afin de prÃ©venir la consommation et l'abus d'alcool chez les adolescents, en faisant appel Ã un groupe expÃ©rimental et Ã un groupe tÃ©moin (certaines classes ayant accÃ¨s au programme et d'autres pas) pour obtenir des mesures de l'attitude, des connaissances, des intentions et de la consommation rÃ©elle de boissons alcooliques (Schlegel, 1977).

Les modÃ¨les expÃ©rimentaux ou alÃ©atoires sont caractÃ©risÃ©s par la rÃ©partition alÃ©atoire des participants Ã©ventuels entre le groupe expÃ©rimental et le groupe tÃ©moin, afin d'assurer l'Ã©quivalence des deux. On dit qu'il s'agit d'expÃ©riences, en ce sens que les participants au programme sont choisis au hasard parmi tous les candidats possibles. Il existe un grand nombre de modÃ¨les expÃ©rimentaux, dont les quatre suivants :

modÃ¨le alÃ©atoire classique avec groupe tÃ©moin;
modÃ¨le alÃ©atoire avec mesure aprÃ¨s le programme seulement et groupe tÃ©moin;
modÃ¨le avec blocs alÃ©atoires et carrÃ© latin;
modÃ¨le factoriel.

Il ne faut pas oublier que l'expression modÃ¨le alÃ©atoire n'est pas synonyme d'Ã©chantillonnage alÃ©atoire. Dans le premier cas, on choisit au hasard des membres d'une population cible soit pour le groupe tÃ©moin, soit pour le groupe expÃ©rimental, tandis que dans le second, on se fonde sur un calcul des probabilitÃ©s pour choisir un Ã©chantillon d'une population donnÃ©e. L'Ã©chantillonnage alÃ©atoire fondÃ© sur deux populations diffÃ©rentes ne gÃ©nÃ©rerait pas de groupes Ã©quivalents aux fins d'une Ã©valuation expÃ©rimentale.

ModÃ¨le alÃ©atoire classique avec groupe tÃ©moin

On entend par lÃ un modÃ¨le expÃ©rimental classique, qui peut Ãªtre reprÃ©sentÃ© de la faÃ§on suivante, Â«RÂ» dÃ©signant une rÃ©partition alÃ©atoire :

	Mesure avant	Exposition au programme	Mesure aprÃ¨s
Groupe expÃ©rimental (R)	0₁	X	0₃
Groupe tÃ©moin (R)	0₂		0₄

Dans ce modÃ¨le, les participants Ã©ventuels au programme qui font partie de la population cible sont choisis au hasard, pour Ãªtre rÃ©partis dans le groupe expÃ©rimental (oÃ¹ ils sont exposÃ©s au programme) ou le groupe tÃ©moin. On prend des mesures avant et aprÃ¨s le programme (mesures prÃ©alables et postÃ©rieures au programme), dont le rÃ©sultat net est reprÃ©sentÃ© schÃ©matiquement par la formule (0₃ - 0₄) - (0₁ - 0₂).

La rÃ©partition alÃ©atoire (ou, si l'on prÃ©fÃ¨re, la randomisation) signifie qu'il y a pour chaque membre de la population cible une probabilitÃ© connue qu'il soit choisi pour faire partie du groupe expÃ©rimental ou du groupe tÃ©moin. Ces probabilitÃ©s sont souvent Ã©gales, auquel cas chaque membre a des chances Ã©gales d'Ãªtre choisi pour faire partie d'un groupe ou de l'autre. Par suite de cette randomisation, les groupes expÃ©rimental et tÃ©moin sont mathÃ©matiquement Ã©quivalents, ce qui signifie que les valeurs attendues de 0₁ et 0₂ sont Ã©gales. Toutefois, les mesures rÃ©elles prises avant le programme peuvent varier de faÃ§on alÃ©atoire, et c'est pourquoi elles peuvent donner une meilleure idÃ©e du rÃ©sultat net, puisqu'elles permettent de tenir compte de toute diffÃ©rence susceptible d'exister entre les groupes (0₁ - 0₂) en dÃ©pit de la randomisation. Bref, dans ce modÃ¨le, l'intervention du programme (ou le traitement) est la seule diffÃ©rence, Ã part le hasard, entre le groupe expÃ©rimental et le groupe tÃ©moin.

ModÃ¨le alÃ©atoire avec mesure aprÃ¨s le programme seulement et groupe tÃ©moin

Le modÃ¨le alÃ©atoire classique a notamment pour inconvÃ©nient d'Ãªtre vulnÃ©rable Ã une distorsion attribuable Ã l'essai. La validitÃ© de l'Ã©valuation est en effet menacÃ©e puisque la mesure prÃ©alable au programme elle-mÃªme peut influer sur le comportement du groupe expÃ©rimental ou du groupe tÃ©moin (ou des deux), et ce Ã tel point que toute infÃ©rence causale que l'Ã©valuateur pourrait vouloir faire risquerait d'Ãªtre mise en doute. Pour Ã©viter cette difficultÃ©, l'Ã©valuateur peut dÃ©cider de ne pas faire de mesure avant le programme, auquel cas le schÃ©ma de son modÃ¨le se prÃ©sente comme suit :

	Exposition au programme	Mesure aprÃ¨s
Groupe expÃ©rimental (R)	X	0₁
Groupe tÃ©moin (R)		0₂

Le modÃ¨le alÃ©atoire avec mesure aprÃ¨s le programme peut Ãªtre extrÃªmement rigoureux. Toutefois, il faut bien se rappeler que, mÃªme avec une rÃ©partition alÃ©atoire, il se peut que les deux groupes choisis soient nettement diffÃ©rents quant aux mesures d'intÃ©rÃªt. On n'est donc jamais sÃ»r d'avoir complÃ¨tement Ã©liminÃ© les diffÃ©rences entre les groupes initiaux susceptibles d'influer sur le rÃ©sultat de l'Ã©valuation.

ModÃ¨le avec blocs alÃ©atoires et carrÃ© latin

Afin de minimiser la probabilitÃ© que l'effet net d'un programme soit imputable Ã une erreur d'Ã©chantillonnage, il est prÃ©fÃ©rable d'utiliser un Ã©chantillon aussi gros que possible. Malheureusement, cela peut coÃ»ter fort cher. Pour Ã©viter cet Ã©cueil, on pourrait combiner la rÃ©partition alÃ©atoire et l'appariement des sujets (constitution de blocs) lorsqu'il faut absolument utiliser des Ã©chantillons relativement petits. L'appariement consiste Ã diviser la population cible dans laquelle les membres du groupe expÃ©rimental et du groupe tÃ©moin sont choisis en Â«blocsÂ» dÃ©finis en fonction d'une ou de plusieurs variables qui devraient influer sur les rÃ©sultats du programme.

Par exemple, si l'on s'attend Ã ce que les urbains rÃ©agissent plus favorablement que les ruraux Ã un programme social, on peut constituer deux blocs, l'un urbain et l'autre rural. Ensuite, Ã l'intÃ©rieur de chaque bloc, on fait une rÃ©partition alÃ©atoire pour choisir les membres du groupe expÃ©rimental et du groupe tÃ©moin. Cette approche pourrait contribuer Ã assurer une participation raisonnablement Ã©gale des sujets urbains et ruraux. En fait, on devrait toujours opter pour l'appariement des sujets lorsque les variables importantes sont connues.

Bien entendu, les groupes peuvent Ãªtre appariÃ©s en fonction de plus d'une variable. NÃ©anmoins, l'augmentation du nombre de variables fait vite augmenter le nombre de blocs et, par consÃ©quent, la taille de l'Ã©chantillon nÃ©cessaire. Ainsi, quand on s'attend Ã ce que la langue officielle parlÃ©e (le franÃ§ais ou l'anglais) influe sur les rÃ©sultats du programme, il faut envisager de crÃ©er les blocs suivants : urbain anglophone, rural anglophone, urbain francophone et rural francophone. En outre, puisque chaque bloc doit contenir un groupe expÃ©rimental et un groupe tÃ©moin, il faut en constituer huit en tout, en respectant pour chacun les rÃ¨gles relatives Ã la taille minimale de l'Ã©chantillon. Heureusement, il existe des mÃ©thodes pour rÃ©duire le nombre de groupes nÃ©cessaires, comme le modÃ¨le du carrÃ© latin. Ces mÃ©thodes ne peuvent toutefois Ãªtre employÃ©es que si les effets d'interaction entre les variables du groupe expÃ©rimental et du groupe tÃ©moin sont relativement minimes.

ModÃ¨le factoriel

Dans les modÃ¨les classiques et dans ceux qui font appel Ã des blocs alÃ©atoires, il n'y a qu'une seule variable expÃ©rimentale (ou de traitement) en jeu. Or, les programmes font souvent appel Ã toute une sÃ©rie d'incitations pour aiguiller les bÃ©nÃ©ficiaires vers un rÃ©sultat recherchÃ©. Quand l'Ã©valuateur est en mesure de distinguer les effets des diffÃ©rentes mÃ©thodes d'intervention utilisÃ©es, il peut avoir recours Ã un modÃ¨le factoriel, ce qui lui permet non seulement de distinguer les effets particuliers de chaque variable expÃ©rimental, mais aussi d'estimer les effets nets mixtes (les effets d'interaction) de paires de variables expÃ©rimentales. C'est un grand avantage, puisqu'on observe souvent des effets d'interaction dans les phÃ©nomÃ¨nes sociaux. Par exemple, les effets combinÃ©s d'une hausse des taxes sur le tabac et d'une augmentation du budget anti-tabagisme peuvent Ãªtre plus marquÃ©s que la somme des effets isolÃ©s des deux.

Avantages et inconvÃ©nients

Les modÃ¨les expÃ©rimentaux sont les plus rigoureux lorsqu'il s'agit de faire des infÃ©rences causales sur les rÃ©sultats des programmes. Ils permettent en effet d'Ã©liminer la plupart des obstacles Ã la validitÃ© interne, puisqu'ils font appel Ã un groupe tÃ©moin, Ã des modÃ¨les alÃ©atoires ainsi qu'Ã des modÃ¨les avec blocs alÃ©atoires et Ã des modÃ¨les factoriels. Leur principal inconvÃ©nient est qu'ils sont souvent difficiles Ã appliquer.

Malheureusement, la randomisation (c.-Ã -d. la rÃ©partition alÃ©atoire entre le groupe expÃ©rimental et le groupe tÃ©moin) n'est souvent pas possible :

quand toute la population cible bÃ©nÃ©ficie du programme, il n'existe aucune variable pouvant servir Ã la constitution d'un groupe tÃ©moin;
quand le programme fonctionne depuis assez longtemps, il risque probablement d'exister des diffÃ©rences sensibles entre ceux qui y ont participÃ© (le groupe expÃ©rimental Ã©ventuel) et les autres (le groupe tÃ©moin Ã©ventuel);
il peut Ãªtre illÃ©gal ou immoral de faire bÃ©nÃ©ficier du programme certaines personnes (les membres du groupe expÃ©rimental) en en privant d'autres (les membres du groupe tÃ©moin).

La plupart des programmes gouvernementaux correspondent manifestement Ã au moins un des cas qui prÃ©cÃ¨dent, ce qui fait que la randomisation est extrÃªmement difficile Ã leur Ã©gard, sauf peut-Ãªtre s'ils sont considÃ©rÃ©s comme une vÃ©ritable expÃ©rience, comme dans un programme pilote.

Les modÃ¨les expÃ©rimentaux sont toujours vulnÃ©rables Ã tous les obstacles Ã la validitÃ© externe et Ã certains de ceux qui sapent la validitÃ© interne.

MÃªme avec un modÃ¨le expÃ©rimental, la difficultÃ© de gÃ©nÃ©raliser Ã partir des conclusions sur les rÃ©sultats d'un programme n'est pas automatiquement Ã©liminÃ©e. Par exemple, la randomisation aux fins de gÃ©nÃ©ralisation est une tout autre question que la sÃ©lection alÃ©atoire des groupes expÃ©rimental et tÃ©moin, car elle exige que la population cible initiale Ã partir de laquelle les deux groupes seront crÃ©Ã©s soit elle-mÃªme choisie au hasard Ã mÃªme la population des bÃ©nÃ©ficiaires Ã©ventuels en gÃ©nÃ©ral (soit la population des sujets Ã l'Ã©gard desquels l'Ã©valuateur peut souhaiter gÃ©nÃ©raliser ses rÃ©sultats).

En outre, plusieurs obstacles importants Ã la validitÃ© interne perdurent, malgrÃ© le choix au hasard des membres des deux groupes :

l'attrition diffÃ©rentielle (ou le retrait des membres des groupes expÃ©rimental et tÃ©moin) pourrait fausser la randomisation initiale;
la diffusion du traitement entre les deux groupes pourrait fausser les rÃ©sultats.

De plus, le modÃ¨le expÃ©rimental classique prÃ©sente lui aussi des risques :

des changements d'instruments pourraient de toute Ã©vidence fausser les mesures prises;
la rÃ©action Ã l'essai pourrait entraÃ®ner des comportements diffÃ©rents des membres du groupe expÃ©rimental et du groupe tÃ©moin.

Comme ces deux derniers facteurs sont essentiellement attribuables aux essais prÃ©alables, le modÃ¨le alÃ©atoire avec mesure aprÃ¨s le programme seulement en comparaison avec le groupe tÃ©moin peut les Ã©viter, comme nous l'avons dÃ©jÃ expliquÃ©. Il faudrait nÃ©anmoins comprendre clairement que, en dÃ©pit de leurs avantages, les rÃ©sultats obtenus grÃ¢ce aux modÃ¨les expÃ©rimentaux devraient Ãªtre interprÃ©tÃ©s avec beaucoup de circonspection.

RÃ©fÃ©rences : ModÃ¨les expÃ©rimentaux alÃ©atoires

Boruch, R.F., Â«Conducting Social ExperimentsÂ», Evaluation Practice in Review, Vol. 34 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1987, p. 45 Ã 66.

Boruch, R.F., Â«On Common Contentions About Randomized Field ExperimentsÂ», in Gene V. Glass, Ã©d., Evaluation Studies Review Annual, Thousand Oaks : Sage Publications, 1976.

Campbell, D., Â«Considering the Case Against Experimental Evaluations of Social InnovationsÂ», Administrative Science Quarterly, Vol. 15, N^o 1, 1970, p. 111 Ã 122.

Eaton, Frank, Â«Measuring Program Effects in the Presence of Selection Bias: The Evolution of PracticeÂ», Canadian Journal of Program Evaluation, Vol. 9, N^o 2, octobre-novembre 1994, p. 57 Ã 70.

Trochim, W.M.K., Ã©d., Â«Advances in Quasi-experimental Design and AnalysisÂ», Vol. 31 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1986.

3.3 ModÃ¨les quasi expÃ©rimentaux

MÃªme lorsqu'on est incapable de faire une randomisation, il peut Ãªtre possible d'Ã©tablir un groupe tÃ©moin ressemblant suffisamment au groupe expÃ©rimental pour permettre des infÃ©rences valides sur les rÃ©sultats attribuables au programme. Dans la prÃ©sente section, on entend par Â«modÃ¨les quasi expÃ©rimentauxÂ» ceux pour lesquels on a recours Ã un groupe tÃ©moin non alÃ©atoire pour faire des infÃ©rences sur les rÃ©sultats d'un programme. Le groupe tÃ©moin pourrait Ãªtre soit un groupe crÃ©Ã© de toutes piÃ¨ces qui n'a pas Ã©tÃ© exposÃ© au programme, soit un groupe rÃ©flexif, c'est-Ã -dire le groupe expÃ©rimental lui-mÃªme avant son exposition au programme.

Nous allons dÃ©crire trois modÃ¨les quasi expÃ©rimentaux gÃ©nÃ©raux, Ã savoir :

les modÃ¨les Ã mesures avant et aprÃ¨s le programme;
les modÃ¨les Ã sÃ©rie temporelle ou modÃ¨les chronologiques;
les modÃ¨les Ã mesures prises aprÃ¨s le programme seulement.

Les trois modÃ¨les sont prÃ©sentÃ©s en ordre de rigueur descendant, mÃªme si le degrÃ© d'Ã©quivalence entre le groupe expÃ©rimental et le groupe tÃ©moin est le facteur dÃ©terminant de la rigueur du modÃ¨le dans chaque cas.

3.3.1 ModÃ¨les dont les mesures sont prises avant et aprÃ¨s le programme

Il y a fondamentalement deux types de modÃ¨les de ce genre, ceux dont les mesures sont prises avant et aprÃ¨s le programme avec groupe tÃ©moin non Ã©quivalent et ceux dont les mesures sont prises avant et aprÃ¨s le programme avec un seul groupe, le groupe expÃ©rimental. Dans le premier cas, on utilise un groupe tÃ©moin crÃ©Ã©; dans le second, un groupe tÃ©moin rÃ©flexif.

ModÃ¨les dont les mesures sont prises avant et aprÃ¨s le programme avec groupe tÃ©moin non Ã©quivalent

Ce modÃ¨le, dont la structure est analogue Ã celle du modÃ¨le expÃ©rimental classique, est fondÃ© sur des mesures prises avant et aprÃ¨s le programme dans le groupe expÃ©rimental et dans un groupe tÃ©moin.

	Mesure avant	Exposition au programme	Mesure aprÃ¨s
Groupe expÃ©rimental	0₁	X	0₃
Groupe tÃ©moin	0₂		0₄

Le groupe tÃ©moin est choisi de faÃ§on que ses caractÃ©ristiques importantes ressemblent le plus possible Ã celles du groupe expÃ©rimental. Le degrÃ© de similaritÃ© entre les groupes est dÃ©terminÃ© grÃ¢ce Ã une comparaison effectuÃ©e avant le programme. Dans la mesure oÃ¹ l'on a rÃ©alisÃ© un bon appariement (fondÃ© sur les variables qui semblent exercer une influence sur celles des rÃ©sultats), on peut dire que ce modÃ¨le s'apparente au modÃ¨le alÃ©atoire avec groupe tÃ©moin, et qu'il permet de minimiser les obstacles Ã la validitÃ© interne. Malheureusement, il est gÃ©nÃ©ralement difficile d'apparier parfaitement toutes les variables importantes, de sorte qu'il subsiste normalement au moins une autre explication plausible des rÃ©sultats observÃ©s nets du programme, Ã savoir que les deux groupes n'Ã©taient pas Ã©gaux au dÃ©part.

ModÃ¨le dont les mesures sont prises avant et aprÃ¨s le programme avec un seul groupe

On utilise souvent ce modÃ¨le simple en dÃ©pit de toute ses lacunes intrinsÃ¨ques, probablement parce que c'est celui qui ressemble le plus Ã ce qu'on entend communÃ©ment par les rÃ©sultats d'un programme, Ã savoir les changements survenus entre la pÃ©riode antÃ©rieure au programme et celle qui lui est postÃ©rieure. On peut le reprÃ©senter de la faÃ§on suivante :

	Mesure avant	Exposition au programme	Mesure aprÃ¨s
Groupe expÃ©rimental	0₁	X	0₂

De nombreux obstacles peuvent saper la validitÃ© interne de ce modÃ¨le, car bien des explications plausibles pourraient justifier les diffÃ©rences constatÃ©es entre O₂ et 0_1, puisque le groupe tÃ©moin est en l'occurrence le groupe expÃ©rimental avant son exposition au programme (c'est un groupe tÃ©moin rÃ©flexif). L'absence de groupe tÃ©moin distinct signifie que la plupart des obstacles Ã la validitÃ© interne sont prÃ©sents. Les Ã©vÃ©nements historiques risquent d'ailleurs de poser un problÃ¨me, Ã©tant donnÃ© que le modÃ¨le ne peut tenir compte des Ã©vÃ©nements extÃ©rieurs au programme qui influent sur les rÃ©sultats observÃ©s. La maturation normale de la population visÃ©e peut elle-mÃªme expliquer les changements, le cas Ã©chÃ©ant. En outre, le changement observÃ© peut Ãªtre simplement un facteur de rÃ©gression, et O₁ peut Ãªtre anormalement faible, de sorte que la mesure 0₂ - 0₁ porte davantage sur une fluctuation alÃ©atoire que sur un changement attribuable au programme. Enfin, les essais, les instruments et l'attrition peuvent tous poser des problÃ¨mes.

Le seul avantage de ce modÃ¨le est sa simplicitÃ©. Si l'Ã©valuateur rÃ©ussit Ã tenir suffisamment compte des facteurs externes, le modÃ¨le fournit de l'information et des donnÃ©es raisonnablement valides et concluantes. Dans le domaine des sciences naturelles, on arrive habituellement Ã contrÃ´ler suffisamment les facteurs externes, en laboratoire, mais c'est beaucoup plus difficile dans le domaine des sciences sociales.

3.3.2 ModÃ¨les Ã sÃ©rie temporelle ou modÃ¨les chronologiques

Les modÃ¨les Ã sÃ©rie temporelle ou modÃ¨les chronologiques sont caractÃ©risÃ©s par une sÃ©rie de mesures Ã©chelonnÃ©es dans le temps Ã la fois avant et aprÃ¨s l'exposition au programme. Tous les modÃ¨les que nous avons dÃ©crits dont les mesures sont prises avant et aprÃ¨s le programme pourraient Ãªtre transformÃ©s en modÃ¨les chronologiques. Autrement dit, les modÃ¨les chronologiques pour lesquels il n'existe que quelques mesures avant et aprÃ¨s le programme sont vulnÃ©rables aux mÃªmes obstacles influant sur la validitÃ© interne que les modÃ¨les Ã mesures uniques correspondants. Ã€ l'inverse, une sÃ©rie complÃ¨te de mesures avant et aprÃ¨s le programme permet Ã l'Ã©valuateur d'Ã©liminer un grand nombre de ces obstacles, en analysant les tendances antÃ©rieures et postÃ©rieures au programme.

Nous allons maintenant dÃ©crire deux modÃ¨les chronologiques :

le modÃ¨le de base Ã sÃ©rie temporelle
le modÃ¨le Ã sÃ©rie temporelle avec groupe tÃ©moin non Ã©quivalent.

ModÃ¨le de base Ã sÃ©rie temporelle

Le modÃ¨le de base Ã sÃ©rie temporelle est un modÃ¨le chronologique courant grÃ¢ce auquel on peut prendre un nombre quelconque de mesures antÃ©rieures et postÃ©rieures au programme. Il peut Ãªtre reprÃ©sentÃ© comme suit :

	Mesure avant	Exposition au programme	Mesure aprÃ¨s
Groupe expÃ©rimental	0₁0₂0₃0₄	X	0₅0₆0₇0₈

Avec ce modÃ¨le, l'Ã©valuateur peut dÃ©terminer les effets d'un programme donnÃ© en fonction du changement qui se manifeste dans la sÃ©rie de mesures prises avant et aprÃ¨s l'exposition au programme. Si les donnÃ©es de la sÃ©rie temporelle sont fiables, le modÃ¨le peut Ãªtre relativement rigoureux, auquel cas il permet d'Ã©liminer de nombreux obstacles Ã la validitÃ© interne, notamment les effets de maturation et d'essai. Certains autres obstacles subsistent quand mÃªme, notamment ceux relatifs aux Ã©vÃ©nements historiques, parce que les modÃ¨les Ã sÃ©rie temporelle ne peuvent Ã©liminer le risque qu'un facteur autre que le programme ait produit le changement entre le moment oÃ¹ les mesures ont Ã©tÃ© prises avant le programme et celui oÃ¹ elles l'ont Ã©tÃ© aprÃ¨s.

ModÃ¨les Ã sÃ©rie temporelle avec groupe tÃ©moin non Ã©quivalent

Les modÃ¨les Ã sÃ©rie temporelle peuvent Ãªtre amÃ©liorÃ©s lorsqu'on y ajoute des groupes tÃ©moins, comme dans le modÃ¨le Ã sÃ©rie temporelle avec groupe tÃ©moin non Ã©quivalent ci-dessous :

	Mesure avant	Exposition au programme	Mesure aprÃ¨s
Groupe expÃ©rimental	0₁0₂0₃0₄0₅	X	0₁₁0₁₂0₁₃0₁₄0₁₅
Groupe tÃ©moin	0₆0₇0₈0₉0₁₀		0₁₆0₁₇0₁₈0₁₉0₂₀

Puisque le groupe expÃ©rimental et le groupe tÃ©moin devraient normalement Ãªtre soumis aux mÃªmes facteurs externes, il est peu probable qu'un changement observÃ© soit attribuable Ã un autre facteur que le programme. Comme pour n'importe quel modÃ¨le dans lequel on utilise un groupe tÃ©moin non Ã©quivalent, il faut toutefois que les groupes se ressemblent suffisamment en ce qui concerne les caractÃ©ristiques Ã©tudiÃ©es. Si c'est le cas, un modÃ¨le chronologique comme celui-ci peut se rÃ©vÃ©ler trÃ¨s rigoureux.

Il faut quand mÃªme signaler un certain nombre des avantages et des inconvÃ©nients de ces modÃ¨les.

Les modÃ¨les chronologiques fondÃ©s sur des donnÃ©es de sÃ©rie temporelle fiables peuvent Ã©liminer de nombreux obstacles Ã la validitÃ© interne.

Cette caractÃ©ristique est attribuable au fait que, lorsqu'ils sont bien exÃ©cutÃ©s, ces modÃ¨les rendent possibles une certaine Ã©valuation de la tendance de maturation avant l'intervention du programme.

Les modÃ¨les chronologiques peuvent Ãªtre utilisÃ©s pour analyser divers effets du programme dÃ©pendant du facteur temps.

L'aspect longitudinal des modÃ¨les historiques permet Ã l'Ã©valuateur qui s'en sert d'analyser plusieurs questions en dÃ©terminant, par exemple, si l'effet observÃ© est continu ou s'il s'estompe avec le temps et s'il est immÃ©diat ou Ã retardement, ou encore saisonnier. Chaque fois qu'une question de ce genre est importante, il faut utiliser un modÃ¨le comme celui-lÃ .

On n'a pas toujours de donnÃ©es fiables pour mener l'analyse Ã sÃ©rie temporelle qui s'impose.

Les modÃ¨les chronologiques posent de nombreux problÃ¨mes de donnÃ©es. Par exemple, les sÃ©ries temporelles utilisables sont souvent plus courtes que celles qu'on recommande normalement pour l'analyse statistique (il n'y a pas suffisamment de donnÃ©es); on peut en outre avoir utilisÃ© diffÃ©rentes mÃ©thodes de collecte des donnÃ©es au cours de la pÃ©riode Ã l'Ã©tude, et il se peut aussi que les indicateurs aient changÃ© avec le temps.

Lorsqu'on utilise un modÃ¨le chronologique, il faut ordinairement faire une analyse spÃ©ciale des sÃ©ries temporelles.

Les rÃ©gressions des moindres carrÃ©s les plus courantes ne se prÃªtent pas Ã l'analyse des sÃ©ries temporelles. Il faut donc recourir Ã diverses techniques spÃ©cialisÃ©es (voir par exemple Cook et Campbell, 1979, chapitre 6; Fuller, 1976; Jenkins, 1979; et Ostrom, 1978).

3.3.3 ModÃ¨les dont les mesures sont prises aprÃ¨s le programme seulement

Dans le cas de ces modÃ¨les, les mesures sont prises uniquement aprÃ¨s l'exposition au programme, ce qui Ã©limine les obstacles associÃ©s aux essais et aux instruments. NÃ©anmoins, puisqu'il n'existe pas d'information sur la situation antÃ©rieure au programme, d'importants obstacles Ã la validitÃ© subsistent, mÃªme lorsqu'on utilise un groupe tÃ©moin. Nous allons dÃ©crire deux modÃ¨les de ce genre.

ModÃ¨le dont les mesures sont prises aprÃ¨s le programme seulement avec groupe tÃ©moin non Ã©quivalent

Ce genre de modÃ¨le se prÃ©sente comme suit :

	Exposition au programme	Mesure aprÃ¨s
Groupe expÃ©rimental	X	0₁
Groupe tÃ©moin		0₂

La sÃ©lection et l'attrition sont les principaux obstacles Ã la validitÃ© interne d'un modÃ¨le de ce genre. Il est absolument impossible de savoir si les deux groupes Ã©taient Ã©quivalent avant l'exposition au programme. Il se pourrait donc que l'Ã©cart entre O₁ et O₂ soit simplement le reflet de leur diffÃ©rence initiale et ne soit donc pas attribuable Ã l'exposition au programme. Qui plus est, on ne connaÃ®t pas le taux d'abandon du programme (effet attribuable Ã l'attrition), faute d'avoir pris des mesures avant son exÃ©cution. Enfin, mÃªme si les deux groupes avaient Ã©tÃ© Ã©quivalents au dÃ©part, il est possible que O₁ ou O₂ n'incluent pas les personnes qui ont abandonnÃ© le programme, ce qui risque d'entraÃ®ner une distorsion des estimations de ses effets.

ModÃ¨le dont les mesures sont prises aprÃ¨s le programme seulement avec traitements diffÃ©rents

C'est un modÃ¨le plus juste, qui se prÃ©sente de la faÃ§on suivante :

	Exposition au programme	Mesure aprÃ¨s
Groupe 1	X₁	0₁
Groupe 2	X₂	0₂
Groupe 3	X₃	0₃
Groupe 4	X₄	0₄

Dans ce cas-ci, diffÃ©rents groupes bÃ©nÃ©ficient du programme Ã des degrÃ©s diffÃ©rents, ce qui peut arriver lorsqu'il y a des variantes rÃ©gionales de la prestation et des avantages d'un programme national. Si les Ã©chantillons sont suffisamment importants, on pourrait faire une analyse statistique pour Ã©tablir le lien entre les diffÃ©rents niveaux d'application du programme et les rÃ©sultats observÃ©s (O₁), tout en tenant compte aussi des autres variables.

Pour ce modÃ¨le comme pour le prÃ©cÃ©dent, la sÃ©lection et l'attrition sont les principaux obstacles Ã la validitÃ© interne.

Avantages et inconvÃ©nients

Il faut de la crÃ©ativitÃ© et du talent pour concevoir un modÃ¨le quasi expÃ©rimental, qui peut toutefois gÃ©nÃ©rer des constatations trÃ¨s prÃ©cises.

Souvent, il n'y a rien de mieux pour faire une Ã©valuation que d'utiliser un modÃ¨le quasi expÃ©rimental. En effet, si la randomisation ne permet pas d'Ã©tablir l'Ã©quivalence du groupe expÃ©rimental et du groupe tÃ©moin, la meilleure solution consiste Ã exploiter toutes ses connaissances prÃ©alables pour choisir le modÃ¨le expÃ©rimental le moins entachÃ© de facteurs de confusion. D'ailleurs, un modÃ¨le quasi expÃ©rimental bien exÃ©cutÃ© peut aboutir Ã des constatations plus fiables que celles d'un modÃ¨le expÃ©rimental mal appliquÃ©.

Les modÃ¨les quasi expÃ©rimentaux peuvent Ãªtre moins coÃ»teux et plus faciles Ã appliquer que les modÃ¨les expÃ©rimentaux.

Puisque les modÃ¨les quasi expÃ©rimentaux n'exigent pas le traitement au hasard et un groupe tÃ©moin, leur utilisation peut Ãªtre moins coÃ»teuse et leur application plus facile que celles des modÃ¨les expÃ©rimentaux.

Lorsqu'on utilise un modÃ¨le quasi expÃ©rimental, il faut tenir compte individuellement de chaque obstacle Ã la validitÃ© interne.

La mesure dans laquelle les obstacles Ã la validitÃ© interne posent un problÃ¨me est largement fonction de celle dans laquelle l'Ã©valuateur rÃ©ussit Ã apparier le groupe expÃ©rimental et le groupe tÃ©moin. S'il rÃ©ussit Ã dÃ©finir et Ã apparier convenablement les principales variables Ã Ã©tudier, il peut rÃ©duire Ã©normÃ©ment les obstacles Ã la validitÃ© interne. Malheureusement, il est souvent impossible d'apparier toutes ces variables-lÃ .

Pour choisir le modÃ¨le appropriÃ©, l'Ã©valuateur devrait examiner les modÃ¨les quasi expÃ©rimentaux envisageables, dÃ©terminer les principaux obstacles Ã la validitÃ© de chacun et choisir celui qui lui permet d'Ã©liminer ou de rÃ©duire le plus les principaux obstacles, ou au moins de tenir compte de leur impact.

3.4 ModÃ¨les implicites

Les modÃ¨les implicites sont probablement ceux qu'on utilise le plus souvent, mais ce sont aussi les moins rigoureux. Souvent, il est impossible d'en tirer des conclusions fiables. Par contre, ils peuvent s'imposer dans les cas oÃ¹ l'on peut soutenir logiquement qu'un rÃ©sultat est attribuable au programme. Au fond, ce sont des modÃ¨les dont les mesures sont prises aprÃ¨s le programme, sans groupe tÃ©moin. SchÃ©matiquement, on peut les reprÃ©senter comme suit :

	Exposition au programme	Mesure aprÃ¨s
Groupe expÃ©rimental	X	0₁

Comme on peut le constater dans cet exemple, l'envergure des effets du programme est inconnue (puisqu'il n'y a aucune mesure prise avant), et il est impossible d'arriver Ã des constatations manifestes au sujet de l'attribution (0₁ pourrait Ãªtre attribuable Ã une foule de facteurs). Dans la pire des Ã©ventualitÃ©s, cela suppose qu'on demande aux participants s'ils ont Â«aimÃ©Â» le programme. Les tÃ©moignages positifs sont alors prÃ©sentÃ©s comme preuves de son succÃ¨s. Campbell (1977), entre autres, dÃ©plore cette mÃ©thode d'Ã©valuation pourtant trÃ¨s rÃ©pandue.

Bien que sa popularitÃ© soit en partie attribuable Ã une mauvaise conception de l'Ã©valuation, il arrive parfois que ce modÃ¨le soit le seul utilisable, lorsqu'il n'existe pas de mesures antÃ©rieures au programme, ni de groupe tÃ©moin. En pareil cas, il vaudrait mieux tirer le meilleur parti de la situation en convertissant le modÃ¨le implicite en un modÃ¨le implicite quasi expÃ©rimental, auquel cas il y a trois possibilitÃ©s :

modÃ¨le avec groupe tÃ©moin thÃ©orique,
modÃ¨le avec mesures antÃ©rieures au programme rÃ©trospectives,
modÃ¨le d'estimation directe de la diffÃ©rence.

Nous allons maintenant dÃ©crire ces trois modÃ¨les.

ModÃ¨le dont les mesures sont prises aprÃ¨s le programme seulement avec groupe tÃ©moin thÃ©orique

Ce modÃ¨le, pour lequel on postule l'Ã©quivalence d'un groupe tÃ©moin thÃ©orique, ressemble Ã un modÃ¨le quasi expÃ©rimental dont les mesures sont prises aprÃ¨s le programme seulement avec groupe tÃ©moin non Ã©quivalent. Il se prÃ©sente de la faÃ§on suivante :

	Exposition au programme	Mesure aprÃ¨s
Groupe expÃ©rimental	X	0₁
Groupe tÃ©moin thÃ©orique		0₂^*

La diffÃ©rence, c'est que la mesure O₂^* est postulÃ©e plutÃ´t qu'observÃ©e. L'Ã©valuateur pourrait thÃ©oriquement postuler que le rÃ©sultat serait infÃ©rieur Ã un certain niveau si le programme n'avait pas existÃ©. Par exemple, dans le cas d'un programme conÃ§u pour sensibiliser la population aux effets nocifs de la cafÃ©ine, on pourrait supposer que les connaissances de la Canadienne ou du Canadien moyen (0₂^*) seraient nÃ©gligeables en l'absence d'un programme d'information nationale. Prenons un autre exemple : la dÃ©termination de l'avantage Ã©conomique d'un programme ou d'un projet de l'Ã‰tat. En l'absence d'un programme, on postule souvent que l'investissement Ã©quivalent laissÃ© Ã l'initiative du secteur privÃ© aurait un taux de rendement social moyen de 10 p. 100, soit le 0₂^* dans ce cas, ce qui signifie qu'on comparerait alors le taux de rendement du projet d'investissement gouvernemental (0₁) Ã la norme de 10 p. 100 du secteur privÃ© (0₂^*).

ModÃ¨le dont les mesures sont prises aprÃ¨s le programme seulement avec mesures antÃ©rieures rÃ©trospectives

Dans ce cas, on obtient bel et bien des mesures avant le programme, quoique aprÃ¨s l'exposition, de sorte que le modÃ¨le ressemble Ã un modÃ¨le quasi expÃ©rimental dont les mesures sont prises avant et aprÃ¨s le programme :

	Mesure avant (rÃ©trospective)	Exposition au programme	Mesure aprÃ¨s
Groupe expÃ©rimental	0₁	X	0₂

Par exemple, supposons que les deux questions suivantes soient posÃ©es Ã des Ã©tudiants ayant suivi un cours de franÃ§ais :

1. Sur une Ã©chelle de 1 Ã 5, Ã©valuez votre connaissance du franÃ§ais avant le cours.
2. Sur une Ã©chelle de 1 Ã 5, Ã©valuez votre connaissance du franÃ§ais aprÃ¨s le cours.

On demanderait donc aux Ã©tudiants d'Ã©valuer leurs connaissances du franÃ§ais avant et aprÃ¨s le cours, une fois celui-ci terminÃ©. La diffÃ©rence entre les deux Ã©valuations pourrait servir Ã dÃ©terminer l'efficacitÃ© du programme.

ModÃ¨le dont les mesures sont prises aprÃ¨s le programme seulement avec estimation de la diffÃ©rence

Ce modÃ¨le implicite est le moins efficace de tous. On peut le reprÃ©senter de la faÃ§on suivante :

	Exposition au programme	Mesure aprÃ¨s
Groupe expÃ©rimental	X	0 = (0₂ - 0₁)

Dans ce cas-ci, le rÃ©pondant estime directement l'effet incrÃ©mentiel du programme. On pourrait, par exemple, demander Ã des reprÃ©sentants d'entreprises combien d'emplois ont Ã©tÃ© crÃ©Ã©s grÃ¢ce Ã une subvention, ou encore inviter des Ã©tudiants qui ont suivi un cours de franÃ§ais Ã donner une estimation de la nature et de l'Ã©tendue des connaissances qu'ils ont acquises grÃ¢ce au cours. La diffÃ©rence entre ce modÃ¨le et celui qui fait appel Ã des mesures antÃ©rieures rÃ©trospectives, c'est que les rÃ©pondants eux-mÃªmes doivent rÃ©pondre directement Ã la question sur l'effet du programme.

Avantages et inconvÃ©nients

Les modÃ¨les implicites sont souples, polyvalents et faciles Ã appliquer.

Puisqu'ils sont peu exigeants, les modÃ¨les implicites sont toujours rÃ©alisables. En effet, on peut toujours demander aux participants Ã un programme, aux gestionnaires ou Ã des spÃ©cialistes leur opinion sur ses rÃ©sultats. Toutefois, cette facilitÃ© d'application mÃªme peut constituer un inconvÃ©nient en ce sens qu'on risque d'Ãªtre tentÃ© d'opter pour des modÃ¨les implicites Â«facilesÂ», alors qu'on aurait pu avoir recours Ã un modÃ¨le implicite plus rigoureux, voire Ã un modÃ¨le quasi expÃ©rimental, avec un peu plus de travail et d'ingÃ©niositÃ©.

Les modÃ¨les implicites peuvent servir Ã Ã©tudier virtuellement n'importe quelle question et peuvent Ãªtre utilisÃ©s comme instruments d'exploration.

On peut poser n'importe quelle question sur le programme aux participants ou aux gestionnaires. MalgrÃ© leurs lacunes Ã©videntes en ce qui concerne l'examen objectif des rÃ©sultats du programme et leur attribution, les modÃ¨les implicites peuvent entiÃ¨rement permettre de trouver la rÃ©ponse Ã des questions sur l'exÃ©cution d'un programme. Dans le cas d'un programme de services, par exemple, ils permettent Ã l'Ã©valuateur d'Ã©tudier les questions relatives au degrÃ© de satisfaction de la clientÃ¨le. En outre, avec une enquÃªte ultÃ©rieure au programme, ils peuvent cerner un certain nombre de rÃ©sultats susceptibles d'Ãªtre Ã©tudiÃ©s grÃ¢ce Ã d'autres stratÃ©gies d'Ã©valuation.

Les modÃ¨les implicites produisent peu de preuves objectives des rÃ©sultats dÃ©coulant d'un programme.

Il est possible de tirer des conclusions sur les rÃ©sultats d'un programme Ã l'aide d'un modÃ¨le implicite seulement si l'on pose des hypothÃ¨ses majeures sur ce qui se serait produit en l'absence du programme. Les obstacles Ã la validitÃ© interne sont donc aussi nombreux qu'importants (au titre des Ã©vÃ©nements historiques, de la maturation et de l'attrition, par exemple), et il faut les Ã©liminer un Ã un.

Lorsque l'attribution (ou le changement incrÃ©mentiel) est une question d'Ã©valuation importante, il est prÃ©fÃ©rable de ne pas s'en tenir exclusivement Ã des modÃ¨les implicites, mais de les utiliser plutÃ´t avec des Ã©lÃ©ments probants.

3.5 Utilisation des modÃ¨les de causalitÃ© pour l'Ã©valuation

Ã€ la section 2.2 du prÃ©sent chapitre, nous avons insistÃ© sur la nature conceptuelle du modÃ¨le d'Ã©valuation idÃ©al ou classique. Dans ce modÃ¨le, la cause possible du rÃ©sultat d'un programme est isolÃ©e grÃ¢ce Ã l'utilisation de deux groupes en tout point identiques, exception faite de leur exposition au programme. Ã€ partir d'un modÃ¨le idÃ©al, nous avons dÃ©crit d'autres modÃ¨les pouvant servir Ã attribuer des rÃ©sultats Ã un programme, en prÃ©cisant les divers degrÃ©s qui permettront Ã l'Ã©valuateur de procÃ©der par infÃ©rence et d'Ã©tablir les obstacles Ã la validitÃ© interne correspondant Ã chacun d'entre eux.

Or, il existe une autre faÃ§on d'envisager les questions d'infÃ©rence causale, en utilisant un modÃ¨le de causalitÃ©, ce qui consiste Ã dÃ©crire l'influence marginale sur une variable dÃ©pendante d'une sÃ©rie de variables indÃ©pendantes choisies. Alors que le modÃ¨le quasi expÃ©rimental est axÃ© sur des comparaisons entre les bÃ©nÃ©ficiaires du programme et les membres d'un ou plusieurs groupes tÃ©moins, le modÃ¨le de causalitÃ© se concentre sur les variables Ã inclure, tant endogÃ¨nes (intrinsÃ¨ques au programme) qu'exogÃ¨nes (extÃ©rieures au programme), et sur les rapports de causalitÃ© postulÃ©s. Dans le modÃ¨le quasi expÃ©rimental, le programme est l'Ã©lÃ©ment le plus important; dans le modÃ¨le de causalitÃ©, il ne constitue qu'une variable indÃ©pendante parmi d'autres, toutes censÃ©es influer sur la variable dÃ©pendante.

Si nous revenons Ã notre exemple de l'Ã©valuation d'un programme d'aide Ã un secteur d'activitÃ© industrielle dans lequel on compare les ventes Ã l'exportation rÃ©alisÃ©es par les entreprises qui bÃ©nÃ©ficient du programme Ã celles d'autres entreprises, un modÃ¨le de causalitÃ© tiendrait compte de variables telles que le secteur d'activitÃ© dans lequel les entreprises oeuvrent, leur taille et le fait qu'elles ont bÃ©nÃ©ficiÃ© ou non du programme. Ã€ partir de lÃ , l'Ã©valuateur ferait une analyse de rÃ©gression pour dÃ©terminer l'influence marginale de chacune de ces variables sur les ventes Ã l'exportation des entreprises intÃ©ressÃ©es.

De mÃªme, l'Ã©valuation d'un programme de subventions Ã des organismes culturels dans diverses collectivitÃ©s pourrait comparer a) les changements de l'assistance aux activitÃ©s culturelles dans les collectivitÃ©s qui bÃ©nÃ©ficient d'une importante subvention par tÃªte et b) les changements de l'assistance dans les collectivitÃ©s qui ont reÃ§u une subvention moins importante. On pourrait gÃ©nÃ©rer un modÃ¨le de causalitÃ© des rÃ©percussions sur les niveaux d'assistance actuels du profil socio-Ã©conomique et de l'infrastructure culturelle de la collectivitÃ©, ainsi que de ses tendances historiques Ã l'assistance Ã des activitÃ©s culturelles. Les donnÃ©es ainsi obtenues pourraient remplacer Ã l'approche comparative que nous avons traitÃ©e ou s'y ajouter.

Dans la pratique, la plupart des Ã©valuateurs prÃ©fÃ¨rent utiliser les deux mÃ©thodes Ã la fois pour dÃ©terminer les rÃ©sultats d'un programme. Ils peuvent se servir d'un modÃ¨le quasi expÃ©rimental pour crÃ©er et manipuler des groupes tÃ©moins et, Ã partir de lÃ , pour faire des infÃ©rences causales sur les rÃ©sultats du programme, et peuvent aussi faire appel Ã un modÃ¨le de causalitÃ© pour obtenir une estimation de l'effet marginal des variables qui influent sur le succÃ¨s du programme. Les recherches de Bickman (1987) et Trochim (1986) ont produit des indications utiles sur la meilleure faÃ§on d'utiliser des modÃ¨les de causalitÃ© pour faire des Ã©valuations.

Ces modÃ¨les sont particuliÃ¨rement utiles dans les cas oÃ¹ une expÃ©rience empirique suffisante a confirmÃ© avant l'Ã©valuation l'existence de rapports entre les variables Ã©tudiÃ©es. En l'absence de modÃ¨le a priori, l'Ã©valuateur aurait intÃ©rÃªt Ã utiliser la technique de l'appariement (constitution de blocs), comme nous l'avons vu aux sections 3.2.2 et 3.3.2, afin de recueillir des donnÃ©es pour les variables jugÃ©es importantes. En outre, il pourrait faire des analyses statistiques pour tenir compte des biais attribuables Ã la sÃ©lection ou aux Ã©vÃ©nements historiques, afin d'accroÃ®tre la validitÃ© de ces conclusions sur les effets du programme.

Les Ã©valuateurs qui utilisent des modÃ¨les de causalitÃ© ont intÃ©rÃªt Ã consulter le chapitre 7 de l'ouvrage de Cook et Campbell (1979) intitulÃ© Quasi-experimentation,qui contient une analyse des Ã©cueils Ã Ã©viter lorsqu'on tente de faire des infÃ©rences causales fondÃ©es sur une Â«observation passiveÂ» (lorsqu'il n'y a pas formation de propos dÃ©libÃ©rÃ© d'un groupe tÃ©moin). Deux des Ã©cueils les plus courants mentionnÃ©s dans cet ouvrage sont l'attention insuffisante accordÃ©e aux obstacles Ã la validitÃ© et l'utilisation de modÃ¨les structurels acceptables pour faire des prÃ©visions, mais non des infÃ©rences causales.

RÃ©fÃ©rences : ModÃ¨les de causalitÃ©

Bickman, L., Ã©d., Using Program Theory in Program Evaluation, Vol. 33 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1987.

Blalock, H.M., Jr., Ã©d., Causal Models in the Social Sciences, Chicago : Aldine, 1971.

Blalock, H.M., Jr., Measurement in the Social Sciences: Theories and Strategies, Chicago : Aldine, 1974.

Chen, H.T. et P.H. Rossi, Â«Evaluating with Sense: The Theory-Driven ApproachÂ», Evaluation Review, Vol. 7, 1983, p. 283 Ã 302.

Cook, T.D. et D.T. Campbell, Quasi-experimentation, Chicago : Rand-McNally, 1979, chapitres 4 et 7.

Cordray, D.S., Â«Quasi-experimental Analysis : A Mixture of Methods and JudgementÂ», in W.M.K. Trochim, Ã©d., Advances in Quasi-experimental Design and Analysis, Vol. 31 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1986, p. 9 Ã 27.

Duncan, B.D., Introduction to Structural Equation Models, New York : Academic Press, 1975.

Goldberger, A.S. et D.D. Duncan, Structural Equation Models in the Social Sciences, New York : Seminar Press, 1973.

Heise, D.R., Causal Analysis, New York : Wiley, 1975.

Mark, M.M., Â«Validity Typologies and the Logic and Practice of Quasi-experimentationÂ», in W.M.K. Trochim, Ã©d., Advances in Quasi-experimental Design and Analysis, Vol. 31 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1986, p. 47 Ã 66.

Rindskopf, D., Â«New Developments in Selection Modeling for Quasi-experimentationÂ», in W.M.K. Trochim, Ã©d., Advances in Quasi-experimental Design and Analysis, Vol. 31 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1986, p. 79 Ã 89.

Simon, H., Â«CausationÂ», in D.L. Sill, Ã©d., International Encyclopedia of the Social Sciences, Vol. 2, New York : Macmillan, 1968, p. 350 Ã 355.

Stolzenberg, J.R.M. et K.C. Land, Â«Causal Modeling and Survey ResearchÂ», in Rossi, P.H.,et al., Ã©d., TITRE MANQUANT, Orlando : Academic Press, 1983, p. 613 Ã 675.

Trochim, W.M.K., Ã©d., Advances in Quasi-experimental Design and Analysis, Vol. 31 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1986.

3.6 RÃ©sumÃ©

Le choix du modÃ¨le d'Ã©valuation optimal est une tÃ¢che difficile, et c'est aussi l'aspect le plus important de la sÃ©lection d'une stratÃ©gie d'Ã©valuation, puisque l'exactitude de l'information et des donnÃ©es - donc des preuves - produites dans ce contexte est largement fonction de la rigueur du modÃ¨le utilisÃ©. C'est pour cette raison que l'Ã©valuateur devrait s'efforcer d'opter pour le modÃ¨le le plus rigoureux possible compte tenu du temps et des ressources dont il dispose, ainsi que des autres facteurs d'ordre pratique. Le modÃ¨le choisi devrait Ãªtre le plus prÃ¨s possible du modÃ¨le idÃ©al (modÃ¨le expÃ©rimental). La rigueur du modÃ¨le d'Ã©valuation et la crÃ©dibilitÃ© des rÃ©sultats faiblissent Ã mesure que l'Ã©valuateur descend la barre en passant d'un modÃ¨le expÃ©rimental Ã un modÃ¨le quasi expÃ©rimental, puis Ã un modÃ¨le implicite. Quel que soit le modÃ¨le choisi, il serait souhaitable d'inclure des Ã©lÃ©ments du modÃ¨le de causalitÃ©, pour renforcer la crÃ©dibilitÃ© des constatations.

Il arrive souvent que le seul modÃ¨le utilisable soit relativement peu rigoureux. Dans ce cas, l'Ã©valuateur devrait cerner explicitement les principaux obstacles Ã la crÃ©dibilitÃ© des conclusions qu'il tire, afin de nuancer ses constatations en consÃ©quence. Il devrait aussi rechercher d'autres modÃ¨les d'Ã©valuation en vue de les utiliser pour Ã©tayer ses conclusions et pour attÃ©nuer les obstacles Ã la validitÃ© de sa dÃ©marche, voire pour ces deux raisons Ã la fois.

Bref, l'Ã©valuateur devrait prÃ©ciser explicitement le genre de modÃ¨le d'Ã©valuation auquel il a recours pour chaque stratÃ©gie d'Ã©valuation.

Parfois, on fait une Ã©valuation sans bien comprendre le modÃ¨le utilisÃ©, ce qui sape la crÃ©dibilitÃ© de l'information et des donnÃ©es obtenues, puisqu'on ne saisit pas bien le fondement de la Â«preuveÂ». En prÃ©cisant explicitement le modÃ¨le, l'Ã©valuateur peut analyser ouvertement les principaux obstacles et trouver les arguments logiques ou d'autres Ã©lÃ©ments d'information susceptibles de les Ã©liminer, de les attÃ©nuer ou d'en tenir compte de faÃ§on Ã renforcer la crÃ©dibilitÃ© globale de son Ã©valuation.

Pour chaque modÃ¨le de recherche utilisÃ©, l'Ã©valuateur devrait dresser la liste des principaux obstacles plausibles Ã la validitÃ©, en analysant les implications de chacun.

Les auteurs ne s'entendent pas sur les obstacles Ã la validitÃ© que tel ou tel modÃ¨le permet gÃ©nÃ©ralement d'Ã©liminer. Cronbach (1982), par exemple, conteste un grand nombre d'affirmations sur les obstacles Ã la validitÃ© dÃ©crits dans l'ouvrage plus classique de Cook et Campbell (1979). Ce dÃ©saccord est toutefois moins frÃ©quent Ã l'Ã©gard d'Ã©valuations donnÃ©es et de leurs modÃ¨les. En effet, dans chaque cas, il est habituellement Ã©vident s'il existe ou non d'autres explications plausibles d'un changement observÃ©.

Chapitre 4 - MÃ‰THODES DE COLLECTE DES DONNÃ‰ES

4.1 Introduction

Sans donnÃ©es pertinentes, il est impossible d'Ã©tablir des rapports entre un programme et ses rÃ©sultats. En outre, les mÃ©thodes de collecte doivent Ãªtre choisies en fonction de la nature des donnÃ©es nÃ©cessaires et des sources accessibles. La nature des donnÃ©es dÃ©pendra elle-mÃªme de la mÃ©thode d'Ã©valuation adoptÃ©e, des indicateurs utilisÃ©s pour obtenir les rÃ©sultats des programmes et du type d'analyse Ã faire.

Il existe plusieurs faÃ§ons de classer des donnÃ©es. Par exemple, on fait souvent une distinction entre les donnÃ©es quantitatives et les donnÃ©es qualitatives. Les donnÃ©es quantitatives sont des observations numÃ©riques, alors que les donnÃ©es qualitatives sont des observations correspondant Ã des catÃ©gories (p. ex., pour la couleur, rouge ou bleu, ou pour le sexe des participants, homme ou femme).

On fait aussi une distinction entre les donnÃ©es subjectives et les donnÃ©es objectives. Les donnÃ©es subjectives sont indissociables des sentiments, des attitudes et des perceptions personnelles, tandis que les donnÃ©es objectives sont fondÃ©es sur des faits observables qui - en thÃ©orie du moins - ne font pas appel au jugement personnel. Cela dit, les donnÃ©es subjectives et objectives peuvent toutes Ãªtre mesurÃ©es d'une faÃ§on quantitative ou qualitative.

Il est possible aussi de faire une autre distinction, entre les donnÃ©es longitudinales et les donnÃ©es transversales. Les donnÃ©es longitudinales sont recueillies sur une certaine pÃ©riode, tandis que les donnÃ©es transversales le sont simultanÃ©ment auprÃ¨s de diffÃ©rentes entitÃ©s, telles que des provinces ou des Ã©coles.

Enfin, les donnÃ©es peuvent Ãªtre classÃ©es en fonction de leur source : les donnÃ©es primaires sont recueillies par l'Ã©valuateur Ã la source mÃªme; les donnÃ©es secondaires, elles, sont recueillies et consignÃ©es par une autre personne ou une autre organisation, parfois Ã des fins diffÃ©rentes de celles de l'Ã©valuation.

Dans ce chapitre, nous avons examinÃ© six mÃ©thodes de collecte des donnÃ©es utilisÃ©es pour l'Ã©valuation d'un programme : le dÃ©pouillement de la documentation spÃ©cialisÃ©e, l'Ã©tude de dossiers, les observations directes (sur le terrain), les enquÃªtes, la consultation de spÃ©cialistes et les Ã©tudes de cas. Les deux premiÃ¨res mÃ©thodes servent Ã recueillir des donnÃ©es secondaires, alors que les quatre derniÃ¨res sont employÃ©es pour rÃ©unir des donnÃ©es primaires. Quoi qu'il en soit, chacune des six peut Ãªtre utilisÃ©e pour recueillir des donnÃ©es quantitatives et qualitatives. En outre, chacune pourrait Ãªtre utilisÃ©e avec chacun des modÃ¨les exposÃ©s au chapitre prÃ©cÃ©dent. Cependant, certaines mÃ©thodes de collecte de donnÃ©es se prÃªtent mieux Ã des modÃ¨les donnÃ©s.

Il convient de souligner que, mÃªme si les mÃ©thodes de collecte de donnÃ©es examinÃ©es dans ce chapitre sont surtout considÃ©rÃ©es comme des Ã©lÃ©ments d'une stratÃ©gie de recherche, la collecte de donnÃ©es elle-mÃªme est aussi extrÃªmement utile pour d'autres aspects d'une Ã©valuation. D'ailleurs, plusieurs techniques de collecte sont d'excellents instruments pour alimenter la rÃ©flexion initiale sur les stratÃ©gies d'Ã©valuation elles-mÃªmes et pour faciliter d'autres aspects exploratoires des Ã©tudes d'Ã©valuation. Une enquÃªte pourrait, par exemple, aider Ã cerner les questions connexes Ã l'Ã©valuation. Une Ã©tude des dossiers peut aider Ã prÃ©ciser les sources de donnÃ©es disponibles ou celles les plus facilement accessibles.

RÃ©fÃ©rences : MÃ©thodes de collecte des donnÃ©es

Cook, T.D. et C.S. Reichardt, Qualitative and Quantitative Methods in Evaluation Research, Thousand Oaks : Sage Publications, 1979.

Delbecq, A.L., et al., Group Techniques for Program Planning: A Guide to Nominal Group and Delphi Processes, Glenview : Scott, Foresman, 1975.

Dexter, L.A., Elite and Specialized Interviewing, Evanston (Illinois) : Northwestern University Press, 1970.

Gauthier, B., Ã©d., Recherche sociale : de la problÃ©matique Ã la collecte des donnÃ©es, MontrÃ©al : Les Presses de l'UniversitÃ© du QuÃ©bec, 1984.

Kidder, L.H. et M. Fine, Â«Qualitative and Quantitative Methods: When Stories ConvergeÂ», in Multiple Methods in Program Evaluation, Vol. 35 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1987.

Levine, M., Â«Investigative Reporting as a Research Method: An Analysis of Bernstein and Woodward's All The President's MenÂ», American Psychologist, Vol. 35, 1980, p. 626 Ã 638.

Miles, M.B. et A.M. Huberman, Qualitative Data Analysis: A Sourcebook and New Methods, Thousand Oaks : Sage Publications, 1984.

Patton, M.Q., Qualitative Evaluation Methods, Thousand Oaks : Sage Publications, 1980.

Martin, Michael O. et V.S. Mullis, Ã©d., Quality Assurance in Data Collection, Chestnut Hill : Center for the Study of Testing, Evaluation, and Educational Policy, Boston College, 1996.

Stouthamer-Loeber, Magda et Bok van Kammen, Welmoet, Data Collection and Management: A Practical Guide, Thousand Oaks : Sage Publications, 1995.

Webb, E.J., et al., Nonreactive Measures in the Social Sciences (2^e Ã©dition), Boston : Houghton Mifflin, 1981.

Weisberg, Herbert F., Krosmick, Jon A. et Bruce D. Bowen, Ã©d., An Introduction to Survey Research, Polling, and Data Analysis, Thousand Oaks : Sage Publications, 1996.

4.2 DÃ©pouillement de la documentation spÃ©cialisÃ©e

L'Ã©valuateur dÃ©pouille la documentation pour prendre connaissance des travaux effectuÃ©s dans le domaine Ã l'Ã©tude et donc pour profiter des expÃ©riences, des constatations et des erreurs de prÃ©dÃ©cesseurs ayant fait des recherches analogues ou connexes aux siennes. C'est un exercice qui peut lui fournir des indications d'une valeur inestimable sur le secteur de programme visÃ©, et c'est pourquoi il doit toujours se faire dÃ¨s le dÃ©but de l'Ã©tude d'Ã©valuation.

Le dÃ©pouillement porte sur deux types d'ouvrages et de documents, d'abord les documents officiels, les rapports de recherche gÃ©nÃ©raux, les articles publiÃ©s et les livres portant sur le secteur du programme, qui permettent Ã l'Ã©valuateur de se familiariser avec les thÃ©ories et les concepts relatifs au programme et de s'informer des gÃ©nÃ©ralisations susceptibles de s'appliquer aux questions qui l'intÃ©ressent. Il peut aussi y trouver d'autres points d'Ã©valuation et des mÃ©thodes auxquelles il n'avait pas pensÃ©, ce qui peut l'aider Ã rÃ©aliser une Ã©valuation plus efficace. Par exemple, des recherches antÃ©rieures sur les programmes d'aide Ã un secteur d'activitÃ© industrielle donnÃ© peuvent laisser entendre que l'efficacitÃ© des interventions varie Ã©normÃ©ment selon la taille des entreprises, ce qui signifie que toute mÃ©thode d'Ã©chantillonnage utilisÃ©e pour l'Ã©valuation doit assurer une reprÃ©sentation suffisante d'entreprises de toutes les tailles (grÃ¢ce Ã un Ã©chantillonnage alÃ©atoire par blocs) afin que les rÃ©sultats de l'Ã©valuation puissent Ãªtre gÃ©nÃ©ralisÃ©s.

L'Ã©valuateur passe ensuite en revue les Ã©tudes spÃ©ciales (y compris les Ã©valuations antÃ©rieures) sur le secteur qui l'intÃ©resse. Dans ce contexte, il peut aller jusqu'Ã compiler et rÃ©sumer les constatations de ces Ã©tudes et se servir de ces renseignements comme d'intrants pour diverses composantes de son Ã©valuation. Ainsi, l'Ã©valuateur chargÃ© d'Ã©tudier un programme d'aide Ã un secteur d'activitÃ© industrielle donnÃ© pourrait trouver dans des rapports d'Ã©tudes antÃ©rieures des donnÃ©es sur l'emploi dans les rÃ©gions oÃ¹ l'importance de l'aide reÃ§ue a variÃ© Ã©normÃ©ment. Il peut alors avoir recours Ã un modÃ¨le quasi expÃ©rimental pour intÃ©grer ces renseignements Ã l'Ã©valuation, les rÃ©gions ayant reÃ§u beaucoup d'aide constituant un groupe et celles qui en ont reÃ§u moins servant de groupe tÃ©moin.

Avantages et inconvÃ©nients

Le dÃ©pouillement de la documentation spÃ©cialisÃ©e dÃ¨s le dÃ©but de l'Ã©valuation peut permettre Ã l'Ã©valuateur de gagner du temps, d'Ã©conomiser de l'argent et de mÃ©nager ses efforts. En effet, un dÃ©pouillement minutieux a gÃ©nÃ©ralement plusieurs avantages.

Les recherches antÃ©rieures peuvent laisser entrevoir des hypothÃ¨ses Ã vÃ©rifier ou des questions Ã examiner dans le cadre de l'Ã©tude.

Par exemple, au chapitre 3, nous avons insistÃ© sur l'importance d'identifier le plus tÃ´t possible les explications concurrentes d'un rÃ©sultat observÃ©, autres que celles de l'intervention du programme. L'analyse des recherches antÃ©rieures peut rÃ©vÃ©ler certaines possibilitÃ©s d'explications concurrentes (autrement dit des obstacles Ã la validitÃ©). En pareil cas, il faudrait opter pour une stratÃ©gie d'Ã©valuation permettant d'isoler l'effet du programme de ces autres explications.

Le dÃ©pouillement de la documentation peut mettre en lumiÃ¨re des difficultÃ©s mÃ©thodologiques particuliÃ¨res et indiquer Ã l'Ã©valuateur des techniques et des moyens de les contourner.

Dans certains cas, les recherches antÃ©rieures fournissent directement des rÃ©ponses aux questions d'Ã©valuation, ce qui permet d'Ã©viter un travail de collecte de donnÃ©es inutile.

On peut aussi trouver des sources de donnÃ©es secondaires utilisables dans les Ã©tudes antÃ©rieures, ce qui rÃ©duit le besoin de recueillir des donnÃ©es primaires.

MÃªme lorsque les donnÃ©es secondaires ne rÃ©pondent pas directement aux questions posÃ©es dans l'Ã©valuation, elles pourraient Ãªtre utilisÃ©es de pair avec les donnÃ©es primaires, comme intrants dans la stratÃ©gie d'Ã©valuation ou encore comme donnÃ©es de rÃ©fÃ©rence, pour vÃ©rifier la validitÃ©.

Le dÃ©pouillement de la documentation spÃ©cialisÃ©e est un moyen relativement Ã©conomique et efficace de recueillir des donnÃ©es pertinentes, et il est souvent rentable. Il doit toujours se faire au cours de l'Ã©tude prÃ©paratoire Ã l'Ã©valuation. C'estaussi un exercice trÃ¨s utile pour trouver de nouvelles hypothÃ¨ses et cerner d'Ã©ventuelles difficultÃ©s mÃ©thodologiques, ainsi que pour tirer et Ã©tayer des conclusions. Les renseignements qu'on y glane peuvent servir d'intrants pour d'autres techniques de collecte des donnÃ©es.

Les inconvÃ©nients des donnÃ©es obtenues en dÃ©pouillant la documentation sont inhÃ©rents Ã la nature mÃªme de la plupart des donnÃ©es secondaires, qui ont Ã©tÃ© produites pour une autre fin que celle de l'Ã©valuation Ã rÃ©aliser.

Il est possible que les donnÃ©es et l'information recueillies grÃ¢ce au dÃ©pouillement de la documentation ne soient pas suffisamment pertinentes ou compatibles avec l'objet de l'Ã©valuation pour pouvoir Ãªtre utilisÃ©es dans l'Ã©tude.

Les donnÃ©es secondaires sont dites pertinentes dans la mesure oÃ¹ elles correspondent Ã l'objet de l'Ã©valuation, ce qui signifie qu'elles doivent Ãªtre compatibles avec ses exigences. Par exemple, des donnÃ©es secondaires Ã l'Ã©chelle nationale ne seraient guÃ¨re utiles pour une Ã©valuation fondÃ©e sur des donnÃ©es par province. En outre, les Ã©chelles de mesure doivent Ãªtre compatibles, elles aussi. Quand l'Ã©valuateur a besoin de donnÃ©es sur les enfants de 8 Ã 12 ans, des donnÃ©es secondaires sur les 5 Ã 9 ans ou les 10 Ã 14 ans ne lui servent pas Ã grand-chose. Enfin, comme le facteur temps influe largement sur la pertinence des donnÃ©es, les donnÃ©es secondaires sont bien souvent tout simplement trop vieilles pour Ãªtre utilisables. (N'oublions pas qu'il s'Ã©coule ordinairement de un Ã trois ans entre la collecte des donnÃ©es et la publication.)

Il est souvent difficile de dÃ©terminer l'exactitude des donnÃ©es secondaires.

En fait, c'est vraiment l'aspect nÃ©vralgique des donnÃ©es secondaires. L'Ã©valuateur n'a bien sÃ»r rien eu Ã dire sur la mÃ©thode utilisÃ©e pour les recueillir, mais il doit quand mÃªme en Ã©valuer la validitÃ© et la fiabilitÃ©. C'est pour cette raison qu'il lui est fortement recommandÃ© de se fonder chaque fois qu'il le peut sur la source initiale des donnÃ©es secondaires, c'est-Ã -dire le rapport initial, Ã©tant donnÃ© que ce document est gÃ©nÃ©ralement plus complet qu'un deuxiÃ¨me ou un troisiÃ¨me document faisant appel aux donnÃ©es en question et qu'il contient souvent des avertissements, des restrictions et des dÃ©tails d'ordre mÃ©thodologique qui ne sont pas signalÃ©s dans les documents qui le citent.

Bref, le dÃ©pouillement exhaustif de la documentation spÃ©cialisÃ©e est un moyen rapide et relativement peu coÃ»teux d'obtenir de l'information conceptuelle et empirique sur le contexte d'une Ã©valuation. Il s'ensuit que l'Ã©valuateur devrait s'y astreindre dÃ¨s le dÃ©but de son Ã©tude. NÃ©anmoins, il devrait Ã©valuer soigneusement la pertinence et l'exactitude des donnÃ©es qui s'y trouvent, dans toute la mesure du possible. Enfin, il devrait se mÃ©fier, en s'efforÃ§ant de ne pas accorder trop d'importance Ã des donnÃ©es secondaires quand il a trÃ¨s peu d'information sur les mÃ©thodes utilisÃ©es pour les recueillir.

RÃ©fÃ©rences : DÃ©pouillement de la documentation spÃ©cialisÃ©e

Goode, W.J. et Paul K. Hutt, Methods in Social Research, New York : McGraw-Hill, 1952, chapitre 9.

Katz, W.A., Introduction to Reference Work: Reference Services and Reference Processes,Volume II, New York : McGraw-Hill, 1982, chapitre 4.

4.3 Ã‰tude de dossiers

Tout comme le dÃ©pouillement de la documentation spÃ©cialisÃ©e, l'Ã©tude de dossiers est une mÃ©thode de collecte des donnÃ©es conÃ§ue afin de faciliter l'obtention de donnÃ©es utilisables dans l'Ã©valuation. C'est toutefois une dÃ©marche qui se prÃªte mieux que la premiÃ¨re Ã une familiarisation avec le programme faisant l'objet de l'Ã©valuation. Les donnÃ©es dÃ©jÃ recueillies sur lui - et sur ses rÃ©sultats - peuvent rÃ©duire les besoins de collecte de nouvelles donnÃ©es, sensiblement comme on l'a vu pour le dÃ©pouillement de la documentation.

Il existe habituellement deux types de dossiers, les dossiers gÃ©nÃ©raux portant sur un programme et les dossiers relatifs Ã des projets, des clients ou des participants donnÃ©s. Le type de dossier que les gestionnaires de programmes conservent dÃ©pend du programme lui-mÃªme. Par exemple, dans le cas d'un programme d'aide financiÃ¨re Ã des projets d'Ã©conomie d'Ã©nergie, on pourrait avoir des dossiers sur chaque projet, chaque client (auteur du projet) et chaque participant (collaborateur au projet). Par contre, dans un programme de formation destinÃ© Ã des spÃ©cialistes en soins de santÃ© dans les collectivitÃ©s du Nord, on pourrait ne conserver des dossiers que sur les spÃ©cialistes qui ont participÃ© aux sÃ©ances de formation. Dans la pratique, il y a un type d'examen pour chacun de ces types de dossiers : un examen gÃ©nÃ©ral portant sur les dossiers d'un programme et un examen plus systÃ©matique des dossiers relatifs Ã chaque projet, chaque client ou chaque participant.

Les Ã©tudes de dossiers peuvent porter sur les types suivants de documents relatifs aux programmes :

documents du Cabinet, documents relatifs Ã la nÃ©gociation et Ã la mise en oeuvre d'un protocole d'entente avec le Conseil du TrÃ©sor, prÃ©sentations au Conseil du TrÃ©sor, plans d'activitÃ©s ou rapports sur le rendement d'un ministÃ¨re, rapports du vÃ©rificateur gÃ©nÃ©ral et procÃ¨s-verbaux des rÃ©unions du comitÃ© exÃ©cutif d'un ministÃ¨re;
dossiers administratifs, portant notamment sur la taille du programme ou du projet, sur le type de participants et sur leur expÃ©rience, sur l'expÃ©rience postÃ©rieure au projet, sur les coÃ»ts du programme ou du projet et sur les mesures des caractÃ©ristiques des participants avant et aprÃ¨s la mise en oeuvre du programme;
dossiers sur les participants, comprenant notamment des donnÃ©es socio-Ã©conomiques (Ã¢ge, sexe, rÃ©gion, revenu, profession, etc.), des dates critiques (admission au programme), des donnÃ©es de suivi et la description des Ã©vÃ©nements importants (changements d'emploi, dÃ©mÃ©nagements, etc.);
dossiers sur les projets et les programmes, portant notamment sur les Ã©vÃ©nements critiques (lancement des projets et rencontres avec les cadres supÃ©rieurs, par exemple), le personnel des projets (roulement du personnel, etc.) et les Ã©vÃ©nements ainsi que les modifications qui ont marquÃ© la mise en oeuvre des projets;
dossiers financiers.

Les donnÃ©es figurant dans les dossiers peuvent Ãªtre conservÃ©es dans le systÃ¨me informatisÃ© de gestion de l'information du programme, ou encore sur papier. Elles peuvent avoir Ã©tÃ© recueillies expressÃ©ment pour fins d'Ã©valuation, s'il y a eu une entente prÃ©alable au sujet d'un cadre d'Ã©valuation.

Avantages et inconvÃ©nients

Les Ã©tudes de dossiers peuvent Ãªtre utiles Ã trois titres au moins.

1. L'Ã©tude des dossiers gÃ©nÃ©raux du programme peut fournir des donnÃ©es contextuelles et des renseignements d'une valeur inestimable sur le programme et sur son milieu permettant de bien situer les rÃ©sultats du programme dans leur contexte.

Ce genre d'Ã©tude peut gÃ©nÃ©rer des renseignements contextuels fondamentaux sur le programme (mandat, historique, politiques, style de gestion et contrainte, par exemple) grÃ¢ce auxquels l'Ã©valuateur peut se familiariser avec lui. En outre, elle peut produire des renseignements clÃ©s pour les spÃ©cialistes de l'extÃ©rieur dans le secteur d'un programme (voir la section 4.6) et gÃ©nÃ©rer des intrants pour une Ã©ventuelle analyse qualitative (voir la section 5.4).

2. L'Ã©tude des dossiers de personnes ou de projets peut fournir des indicateurs sur les rÃ©sultats du programme.

Par exemple, dans une Ã©tude portant sur un programme d'aide internationale, un examen des dossiers de projets pourrait fournir des mesures des rÃ©sultats telles que le rapport produit-capita, valeur ajoutÃ©e-unitÃ© de capital, productivitÃ© du capital employÃ©, intensitÃ© de capital, emploi-unitÃ© de capital, valeur ajoutÃ©e-unitÃ© d'intrant total et diverses autres fonctions de production. Si ces mesures ne permettent pas d'Ã©valuer directement l'efficacitÃ© du programme, elles constituent nÃ©anmoins des indicateurs susceptibles de servir d'intrants pour l'Ã©valuation. Enfin, les donnÃ©es ainsi obtenues peuvent se rÃ©vÃ©ler suffisantes pour qu'on puisse procÃ©der Ã une analyse coÃ»ts-avantages ou coÃ»t-efficacitÃ© (voir la section 5.6).

3. L'Ã©tude de dossiers peut fournir un cadre et une base utiles pour la collecte d'autres donnÃ©es.

L'Ã©tude de dossiers peut notamment permettre de dÃ©terminer la population (base d'Ã©chantillonnage) de laquelle l'Ã©chantillon d'enquÃªte doit Ãªtre tirÃ©. Les renseignements contextuels tirÃ©s des dossiers peuvent servir Ã crÃ©er l'Ã©chantillon le plus puissant possible et Ã prÃ©parer l'enquÃªteur Ã rÃ©aliser ses entrevues. On rebute toujours les gens en leur demandant des renseignements qui se trouvent dÃ©jÃ dans les dossiers, et c'est pourquoi il faudrait recueillir toute l'information qui s'y trouve avant de commencer l'enquÃªte.

L'Ã©tude de dossiers a des avantages certains du fait mÃªme qu'elle est Ã©minemment faisable.

L'Ã©tude de dossiers peut Ãªtre relativement peu coÃ»teuse.

En fait, ce genre d'Ã©tude a fort peu de retombÃ©es gÃªnantes pour les personnes et les groupes qui ne sont pas visÃ©s par l'administration du programme. Tout comme le dÃ©pouillement de la documentation spÃ©cialisÃ©e, l'Ã©tude de dossiers est pour l'Ã©valuateur un moyen aussi fondamental que naturel de se familiariser avec le programme. En outre, c'est une excellente faÃ§on de lui permettre d'Ã©viter une collecte coÃ»teuse de nouvelles donnÃ©es lorsqu'il existe dÃ©jÃ des donnÃ©es pertinentes.

Toutefois, l'Ã©tude de dossiers prÃ©sente aussi certains inconvÃ©nients.

Les dossiers relatifs aux programmes sont souvent incomplets, ou inutilisables pour d'autres raisons.

Plus souvent qu'autrement, on n'accorde qu'une importance secondaire au systÃ¨me de classement central, qui ne renferme alors que de courtes notes de service des comitÃ©s, des comptes rendus des dÃ©cisions finales, ainsi de suite. En rÃ©trospective, ces dossiers ne brossent qu'un tableau incomplet.

Dans sa recherche des documents qui ont inspirÃ© une politique, un programme ou un projet, l'Ã©valuateur peut constater que l'information figure dans des dossiers dÃ©tenus par diffÃ©rentes personnes plutÃ´t que dans un dÃ©pÃ´t central des dossiers du programme. Cela peut causer plusieurs difficultÃ©s. Par exemple, l'expÃ©rience semble laisser entendre que, lorsque le projet progresse au-delÃ de l'exÃ©cution du mandat du groupe de travail, les participants ferment leurs dossiers plutÃ´t que de les tenir Ã jour. De mÃªme, lorsque quelqu'un cesse de participer Ã un groupe de travail, ses dossiers sont souvent perdus, et, comme le rÃ´le des participants change rapidement dans les premiÃ¨res Ã©tapes d'un programme, il devient trÃ¨s difficile d'en trouver un qui soit exhaustif.

L'Ã©tude de dossiers fournit rarement des renseignements sur les groupes tÃ©moins, sauf dans des circonstances exceptionnelles, par exemple lorsqu'il existe des dossiers sur les candidats au programme qui ont Ã©tÃ© refusÃ©s.

Pour Ã©valuer efficacement les rÃ©percussions du programme, l'Ã©valuateur doit avoir accÃ¨s Ã un groupe tÃ©moin quelconque. Dans le contexte de l'Ã©tude de dossiers, cela suppose qu'il doit obtenir des renseignements sur les participants avant qu'ils ne bÃ©nÃ©ficient du programme, ou encore des renseignements sur les non-participants. Malheureusement, ces renseignements existent rarement, sauf si un cadre d'Ã©valuation a Ã©tÃ© approuvÃ© et mis en oeuvre au prÃ©alable. Faute de donnÃ©es de ce genre, l'Ã©valuateur peut se voir contraint de recueillir de nouvelles donnÃ©es qui risquent de ne pas Ãªtre comparables avec celles des dossiers originaux.

Il reste toutefois que l'Ã©tude de dossiers peut fournir des renseignements sur des groupes tÃ©moins lorsque les niveaux du programme varient; c'est utile lorsqu'on applique un modÃ¨le dont les mesures sont prises aprÃ¨s le programme seulement avec traitement diffÃ©rent. L'examen des dossiers peut aussi fournir Ã l'Ã©valuateur l'information de base dont il a besoin pour dÃ©finir et choisir un groupe tÃ©moin.

En dÃ©pit des limites de cette mÃ©thode, il faudrait faire une Ã©tude de dossiers Ã l'Ã©tape de l'Ã©tude prÃ©paratoire Ã l'Ã©valuation afin de dÃ©terminer le type de donnÃ©es disponibles et leur pertinence pour les questions Ã Ã©valuer. Cette dÃ©marche gÃ©nÃ¨re aussi les renseignements nÃ©cessaires Ã l'examen de questions d'Ã©valuation particuliÃ¨res (par exemple des renseignements contextuels et des indicateurs Ã©ventuels des rÃ©sultats du programme).

RÃ©fÃ©rences : Analyse des donnÃ©es secondaires

Boruch, R.F., et al., Reanalyzing Program Evaluations - Policies and Practices for Secondary Analysis for Social and Education Programs, San Francisco : Jossey-Bass, 1981.

Weisler, Carl E., U.S. General Accounting Office, Review Topics in Evaluation: What Do You Mean by Secondary Analysis?

4.4 Observations directes

Le vieux proverbe Â«Voir, c'est croireÂ» tient toujours, et l'observation directe apporte gÃ©nÃ©ralement des preuves plus convaincantes que les sources secondaires. Aller sur le terrain obtenir des renseignements de premiÃ¨re main sur le sujet de l'Ã©valuation est un moyen trÃ¨s efficace de recueillir de l'information et des donnÃ©es. La consignation des rÃ©sultats de ces observations en photos ou sur vidÃ©o peut aussi Ãªtre trÃ¨s utile, et les documents ainsi obtenus peuvent avoir un impact considÃ©rable sur le lecteur des rapports d'Ã©valuation.

L'observation comporte la sÃ©lection, l'observation et la consignation des objets, des Ã©vÃ©nements ou des activitÃ©s qui jouent un rÃ´le important dans l'administration du programme Ã Ã©valuer. Les conditions observÃ©es peuvent ensuite Ãªtre comparÃ©es Ã des critÃ¨res prÃ©Ã©tablis, et les diffÃ©rences par rapport Ã ces critÃ¨res peuvent Ãªtre analysÃ©es pour en dÃ©terminer l'importance.

Dans certains cas, l'observation directe est un instrument essentiel pour comprendre le fonctionnement d'un programme. Par exemple, une Ã©quipe faisant l'Ã©valuation du dÃ©douanement dans les aÃ©roports pourrait observer de longues files d'attente chaque fois que deux 747 atterriraient Ã la mÃªme heure. L'achalandage qui en rÃ©sulterait rÃ©duirait Ã la fois l'efficacitÃ© de l'inspection et la qualitÃ© du service aux voyageurs. Prenons un autre exemple, celui d'un cas oÃ¹ des produits chimiques dangereux auraient Ã©tÃ© entreposÃ©s au mÃ©pris des rÃ¨gles de sÃ©curitÃ© : il en aurait rÃ©sultÃ© des conditions de travail dangereuses pour le personnel et une violation de la rÃ©glementation en matiÃ¨re de santÃ© et de sÃ©curitÃ© au travail. Or, aucune de ces constatations n'aurait Ã©tÃ© remarquÃ©e par l'Ã©valuateur s'il s'Ã©tait contentÃ© d'Ã©tudier des documents Ã©crits.

Les donnÃ©es obtenues grÃ¢ce Ã l'observation directe servent Ã dÃ©crire le contexte d'un programme, les activitÃ©s qui s'y dÃ©roulent, les personnes qui y ont participÃ© et la signification de ces activitÃ©s pour elles. C'est une mÃ©thode qui a Ã©tÃ© largement utilisÃ©e par les spÃ©cialistes du comportement comme les anthropologues et les psychosociologues. Elle permet Ã l'Ã©valuateur d'obtenir d'une faÃ§on holistique des donnÃ©es sur un programme et sur ses rÃ©percussions.

L'observation directe nÃ©cessite des visites aux endroits oÃ¹ le programme est exÃ©cutÃ© afin de voir ce qui se passe et de prendre des notes. Les participants et le personnel peuvent savoir qu'on les observe ou l'ignorer.

Les rapports d'observation devraient Ãªtre rÃ©digÃ©s immÃ©diatement aprÃ¨s la visite sur place, avec suffisamment de dÃ©tails descriptifs pour que le lecteur puisse comprendre ce qui s'est produit, et de quelle faÃ§on. Les descriptions doivent Ãªtre factuelles, prÃ©cises et complÃ¨tes, mais sans dÃ©tails superflus. Les donnÃ©es de ce genre sont utiles pour l'Ã©valuation, parce que l'Ã©valuateur et les utilisateurs peuvent comprendre les activitÃ©s et les effets d'un programme grÃ¢ce Ã une information descriptive dÃ©taillÃ©e sur ce qui s'est produit et sur la rÃ©action des personnes intÃ©ressÃ©es.

Avantages et inconvÃ©nients

L'observation ne fournit que des renseignements anecdotiques, Ã moins d'Ãªtre combinÃ©e avec un programme planifiÃ© de collecte de donnÃ©es. En effet, un Ã©vÃ©nement alÃ©atoire ne peut servir de base de gÃ©nÃ©ralisation. Certains Ã©lÃ©ments d'observation directe peuvent Ãªtre justifiÃ©s dans presque toutes les Ã©valuations, mais la planification et la conduite des activitÃ©s de collecte de donnÃ©es reprÃ©sentatives sur le terrain peut entraÃ®ner des coÃ»ts Ã©levÃ©s.

L'information permet Ã l'Ã©valuateur de mieux comprendre un programme, particuliÃ¨rement si celui-ci met en jeu une technique ou un processus complexe ou perfectionnÃ©. GrÃ¢ce Ã l'observation personnelle directe, l'Ã©valuateur est en mesure de se faire une idÃ©e complÃ¨te du fonctionnement du programme. En outre, c'est une approche qui lui permet d'aller au-delÃ des perceptions sÃ©lectives d'autres personnes qu'il obtient grÃ¢ce Ã des entrevues, par exemple. S'il est lui-mÃªme un observateur sur le terrain, l'Ã©valuateur aura ses propres perceptions sÃ©lectives, mais pourra quand mÃªme prÃ©senter une vue plus complÃ¨te du programme en intÃ©grant ses propres perceptions aux donnÃ©es dont il dispose.

L'observation directe permet Ã l'Ã©valuateur de saisir des dÃ©tails qui risquent d'Ã©chapper aux membres du personnel ou de constater des Ã©lÃ©ments qu'ils hÃ©sitent Ã soulever au cours d'une entrevue.

La plupart des organisations ont des activitÃ©s rÃ©pÃ©titives que les participants considÃ¨rent comme tout Ã fait normales. Par consÃ©quent, des particularitÃ©s importantes peuvent leur Ã©chapper totalement, alors qu'elles sont facilement perÃ§ues par des non-participants. C'est pour cette raison qu'un Ã©tranger - en l'occurrence l'Ã©valuateur - peut souvent avoir un point de vue Â«nouveauÂ», et c'est pourquoi le contact direct avec la situation permet Ã l'Ã©valuateur d'obtenir une information qu'il ne pourrait pas recueillir autrement.

La fiabilitÃ© et la validitÃ© des observations sont fonction de la compÃ©tence de l'observateur et de sa sensibilisation Ã ses biais.

L'observation directe ne peut jamais Ãªtre rÃ©pÃ©tÃ©e, puisque deux personnes qui observent les mÃªmes activitÃ©s peuvent aboutir Ã des observations diffÃ©rentes. Il s'ensuit que la validitÃ© interne et la validitÃ© externe des donnÃ©es obtenues grÃ¢ce aux observations directes sont limitÃ©es.

Le personnel du programme peut avoir un comportement trÃ¨s diffÃ©rent de la normale lorsqu'il sait qu'un Ã©valuateur l'observe.

L'Ã©valuateur doit Ãªtre conscient de ce phÃ©nomÃ¨ne, en sachant que la personne, les participants ou les deux peuvent changer nettement de comportement lorsqu'ils se savent observÃ©s. Il doit prendre les mesures nÃ©cessaires pour Ã©viter cet Ã©cueil, ou du moins pour tenir compte de son influence.

RÃ©fÃ©rences : Observations directes

Canada, Bureau du VÃ©rificateur gÃ©nÃ©ral du Canada, Bulletin 84-7, Photographies et autres aides visuelles. (Ce bulletin porte sur l'utilisation ultime des photographies dans le Rapport annuel, mais il contient aussi des explications des caractÃ©ristiques qui rendent une photographie efficace comme Ã©lÃ©ment de preuve.)

Guba, E.G.,Â«Naturalistic EvaluationÂ», in Cordray, D.S., et al., Ã©d., Evaluation Practice in Review, Vol. 34 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1987.

Guba, E.G. et Y.S. Lincoln, Effective Evaluation: Improving the Usefulness of Evaluation Results through Responsive and Naturalistic Approaches, San Francisco : Jossey-Bass, 1981.

Patton, M.Q., Qualitative Evaluation Methods, Thousand Oaks : Sage Publications, 1980.

Pearsol, J.A., Ã©d., Â«Justifying Conclusions in Naturalistic EvaluationsÂ», Evaluation and Program Planning, Vol. 10, N^o 4, 1987, p. 307 Ã 358.

V. Van Maasen, J., Ã©d., Qualitative Methodology, Thousand Oaks : Sage Publications, 1983.

Webb, E.J., et al., Nonreactive Measures in the Social Sciences (2^e Ã©dition), Boston : Houghton Mifflin, 1981.

Williams, D.D., Ã©d., Naturalistic Evaluation, Vol. 30 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1986.

4.5 EnquÃªtes

Dans le contexte d'une Ã©valuation, les enquÃªtes sont des moyens systÃ©matiques de collecte de donnÃ©es primaires - quantitatives, qualitatives ou les deux - sur un programme et sur ses rÃ©sultats auprÃ¨s de personnes ou d'autres sources (comme des dossiers) qui y sont associÃ©s. On entend par Â«enquÃªteÂ» une dÃ©marche structurÃ©e conÃ§ue pour obtenir les donnÃ©es nÃ©cessaires d'un Ã©chantillon de la population visÃ©e (ou de toute cette population). La population visÃ©e est composÃ©e des personnes dont il faut obtenir des donnÃ©es et de l'information. Bien exÃ©cutÃ©e, l'enquÃªte est un moyen prÃ©cis et efficace pour dÃ©terminer les caractÃ©ristiques (physiques et psychologiques) d'Ã peu prÃ¨s n'importe quelle population Ã©tudiÃ©e.

On utilise souvent des enquÃªtes dans les Ã©valuations, en raison de leur polyvalence. En fait, on peut s'en servir pour recueillir des donnÃ©es sur virtuellement n'importe quoi. NÃ©anmoins, elles servent essentiellement Ã fournir des intrants pour une autre technique d'analyse, car elles ne sont pas des stratÃ©gies d'Ã©valuation comme telles, mais simplement des mÃ©thodes de collecte de donnÃ©es.

La conception d'une enquÃªte en vue d'une Ã©valuation exige de la minutie et de la compÃ©tence. Il existe de nombreux guides sur la faÃ§on d'Ã©laborer une enquÃªte; certains sont mentionnÃ©s Ã la fin du prÃ©sent chapitre. L'annexe I est une description et une analyse des Ã©lÃ©ments de base des enquÃªtes. Dans les pages qui suivent, nous dÃ©crivons succinctement la faÃ§on de mener une enquÃªte dans le contexte d'une Ã©valuation.

L'Ã©valuateur devrait franchir les trois Ã©tapes suivantes avant de procÃ©der Ã une enquÃªte. Il lui faut d'abord dÃ©terminer l'information nÃ©cessaire Ã l'Ã©valuation, puis mettre au point l'instrument propre Ã recueillir cette information et enfin le mettre Ã l'essai. Ces trois Ã©tapes s'appliquent Ã toutes les techniques de collecte des donnÃ©es. Nous les expliquons ici dans le contexte des enquÃªtes, parce qu'elles sont trÃ¨s courantes dans les Ã©valuations.

a) DÃ©terminer l'information nÃ©cessaire Ã l'Ã©valuation

La premiÃ¨re Ã©tape - qui est aussi la plus fondamentale - consiste Ã dÃ©terminer aussi prÃ©cisÃ©ment que possible l'information nÃ©cessaire Ã l'examen d'une question d'Ã©valuation donnÃ©e.

PremiÃ¨rement, l'Ã©valuateur doit bien comprendre la question Ã l'Ã©tude, afin de dÃ©terminer quelle sorte de donnÃ©es ou d'information lui donnera des indications utiles. Il doit aussi se demander quoi faire de l'information une fois qu'il l'aura recueillie. Quels genres de tableaux produira-t-il? Quelles sortes de conclusions souhaite-t-il tirer? Si le travail n'est pas fait avec soin Ã cette Ã©tape, l'Ã©valuateur risque soit de recueillir trop d'information, soit de finir par constater que des Ã©lÃ©ments clÃ©s lui font dÃ©faut.

DeuxiÃ¨mement, l'Ã©valuateur doit s'assurer que les donnÃ©es dont il a besoin sont introuvables ailleurs ou ne peuvent pas Ãªtre recueillies de faÃ§on plus efficiente et plus pertinente avec d'autres mÃ©thodes de collecte de donnÃ©es. Dans n'importe quel secteur de programme, il se peut qu'on ait dÃ©jÃ effectuÃ© des enquÃªtes ou qu'il y ait des enquÃªtes en cours. L'Ã©valuateur doit donc absolument dÃ©pouiller la documentation pour dÃ©terminer si les donnÃ©es dont il a besoin n'existent pas dÃ©jÃ ailleurs.

Enfin, l'Ã©valuateur doit tenir compte des impÃ©ratifs d'Ã©conomie et d'efficience. En effet, il est toujours tentant de recueillir des renseignements qu'il serait bon d'avoir, mais qui ne sont pas indispensables. L'Ã©valuateur devrait savoir que le coÃ»t de l'enquÃªte est largement fonction de son envergure et de sa nature, et que la collecte de donnÃ©es Â«supplÃ©mentairesÂ» fait inÃ©vitablement augmenter les coÃ»ts.

b) Mettre au point l'instrument de collecte de l'information

L'annexe 1, intitulÃ©e Â«EnquÃªtesÂ» porte notamment sur la prÃ©paration de l'enquÃªte mÃªme. Dans ce contexte, il s'agit de dÃ©terminer l'Ã©chantillon Ã utiliser, de choisir la mÃ©thode d'enquÃªte la mieux appropriÃ©e et de concevoir le questionnaire. Ces Ã©tapes, plutÃ´t itÃ©ratives que successives, sont dÃ©terminÃ©es par les besoins d'information Ã mesure qu'on les constate.

c) Mettre l'instrument d'enquÃªte Ã l'essai

Au moment de leur utilisation sur le terrain, on constate souvent de graves lacunes dans les instruments d'enquÃªte qui n'ont pas Ã©tÃ© mis Ã l'essai comme il se doit. Il faut absolument faire un essai prÃ©liminaire auprÃ¨s d'un Ã©chantillon reprÃ©sentatif de la population visÃ©e, afin de valider aussi bien le questionnaire que les mÃ©thodes que l'on souhaite utiliser pour mener l'enquÃªte. Cet essai fournira des renseignements sur les Ã©lÃ©ments suivants :

ClartÃ© des questions
Le libellÃ© des questions est-il assez clair? Les rÃ©pondants interprÃ¨tent-ils tous les questions de la mÃªme faÃ§on? L'enchaÃ®nement des questions est-il logique?
Taux de rÃ©ponse
Les rÃ©pondants trouvent-ils certaines questions dÃ©rangeantes? La technique d'entrevue les agace-t-elle? Refusent-ils de rÃ©pondre Ã certaines parties du questionnaire?
Longueur et durÃ©e
Combien de temps faut-il pour rÃ©pondre au questionnaire?
MÃ©thode d'enquÃªte
S'il s'agit d'une enquÃªte postale, le taux de rÃ©ponse est-il satisfaisant? Existe-t-il une autre mÃ©thode susceptible d'obtenir le taux de rÃ©ponse recherchÃ©?

Avantages et inconvÃ©nients

Les avantages et les inconvÃ©nients des mÃ©thodes d'enquÃªte sont Ã©tudiÃ©s Ã la section A.5 de l'annexe 1, mais voici dÃ©jÃ quelques observations d'ordre gÃ©nÃ©ral.

Une enquÃªte est un moyen de recueillir des donnÃ©es auprÃ¨s d'une population.

Avec une enquÃªte, il est possible d'obtenir des donnÃ©es attitudinales sur virtuellement n'importe quel aspect d'un programme et sur ses rÃ©sultats. La population visÃ©e peut Ãªtre importante ou rÃ©duite, et l'enquÃªte peut comprendre une sÃ©rie temporelle de mesures ou des mesures prises auprÃ¨s de populations variÃ©es.

Une enquÃªte bien menÃ©e produit des renseignements fiables et valides.

Il existe de nombreuses techniques d'enquÃªte raffinÃ©es. En outre, on peut lire bien des livres, suivre des cours, consulter des spÃ©cialistes et des entreprises d'experts-conseils du secteur privÃ© pour veiller Ã ce que l'information recueillie soit pertinente, opportune, valide et fiable.

NÃ©anmoins, considÃ©rÃ©es comme instruments de collecte de donnÃ©es, les enquÃªtes prÃ©sentent plusieurs inconvÃ©nients.

La conception, l'exÃ©cution et l'interprÃ©tation des enquÃªtes exigent de la compÃ©tence. Il est facile de les utiliser Ã mauvais escient, ce qui produit des donnÃ©es et de l'information non valides.

De nombreux facteurs peuvent fausser les mÃ©thodes d'enquÃªte et compromettre la fiabilitÃ© et la validitÃ© des donnÃ©es recueillies : un Ã©chantillonnage biaisÃ©, un biais de non-rÃ©ponse, la sensibilitÃ© des rÃ©pondants au questionnaire, un biais attribuable Ã l'enquÃªteur et des erreurs de codage. Il faut tenir compte de chacun de ces Ã©cueils Ã©ventuels. Statistique Canada a prÃ©parÃ© un rÃ©pertoire de mÃ©thodes d'Ã©valuation de la qualitÃ© des donnÃ©es recueillies dans les enquÃªtes (1982).

La qualitÃ© des enquÃªtes doit faire l'objet d'un contrÃ´le rigoureux. Or, il arrive souvent que l'Ã©valuateur confie l'Ã©tape de la collecte des donnÃ©es Ã des contractuels. Dans ces cas-lÃ , il est sage que la fiabilitÃ© du travail de l'entrepreneur soit vÃ©rifiÃ©e, notamment par des entrevues de contrÃ´le auprÃ¨s d'un petit Ã©chantillon de rÃ©pondants.

RÃ©fÃ©rences : EnquÃªtes

Babbie, E.R., Survey Research Methods, Belmont : Wadsworth, 1973.

Bradburn, N.M. et S. Sudman, Improving Interview Methods and Questionnaire Design, San Francisco : Jossey-Bass, 1979.

Braverman, Mark T. et Jana Kay Slater, Advances in Survey Research, Vol. 70 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1996.

Canada, SecrÃ©tariat du Conseil du TrÃ©sor, Mesure de la satisfaction des clients : Concevoir et adopter de saines pratiques de mesure et de suivi de la satisfaction des clients, Ottawa, octobre 1991.

Canada, Statistique Canada, Lignes directrices concernant la qualitÃ© (2^e Ã©dition), Ottawa, 1987.

Canada, Statistique Canada, RÃ©pertoire des mÃ©thodes d'Ã©valuation des erreurs dans les recensements et les enquÃªtes, Ottawa, 1982, CSCCB-F.

Dexter, L.A., Elite and Specialized Interviewing, Evanston (Illinois) : Northwestern University Press, 1970.

Fowler, Vol. et J. Floyd, Improving Survey Questions: Design and Evaluation, Thousand Oaks : Sage Publications, 1995.

Gliksman, Louis, et al., Â«Responders vs. Non-Responders to a Mail Survey: Are They Different?Â», Canadian Journal of Program Evaluation, Vol. 7, N^o 2, octobre-novembre 1992, p. 131 Ã 138.

Kish, L., Survey Sampling, New York : Wiley, 1965.

Robinson, J.P. et P.R. Shaver, Measurement of Social Psychological Attitudes, Ann Arbor: Survey Research Center, University of Michigan, 1973.

Rossi, P.H., Wright, J.D. et A.B. Anderson, Ã©d., Handbook of Survey Research, Orlando : Academic Press, 1985.

Warwick, D.P. et C.A. Lininger, The Survey Sample: Theory and Practice, New York : McGraw-Hill, 1975.

4.6 Consultation de spÃ©cialistes

Cette mÃ©thode de collecte de donnÃ©es met Ã profit les perceptions et les connaissances des spÃ©cialistes de divers domaines fonctionnels, en tant qu'indicateurs d'Ã©valuation. Fondamentalement, elle consiste Ã obtenir l'opinion de ces spÃ©cialistes sur des questions d'Ã©valuation donnÃ©es. L'Ã©valuateur utilise ensuite ces renseignements pour dÃ©terminer les rÃ©sultats du programme. En fait, la consultation de spÃ©cialistes est un type d'enquÃªte particulier, ce qui signifie que tout ce qui a Ã©tÃ© dit dans la section sur les enquÃªtes s'applique Ã©galement ici. Toutefois, en raison de sa frÃ©quence, la consultation de spÃ©cialistes doit faire l'objet d'une section distincte.

Il importe de prÃ©ciser d'emblÃ©e que cette consultation est une mÃ©thode qui devrait en thÃ©orie servir Ã complÃ©ter (ou Ã remplacer, en l'absence d'indicateurs plus objectifs) d'autres mesures des rÃ©sultats d'un programme. Rappelons-le, c'est une mÃ©thode de collecte de donnÃ©es qui ne consiste pas Ã joindre des spÃ©cialistes Ã l'Ã©quipe d'Ã©valuation, mais plutÃ´t Ã se servir d'eux comme sources de donnÃ©es pour Ã©tudier les questions Ã Ã©valuer.

On peut recueillir des opinions de spÃ©cialistes et les rÃ©sumer de faÃ§on systÃ©matique, bien que les rÃ©sultats de cette dÃ©marche restent toujours subjectifs. Supposons par exemple que l'Ã©valuateur cherche Ã dÃ©terminer de quelle faÃ§on un programme d'aide donnÃ©e a favorisÃ© l'avancement des connaissances scientifiques. L'une des faÃ§ons de mesurer ces deux variables difficiles Ã quantifier pourrait consister Ã interroger des spÃ©cialistes du domaine scientifique en question. L'Ã©valuateur aurait recours Ã diverses mÃ©thodes - par exemple Ã une enquÃªte postale ou Ã des entrevues individuelles - pour obtenir des mesures quantitatives. Dans ce contexte, il pourrait faire une enquÃªte ponctuelle ou utiliser une technique interactive comme la mÃ©thode Delphi (voir Linstone et Turoff, 1995) ou encore la rÃ©troaction qualitative contrÃ´lÃ©e (voir Press, 1978).

Avantages et inconvÃ©nients

La consultation de spÃ©cialistes peut servir Ã obtenir des mesures dans des domaines oÃ¹ l'on manque de donnÃ©es subjectives. C'est une technique de collecte de donnÃ©es rapide et relativement peu coÃ»teuse.

GrÃ¢ce Ã sa souplesse et Ã sa facilitÃ© d'utilisation, la consultation de spÃ©cialistes se prÃªte Ã l'Ã©valuation de presque n'importe quel rÃ©sultat, voire de n'importe quel aspect d'un programme. Sa crÃ©dibilitÃ© est d'autant plus grande qu'elle est exÃ©cutÃ©e aussi systÃ©matiquement que possible. NÃ©anmoins, elle prÃ©sente plusieurs inconvÃ©nients importants.

L'Ã©valuateur peut avoir de la difficultÃ© Ã trouver suffisamment de spÃ©cialistes compÃ©tents pour assurer la fiabilitÃ© statistique des rÃ©sultats.

Il risque d'Ãªtre difficile d'amener les parties intÃ©ressÃ©es Ã s'entendre sur le choix des spÃ©cialistes.

Comme il est peu probable que les spÃ©cialistes soient tous aussi versÃ©s dans un domaine donnÃ©, il faudrait pondÃ©rer les rÃ©sultats.

On peut bien sÃ»r utiliser des mÃ©thodes statistiques pour tenter de pondÃ©rer la compÃ©tence inÃ©gale des spÃ©cialistes, mais ces mÃ©thodes manquent largement de prÃ©cision, et c'est pourquoi l'Ã©valuateur risque de considÃ©rer toute rÃ©ponse comme Ã©tant d'Ã©gale importance.

La validitÃ© de la mesure peut Ãªtre contestÃ©e, comme dans toutes les Ã©valuations verbales.

Les spÃ©cialistes peuvent se fonder sur des critÃ¨res diffÃ©rents ou attribuer une valeur diffÃ©rente aux chiffres sur les Ã©chelles de notation. Par exemple, le spÃ©cialiste qui Ã©value Ã 3 la contribution d'un projet Ã l'avancement des connaissances scientifiques, sur une Ã©chelle de 1 Ã 5, peut lui accorder la mÃªme valeur qu'un autre qui l'Ã©value Ã 4, la seule diffÃ©rence Ã©tant que les deux accordent une valeur diffÃ©rente au degrÃ© de l'Ã©chelle.

La crÃ©dibilitÃ© des spÃ©cialistes peut toujours Ãªtre mise en doute, comme dans toute Ã©valuation suggestive.

Les diffÃ©rences sur le choix et la valeur des spÃ©cialistes peuvent facilement faire perdre toute valeur mÃªme Ã un ensemble remarquable d'opinions.

Par consÃ©quent, il faudrait Ã©viter de faire de la consultation de spÃ©cialistes la seule source de donnÃ©es d'une Ã©valuation.

RÃ©fÃ©rences : Consultation de spÃ©cialistes

Boberg, Alice L. et Sheryl A. Morris-Khoo, Â«The Delphi Method: A Review of Methodology and an Application in the Evaluation of a Higher Education ProgramÂ», Canadian Journal of Program Evaluation, Vol. 7, N^o 1, avril-mai 1992, p. 27 Ã 40.

Delbecq, A.L., et al., Group Techniques in Program Planning: A Guide to the Nominal Group and Delphi Processes, Glenview : Scott, Foresman, 1975.

Shea, Michael P. et John H. Lewko, Â«Use of a Stakeholder Advisory Group to Facilitate the Utilization of Evaluation ResultsÂ», Canadian Journal of Program Evaluation, Vol. 10, N^o 1, avril-mai 1995, p. 159 Ã 162.

Uhl, Norman, et Carolyn Wentzel, Â«Evaluating a Three-day Exercise to Obtain Convergence of OpinionÂ», Canadian Journal of Program Evaluation, Vol. 10, N^o 1, avril-mai 1995, p. 151 Ã 158.

4.7 Ã‰tudes de cas

Lorsqu'un programme se compose d'une sÃ©rie de projets ou de cas, l'Ã©valuateur peut avoir recours Ã une sÃ©rie d'Ã©tudes de cas Â«particuliersÂ» pour Ã©valuer et expliquer ses rÃ©sultats. Comme la consultation de spÃ©cialistes, les Ã©tudes de cas sont une forme d'enquÃªte en soi dont l'importance justifie que nous y consacrions une section.

Les Ã©tudes de cas sont utilisÃ©es pour Ã©valuer les rÃ©sultats d'un programme au moyen d'un examen approfondi plutÃ´t qu'Ã©tendu de cas ou de projets prÃ©cis. Contrairement aux techniques de collecte de donnÃ©es dÃ©crites jusqu'ici, elles font ordinairement appel Ã une combinaison de diverses mÃ©thodes; on s'en sert gÃ©nÃ©ralement lorsqu'il est impossible, pour des raisons budgÃ©taires ou pratiques, de constituer un Ã©chantillon suffisamment gros, ou lorsqu'il faut avoir des donnÃ©es trÃ¨s dÃ©taillÃ©es.

Normalement, les Ã©tudes de cas portent sur un certain nombre de cas ou de projets prÃ©cis Ã partir desquels l'Ã©valuateur espÃ¨re tirer des renseignements portant sur l'ensemble du programme. Il est donc trÃ¨s important de choisir judicieusement les cas, afin que les conclusions qu'on en tire puissent s'appliquer Ã l'ensemble de la population cible. Malheureusement, il est frÃ©quent que les cas soient choisis de faÃ§on peu scientifique (ou qu'on n'en choisisse pas assez), au point qu'il est impossible d'en tirer des infÃ©rences statistiques valides.

Il peut aussi arriver qu'on choisisse un cas parce qu'on le considÃ¨re comme critique, voire comme le plus reprÃ©sentatif. Pourtant, s'il aboutit Ã de mauvais rÃ©sultats, on risque de mettre sÃ©rieusement en doute l'efficacitÃ© de l'ensemble du programme, indÃ©pendamment des rÃ©sultats des autres cas Ã©tudiÃ©s. Nous reviendrons plus loin sur ces deux situations, Ã savoir les cas les plus reprÃ©sentatifs et les cas critiques.

Supposons qu'on ne puisse dÃ©terminer les rÃ©sultats d'un programme de subventions Ã un secteur d'activitÃ© industrielle donnÃ© qu'en se fondant sur un examen dÃ©taillÃ© des Ã©tats financiers des entreprises et sur des entrevues exhaustives auprÃ¨s des gestionnaires, des comptables et des techniciens intÃ©ressÃ©s. Avec de telles exigences, il serait extrÃªmement coÃ»teux d'utiliser un gros Ã©chantillon. Par consÃ©quent, l'Ã©valuateur pourrait opter pour un petit Ã©chantillon de cas qu'il considÃ©rerait comme reprÃ©sentatifs de l'ensemble de la population. Pourtant, il ne lui serait possible de gÃ©nÃ©raliser ses rÃ©sultats Ã toute la population en supposant des circonstances semblables dans des cas n'ayant pas fait l'objet d'Ã©tude. Il n'est donc pas toujours facile de poser une hypothÃ¨se comme celle-lÃ , car elle peut Ãªtre contestÃ©e ou mise en doute, ce qui risque de saper la crÃ©dibilitÃ© des conclusions.

Lorsqu'il s'agit de mesurer les rÃ©sultats d'un programme, l'Ã©tude d'un cas critique peut Ãªtre plus dÃ©fendable que celle d'un Ã©chantillon reprÃ©sentatif. Prenons l'exemple d'une entreprise qui aurait reÃ§u presque tous les fonds d'un programme conÃ§u pour rÃ©aliser un projet industriel. L'Ã©valuation de l'incidence de la subvention sur le projet (en a-t-elle provoquÃ© la mise en oeuvre, et, si oui, quels en ont Ã©tÃ© les avantages) peut grandement contribuer Ã la mesure des rÃ©sultats de l'ensemble du programme. Il s'ensuit que l'Ã©tude d'un cas critique peut Ãªtre un outil aussi valable qu'important d'Ã©valuation d'un programme.

Toutefois, dans le contexte d'une Ã©valuation, on se sert plus souvent des Ã©tudes de cas pour comprendre de quelle faÃ§on le programme a Ã©tÃ© mis en oeuvre et pourquoi certaines choses se sont produites que pour prendre des mesures prÃ©cises.

Plus souvent qu'autrement, les rÃ©sultats ne sont pas aussi Ã©vidents qu'on l'aurait prÃ©vu. L'Ã©valuateur peut prÃ©tendre qu'ils sont attribuables Ã des Â«interactions complexesÂ», Ã des Â«variables accessoiresÂ» ou tout simplement Ã une Â«variance inexpliquÃ©eÂ», alors qu'on a tout simplement nÃ©gligÃ© un facteur important Ã l'Ã©tape de l'Ã©tude prÃ©paratoire. Cela risque de se produire assez souvent, puisqu'on connaÃ®t rarement d'avance le processus qui lie les intrants aux extrants et aux rÃ©sultats. NÃ©anmoins, il est relativement important de le connaÃ®tre, et l'Ã©valuateur peut y arriver grÃ¢ce Ã des mÃ©thodes de collecte de donnÃ©es susceptibles de donner une idÃ©e de l'imprÃ©vu, dont assurÃ©ment celle des Ã©tudes de cas.

En rÃ©alitÃ©, on peut avoir recours Ã des Ã©tudes de cas Ã bien des fins, y compris les suivantes :

explorer les nombreuses consÃ©quences d'un programme;
sensibiliser l'Ã©valuateur au contexte dans lequel le programme se dÃ©roule;
faire ressortir les Â«variables accessoiresÂ» pertinentes;
Ã©valuer les consÃ©quences Ã long terme du programme (Alkin, 1980).

Avantages et inconvÃ©nients

Les Ã©tudes de cas permettent Ã l'Ã©valuateur de rÃ©aliser une analyse plus approfondie que les mÃ©thodes plus gÃ©nÃ©rales.

C'est probablement l'atout le plus important des Ã©tudes de cas, Ã©tant donnÃ© que, dans la pratique, l'ampleur de l'analyse rÃ©alisable avec des mÃ©thodes globales est souvent limitÃ©e. La profondeur de l'analyse rÃ©alisable grÃ¢ce aux Ã©tudes de cas fait que leurs rÃ©sultats sont souvent trÃ¨s utiles. De plus, ces Ã©tudes peuvent mener Ã des hypothÃ¨ses explicatives qui favorisent une analyse plus poussÃ©e.

Les Ã©tudes de cas sont gÃ©nÃ©ralement coÃ»teuses et longues Ã exÃ©cuter, et c'est pourquoi on ne peut normalement pas analyser un Ã©chantillon de cas statistiquement fiable. Par consÃ©quent, une sÃ©rie d'Ã©tudes de cas n'a habituellement pas la base statistique nÃ©cessaire pour qu'on puisse gÃ©nÃ©raliser les conclusions qu'on en tire.

L'analyse approfondie que les Ã©tudes de cas favorisent nÃ©cessite gÃ©nÃ©ralement d'importantes ressources et de longs dÃ©lais, ce qui limite le nombre de celles qu'on peut rÃ©aliser. On ne s'attend donc pas, normalement, Ã en tirer des rÃ©sultats susceptibles d'Ãªtre gÃ©nÃ©ralisÃ©s sur le plan statistique. Leur principal rÃ´le consiste Ã donner un aperÃ§u gÃ©nÃ©ral du dÃ©roulement du programme et Ã favoriser sa comprÃ©hension. C'est pour cette raison qu'on recommande habituellement qu'elles soient faites avant (ou en mÃªme temps) les autres mÃ©thodes de collecte de donnÃ©es, dont les conclusions sont plus gÃ©nÃ©ralisables.

RÃ©fÃ©rences : Ã‰tudes de cas

Campbell, D.T., Â«Degrees of Freedom and the Case StudyÂ», Comparative Political Studies, Vol. 8, 1975, p. 178 Ã 193.

Campbell, D.T. et J.C. Stanley, Experimental and Quasi-experimental Designs for Research, Chicago : Rand-McNally, 1963.

Cook, T.D. et C.S. Reichardt, Qualitative and Quantitative Methods in Evaluation Research, Thousand Oaks : Sage Publications, 1979, chapitre 3.

Favaro, Paul et Marie Billinger, Â«A Comprehensive Evaluation Model for Organizational DevelopmentÂ», Canadian Journal of Program Evaluation, Vol. 8, N^o 2, octobre-novembre 1993, p. 45 Ã 60.

Maxwell, Joseph A., Qualitative Research Design: An Interactive Approach, Thousand Oaks : Sage Publications, 1996.

McClintock, C.C., et al., Â«Applying the Logic of Sample Surveys to Qualitative Case Studies: The Case Cluster MethodÂ», in Van Maanen, J., Ã©d., Qualitative Methodology, Thousand Oaks : Sage Publications, 1979.

Yin, R., The Case Study as a Rigorous Research Method, Thousand Oaks : Sage Publications, 1986.

4.8 RÃ©sumÃ©

Nous avons analysÃ© dans le prÃ©sent chapitre six mÃ©thodes de collecte de donnÃ©es utilisÃ©es pour l'Ã©valuation de programmes : le dÃ©pouillement de la documentation spÃ©cialisÃ©e, l'Ã©tude de dossiers, les observations directes, les enquÃªtes, la consultation de spÃ©cialistes et les Ã©tudes de cas.

Les deux premiÃ¨res de ces mÃ©thodes consistent Ã recueillir des donnÃ©es secondaires, et les quatre autres, des donnÃ©es primaires. Pour faciliter l'analyse et la comprÃ©hension, nous les avons prÃ©sentÃ©es sÃ©parÃ©ment. Toutefois, dans le contexte de l'Ã©valuation de programmes, il faudrait les utiliser ensemble pour appuyer les stratÃ©gies de recherche retenues.

Le dÃ©pouillement de la documentation et l'Ã©tude de dossiers sont indispensables Ã l'Ã©valuation. Il faudrait y voir dÃ¨s l'Ã©tape de l'Ã©tude prÃ©paratoire, ainsi que dans les premiÃ¨res phases de l'Ã©valuation proprement dite. Ce sont des dÃ©marches qui servent Ã dÃ©finir le contexte du programme Ã l'Ã©tude ainsi qu'Ã proposer des faÃ§ons plausibles d'attribuer les rÃ©sultats observÃ©s Ã un programme donnÃ©. Elles peuvent aussi permettre Ã l'Ã©valuateur d'Ã©viter de recueillir des donnÃ©es superflues, en lui indiquant ou en mettant en Ã©vidence des donnÃ©es pertinentes ou Ã©quivalentes qui existent dÃ©jÃ ailleurs.

Un grand nombre de mÃ©thodes Ã©tudiÃ©es dans le prÃ©sent chapitre sont utilisÃ©es pour recueillir des donnÃ©es sur les attitudes. L'Ã©valuateur devrait quand mÃªme se rappeler que les attitudes changent avec le temps sous l'influence de facteurs contextuels et qu'elles sont subjectives. Par exemple, une enquÃªte consistant Ã interroger des gens sur les rÃ©sultats d'un programme donne tout au plus Ã l'Ã©valuateur l'opinion gÃ©nÃ©rale de la population visÃ©e quant aux rÃ©sultats du programme. Cette opinion peut servir ou non Ã dÃ©terminer les rÃ©sultats rÃ©els. Cela dit, la meilleure faÃ§on d'interprÃ©ter les donnÃ©es sur les attitudes consiste Ã les situer dans leur propre contexte historique et socio-Ã©conomique, et c'est pourquoi il faut obtenir ces renseignements-lÃ pour appuyer l'analyse en bonne et due forme des donnÃ©es sur les attitudes.

L'Ã©valuateur devrait aussi Ãªtre conscient de la subjectivitÃ© Ã©ventuelle des donnÃ©es obtenues grÃ¢ce Ã certaines mÃ©thodes de collecte, surtout l'observation directe, la consultation de spÃ©cialistes, voire parfois les Ã©tudes de cas. Ce n'est pas nÃ©cessairement un inconvÃ©nient, mais il est nÃ©cessaire de bien Ã©tablir la validitÃ© externe de toutes les conclusions. D'un autre cÃ´tÃ©, rien ne vaut ces mÃ©thodes de collecte pour obtenir des donnÃ©es holistiques en profondeur sur l'effet d'un programme. CombinÃ©es avec des donnÃ©es quantitatives, les donnÃ©es qualitatives sont un outil trÃ¨s efficace lorsqu'on veut vÃ©rifier le rapport entre un programme et ses rÃ©sultats.

Enfin, comme il est rare qu'une seule mÃ©thode de collecte de donnÃ©es soit entiÃ¨rement satisfaisante pour l'Ã©valuation d'un programme quelconque, il est prÃ©fÃ©rable d'en combiner plusieurs et de puiser ses donnÃ©es Ã diffÃ©rentes sources, tout en respectant les contraintes, bien entendu.

Chapitre 5 - MÃ‰THODES ANALYTIQUES

5.1 Introduction

Les mÃ©thodes analytiques utilisÃ©es pour l'Ã©valuation devraient Ãªtre clairement exposÃ©es Ã l'Ã©tape du choix du modÃ¨le. Il ne faudrait jamais recueillir de donnÃ©es Ã moins que l'Ã©valuateur sache exactement comment elles seront utilisÃ©es dans l'analyse. Un bon modÃ¨le d'Ã©valuation tiendra compte de trois Ã©lÃ©ments : les questions Ã l'Ã©tude, les mÃ©thodes d'analyse et les donnÃ©es susceptibles d'Ãªtre recueillies. Toutes ces piÃ¨ces doivent se combiner parfaitement avant que l'Ã©valuation commence.

Dans ce chapitre, nous allons dÃ©crire les mÃ©thodes analytiques utilisÃ©es dans l'administration fÃ©dÃ©rale pour dÃ©terminer les rÃ©sultats d'un programme. Notre dÃ©marche est axÃ©e sur l'utilisation de ces mÃ©thodes en tant qu'Ã©lÃ©ments d'une stratÃ©gie d'Ã©valuation donnÃ©e. Ã‰videmment, elles peuvent aussi Ãªtre utiles pour d'autres parties de l'Ã©valuation. Par exemple, l'Ã©tude prÃ©paratoire comporte habituellement une analyse exploratoire qui contribue Ã cerner les questions Ã l'Ã©tude et Ã dÃ©finir les mÃ©thodes de recherche les plus utiles. En outre, l'analyse permet d'intÃ©grer les constatations obtenues grÃ¢ce aux diffÃ©rentes stratÃ©gies d'Ã©valuation.

Dans les pages qui suivent, nous allons dÃ©crire Ã la fois l'analyse de la mesure directe des rÃ©percussions des programmes ainsi que celle qui fait appel aux mesures de ces rÃ©percussions directes pour produire une estimation de diverses retombÃ©es des programmes. On distingue deux types de mÃ©thodes d'analyse directe, les mÃ©thodes statistiques et les mÃ©thodes non statistiques. Nous allons complÃ©ter ces descriptions avec celle de diverses mÃ©thodes d'analyse indirecte.

5.2 Analyse statistique

L'analyse statistique implique la manipulation de donnÃ©es (catÃ©goriques) quantitatives ou qualitatives en vue de dÃ©crire des phÃ©nomÃ¨nes et de procÃ©der Ã des infÃ©rences quant aux relations entre variables. Les donnÃ©es en question peuvent Ãªtre soit objectives et Â«concrÃ¨tesÂ», soit subjectives et Â«abstraitesÂ», mais les unes et les autres doivent Ãªtre dÃ©crites ou organisÃ©es de faÃ§on systÃ©matique. Presque toutes les Ã©tudes analytiques font appel Ã l'analyse statistique, mais son emploi exige de la compÃ©tence et une comprÃ©hension des hypothÃ¨ses sous-jacentes.

L'analyse statistique a deux raisons d'Ãªtre, la premiÃ¨re consistant Ã faire une description, ce pourquoi on utilise des tableaux statistiques afin de prÃ©senter des donnÃ©es quantitatives et qualitatives de faÃ§on aussi succincte que rÃ©vÃ©latrice. La seconde raison d'Ãªtre des modÃ¨les statistiques consiste Ã faire des infÃ©rences pour vÃ©rifier les rapports entre les variables Ã©tudiÃ©es ou pour gÃ©nÃ©raliser des constatations en les appliquant Ã une population plus Ã©tendue (d'aprÃ¨s l'Ã©chantillon).

Pour faire rapport des constatations d'une Ã©tude d'Ã©valuation, il faut souvent prÃ©senter succinctement une grande quantitÃ© de donnÃ©es. Les statistiques, prÃ©sentÃ©es sous forme de tableau ou de graphique et de Â«statistiquesÂ» (comme la moyenne ou la variance) peuvent faire ressortir les principales caractÃ©ristiques des donnÃ©es.

Pour illustrer l'utilisation de l'analyse statistique descriptive, prenons l'exemple d'un programme d'enseignement de la langue seconde pour lequel on a Ã©valuÃ© les connaissances des immigrants avant et aprÃ¨s leur participation. Le tableau 3 contient deux exemples (A et B) de prÃ©sentation sommaire des rÃ©sultats aux examens des participants. Les deux sont des rÃ©sumÃ©s descriptifs des donnÃ©es. Le second exemple (B) est plus ventilÃ© (moins succinct) que le premier (A), dans lequel on prÃ©sente la note moyenne (c.-Ã -d. la moyenne arithmÃ©tique des rÃ©sultats). Cette statistique peut correspondre Ã un rÃ©sultat moyen sans contenir de prÃ©cisions sur l'Ã©tendue ou la distribution des rÃ©sultats. Comme on peut le constater, la note moyenne des 43 personnes qui ont suivi tout le programme a Ã©tÃ© de 64,7 p. 100, comparativement Ã une note moyenne avant le programme de 61,2 p. 100.

Tableau 3 - Exemple de statistiques descriptives
A) PrÃ©sentation des rÃ©sultats moyens
			RÃ©sultat moyen			Nombre de personnes ayant passÃ© l'examen
Examen antÃ©rieur au programme			61,2			48
Examen postÃ©rieur au programme			64,7			43
B) PrÃ©sentation de la distribution des rÃ©sultats
	0-20	21-40		41-60	61-80		81-100		N
Examen antÃ©rieur au programme	6 (12,5 %)	5 (10,4 %)		8 (16,7 %)	24 (50 %)		5 (10,4 %)		48 (100 %)
Ã‰cart type = 22,6
Examen postÃ©rieur au programme	5 (11,6 %)	5 (11,6 %)		6 (14,0 %)	20 (46,5 %)		7 (16,3 %)	43 (100 %)
Ã‰cart type = 23,7

Par contre, dans le second exemple (B), la distribution gÃ©nÃ©rale des notes est prÃ©sentÃ©e Ã partir des mÃªmes donnÃ©es brutes que celles utilisÃ©es pour le premier exemple (A). Ainsi, Ã l'Ã©valuation antÃ©rieure au programme, six des participants avaient obtenu une note de 0 Ã 20 % et 20 autres une note de 61 Ã 80 %. La distribution des notes peut aussi Ãªtre exprimÃ©e en pourcentages : on voit ainsi que 50 p. 100 (24/48) des participants Ã©valuÃ©s avant le programme avaient obtenu une note variant entre 61 et 80 %, alors que 16,3 p. 100 (7/43) de ceux qui l'ont Ã©tÃ© aprÃ¨s le programme ont obtenu une note entre 81 et 100 %. Cette prÃ©sentation en pourcentages fournit aussi des descriptions plus globales des donnÃ©es (par exemple, on constate que 60,4 p. 100 des participants Ã©valuÃ©s avant le programme ont obtenu plus de 60 % Ã l'examen.

Enfin, une statistique telle que l'Ã©cart type peut servir Ã rÃ©sumer l'Ã©tendue de la distribution. L'Ã©cart type correspond Ã la mesure dans laquelle les rÃ©sultats individuels se rapprochent de la moyenne arithmÃ©tique, c'est-Ã -dire de la normale. Plus l'Ã©cart type est petit par rapport Ã la normale, moins la distribution est Ã©tendue.

Les tableaux ne sont pas la seule faÃ§on de prÃ©senter des statistiques descriptives. On peut aisÃ©ment prÃ©senter des donnÃ©es et des statistiques sous forme de graphiques. Les graphiques Ã barre sont utilisÃ©s pour les distributions, tandis que les graphiques circulaires ou les boÃ®tes illustrent des proportions relatives. Ces prÃ©sentations visuelles, faciles Ã produire avec des logiciels statistiques, peuvent Ãªtre trÃ¨s utiles pour rÃ©sumer des donnÃ©es statistiques, puisqu'elles sont souvent plus faciles Ã lire qu'un tableau et n'exigent pas nÃ©cessairement une comprÃ©hension de tous les aspects des statistiques pour en tirer une information utile.

Comme nous l'avons dÃ©jÃ indiquÃ©, les donnÃ©es subjectives (fondÃ©es sur les attitudes) peuvent Ãªtre traitÃ©es de la mÃªme faÃ§on que les donnÃ©es objectives. Supposons qu'on demande aux participants Ã un programme de formation d'Ã©valuer leurs progrÃ¨s sur une Ã©chelle de 1 Ã 5. Les rÃ©sultats pourraient Ãªtre prÃ©sentÃ©s comme suit :

	1	2	3	4	5	Nombre
Nombre de rÃ©pondants	16	38	80	40	26	200
Pourcentage	8 %	19 %	40 %	20 %	13 %
	RÃ©sultat moyen : 3,1

Dans ce cas-ci, on voit que 40 des 200 rÃ©pondants (20 p. 100) ont Ã©valuÃ© leurs progrÃ¨s Ã 4 sur 5. La moyenne Ã©tait de 3,1. Bien sÃ»r, on peut contester la fiabilitÃ© et la validitÃ© de cette technique de mesure, mais il n'en reste pas moins que l'Ã©valuateur peut s'en servir pour rÃ©sumer succinctement les 200 rÃ©ponses grÃ¢ce Ã une simple analyse statistique descriptive.

La deuxiÃ¨me principale raison de l'analyse statistique consiste Ã faire des infÃ©rences,c'est-Ã -dire Ã tirer des conclusions sur des rapports entre variables, puis Ã gÃ©nÃ©raliser ces conclusions pour les appliquer dans d'autres situations. Dans l'exemple du tableau 3, si nous supposons que les personnes qui ont subi des examens avant et aprÃ¨s leur participation au programme sont un Ã©chantillon d'une population plus nombreuse, il faut dÃ©terminer si l'amÃ©lioration des rÃ©sultats est rÃ©elle et attribuable au programme (ou Ã d'autres facteurs accessoires), ou si elle est simplement attribuable aux Ã©lÃ©ments alÃ©atoires de l'Ã©chantillon, autrement dit Ã une erreur d'Ã©chantillonnage. Or, grÃ¢ce Ã des mÃ©thodes statistiques comme l'analyse de la variance, il est possible de dÃ©terminer si les rÃ©sultats moyens sont statistiquement diffÃ©rents.

Ã€ cet Ã©gard, il convient de souligner que tout ce qui est Ã©tabli dans ce cas, est un rapport, Ã savoir que le rÃ©sultat obtenu aprÃ¨s la participation au programme est supÃ©rieur Ã celui qui l'avait Ã©tÃ© avant. Pour conclure que cette amÃ©lioration est attribuable au programme, il faut tenir compte des obstacles Ã la validitÃ© interne qui ont Ã©tÃ© analysÃ©s aux chapitres 2 et 3. Les vÃ©rifications statistiques telles que l'analyse de la variance montrent simplement qu'il existe une diffÃ©rence statistiquement significative entre le rÃ©sultat obtenu avant le programme et celui constatÃ© aprÃ¨s. Les vÃ©rifications statistiques ne prouvent donc pas que la diffÃ©rence est attribuable au programme. D'autres vÃ©rifications statistiques et des donnÃ©es supplÃ©mentaires peuvent aider Ã rÃ©pondre aux questions d'attribution.

Prenons un autre exemple de rapports Ã©tablis entre des variables grÃ¢ce Ã une analyse statistique, soit celui des donnÃ©es prÃ©sentÃ©es au tableau 4. Nous y voyons les rÃ©sultats (en pourcentages) obtenus avant et aprÃ¨s la participation au programme par des hommes et des femmes. Ces statistiques descriptives peuvent rÃ©vÃ©ler les effets diffÃ©rents d'un programme pour divers groupes de participants. Ainsi, la premiÃ¨re partie du tableau 4 montre que l'Ã©cart entre les rÃ©sultats avant et aprÃ¨s le programme est minime pour les hommes. Il s'ensuit que les descriptions laissent entendre que le programme a eu des effets diffÃ©rents selon le groupe de participants. Ces diffÃ©rences peuvent Ãªtre des indices importants qu'il conviendrait de mener d'autres vÃ©rifications pour dÃ©terminer leur importance statistique.

Lorsqu'on Ã©tudie les donnÃ©es prÃ©sentÃ©es aux tableaux 3 et 4, on voit que l'Ã©valuateur pourrait avoir recours Ã l'analyse statistique par infÃ©rence pour estimer la force du rapport apparent, Ã savoir que les femmes ont obtenu de meilleurs rÃ©sultats que les hommes. Des mÃ©thodes statistiques telles que l'analyse de rÃ©gression (ou l'analyse loglinÃ©aire) pourraient servir Ã Ã©tablir l'importance de la corrÃ©lation entre les variables Ã l'Ã©tude. Dans ce cas-ci, le rapport entre les rÃ©sultats, la participation ou la non-participation au programme et le sexe du participant pourrait Ãªtre dÃ©terminÃ©. En effet, les techniques statistiques de ce genre peuvent contribuer Ã dÃ©terminer l'importance des rapports entre les rÃ©sultats d'un programme et les caractÃ©ristiques de ses participants.

Il est Ã noter que, mÃªme si les techniques statistiques dont nous venons de traiter (comme l'analyse de rÃ©gression) sont souvent associÃ©es Ã l'analyse statistique par infÃ©rence, de nombreuses statistiques descriptives sont aussi produites dans ce contexte. L'Ã©valuateur devrait Ã©tablir une distinction entre le procÃ©dÃ© arithmÃ©tique associÃ© par exemple Ã l'estimation d'un coefficient de rÃ©gression et la mÃ©thode Ã utiliser pour en Ã©valuer l'importance. Il s'agit dans le premier cas d'une description et dans le second d'une infÃ©rence. Cette distinction est particuliÃ¨rement importante lorsqu'on utilise un logiciel statistique pour produire de nombreuses statistiques descriptives. En effet, l'Ã©valuateur doit faire des infÃ©rences appropriÃ©es Ã partir de ces statistiques-lÃ .

Tableau 4 - Autres donnÃ©es descriptives
Distribution des rÃ©sultats selon le sexe
HOMMES
	0-20	21-40	41-60	61-80	81-100
Examen passÃ© avant le programme	13 %	15 %	38 %	20 %	14 %
Examen passÃ© aprÃ¨s le programme	13 %	14 %	33 %	22 %	18 %
FEMMES
Examen passÃ© avant le programme	10 %	16 %	32 %	32 %	10 %
Examen passÃ© aprÃ¨s le programme	8 %	4 %	23 %	42 %	23 %

L'analyse statistique peut aussi servir Ã gÃ©nÃ©raliser Ã une population plus nombreuse des constatations associÃ©es Ã un groupe donnÃ©. Il se peut par exemple que les rÃ©sultats moyens obtenus aux examens avant et aprÃ¨s la participation au programme qui sont prÃ©sentÃ©s au tableau 3 soient reprÃ©sentatifs de l'ensemble de la population des immigrants, Ã condition qu'on ait utilisÃ© des techniques d'Ã©chantillonnage appropriÃ©es ainsi que des mÃ©thodes statistiques acceptables pour Ã©tablir les estimations. Si le groupe Ã©valuÃ© Ã©tait suffisamment important et statistiquement reprÃ©sentatif de l'ensemble de la population des immigrants, on devrait pouvoir s'attendre Ã obtenir des rÃ©sultats semblables si le programme devait prendre de l'ampleur. Bien exÃ©cutÃ©e, l'analyse statistique peut donc grandement amÃ©liorer la validitÃ© externe des conclusions.

Les mÃ©thodes statistiques varient selon le niveau des mesures appliquÃ© aux donnÃ©es (catÃ©gorique, ordinal, intervalle et rapport) ainsi que selon le nombre de variables en jeu. Les mÃ©thodes paramÃ©triques sont fondÃ©es sur l'hypothÃ¨se que les donnÃ©es sont dÃ©rivÃ©es d'une population ayant une distribution normale (ou une autre distribution quelconque). D'autres mÃ©thodes Â«robustesÂ» permettent toutefois Ã l'Ã©valuateur de s'Ã©carter fortement des hypothÃ¨ses de normalitÃ©. Par exemple, on peut utiliser un grand nombre de mÃ©thodes non paramÃ©triques (sans distribution) pour les donnÃ©es ordinales.

Les mÃ©thodes Ã variable unique portent sur le rapport statistique entre une variable et une autre, alors que les mÃ©thodes Ã plusieurs variables sont conÃ§ues pour dÃ©terminer le rapport entre une ou plusieurs variables et un autre ensemble d'au moins deux variables.

Les mÃ©thodes Ã plusieurs variables peuvent Ãªtre utilisÃ©es par exemple pour dÃ©gager des tendances, faire des comparaisons justes, prÃ©ciser des comparaisons et Ã©tudier l'influence marginale d'une variable (les effets des autres facteurs restant constants).

On distingue deux types de mÃ©thodes Ã plusieurs variables, celles qui sont fondÃ©es sur le modÃ¨le linÃ©aire gÃ©nÃ©ral (c.-Ã -d. le modÃ¨le paramÃ©trique normal), et celles, plus modernes, qu'on utilise pour l'analyse de plusieurs variables de donnÃ©es catÃ©goriques, comme l'analyse loglinÃ©aire. On peut aussi les rÃ©partir en deux catÃ©gories :

a) mÃ©thodes servant Ã l'analyse de la dÃ©pendance, telles que les mÃ©thodes de rÃ©gression (y compris l'analyse de la variance/covariance), la reprÃ©sentation fonctionnelle, l'analyse de trajectoires, les mÃ©thodes Ã sÃ©rie temporelle et Ã contingences multiples, ainsi que les mÃ©thodes qualitatives (catÃ©goriques) et mixtes;
b) mÃ©thodes utilisÃ©es pour l'analyse de l'interdÃ©pendance, telle que l'analyse typologique, l'analyse des composantes principales, la corrÃ©lation canonique et les analogues catÃ©goriques.

Avantages et inconvÃ©nients

L'analyse statistique permet de rÃ©sumer les constatations d'une Ã©valuation de faÃ§on claire, prÃ©cise et fiable; c'est aussi une technique valide de dÃ©termination de la valeur statistique attribuable aux conclusions que l'Ã©valuateur tire des donnÃ©es.

En dÃ©pit de ses nombreux avantages, l'analyse statistique prÃ©sente plusieurs inconvÃ©nients.

Il faut Ãªtre compÃ©tent pour rÃ©aliser une bonne analyse statistique.

L'Ã©valuateur devrait consulter un statisticien professionnel aux Ã©tapes de la conception et de l'analyse de son Ã©valuation. Il faudrait Ã©viter de se laisser sÃ©duire par la facilitÃ© apparente de la manipulation statistique Ã l'aide de logiciels standard.

Les rÃ©sultats d'un programme ne peuvent pas tous Ãªtre analysÃ©s par des mÃ©thodes statistiques.

Par exemple, les rÃ©ponses Ã une question ouverte sur les rÃ©sultats d'un programme peuvent renfermer de longues descriptions des avantages et des rÃ©percussions nÃ©fastes du programme, alors qu'il peut Ãªtre trÃ¨s difficile de classer - et plus encore de quantifier - ces rÃ©ponses d'une faÃ§on qui se prÃªte Ã l'analyse statistique sans perdre des nuances importantes, quoique subtiles.

La faÃ§on de classer les donnÃ©es peut tout aussi bien fausser les rÃ©sultats que rÃ©vÃ©ler d'importantes diffÃ©rences.

MÃªme lorsque l'Ã©valuateur a obtenu des donnÃ©es quantitatives, il devrait interprÃ©ter avec soin les rÃ©sultats des analyses statistiques. Ainsi, les donnÃ©es figurant au tableau 3 pourraient Ãªtre reprÃ©sentÃ©es d'une faÃ§on diffÃ©rente, comme on le voit au tableau 5. Au dÃ©part, les donnÃ©es sont identiques, mais les rÃ©sultats prÃ©sentÃ©s au tableau 5 semblent rÃ©vÃ©ler un effet beaucoup plus marquÃ© que ceux du tableau 3. Cet exemple montre bien l'importance d'utiliser des mÃ©thodes statistiques supplÃ©mentaires pour vÃ©rifier la soliditÃ© des rapports apparents. En d'autres termes, avant de conclure que les diffÃ©rences apparentes entre le tableau 3 ou le tableau 5 sont des rÃ©sultats du programme, il faudrait pousser plus loin l'analyse statistique infÃ©rencielle.

Tableau 5 -Exemple de statistiques descriptives
A) PrÃ©sentation des rÃ©sultats moyens
Examen antÃ©rieur au programme	58,4
Examen postÃ©rieur au programme	69,3
B) PrÃ©sentation de la distribution des rÃ©sultats
	0-35	36-70	71-100	N
Examen antÃ©rieur au programme	10	28	10	48 (100 %)
Examen postÃ©rieur au programme	6	11	26	43 (100 %)

Les praticiens qui se servent de l'analyse statistique doivent connaÃ®tre aussi bien les hypothÃ¨ses sur lesquelles la technique statistique employÃ©e est fondÃ©e que ses limites.

Une des grandes difficultÃ©s d'utilisation des mÃ©thodes analytiques, c'est que leur validitÃ© est fonction des hypothÃ¨ses fondamentales qu'elles posent sur les donnÃ©es. Compte tenu de la grande disponibilitÃ© de logiciels statistiques, on court toujours le risque que les techniques utilisÃ©es fassent appel Ã des donnÃ©es qui doivent prÃ©senter certaines caractÃ©ristiques que les donnÃ©es auxquelles on a accÃ¨s n'ont pas. Bien entendu, cela peut mener Ã des conclusions injustifiÃ©es. Par consÃ©quent, il est essentiel que l'Ã©valuateur connaisse les limites des techniques qu'il emploie.

Les mÃ©thodes statistiques Ã plusieurs variables sont particuliÃ¨rement vulnÃ©rables Ã ce genre d'abus, mÃªme si elles peuvent donner l'impression d'avoir bien Ã©tÃ© utilisÃ©es. Pour que lesdites mÃ©thodes soient acceptables, il faut que le modÃ¨le causal sous-jacent soit correctement spÃ©cifiÃ©.

La rÃ©gression Ã plusieurs variables peut notamment faire tomber l'Ã©valuateur dans les piÃ¨ges suivants :

fournir tant d'explications qu'une diffÃ©rence rÃ©elle est Ã©liminÃ©e;
ajouter des Ã©lÃ©ments superflus Ã un schÃ©ma simple;
susciter un optimisme exagÃ©rÃ© quant Ã la soliditÃ© des rapports de causalitÃ© Ã©tablis Ã partir des donnÃ©es;
utiliser une mÃ©thode analytique incorrecte.

RÃ©fÃ©rences : Analyse statistique

Behn, R.D. et J.W. Vaupel, Quick Analysis for Busy Division Makers, New York : Basic Books, 1982.

Casley, D.J. et K. Kumar, The Collection, Analysis and Use of Monitoring and Evaluation Data, Washington (DC) : Banque mondiale, 1989.

Fienberg, S., The Analysis of Cross-classified Categorical Data (2^e Ã©dition), Cambridge (MA) : Massachusetts Institute of Technology (MIT), 1980.

Hanley, J.A., Â«Appropriate Uses of Multivariate Analysis,Â» Annual Review of Public Health, Palo Alto (CA) : Annual Reviews Inc., 1983, p. 155 Ã 180.

Hanushek, E.A. et J.E. Jackson, Statistical Methods for Social Scientists, New York : Academic Press, 1977.

Hoaglin, D.C., et al., Data for Decisions, Cambridge (MA) : Abt Books, 1982.

Morris, C.N. et J.E. Rolph, Introduction to Data Analysis and Statistical Inference, Englewood Cliffs (NJ) : Prentice Hall, 1981.

Ragsdale, C.T., Spreadsheet Modelling and Decision Analysis, Cambridge, (MA) : Course Technology Inc., 1995.

5.3 Analyse de l'information qualitative

L'analyse non statistique est surtout appliquÃ©e Ã des donnÃ©es qualitatives, telles que les descriptions dÃ©taillÃ©es des dossiers administratifs ou des journaux d'observation sur le terrain, les affirmations directes en rÃ©ponse Ã des questions ouvertes, la transcription de discussions en groupe et les observations de toutes sortes dont il a Ã©tÃ© briÃ¨vement question aux sections 4.1 et 4.4 Ã 4.7. Dans la prÃ©sente section, nous nous bornerons Ã une description succincte de l'analyse non statistique. Pour obtenir des prÃ©cisions Ã ce sujet, le lecteur est priÃ© de consulter les rÃ©fÃ©rences citÃ©es Ã la fin de la section.

L'analyse de donnÃ©es qualitatives, qui se fait ordinairement de pair avec l'analyse statistique et d'autres types d'analyses de donnÃ©es quantitatives, peut donner un aperÃ§u holistique des phÃ©nomÃ¨nes Ã©tudiÃ©s dans le contexte de l'Ã©valuation. La collecte et l'analyse de l'information qualitative sont souvent Â«naturalistesÂ» et fondÃ©es sur des dÃ©ductions. Au dÃ©but de l'Ã©tape de collecte des donnÃ©es ou de l'analyse, l'Ã©valuateur ne s'appuie sur aucune thÃ©orie particuliÃ¨re Ã l'Ã©gard des phÃ©nomÃ¨nes Ã l'Ã©tude. (Un autre type d'analyse non statistique de donnÃ©es quantitatives est dÃ©crit Ã la section 5.5 qui porte sur l'utilisation de modÃ¨les.)

Il est possible que l'analyse non statistique de donnÃ©es fasse davantage appel au jugement professionnel de l'Ã©valuateur que d'autres mÃ©thodes, comme l'analyse statistique. Il s'ensuit qu'en plus de devoir bien connaÃ®tre les questions qui font l'objet de l'Ã©valuation, l'Ã©valuateur qui effectue une analyse non statistique doit Ãªtre conscient des nombreux biais qui sont susceptibles de fausser ses constatations.

Il y a plusieurs types d'analyse non statistique, dont l'analyse du contenu, l'analyse des Ã©tudes de cas, l'analyse inductive (y compris l'Ã©tablissement de typologies) et l'analyse logique. Toutes ces mÃ©thodes sont censÃ©es faire ressortir des constantes, des thÃ¨mes, des tendances et des Â«motifsÂ» des donnÃ©es, en plus de fournir des interprÃ©tations et des explications de ces constantes et de ces autres Ã©lÃ©ments. L'analyse des donnÃ©es devrait Ã©valuer la fiabilitÃ© et la validitÃ© des constatations, par exemple grÃ¢ce Ã une Ã©tude des hypothÃ¨ses contradictoires, et elle devrait aussi analyser les cas Â«dÃ©viantsÂ» ou exceptionnels et faire une Â«triangulationÂ» en comparant des donnÃ©es tirÃ©es de plusieurs sources ou obtenues grÃ¢ce Ã d'autres mÃ©thodes de collecte et d'analyse.

Les quatre principales dÃ©cisions Ã prendre dans le contexte d'une analyse non statistique de donnÃ©es portent sur la mÃ©thode analytique (rÃ©sumÃ© qualitatif, comparaison qualitative ou analyse statistique descriptive ou Ã plusieurs variables), sur le niveau de l'analyse, sur le moment auquel il convient de la faire, ce qui suppose des dÃ©cisions quant Ã l'enregistrement et au codage des donnÃ©es ainsi qu'Ã l'opportunitÃ© de les quantifier, et enfin sur la faÃ§on d'intÃ©grer l'analyse non statistique Ã l'analyse statistique connexe.

Bien que l'analyse non statistique (et statistique) des donnÃ©es suit normalement leur collecte, les deux peuvent se faire simultanÃ©ment. Cette faÃ§on de procÃ©der peut permettre Ã l'Ã©valuateur de poser de nouvelles hypothÃ¨ses qu'il peut vÃ©rifier aux Ã©tapes ultÃ©rieures de la collecte des donnÃ©es, ainsi que de cerner et de corriger d'Ã©ventuelles difficultÃ©s Ã cet Ã©gard, de mÃªme que d'obtenir l'information qui semble faire dÃ©faut dans les donnÃ©es recueillies au dÃ©but. Par contre, les conclusions fondÃ©es sur une analyse hÃ¢tive risquent de biaiser la collecte ultÃ©rieure des donnÃ©es, voire de provoquer un changement prÃ©maturÃ© de la conception ou de l'exÃ©cution du programme, ce qui rend bien dÃ©licate l'interprÃ©tation des constatations fondÃ©es sur toute la gamme des donnÃ©es recueillies.

Il est prÃ©fÃ©rable de combiner l'analyse non statistique des donnÃ©es avec une analyse statistique de donnÃ©es connexes (quantitatives ou qualitatives). Ã€ cette fin, il faudrait concevoir l'Ã©valuation de faÃ§on Ã ce que les deux sortes d'analyses pour lesquelles on utilise des donnÃ©es diffÃ©rentes mais connexes s'appuient, ou du moins s'Ã©clairent mutuellement.

Avantages et inconvÃ©nients

Les principaux avantages de l'analyse non statistique des donnÃ©es consistent Ã rendre possible l'examen de nombreuses questions et notions difficiles Ã quantifier, favorisant une approche plus holistique.

En outre, l'analyse non statistique permet Ã l'Ã©valuateur de tirer profit de toute l'information disponible. Il se peut que les constatations tirÃ©es d'une analyse de ce genre soient plus dÃ©taillÃ©es que celles tirÃ©es d'une analyse purement statistique.

Toutefois, les conclusions fondÃ©es uniquement sur une analyse non statistique risquent de ne pas Ãªtre aussi crÃ©dibles que d'autres fondÃ©es sur de l'information et des donnÃ©es provenant de sources multiples, ainsi que sur plusieurs mÃ©thodes d'analyse.

La validitÃ© et l'exactitude des conclusions d'une analyse non statistique sont fonction de la compÃ©tence et du jugement de l'Ã©valuateur; leur crÃ©dibilitÃ© dÃ©pend de la logique des arguments prÃ©sentÃ©s.

Cook et Reichardt (1979), Kidder et Fine (1987) ainsi que Pearsol (1987), entre autres, ont Ã©tudiÃ© ces questions de faÃ§on plus dÃ©taillÃ©e.

RÃ©fÃ©rences : Analyse non statistique de l'information qualitative

Cook, T.D. et C.S. Reichardt, Qualitative and Quantitative Methods Evaluation Research, Thousand Oaks : Sage Publications, 1979.

Guba, E.G., Â«Naturalistic Evaluation,Â» in Cordray, D.S., et al., Ã©d., Evaluation Practice in Review, Vol. 34 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1987.

Guba, E.G. et Y.S. Lincoln, Effective Evaluation : Improving the Usefulness of Evaluation Results Through Responsive and Naturalistic Approaches, San Francisco : Jossey-Bass, 1981.

Krueger, R.A., Focus Groups : A Practical Guide for Applied Research, Thousand Oaks : Sage Publications, 1988.

Levine, M., Â«Investigative Reporting as a Research Method : An Analysis of Bernstein and Woodward's All the President's MenÂ», American Psychologist, Vol. 35, 1980, p. 626 Ã 638.

Miles, M.B. et A.M. Huberman, Qualitative Data Analysis : A Sourcebook of New Methods, Thousand Oaks : Sage Publications, 1984.

Nachmias, C. et D. Nachmias, Research Methods in the Social Sciences, New York : St. Martin's Press, 1981, chapitre 7.

Patton, M.Q., Qualitative Evaluation Methods, Thousand Oaks : Sage Publications, 1980.

Pearsol, J.A., Ã©d., Â«Justifying Conclusions in Naturalistic EvaluationsÂ», Evaluation and Program Planning, Vol. 10, N^o. 4, 1987, p. 307 Ã 358.

Rossi, P.H. et H.E. Freeman, Evaluation : A Systematic Approach (2^e Ã©dition), Thousand Oaks : Sage Publications, 1989.

Van Maasen, J., Ã©d., Qualitative Methodology, Thousand Oaks : Sage Publications, 1983.

Webb, E.J., et al., Nonreactive Measures in the Social Sciences (2^e Ã©dition), Boston : Houghton Mifflin, 1981.

Williams, D.D., Ã©d., Naturalistic Evaluation, Vol. 30 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1987.

5.4 Analyse des autres rÃ©sultats des programmes

Les Ã©valuations ont gÃ©nÃ©ralement pour objet de mesurer les rÃ©sultats directs des programmes. Or, il arrive frÃ©quemment que les programmes aient des rÃ©percussions plus gÃ©nÃ©rales ou Ã plus long terme qui prÃ©sentent elles aussi de l'intÃ©rÃªt. On analyse frÃ©quemment ces rÃ©percussions en transformant les rÃ©sultats directs mesurÃ©s de faÃ§on Ã les dÃ©terminer. Au chapitre 1, nous avons distinguÃ© trois types de rÃ©sultats d'un programme, Ã savoir :

les extrants (qui sont de nature opÃ©rationnelle);
les retombÃ©es intermÃ©diaires (y compris les avantages pour les clients du programme et, parfois, les inconvÃ©nients imprÃ©vus pour le client et pour d'autres personnes);
les retombÃ©es dÃ©finitives (qui sont Ã©troitement liÃ©es aux objectifs du programme et habituellement aux objectifs globaux du gouvernement, c'est-Ã -dire les avantages Ã©conomiques, l'amÃ©lioration de la santÃ©, de la sÃ©curitÃ© et du mieux-Ãªtre).

Dans les analyses de ce genre, on utilise normalement un modÃ¨le analytique conÃ§u pour transposer les rÃ©sultats des deux premiers types en rÃ©sultats du troisiÃ¨me (ou en rÃ©sultats diffÃ©rents du deuxiÃ¨me) :

ActivitÃ©s du
programme

Â»

Extrants opÃ©rationnels/
Avantages pour les clients

Â»

Avantages pour les clients/
retombÃ©es

Prenons un cas bien simple d'application de cette mÃ©thode, celui du programme d'enseignement de la lecture aux immigrants qui est censÃ© amÃ©liorer leurs perpectives d'emploi. L'enchaÃ®nement logique du programme est prÃ©sentÃ© graphiquement de la faÃ§on suivante :

Programme d'enseignement de la lecture

Â»

Accroissement des compÃ©tences en lecture

Â»

Augmentation des revenus/
meilleures perspectives d'emploi

Dans un cas comme celui-lÃ , on emploierait une stratÃ©gie d'Ã©valuation visant Ã dÃ©terminer l'effet incrÃ©mentiel du programme d'enseignement de la lecture sur les compÃ©tences Ã cet Ã©gard, puis on prendrait des mesures. On utiliserait ensuite un modÃ¨le prÃ©Ã©tabli pour transformer les changements observÃ©s des compÃ©tences en lecture des participants en rÃ©sultats escomptÃ©s pour leurs revenus et leurs perspectives d'emploi : les amÃ©liorations observÃ©es en ce qui concerne les compÃ©tences en lecture seraient donc transformÃ©es en retombÃ©es pour les perspectives d'emploi et les revenus, le tout Ã©tant fondÃ© sur des recherches antÃ©rieures qui ont un Ã©tabli un lien entre ces variables et les compÃ©tences en lecture.

Il faut observer que toutes les analyses de ce genre sont des solutions de rechange Ã l'Ã©valuation directe des rÃ©sultats gÃ©nÃ©raux d'un programme. Dans notre exemple, l'Ã©valuateur pourrait mesurer directement les retombÃ©es du programme en ce qui concerne la capacitÃ© des participants d'obtenir des emplois mieux rÃ©munÃ©rÃ©s. Il pourrait notamment se servir d'un modÃ¨le quasi expÃ©rimental pour comparer un groupe de participants au programme avec un groupe tÃ©moin afin de dÃ©terminer si les premiers ont augmentÃ© leurs revenus d'emploi comparativement aux membres du second. Cela dit, les mÃ©thodes plus indirectes peuvent toutefois se rÃ©vÃ©ler prÃ©fÃ©rables pour de nombreuses raisons.

L'analyse de rÃ©sultats gÃ©nÃ©raux rend possible l'estimation des retombÃ©es Ã long terme.

Les effets secondaires ne sont pas souvent immÃ©diats, et les contraintes de l'Ã©valuation ne permettraient pas toujours d'assurer un suivi sur une longue pÃ©riode.

L'analyse des rÃ©sultats gÃ©nÃ©raux permet Ã l'Ã©valuateur de dÃ©terminer des retombÃ©es qui sont difficiles Ã mesurer directement.

Il peut Ãªtre extrÃªmement difficile ou complexe d'Ã©valuer directement les rÃ©sultats gÃ©nÃ©raux, particuliÃ¨rement dans le cadre d'un projet d'Ã©valuation donnÃ©. D'une certaine faÃ§on, ces mÃ©thodes rÃ©duisent les risques qui se posent pendant l'Ã©valuation. En effet, lorsqu'on mesure d'abord les rÃ©sultats immÃ©diats, on peut avoir confiance qu'au moins certains d'entre eux auront Ã©tÃ© mesurÃ©s d'une maniÃ¨re valide. Par contre, en allant directement aux rÃ©sultats gÃ©nÃ©raux, qui peuvent se rÃ©vÃ©ler difficiles Ã mesurer, on risque de se retrouver sans aucune mesure valide.

L'analyse des rÃ©sultats gÃ©nÃ©raux est utile pour l'Ã©valuation de retombÃ©es gÃ©nÃ©rales dÃ©jÃ Ã©tudiÃ©es.

En raison des difficultÃ©s de mesure que nous venons de dÃ©crire, l'Ã©valuateur pourrait Ãªtre tentÃ© d'utiliser un rapport entre les effets Ã court terme et les rÃ©sultats gÃ©nÃ©raux d'un programme qui ont Ã©tÃ© dÃ©terminÃ©s grÃ¢ce Ã des recherches antÃ©rieures (si, bien sÃ»r, on dispose d'une telle recherche). Par exemple, dans le cas du programme d'enseignement de la lecture, il est vraisemblable qu'on ait dÃ©jÃ fait des recherches poussÃ©es afin d'explorer le rapport entre les compÃ©tences en lecture, les perspectives d'emploi et les revenus. En pareil cas, l'Ã©valuateur pourrait se fonder sur les rÃ©sultats de ces recherches, en dÃ©cidant d'axer sa stratÃ©gie d'Ã©valuation sur la mesure des amÃ©liorations des compÃ©tences en lecture rÃ©sultant du programme; l'augmentation des revenus des participants qui s'ensuivrait vraisemblablement serait alors une conclusion qui a dÃ©jÃ Ã©tÃ© prouvÃ©e par des recherches antÃ©rieures.

5.5 Utilisation de modÃ¨les

Toutes les Ã©valuations servant Ã Ã©tablir que certains rÃ©sultats dÃ©coulent des activitÃ©s d'un programme sont fondÃ©es sur un modÃ¨le implicite ou explicite. Sans thÃ©orie sur la faÃ§on dont le programme produit des rÃ©sultats observÃ©s, l'Ã©valuateur travaillerait Ã l'aveuglette et serait incapable de lui attribuer des rÃ©sultats de faÃ§on crÃ©dible. Cela ne signifie toutefois pas que les modÃ¨les doivent Ãªtre complÃ¨tement structurÃ©s dÃ¨s le dÃ©but du travail d'Ã©valuation. GÃ©nÃ©ralement, ils sont rÃ©visÃ©s et amÃ©liorÃ©s en cours de route, Ã mesure que l'Ã©quipe d'Ã©valuation dÃ©veloppe ses connaissances.

Les diverses disciplines des sciences sociales ont tendance Ã adopter des approches quelque peu diffÃ©rentes face aux modÃ¨les, mais il reste quand mÃªme de nombreux points communs.

Les modÃ¨les que nous allons dÃ©crire dans cette section sont les suivants :

modÃ¨les de simulation;
modÃ¨les d'entrÃ©es-sorties;
modÃ¨les micro-Ã©conomiques;
modÃ¨les macro-Ã©conomiques;
modÃ¨les statistiques.

5.5.1 ModÃ¨les de simulation

La simulation peut s'avÃ©rer utile pour les Ã©valuateurs. Toute transformation des intrants du programme en extrants peut Ãªtre exposÃ©e sur une feuille de calcul et modÃ©lisÃ©e par un Ã©valuateur ayant une certaine formation et un peu de pratique.

L'Ã©valuateur a souvent recours Ã un modÃ¨le quantitatif explicite parce que ses donnÃ©es sont incertaines. Lorsqu'il doit traiter des intervalles de variation plutÃ´t que des chiffres, en jonglant avec les probabilitÃ©s, il peut lui Ãªtre extrÃªmement utile de pouvoir simuler les probabilitÃ©s d'extrants ou de rÃ©sultats. Dans les annÃ©es 1990, le progiciel qui a amÃ©liorÃ© les capacitÃ©s de simulation des tableurs Ã©lectroniques a offert cette capacitÃ© Ã de nombreux Ã©valuateurs qui auraient peut-Ãªtre eu moins tendance Ã opter pour des approches quantitatives, dans d'autres conditions.

Un modÃ¨le de simulation peut transformer des intrants en rÃ©sultats. Prenons par exemple un programme des Douanes aux postes frontaliers qui sont amÃ©nagÃ©s au bord des autoroutes, et disons qu'on a formulÃ© une nouvelle sÃ©rie de questions Ã poser aux points d'entrÃ©e. L'administration du nouveau questionnaire prend en moyenne 11 secondes de plus que celle de l'ancien. On pourrait utiliser un modÃ¨le pour Ã©valuer ses consÃ©quences sur le temps d'attente des clients.

Un modÃ¨le de simulation comporte essentiellement trois composantes, soit des intrants, un modÃ¨le mathÃ©matique et des extrants. On utilise surtout deux types de modÃ¨les mathÃ©matiques, les stochastiques, qui font intervenir des variables alÃ©atoires, et les dÃ©terministes, qui ne contiennent pas de variables de ce genre.

Ã€ certains Ã©gards, les modÃ¨les de simulation ressemblent aux autres mÃ©thodes statistiques, comme Ã l'analyse de rÃ©gression, qui sont d'ailleurs susceptibles d'Ãªtre utilisÃ©es pour les Ã©tablir. Une fois Ã©tabli, le modÃ¨le de simulation traite les intrants comme des donnÃ©es qu'il doit utiliser plutÃ´t que des Ã©lÃ©ments sur lesquels il doit se fonder. Le modÃ¨le mathÃ©matique gÃ©nÃ¨re des extrants qui peuvent Ãªtre comparÃ©s aux rÃ©sultats rÃ©els.

Les Ã©valuateurs s'intÃ©ressent de plus en plus Ã un modÃ¨le de simulation donnÃ©, Ã savoir le modÃ¨le de risque fondÃ© sur une feuille de calcul coÃ»ts-avantages. Lorsque les intrants du modÃ¨le coÃ»ts-avantages sont reprÃ©sentÃ©s par des approximations et des probabilitÃ©s (plutÃ´t que comme des donnÃ©es certaines), le modÃ¨le de risque produit des donnÃ©es sur les prochaines valeurs et sur les probabilitÃ©s du rÃ©sultat essentiel (habituellement la valeur actualisÃ©e nette). Ces donnÃ©es peuvent Ãªtre trÃ¨s utiles pour un gestionnaire qui tente d'Ã©valuer le degrÃ© de risque d'un programme, ou pour un Ã©valuateur appelÃ© Ã faire une Ã©valuation du seuil de tolÃ©rance et du risque (voir la section 5.6, Analyse coÃ»ts-avantages et analyse coÃ»t-efficacitÃ©).

Avantages et inconvÃ©nients

Le principal avantage des modÃ¨les de simulation est qu'il permet Ã l'Ã©valuateur d'estimer les effets incrÃ©mentiels dans des situations complexes et incertaines. Par contre, leur principal inconvÃ©nient est d'exiger une excellente comprÃ©hension de la dynamique du programme ainsi qu'une certaine maÃ®trise de l'Ã©tablissement de modÃ¨les quantitatifs.

Il faudrait Ã©galement noter que les modÃ¨les de simulation peuvent fournir de l'information valable ex ante, soit de l'information sur les rÃ©percussions Ã©ventuelles d'un mode d'action donnÃ© avant sa rÃ©alisation. De l'information de ce type peut assurÃ©ment Ãªtre fort utile avant d'exclure des solutions de rechange indÃ©sirables. Ex post, les rÃ©percussions rÃ©elles d'un nouveau programme ou des changements apportÃ©s Ã un programme existant sont mieux Ã©valuÃ©es par les mÃ©thodes empiriques, comme une analyse de rÃ©gression ou les modÃ¨les prÃ©sentÃ©s au chapitre 3.

RÃ©fÃ©rences : ModÃ¨les de simulation

Buffa, E.S. et J.S. Dyer, Management Science Operations Research : Model Formulation and Solution Methods, New York : John Wiley and Sons, 1977.

Clemen, R.T., Making Hard Decisions. Duxbury Press, 1991, sections 1 Ã 3.

Ragsdale, C.T., Spreadsheet Modelling and Decision Analysis, Cambridge (MA) : Course Technology Inc., 1995.

5.5.2 ModÃ¨les d'entrÃ©es-sorties

Un modÃ¨le d'entrÃ©es-sorties est un modÃ¨le Ã©conomique statique conÃ§u pour dÃ©crire l'interdÃ©pendance mutuelle de diffÃ©rentes parties d'une Ã©conomie. Dans ce contexte, l'Ã©conomie est considÃ©rÃ©e comme un systÃ¨me d'activitÃ©s interdÃ©pendantes, c'est-Ã -dire agissant directement et indirectement les unes sur les autres. Le modÃ¨le d'entrÃ©es-sorties est utilisÃ© pour dÃ©crire la faÃ§on dont un secteur utilise comme intrants des extrants d'autres secteurs, et vice versa. C'est donc une dÃ©construction systÃ©matique de l'Ã©conomie qui dÃ©crit l'Ã©change de biens et de services nÃ©cessaires Ã la fabrication de produits finis (biens et services).

Ce genre de modÃ¨le peut Ãªtre utilisÃ© pour dÃ©river des prÃ©visions multisectorielles qui sont intrinsÃ¨quement cohÃ©rentes avec les tendances Ã©conomiques, ainsi que des Ã©valuations quantitatives dÃ©taillÃ©es des effets secondaires directs et indirects d'un programme quelconque, ou de toute combinaison de programmes. Plus prÃ©cisÃ©ment, le modÃ¨le d'entrÃ©es-sorties peut produire une description dÃ©taillÃ©e de l'effet d'un programme gouvernemental sur la production et la consommation actuelles de biens et de services.

La structure des entrÃ©es de chaque secteur de production est expliquÃ©e en fonction de sa technologie. Le modÃ¨le prÃ©cise les Â«coefficients techniquesÂ» correspondant Ã la quantitÃ© de biens et de services, y compris la main-d'oeuvre, dont le secteur a besoin pour produire une unitÃ© d'extrant. Il prÃ©cise aussi un ensemble de Â«coefficients de capitalÂ» correspondant Ã l'ensemble des bÃ¢timents, du matÃ©riel et des stocks nÃ©cessaires Ã la transformation de la combinaison voulue d'intrants en extrants. Les caractÃ©ristiques de la consommation dÃ©finissent la demande d'intrants (le revenu, par exemple) de tous les secteurs de production de l'Ã©conomie, y compris les mÃ©nages. On peut donc analyser ces caractÃ©ristiques, de mÃªme que la production et la consommation de n'importe quel bien ou service.

Pour dÃ©montrer l'utilitÃ© d'un modÃ¨le d'entrÃ©es-sorties, il suffit d'imaginer l'effet de mesures fiscales sÃ©lectives (hypothÃ©tiques) sur l'emploi dans le secteur des tÃ©lÃ©communications. Supposons que ces mesures fiscales assurent un traitement prÃ©fÃ©rentiel au secteur et influent donc directement sur la quantitÃ©, la composition et le prix de ses extrants, lesquels influent Ã leur tour sur sa demande et sur son utilisation de main-d'oeuvre. Le modÃ¨le fait appel Ã des coefficients correspondant Ã l'Ã©tat actuel de la technologie de pointe et Ã des Ã©quations permettant de prÃ©ciser la consommation et la production attendues de chaque secteur.

Au dÃ©part, on commence par estimer l'importance des changements rÃ©sultant de l'application des mesures fiscales sÃ©lectives, en se fondant sur les valeurs de la consommation et de la production prÃ©vues du matÃ©riel de tÃ©lÃ©communication. Le modÃ¨le d'entrÃ©es-sorties peut ensuite utiliser comme intrant l'augmentation de la consommation de ce matÃ©riel, en produisant comme extrant l'accroissement estimatif de la main-d'oeuvre du secteur des tÃ©lÃ©communications rÃ©sultant des mesures fiscales.

Avantages et inconvÃ©nients

Autrefois, on utilisait plus frÃ©quemment les modÃ¨les d'entrÃ©es-sorties dans les Ã©conomies Ã planification centrale. Ces modÃ¨les, ponctuels et statiques, sont essentiellement descriptifs et, par consÃ©quent, ils ne sont pas trÃ¨s efficaces pour infÃ©rer des effets probables liÃ©s aux politiques pour l'avenir.

Malheureusement, on a frÃ©quemment mal utilisÃ© les modÃ¨les de ce genre dans les Ã©valuations. Le pire exemple est celui de l'analyse des dÃ©penses de programme dans un secteur afin d'estimer les Â«effetsÂ» supposÃ©s qui en auraient rÃ©sultÃ©, sans tenir compte de l'attÃ©nuation des effets nÃ©gatifs qui sont causÃ©s par les mesures fiscales ou les emprunts contractÃ©s pour financer le programme.

En outre, dans une Ã©conomie en pleine Ã©volution, ces modÃ¨les prÃ©sentent un autre inconvÃ©nient majeur, puisqu'ils ne tiennent pas nÃ©cessairement compte des changements des coefficients de production attribuables au progrÃ¨s technologique, ni des changements relatifs des prix des intrants. Par consÃ©quent, lorsque ces changements se produisent, le modÃ¨le d'entrÃ©es-sorties dÃ©crit une composition incorrecte des intrants d'un secteur donnÃ©, ce qui entraÃ®ne des estimations incorrectes des rÃ©sultats supplÃ©mentaires du programme Ã©tudiÃ©. Ã€ cet Ã©gard, soulignons que le modÃ¨le d'entrÃ©es-sorties de Statistique Canada est inÃ©vitablement fondÃ© sur des donnÃ©es datant d'un certain nombre d'annÃ©es, et que, en tant que macro-modÃ¨le, il n'est pas particuliÃ¨rement bien adaptÃ© Ã la description des effets des petites dÃ©penses typiques de la plupart des programmes.

RÃ©fÃ©rences : ModÃ¨les d'entrÃ©es-sorties

Canada, Statistique Canada, La structure par entrÃ©es-sorties de l'Ã©conomie canadienne 1961-1981, Ottawa, avril 1989, n^o de cat. 15-201F.

Chenery, H. et P. Clark, Inter-industry Economics, New York : John Wiley and Sons, 1959.

Leontief, W., Input-output Economics, New York : Oxford University Press, 1966.

5.5.3 ModÃ¨les micro-Ã©conomiques

Les modÃ¨les micro-Ã©conomiques dÃ©crivent le comportement Ã©conomique d'unitÃ©s Ã©conomiques individuelles (personnes, mÃ©nages, entreprises ou autres organisations) fonctionnant dans une structure de marchÃ© et dans des circonstances donnÃ©es. Comme la plupart des programmes sont dirigÃ©s exactement Ã ce niveau, ces modÃ¨les peuvent Ãªtre extrÃªmement utiles pour l'Ã©valuateur. Ils sont fondÃ©s sur le systÃ¨me des prix et normalement reprÃ©sentÃ©s par des Ã©quations correspondant aux fonctions de l'offre et de la demande d'un bien ou d'un service. Ces Ã©quations dÃ©crivent le rapport entre le prix et l'extrant, et il est souvent possible d'en faire une reprÃ©sentation graphique avec des courbes de l'offre et de la demande.

Le rendement des modÃ¨les micro-Ã©conomiques est limitÃ© par un certain nombre d'hypothÃ¨ses. Par exemple, on suppose toujours que les consommateurs se comportent de faÃ§on Ã maximiser leur degrÃ© de satisfaction et ce, d'une faÃ§on rationnelle. Les spÃ©cialistes se servent des modÃ¨les micro-Ã©conomiques pour modÃ©liser le comportement du marchÃ©, les combinaisons optimales des intrants, le comportement des consommateurs en fonction des coÃ»ts et les niveaux de production optimaux.

Dans la pratique, on peut avoir recours Ã des modÃ¨les micro-Ã©conomiques pour estimer les rÃ©sultats d'un programme dans la mesure oÃ¹ les prix et les extrants peuvent en dÃ©crire les effets. La figure 4 est un exemple d'un modÃ¨le micro-Ã©conomique permettant de dÃ©crire l'effet qu'un programme de taxe d'accise sur les cigarettes aurait sur le revenu des fabricants ou sur le tabagisme chez les adolescents.

D'aprÃ¨s la figure 4, le prix et la quantitÃ© de cigarettes produites et consommÃ©es avant l'imposition de la taxe d'accise correspondraient respectivement Ã P₀ et Q₀. La taxe d'accise ferait augmenter le coÃ»t des cigarettes et cette augmentation serait reprÃ©sentÃ©e dans le modÃ¨le micro-Ã©conomique par une courbe de l'offre croissante. Le nouveau prix serait donc plus Ã©levÃ© et la nouvelle production plus faible qu'avant l'imposition de la taxe d'accise. Ã€ ce moment-lÃ , les recettes de l'industrie des cigarettes Ã©quivalaient Ã P₀ x Q₀, mais depuis, avec la nouvelle taxe d'accise, elles sont tombÃ©es Ã P₁ x Q_1. Cette baisse des recettes des fabricants de cigarettes par suite de l'imposition de la taxe d'accise serait fonction de la pente des courbes de l'offre et de la demande qui est elle-mÃªme dÃ©terminÃ©e par plusieurs facteurs.

Avantages et inconvÃ©nients

Il faut normalement avoir recours Ã un Ã©conomiste pour Ã©tablir un modÃ¨le micro-Ã©conomique des effets d'un programme, mais cela en vaut souvent la peine, puisque ces modÃ¨les peuvent apporter beaucoup d'information sur la raison d'Ãªtre d'un programme et fournir une base pour mesurer ses effets et son efficacitÃ©.

ModÃ¨le de l'effet d'une taxe d'accise

RÃ©fÃ©rences : ModÃ¨les micro-Ã©conomiques

Henderson, J. et R. Quandt, Micro-economic Theory, New York : McGraw-Hill, 1961.

Polkinghorn, R.S., Micro-theory and Economic Choices, Richard Irwin Inc., 1979.

Samuelson, P., Foundations of Economic Analysis, Cambridge (MA) : Harvard University Press, 1947.

Watson, D.S., Price Theory in Action, Boston : Houghton Mifflin, 1970.

5.5.4 ModÃ¨les macro-Ã©conomiques

Les modÃ¨les macro-Ã©conomiques sont essentiellement utilisÃ©s pour des Ã©tudes sur l'inflation, le chÃ´mage et les sujets faisant appel Ã d'importants ensembles de donnÃ©es, comme le produit national brut. On s'en sert pour tenter d'expliquer et de prÃ©dire les rapports entre ces variables.

Ce sont des modÃ¨les utiles parce qu'ils rÃ©vÃ¨lent les retombÃ©es Ã©conomiques - une amÃ©lioration de la production, du revenu ou de l'emploi ou encore une hausse des taux d'intÃ©rÃªt ou de l'inflation - les plus susceptibles de dÃ©couler de l'application d'une politique ou de l'exÃ©cution d'un programme monÃ©taire et financier.

Voici un exemple d'utilisation d'un modÃ¨le macro-Ã©conomique : supposons qu'un Ã©valuateur cherche Ã Ã©valuer les retombÃ©es sur l'emploi d'un programme gouvernemental de subvention de certains types d'exportation et que les effets du programme sur les ventes Ã l'exportation ont dÃ©jÃ Ã©tÃ© mesurÃ©s. Les donnÃ©es sur l'accroissement incrÃ©mentiel de ces ventes seraient introduites dans un modÃ¨le macro-Ã©conomique de l'Ã©conomie canadienne qui pourrait alors estimer les retombÃ©es du programme sur l'emploi.

Avantages et inconvÃ©nients

Le modÃ¨le macro-Ã©conomique a l'avantage de prÃ©ciser les liens critiques entre les variables gÃ©nÃ©rales globales. En outre, il permet de brosser un tableau gÃ©nÃ©ral qu'on peut ensuite utiliser pour comparer des programmes canadiens Ã des programmes analogues mis en oeuvre dans d'autres pays (Ã condition que les hypothÃ¨ses et les critÃ¨res de validitÃ© du modÃ¨le demeurent intacts).

Pour l'Ã©valuation des rÃ©sultats d'un programme, le modÃ¨le macro-Ã©conomique prÃ©sente toutefois de graves inconvÃ©nients. En effet, il peut aboutir Ã des rÃ©sultats erronÃ©s si l'on omet des facteurs clÃ©s. En outre, ses donnÃ©es des intrants sont habituellement dÃ©rivÃ©es d'un autre modÃ¨le plutÃ´t que directement mesurÃ©es, ce qui ajoute un autre Ã©lÃ©ment d'incertitude Ã l'analyse.

Enfin, dans bien des cas, la valeur prÃ©dictive, surtout Ã court terme, du modÃ¨le macro-Ã©conomique laisse vraiment Ã dÃ©sirer. NÃ©anmoins, c'est un outil qu'on peut utiliser avec profit si les retombÃ©es dÃ©rivÃ©es Ã l'Ã©tude sont Ã long terme et si l'Ã©valuation porte sur un programme important pour l'Ã©conomie.

RÃ©fÃ©rences : ModÃ¨les macro-Ã©conomiques

Gordon, R.A., Economic Instability and Growth : The American Record, Harper & Row, 1974.

Heilbroner, R.L. et L.C. Thurow, Economics Explained, Toronto : Simon and Schuster Inc., 1987.

Nelson, R., Merton, P. et E. Kalachek, Technology, Economic Growth and Public Policy, Washington (DC) : Brookings Institute, 1967.

Okun, A., The Political Economy of Prosperity, Norton, 1970.

Silk, L., The Economists, New York : Avon Books, 1976.

5.5.5 ModÃ¨les statistiques

Les Ã©tudes d'Ã©valuation font appel Ã beaucoup de types de modÃ¨les statistiques dont le plus simple est une prÃ©sentation de donnÃ©es relatives Ã une seule variable organisÃ©e de faÃ§on Ã en illustrer la configuration. Les tableaux de corrÃ©lation de deux variables sont l'instrument de base de l'analyse et du rapport d'Ã©valuation. En fait, mÃªme les donnÃ©es analysÃ©es Ã l'aide d'autres modÃ¨les sont souvent prÃ©sentÃ©es dans des tableaux de corrÃ©lation, pour les rendre plus transparentes et plus accessibles aux dÃ©cideurs que celles des modÃ¨les plus complexes.

Habituellement, les programmes cliniques (dans les domaines de la santÃ© et de l'Ã©ducation, par exemple) sont basÃ©s sur de petits Ã©chantillons, de sorte que l'Ã©valuateur doit utiliser des modÃ¨les Â«d'analyse de la varianceÂ» pour en prÃ©ciser les effets. Ã€ l'inverse, les programmes destinÃ©s Ã une grande partie de la population (subventions au commerce ou programmes d'emploi, par exemple) gÃ©nÃ¨rent normalement de vastes ensembles de donnÃ©es et on peut donc avoir recours alors Ã des Â«modÃ¨les linÃ©airesÂ» d'analyse de rÃ©gression pour en dÃ©terminer les effets. La plupart des programmes du gouvernement fÃ©dÃ©ral sont de ce dernier type, et c'est pourquoi nous allons nous concentrer sur eux dans cette section.

L'analyse de rÃ©gression peut servir Ã vÃ©rifier une relation hypothÃ©tique, Ã Ã©tablir des relations entre des variables qui sont susceptibles d'expliquer les rÃ©sultats d'un programme, Ã cerner les cas inhabituels (valeurs aberrantes) qui dÃ©vient des normes ou Ã faire des prÃ©visions sur les retombÃ©es futures d'un programme. Il s'agit lÃ d'une technique parfois exploratoire (pour concocter des rapports approximatifs), mais on l'emploie plus souvent comme confirmation et mesure finale d'une relation causale entre le programme et ses effets constatÃ©s. De fait, il est important que le modÃ¨le de rÃ©gression se fonde sur un raisonnement a piori au sujet de la causalitÃ©. Il faudrait Ã©viter de rechercher des donnÃ©es au hasard, au risque d'obtenir des rÃ©sultats sans valeur, et c'est pourquoi il faut s'efforcer de spÃ©cifier et de calibrer le modÃ¨le en utilisant seulement la moitiÃ© des donnÃ©es disponibles pour ensuite dÃ©terminer sa capacitÃ© de prÃ©diction des rÃ©sultats rÃ©vÃ©lÃ©s par l'autre moitiÃ© des donnÃ©es. S'il est un bon prÃ©dicteur, le modÃ¨le est probablement robuste.

Il faut se rappeler que la corrÃ©lation n'implique pas nÃ©cessairement un rapport de causalitÃ©. Par exemple, deux variables peuvent Ãªtre simplement corrÃ©lÃ©es simplement parce qu'elles sont toutes deux causÃ©es par une troisiÃ¨me variable. Ainsi, on peut Ã©tablir une corrÃ©lation entre la tempÃ©rature diurne Ã©levÃ©e et le nombre de prÃªts agricoles consentis parce que les deux se produisent surtout en Ã©tÃ©, mais cela ne veut pas dire que les prÃªts agricoles sont consentis parce qu'il fait chaud durant la journÃ©e.

L'analyse de rÃ©gression tend aussi Ã inverser le rapport de causalitÃ©; c'est d'ailleurs une de ses difficultÃ©s reconnues. On peut observer, par exemple, que les entreprises qui obtiennent des stimulations d'incitation d'un programme d'aide au commerce extÃ©rieur augmentent leurs ventes Ã l'exportation. Or, cela peut s'expliquer simplement du fait que les entreprises qui ont de grosses ventes Ã l'Ã©tranger sont plus crÃ©dibles que les autres, et qu'il leur est donc plus facile d'obtenir des subventions. On pourrait aussi dire que ce sont leurs ventes Ã l'Ã©tranger qui font obtenir des subventions aux entreprises, plutÃ´t que l'inverse.

Les modÃ¨les statistiques ont souvent une importance cruciale pour la dÃ©termination des effets incrÃ©mentiels. Par exemple, SantÃ© Canada pourrait utiliser un modÃ¨le Ã©pidÃ©miologique pour prÃ©ciser les effets de sa StratÃ©gie nationale sur le sida, tandis que le ministÃ¨re des Finances Canada pourrait utiliser un modÃ¨le des revenus pour estimer les effets fiscaux d'un rÃ©gime Ã©ventuel d'aide Ã la famille. Pour arriver Ã constituer de tels modÃ¨les, il faut gÃ©nÃ©ralement une connaissance approfondie du secteur de programmes analysÃ©, ainsi qu'une maÃ®trise de la technique statistique utilisÃ©e.

Avantages et inconvÃ©nients

Les modÃ¨les statistiques sont polyvalents. Bien construits, ils fournissent des estimations trÃ¨s utiles des rÃ©sultats d'un programme. Toutefois, ils doivent Ãªtre bien spÃ©cifiÃ©s et validÃ©s si l'on veut que les rÃ©sultats soient fiables, ce qui n'est pas toujours aussi facile qu'on pourrait le croire Ã prime abord.

En outre, l'Ã©valuateur n'arrive pas toujours Ã faire des infÃ©rences Ã partir d'un modÃ¨le statistique. Il se peut par exemple que le modÃ¨le porte uniquement sur certains groupes d'Ã¢ge, ou seulement sur des personnes de certaines rÃ©gions, auquel cas il est souvent impossible, Ã partir des rÃ©sultats, d'en gÃ©nÃ©raliser les effets Ã©ventuels Ã d'autres groupes d'Ã¢ge ou Ã d'autres rÃ©gions.

RÃ©fÃ©rences : ModÃ¨les statistiques

Chatterjee, S. et B. Price, Regression Analysis by Example (2^e Ã©dition), New York : John Wiley and Sons, 1995.

Fox, J., Linear Statistical Models and Related Methods, with Applications to Social Research, New York : John Wiley and Sons, 1984.

Huff, D., How to Lie with Statistics, Penguin, 1973.

Jolliffe, R.F., Common Sense Statistics for Economists and Others, Routledge and Kegan Paul, 1974.

Mueller, J.H., Statistical Reasoning in Sociology, Boston : Houghton Mifflin, 1977.

Sprent, P., Statistics in Action, Penguin, 1977.

5.6 Analyse coÃ»ts-avantages et analyse coÃ»t-efficacitÃ©

Tous les programmes visent Ã gÃ©nÃ©rer des avantages qui l'emportent sur leurs coÃ»ts. AprÃ¨s avoir estimÃ© les divers coÃ»ts et avantages rÃ©sultant du programme, l'Ã©valuateur peut comparer les deux pour dÃ©terminer si le programme est valable. Les deux mÃ©thodes les plus frÃ©quemment utilisÃ©es Ã cette fin sont l'analyse coÃ»ts-avantages et l'analyse coÃ»t-efficacitÃ©. GÃ©nÃ©ralement, on s'en sert pour obtenir des renseignements sur la valeur actualisÃ©e nette d'un programme. Dans l'analyse coÃ»ts-avantages, les avantages du programme sont exprimÃ©s en termes monÃ©taires et comparÃ©s Ã ses coÃ»ts, alors que, dans l'analyse coÃ»t-efficacitÃ©, les rÃ©sultats du programme, exprimÃ©s en unitÃ©s non monÃ©taires - par exemple le nombre de vies sauvÃ©es - sont comparÃ©s Ã ses coÃ»ts exprimÃ©s en dollars.

Ã€ l'Ã©tape de la planification, on peut mener des analyses coÃ»ts-avantages et coÃ»t-efficacitÃ© ex ante (avant coup) en se fondant sur des estimations des coÃ»ts et des avantages escomptÃ©s. La plupart des ouvrages et des publications sur l'analyse coÃ»ts-avantages la considÃ¨rent comme un instrument d'analyse a piori, et surtout comme un moyen d'examiner les avantages nets d'un projet ou d'un programme proposÃ© nÃ©cessitant des investissements ou des immobilisations considÃ©rables (voir par exemple Mishan, 1972; Harberger, 1973; Layard, 1972; Sassone et Schaffer, 1978 et Schmid, 1989).

Lorsqu'un programme fonctionne depuis un certain temps, on peut aussi avoir recours Ã une analyse coÃ»ts-avantages ou coÃ»t-efficacitÃ© ex post (aprÃ¨s coup) pour dÃ©terminer si les coÃ»ts rÃ©els du programme sont justifiÃ©s par ses avantages rÃ©els. Pour une Ã©tude plus dÃ©taillÃ©e de l'utilisation de l'analyse coÃ»ts-avantages dans le contexte de l'Ã©valuation, voir Thompson (1980) ou Rossi et Freeman (1989). Il y a aussi un aperÃ§u de cette mÃ©thode dans le Guide de l'analyse avantages-coÃ»ts (1997), une publication du Conseil du TrÃ©sor, ainsi que dans les Ã©tudes de cas connexes.

L'analyse coÃ»ts-avantages consiste Ã comparer les avantages tangibles et intangibles d'un programme Ã ses coÃ»ts directs et indirects. AprÃ¨s avoir cernÃ© et mesurÃ© (ou estimÃ©) les avantages et les coÃ»ts, on les transforme pour les exprimer en termes communs, habituellement monÃ©taires, de faÃ§on Ã pouvoir les comparer en calculant la valeur actualisÃ©e nette du programme. Quand les coÃ»ts et les avantages sont Ã©talÃ©s dans le temps, il faut les actualiser pour les ramener Ã une annÃ©e commune avec le taux d'actualisation appropriÃ©.

Pour faire une analyse de ce genre, il faut d'abord choisir le point de vue Ã partir duquel les coÃ»ts et les avantages du programme seront calculÃ©s. On en reconnaÃ®t habituellement trois, soit le point de vue de la personne, le point de vue financier du gouvernement fÃ©dÃ©ral et le point de vue social (pour l'ensemble du Canada). Les coÃ»ts et les avantages d'un programme varient gÃ©nÃ©ralement selon le point de vue. Le plus courant pour les analyses avantages-coÃ»ts dans l'administration fÃ©dÃ©rale est le point de vue social, qui tient compte de tous les coÃ»ts et avantages pour la sociÃ©tÃ©. Toutefois, le point de vue de la personne et le point de vue financier du gouvernement peuvent contribuer Ã faire ressortir des perspectives diffÃ©rentes sur la valeur du programme ou encore Ã expliquer les raisons de sa rÃ©ussite ou de son Ã©chec. Rossi et Freeman (1989) ont produit une analyse plus approfondie des diffÃ©rences entre les trois points de vue.

On part du point de vue de la personne pour examiner les coÃ»ts et les avantages du programme pour le participant (qui pourrait Ãªtre une personne, une famille, une entreprise ou une organisation sans but lucratif). Les analyses coÃ»ts-avantages pour lesquelles on adopte ce point de vue aboutissent souvent Ã des rapports avantages-coÃ»ts Ã©levÃ©s, parce que le gouvernement ou la sociÃ©tÃ© subventionnent le programme dont le participant bÃ©nÃ©ficie.

D'un autre cÃ´tÃ©, lorsque l'analyse est effectuÃ©e du point de vue financier du gouvernement fÃ©dÃ©ral, les coÃ»ts et les avantages sont Ã©valuÃ©s du point de vue de la source du financement. Il s'agit essentiellement d'une analyse financiÃ¨re dans laquelle on examine les coÃ»ts financiers et les avantages financiers directs pour l'Ã‰tat. Les flux de trÃ©sorerie qu'on Ã©tudierait normalement dans ce contexte comprendraient les coÃ»ts d'administration du programme, les sorties de fonds directes (les subventions), les taxes et impÃ´ts perÃ§us par le gouvernement (notamment l'impÃ´t sur le revenu des sociÃ©tÃ©s, l'impÃ´t sur le revenu des particuliers, les taxes de vente fÃ©dÃ©rale et autres droits), la rÃ©duction des prestations d'assurance-chÃ´mage ou d'assurance-emploi et les changements Ã©ventuels des paiements de pÃ©rÃ©quation et de transfert.

Par contre, pour l'analyse coÃ»ts-avantages du point de vue social, on part du point de vue de l'ensemble de la sociÃ©tÃ©, de sorte que l'analyse est Ã la fois plus exhaustive et plus difficile, puisqu'il faut tenir compte des rÃ©sultats gÃ©nÃ©raux du programme, et que les prix du marchÃ©, qui sont un bon indicateur des coÃ»ts et des avantages pour la personne ou pour une organisation (l'Ã‰tat) risquent de ne pas reflÃ©ter fidÃ¨lement la valeur rÃ©elle de ces deux variables pour la sociÃ©tÃ©. Ils peuvent Ãªtre faussÃ©s, par exemple, en raison des subventions ou des taxes et impÃ´ts. MÃªme s'ils ressemblent Ã ceux qui sont utilisÃ©s dans les analyses du point de vue du particulier et de celui du gouvernement, les Ã©lÃ©ments examinÃ©s dans l'analyse coÃ»ts-avantages du point de vue social sont apprÃ©ciÃ©s et calculÃ©s diffÃ©remment (voir Weisbrod et al., 1980). Par exemple, les coÃ»ts d'opportunitÃ© pour la sociÃ©tÃ© sont diffÃ©rents de ceux qu'assume un participant au programme. En outre, les paiements de transfert sont exclus des coÃ»ts dans le contexte d'une analyse coÃ»ts-avantages du point de vue social, puisqu'ils doivent aussi Ãªtre considÃ©rÃ©s comme des avantages pour la sociÃ©tÃ© et que les deux s'annulent par consÃ©quent.

Les analyses coÃ»ts-avantages faites du point de vue du gouvernement ou du point de vue social tendent Ã produire des rapports avantages-coÃ»ts infÃ©rieurs Ã ceux des analyses analogues qui sont rÃ©alisÃ©es du point de vue de la personne parce que l'Ã‰tat ou la sociÃ©tÃ© assument gÃ©nÃ©ralement la totalitÃ© du coÃ»t du programme, alors que la personne, elle, peut bÃ©nÃ©ficier de tous ses avantages, en n'assumant qu'une fraction infime du coÃ»t total. NÃ©anmoins, les analyses coÃ»ts-avantages des programmes gouvernementaux devraient Ãªtre faites du point de vue social.

Pour sa part, l'analyse coÃ»t-efficacitÃ© exige aussi que les coÃ»ts et les avantages du programme Ã©tudiÃ© soient quantifiÃ©s, quoique les avantages (ou les effets) ne sont pas alors exprimÃ©s en dollars. Il s'agit plutÃ´t de combiner les donnÃ©es sur les effets ou l'efficacitÃ© du programme aux donnÃ©es sur ses coÃ»ts de faÃ§on Ã pouvoir comparer le coÃ»t et l'efficacitÃ© du programme. Par exemple, dans une analyse coÃ»t-efficacitÃ©, on exprimerait les rÃ©sultats d'un programme d'Ã©ducation en parlant de la progression moyenne d'un niveau de lecture (donnÃ©es sur les rÃ©sultats) par tranche de 1 000 $ (donnÃ©es sur les coÃ»ts) investis dans le programme. Les avantages (effets) sont exprimÃ©s en termes quantitatifs - mais pas en dollars - dans l'analyse coÃ»t-efficacitÃ©.

Ce genre d'analyse est fondÃ© sur les mÃªmes principes que l'analyse coÃ»ts-avantages. Les hypothÃ¨ses utilisÃ©es, par exemple pour le calcul des coÃ»ts et l'actualisation, sont les mÃªmes dans les deux cas. Au fond, l'analyse coÃ»t-efficacitÃ© permet de comparer et de classer des programmes en fonction du coÃ»t pour atteindre certains buts. Les donnÃ©es sur l'efficacitÃ© peuvent Ãªtre combinÃ©es avec celles sur les coÃ»ts pour dÃ©terminer l'efficacitÃ© maximale correspondant Ã un coÃ»t donnÃ©, ou encore le coÃ»t le plus bas permettant d'atteindre un degrÃ© d'efficacitÃ© particulier.

Les donnÃ©es qui sont nÃ©cessaires Ã l'exÃ©cution d'analyses coÃ»ts-avantages et coÃ»t-efficacitÃ© peuvent provenir de diverses sources. Bien entendu, les recherches dans les dossiers dÃ©taillÃ©s des programmes devraient gÃ©nÃ©rer beaucoup d'informations sur les coÃ»ts, et ces donnÃ©es peuvent souvent Ãªtre complÃ©tÃ©es grÃ¢ce Ã des sondages auprÃ¨s des bÃ©nÃ©ficiaires. D'autre part, les donnÃ©es sur les avantages peuvent Ãªtre recueillies par n'importe quelle des autres mÃ©thodes dont nous avons dÃ©jÃ parlÃ© dans cette publication.

Supposons par exemple qu'on a entrepris une Ã©valuation pour vÃ©rifier l'hypothÃ¨se qu'un programme de santÃ© mentale rejetant l'hospitalisation en lui prÃ©fÃ©rant la prestation de soins de santÃ© dans la collectivitÃ© serait plus efficace que la mÃ©thode de traitement prÃ©valant Ã l'heure actuelle, et supposons aussi qu'on a employÃ© un modÃ¨le expÃ©rimental pour obtenir une estimation des effets incrÃ©mentiels de ce programme innovateur. DÃ¨s que les effets incrÃ©mentiels seraient connus, l'analyse coÃ»ts-avantages pourrait permettre de les Ã©valuer et de les comparer aux coÃ»ts.

Avantages et inconvÃ©nients

La documentation sur les avantages et les inconvÃ©nients de l'analyse coÃ»ts-avantages et de l'analyse coÃ»t-efficacitÃ© abonde (voir par exemple Greer et Greer, 1982, ainsi que Nobel, 1977). Nous nous contenterons ici de faire valoir succinctement un certain nombre de points Ã cet Ã©gard.

L'analyse coÃ»ts-avantages porte sur la valeur nette d'un programme.

Il ne s'agit pas, en l'occurrence, d'estimer des avantages et des coÃ»ts prÃ©cis d'un programme, mais plutÃ´t de les rÃ©sumer de faÃ§on qu'on puisse juger et comparer des solutions de rechange. Il faut mesurer dans un autre contexte le degrÃ© auquel les objectifs ont Ã©tÃ© atteints, en faisant appel Ã un autre modÃ¨le d'Ã©valuation et Ã des mÃ©thodes diffÃ©rentes de collecte des donnÃ©es. Par la suite, les donnÃ©es sur les rÃ©sultats du programme peuvent Ãªtre utilisÃ©es comme intrants pour les analyses globales coÃ»ts-avantages et coÃ»t-efficacitÃ©.

L'Ã©valuateur doit aborder la question de l'attribution ou des effets incrÃ©mentiels avant de rÃ©aliser une analyse coÃ»ts-avantages.

Par exemple, de 1994 Ã 1997, le gouvernement fÃ©dÃ©ral a mis en oeuvre un programme d'infrastructures Ã frais partagÃ©s avec les municipalitÃ©s et les provinces. Avant de pouvoir analyser les coÃ»ts et les avantages de ce programme ou de ses solutions de rechange, il faudrait Ã©tablir des mesures des effets incrÃ©mentiels afin de dÃ©terminer jusqu'Ã quel point le programme a changÃ© ou accÃ©lÃ©rÃ© les travaux d'infrastructure municipaux. C'est seulement aprÃ¨s avoir dÃ©terminÃ© les effets incrÃ©mentiels qu'on peut raisonnablement passer Ã l'Ã©valuation et Ã la comparaison des coÃ»ts et des avantages.

Les analyses coÃ»ts-avantages et coÃ»t-efficacitÃ© aident souvent l'Ã©valuateur Ã dÃ©terminer tous les coÃ»ts et tous les rÃ©sultats d'un programme.

Ã€ elles seules, les analyses coÃ»ts-avantages et coÃ»t-efficacitÃ© ne suffisent pas Ã expliquer des effets et des rÃ©sultats particuliers.

Ces techniques ne permettent pas de dÃ©terminer pourquoi un objectif donnÃ© n'a pas Ã©tÃ© atteint, ni pourquoi un effet particulier s'est produit. Toutefois, comme elles comparent systÃ©matiquement les avantages et les coÃ»ts, elles sont utiles puisqu'elles fournissent des renseignements valides aux dÃ©cideurs.

Ces analyses comportent de nombreuses difficultÃ©s mÃ©thodologiques.

Il est souvent difficile d'exprimer en dollars les avantages et les coÃ»ts d'un programme. Il peut Ãªtre trÃ¨s malaisÃ© d'attribuer une valeur monÃ©taire Ã des rÃ©sultats dans les domaines de l'Ã©ducation, de la santÃ© (quelle valeur attribuer Ã la vie humaine ou encore Ã sa qualitÃ©), voire de l'Ã©quitÃ© et de la rÃ©partition du revenu. Toutes les Ã©valuations de cet ordre sont et resteront toujours trÃ¨s discutables. En outre, mÃªme lorsqu'on rÃ©ussit Ã les exprimer en dollars, les coÃ»ts et les avantages doivent Ãªtre actualisÃ©s Ã un point commun dans le temps afin qu'on puisse les comparer. Les auteurs traitant des analyses coÃ»ts-avantages sont loin de l'unanimitÃ© Ã ce sujet. Ils continuent Ã discuter du taux d'actualisation optimal. Dans son Guide de l'analyse avantages-coÃ»ts, le Conseil du TrÃ©sor recommande Ã l'Ã©valuateur de faire une analyse de risque (simulation), avec une fourchette de taux se situant autour de 10 p. 100 par annÃ©e, compte tenu de l'inflation.

L'Ã©valuateur devrait toujours faire une analyse de sensibilitÃ© des hypothÃ¨ses sous-jacentes aux analyses coÃ»ts-avantages et coÃ»t-efficacitÃ©, pour vÃ©rifier la soliditÃ© des rÃ©sultats obtenus.

Compte tenu des hypothÃ¨ses qu'il faut poser pour comparer les avantages et les coÃ»ts d'un programme, l'Ã©valuateur aurait intÃ©rÃªt Ã effectuer une analyse de sensibilitÃ© afin de dÃ©terminer dans quelle mesure ses conclusions sont fonction de chacune de ses hypothÃ¨ses. En outre, il devrait s'efforcer de vÃ©rifier Ã quel degrÃ© ces conclusions varient lorsque les hypothÃ¨ses changent. Si les rÃ©sultats de l'analyse dÃ©pendent largement de la valeur d'un intrant donnÃ©, il peut valoir la peine de supporter le coÃ»t d'Ã©tudes supplÃ©mentaires pour vÃ©rifier cette valeur. Soulignons que, contrairement Ã certains autres types de mÃ©thodes d'Ã©valuation, l'analyse coÃ»t-efficacitÃ© permet Ã l'Ã©valuateur d'effectuer une analyse de sensibilitÃ© Ã la fois systÃ©matique et rigoureuse.

On a parfois recours Ã l'analyse coÃ»t-efficacitÃ© lorsqu'il est trop difficile de convertir en termes monÃ©taires les valeurs qu'elle utilise.

L'analyse coÃ»t-efficacitÃ© permet parfois Ã l'Ã©valuateur de comparer et de classer les solutions de rechange mais, comme les avantages ne sont pas convertis en dollars, il est impossible de dÃ©terminer la valeur nette du programme ou de comparer des programmes diffÃ©rents en se fondant sur les mÃªmes critÃ¨res.

Par contre, l'analyse coÃ»ts-avantages permet d'utiliser des techniques grÃ¢ce auxquelles il est possible de comparer et d'Ã©valuer mÃªme des coÃ»ts et des avantages qui sont difficiles Ã mesurer en termes monÃ©taires. Malheureusement, elle exige souvent des ajustements dÃ©licats des mesures des coÃ»ts et des avantages en raison de l'utilisation d'hypothÃ¨ses incertaines, ce qui risque d'inquiÃ©ter les gestionnaires qui craignent souvent, parfois Ã raison, que ces hypothÃ¨ses et ces ajustements risquent de favoriser la manipulation des rÃ©sultats en privilÃ©giant n'importe quel biais Ã©ventuel de l'analyste.

De plus, la dÃ©termination des coÃ»ts et des avantages est souvent d'autant plus difficile que les ministÃ¨res et organismes publics ne conservent pas Ã cet Ã©gard des dossiers grÃ¢ce auxquels il serait facile de les comparer. Pour la plupart des programmes, les donnÃ©es sur les coÃ»ts que les services intÃ©ressÃ©s conservent ont trait Ã de nombreuses activitÃ©s et sont organisÃ©es pour faciliter la tÃ¢che des administrateurs, et non celle de l'Ã©valuateur.

RÃ©fÃ©rences : Analyse coÃ»ts-avantages et analyse coÃ»t-efficacitÃ©

Angelsen, Arild et Ussif Rashid Sumaila, Hard Methods for Soft Policies : Environmental and Social Cost-benefit Analysis, Bergen, NorvÃ¨ge : Institut Michelsen, 1995.

Australie, ministÃ¨re des Finances, Handbook of Cost-benefit Analysis, Canberra, 1991.

Banque mondiale, Institut de dÃ©veloppement Ã©conomique, The Economics of Project Analysis : A Practitioner's Guide, Washington (DC), 1991.

Belli, P., Guide to Economic Appraisal of Development Projects, Washington (DC) : Banque mondiale, 1996.

Bentkover, J.D., Covdlo, V.T. et J. Mumpower, Benefits Assessment : The State of the Art., Dordrecht, Pays-Bas : D. Reidel Publishing Co., 1986.

Canada, Bureau du VÃ©rificateur gÃ©nÃ©ral, Â«Le choix et l'application des techniques de collecte des Ã©lÃ©ments probants en vÃ©rification d'optimisation des ressourcesÂ», Analyse coÃ»ts-avantages, Ottawa, 1994, annexe B5.

Harberger, A.C., Project Evaluation : Collected Papers, Chicago : Markham Publishing Co., 1973.

Miller, J.C. III et B. Yandle, Benefit-cost Analyses of Social Regulation, Washington : American Enterprise Institute, 1979.

Sang, H.K., Project Evaluation, New York : Wilson Press, 1988.

Sassone, P.G. et W.A. Schaffer, Cost-benefit Analysis : A Handbook, New York : Academic Press, 1978.

Schmid, A.A., Benefit-cost Analysis : A Political Economy Approach, Boulder : Westview Press, 1989.

Self, P., Econocrats and the Policy Process : The Politics and Philosophy of Cost-benefit Analysis, Londres : Macmillan, 1975.

Skaburskis, Andrejs et Fredrick C. Collignon, Â«Cost-effectiveness Analysis of Vocational Rehabilitation ServicesÂ», Canadian Journal of Program Evaluation, Vol. 6, N^o 2, octobre-novembre 1991, p. 1 Ã 24.

Skelton, Ian., Â«Sensitivity Analysis in Multi-criteria Decision Aids : A Demonstration of Child Care Need AssessmentÂ», Canadian Journal of Program Evaluation, Vol. 8, No. 1, avril-mai 1993, p. 103 Ã 116.

Sugden, R. et A. Williams, The Principles of Practical Cost-benefit Analysis, Oxford : Oxford University Press, 1978.

Thompson, M., Benefit-cost Analysis for Program Evaluation, Thousand Oaks : Sage Publications, 1980.

Watson, Kenneth, Â«The Social Discount RateÂ», Canadian Journal of Program Evaluation, Vol. 7, N^o 1, avril-mai 1992, p. 99 Ã 118.

Yates, Brian T., Analyzing Costs, Procedures, Processes, and Outcomes in Human Services, Thousand Oaks : Sage Publications, 1996.

5.7 RÃ©sumÃ©

Dans ce chapitre, nous avons dÃ©crit plusieurs mÃ©thodes d'analyse des donnÃ©es qui devraient faire partie intÃ©grante de la stratÃ©gie d'Ã©valuation, dans la pratique. Les Ã©lÃ©ments de cette stratÃ©gie devraient d'ailleurs former un tout cohÃ©rent dans lequel les questions Ã Ã©valuer, le modÃ¨le, les mÃ©thodes de collecte des donnÃ©es et la technique d'analyse des donnÃ©es optimale devraient s'agencer aussi harmonieusement que possible.

Nous avons Ã©tudiÃ© une vaste gamme de mÃ©thodes d'analyse dans ce manuel, en dÃ©crivant plusieurs types d'analyses statistiques et non statistiques d'Ã©valuation des rÃ©sultats d'un programme et de mÃ©thodes d'estimation de leurs retombÃ©es, notamment grÃ¢ce Ã l'utilisation de modÃ¨les, ainsi que des mÃ©thodes de dÃ©termination des coÃ»ts. Il sera bien sÃ»r toujours difficile de dÃ©cider quand et comment utiliser une mÃ©thode donnÃ©e, puis de le faire habilement et judicieusement.

Chapitre 6 - CONCLUSIONS

Nous avons analysÃ© les principaux facteurs dont l'Ã©valuateur devrait tenir compte lorsqu'il conÃ§oit des stratÃ©gies d'Ã©valuation des rÃ©sultats d'un programme, en concentrant notre analyse sur l'interaction entre les facteurs suivants :

Nous avons consacrÃ© trois chapitres aux principaux aspects de l'Ã©laboration des stratÃ©gies d'Ã©valuation : les modÃ¨les (chapitre 3), la collecte des donnÃ©es (chapitre 4) et les mÃ©thodes analytiques (chapitre 5).

En l'occurrence, l'objectif est le suivant : les Ã©valuations doivent produire des constatations et des conclusions sur le rendement du programme Ã la fois opportunes, pertinentes, crÃ©dibles et objectives, fondÃ©es sur une collecte et une analyse des donnÃ©es valides et fiables. En outre, les rapports d'Ã©valuation devraient prÃ©senter les constatations et les conclusions clairement, de faÃ§on Ã©quilibrÃ©e, tout en prÃ©cisant leur fiabilitÃ©.

C'est notamment sur ces normes que les ministÃ¨res et les organismes fÃ©dÃ©raux se fondent pour mener leurs activitÃ©s internes d'auto-Ã©valuation et d'amÃ©lioration de la qualitÃ©. Ã€ mesure que l'expÃ©rience du Canada en matiÃ¨re d'Ã©valuation s'Ã©largira et s'approfondira, il viendra, sans aucun doute, s'y ajouter d'autres normes de qualitÃ© prÃ©sentant un intÃ©rÃªt particulier pour divers groupes d'Ã©valuateurs canadiens et pour leurs clients.

Annexe 1 - ENQUÃŠTES

Dans la section 4.5, nous avons Ã©tudiÃ© les enquÃªtes en tant que mÃ©thodes de collecte des donnÃ©es pour l'Ã©valuation des programmes; nous avons joint Ã cette section une liste de rÃ©fÃ©rences Ã consulter pour obtenir des renseignements supplÃ©mentaires Ã ce sujet. C'Ã©tait nÃ©cessaire parce que la conception d'une enquÃªte devrait normalement mettre Ã profit la compÃ©tence des spÃ©cialistes du domaine. Compte tenu de la frÃ©quence d'utilisation des enquÃªtes dans les Ã©valuations, nous avons jugÃ© opportun d'ajouter la prÃ©sente annexe au manuel pour y prÃ©senter une analyse plus dÃ©taillÃ©e des principaux facteurs dont il faut tenir compte dans la conception d'une enquÃªte. NÃ©anmoins, cette annexe ne doit pas Ãªtre considÃ©rÃ©e comme substituable Ã la consultation de spÃ©cialistes.

La conception d'une enquÃªte comporte trois volets fondamentaux : la conception de l'Ã©chantillonnage, le choix de la mÃ©thode d'enquÃªte et l'Ã©tablissement de l'instrument de mesure. Nous avons analysÃ© briÃ¨vement chacun de ces volets en prÃ©cisant les principaux Ã©cueils qui y sont associÃ©s.

1.1 Ã‰chantillonnage

Lorsqu'il n'est ni possible ni efficient d'Ã©tudier toute la population visÃ©e par le programme, il faut utiliser une mÃ©thode d'Ã©chantillonnage. La portÃ©e et la nature de cette mÃ©thode devraient satisfaire aux trois exigences suivantes.

Si l'Ã©valuateur doit prÃ©senter des conclusions au sujet de l'ensemble de la population visÃ©e en se fondant sur une enquÃªte auprÃ¨s d'un Ã©chantillon, il doit s'assurer que les constatations tirÃ©es de l'enquÃªte seront gÃ©nÃ©ralisables Ã toute cette population. Si tel est le cas, il doit habituellement avoir recours Ã un Ã©chantillon alÃ©atoire (plutÃ´t qu'Ã un Ã©chantillon non alÃ©aloire). L'Ã©valuateur doit Ãªtre trÃ¨s conscient du risque de biais statistiques qui se produisent normalement lorsqu'un Ã©chantillon non alÃ©atoire est considÃ©rÃ© comme un Ã©chantillon alÃ©atoire et qu'on en tire des infÃ©rences injustifiÃ©es. Ces biais sont souvent attribuables Ã une utilisation inappropriÃ©e ou nÃ©gligente des mÃ©thodes d'Ã©chantillonnage alÃ©atoire.

Le degrÃ© de prÃ©cision et le niveau de confiance attendus de l'enquÃªte doivent Ãªtre prÃ©cisÃ©s. La thÃ©orie statistique peut fournir des estimations de l'erreur d'Ã©chantillonnage pour des Ã©chantillons de diffÃ©rentes tailles, autrement dit de la prÃ©cision des estimations. Il s'ensuit que la taille de l'Ã©chantillon serait fonction du degrÃ© de prÃ©cision recherchÃ©. L'Ã©valuateur devrait accorder plus d'importance Ã la prÃ©cision qu'Ã la taille de l'Ã©chantillon, prise isolÃ©ment. Rappelons ici qu'il existe diffÃ©rentes formules de calcul de la taille de l'Ã©chantillon ainsi que diffÃ©rents types de mesures (ou d'estimations), notamment l'importance d'une caractÃ©ristique de la population et la proportion de la population dans une catÃ©gorie donnÃ©e. Il n'est pas rare qu'on utilise la mauvaise formule pour calculer la taille minimale de l'Ã©chantillon nÃ©cessaire.

Certaines mÃ©thodes d'Ã©chantillonnage, comme l'Ã©chantillonnage stratifiÃ© et l'Ã©chantillonnage rÃ©pÃ©tÃ©, ont Ã©tÃ© conÃ§ues afin de rÃ©duire Ã la fois la taille de l'Ã©chantillon et le coÃ»t de la prise des mesures. Ã€ cet Ã©gard, il convient de souligner que le raffinement des mÃ©thodes d'Ã©chantillonnage peut se rÃ©vÃ©ler rentable.

AprÃ¨s avoir posÃ© ces trois exigences, on peut passer Ã l'Ã©tablissement du processus d'Ã©chantillonnage, qui comprend les six Ã©tapes suivantes.

DÃ©finir la population. Cette dÃ©finition doit Ãªtre prÃ©cise et dÃ©taillÃ©e; elle comprend souvent la date, le lieu et les caractÃ©ristiques socio-Ã©conomiques pertinentes. Par exemple : toutes des femmes, de 18 ans et plus, habitant l'Ontario, ayant participÃ© au programme entre le 15 et le 30 novembre 1982 et ayant actuellement un emploi.
PrÃ©ciser la base de sondage. La base de sondage est une liste des Ã©lÃ©ments de la population (p. ex., noms dans un annuaire tÃ©lÃ©phonique, liste d'Ã©lecteurs, liste de prestataires au dossier). Si elle n'existe pas, il peut falloir la crÃ©er (totalement ou partiellement) en appliquant une stratÃ©gie d'Ã©chantillonnage.
PrÃ©ciser l'unitÃ© d'Ã©chantillonnage. On entend par lÃ l'unitÃ© employÃ©e pour l'Ã©chantillonnage, comme le lieu, le pÃ¢tÃ© de maisons, le mÃ©nage ou l'entreprise.
PrÃ©ciser la mÃ©thode d'Ã©chantillonnage. C'est la mÃ©thode utilisÃ©e pour choisir les unitÃ©s d'Ã©chantillonnage (p. ex., Ã©chantillonnage systÃ©matique ou stratifiÃ©).
DÃ©terminer la taille de l'Ã©chantillon. Il s'agit alors de dÃ©terminer le nombre d'unitÃ©s d'Ã©chantillonnage ainsi que le pourcentage de la population Ã inclure dans l'Ã©chantillon.

Des erreurs attribuables Ã d'autres facteurs qu'Ã l'Ã©chantillonnage peuvent se glisser Ã chaque Ã©tape de ce processus. Par exemple, la population dÃ©finie peut ne pas correspondre Ã la population cible ou la base de sondage peut ne pas coÃ¯ncider exactement avec la population. En pareil cas, les mesures ou infÃ©rences affectÃ©es peuvent Ãªtre biaisÃ©es, et donc trompeuses. Supposons par exemple qu'on effectue un sondage auprÃ¨s des bÃ©nÃ©ficiaires de subventions dans le cadre d'une Ã©valuation d'un programme d'aide Ã un secteur d'activitÃ© industrielle et que la base de sondage des entreprises se limite Ã celles qui ont reÃ§u plus qu'un certain montant. Dans ces conditions, il est bien Ã©vident que toute gÃ©nÃ©ralisation des rÃ©sultats portant sur l'ensemble des bÃ©nÃ©ficiaires de subventions ne serait pas valide si elle Ã©tait fondÃ©e sur un Ã©chantillon choisi Ã partir de cette base.

Ces erreurs attribuables Ã d'autres facteurs peuvent aussi s'introduire dans presque toutes les activitÃ©s d'enquÃªte. Par exemple, les rÃ©pondants peuvent interprÃ©ter diffÃ©remment les questions, les proposÃ©s au traitement des rÃ©sultats peuvent faire des erreurs, et il est toujours possible qu'il y ait des erreurs dans la base de sondage mÃªme. Bref, il peut y avoir des erreurs autres que celles qui sont attribuables Ã l'Ã©chantillonnage, aussi bien dans les enquÃªtes sur des Ã©chantillons que dans les recensements, alors que les erreurs d'Ã©chantillonnage ne sont possibles, bien entendu, que dans le premier de ces deux types d'enquÃªte.

C'est habituellement la technique de collecte des donnÃ©es utilisÃ©e qui dÃ©termine le genre d'enquÃªte. Le choix de cette technique est donc extrÃªmement important pour toutes les enquÃªtes fondÃ©es sur des rÃ©ponses individuelles. Nous allons maintenant analyser les trois mÃ©thodes d'enquÃªte de base.

Pour Ã©tablir son Ã©chantillon, l'enquÃªteur part d'une base de sondage contenant des numÃ©ros de tÃ©lÃ©phone, choisit une unitÃ© d'Ã©chantillonnage dans cette base et rÃ©alise une entrevue tÃ©lÃ©phonique avec une personne bien prÃ©cise qui rÃ©pond Ã l'appel ou encore avec la premiÃ¨re personne qui y rÃ©pond. Il existe aussi une autre technique, dite de composition alÃ©atoire, oÃ¹ l'enquÃªteur compose un numÃ©ro choisi au hasard sans mÃªme savoir s'il existe ou si l'abonnÃ© est une entreprise, un hÃ´pital ou un mÃ©nage. Dans la pratique, les deux techniques sont utilisÃ©es ensemble. Par exemple, il est courant d'avoir recours Ã celle de la composition alÃ©atoire pour produire une premiÃ¨re liste de numÃ©ros. Ensuite, on choisit au hasard des numÃ©ros dans cette liste pour produire le jeu de numÃ©ros de l'Ã©chantillon.

Entrevues directes

Il existe essentiellement trois faÃ§ons de recueillir des renseignements grÃ¢ce Ã des entrevues; elles se prÃªtent toutes bien aux entrevues directes. MÃªme si elles sont toutes utilisables aussi pour rÃ©aliser des entrevues tÃ©lÃ©phoniques, il est extrÃªmement rare que l'une ou l'autre des deux premiÃ¨res donnent de bons rÃ©sultats dans ce contexte. Chacune suppose une prÃ©paration, une conceptualisation et des instruments diffÃ©rents, et chacune prÃ©sente des avantages et des inconvÃ©nients. Voici les trois faÃ§ons de rÃ©aliser des entrevues :

Cette faÃ§on de procÃ©der est entiÃ¨rement fondÃ©e sur des questions posÃ©es de faÃ§on spontanÃ©e au cours de l'entrevue, souvent dans le cadre d'une observation continue des activitÃ©s du programme. Dans ce genre d'entrevue, il arrive que l'interlocuteur ne se rende mÃªme pas compte qu'il est interrogÃ©. L'avantage de cette faÃ§on de procÃ©der est de permettre Ã l'Ã©valuateur de tenir compte des diffÃ©rences individuelles et situationnelles; il peut personnaliser ses questions de faÃ§on Ã avoir un Ã©change en profondeur avec son interlocuteur, dans une atmosphÃ¨re dÃ©tendue. C'est une technique particuliÃ¨rement utile lorsque l'Ã©valuateur peut la mettre Ã profit pour explorer le programme sur une pÃ©riode assez longue, ce qui lui permet de prÃ©parer ses entrevues en se fondant sur les rÃ©ponses qu'il a obtenues auparavant.

Malheureusement, les entrevues non structurÃ©es ont l'inconvÃ©nient de s'Ã©tendre sur une longue pÃ©riode, puisqu'il faut parfois plusieurs conversations avant d'obtenir rÃ©ponse Ã une sÃ©rie uniforme de questions. En outre, c'est une faÃ§on de procÃ©der plus vulnÃ©rable que les autres aux effets et aux biais intervenant pendant l'entrevue, puisqu'elle dÃ©pend largement de l'habiletÃ© de l'enquÃªteur.

Les guides d'entrevue sont des listes de questions ou de thÃ¨mes Ã soulever pendant l'entrevue. Ils sont conÃ§us pour faire en sorte que les mÃªmes questions de base soient traitÃ©es dans toutes les entrevues et proposent Ã l'enquÃªteur des aspects ou des sujets qu'il est libre d'explorer afin d'approfondir une question donnÃ©e. Autrement dit, ce sont des cadres, dans lesquels l'enquÃªteur conÃ§oit et organise ses questions et dÃ©cide des points Ã approfondir.

Cette faÃ§on de procÃ©der a l'avantage de permettre Ã l'enquÃªteur d'exploiter au maximum le temps limitÃ© dont il dispose. L'entrevue est plus systÃ©matique et plus complÃ¨te parce que les questions Ã discuter sont prÃ©cisÃ©es Ã l'avance. C'est une mÃ©thode particuliÃ¨rement utile pour les entrevues de groupe, car elle permet Ã l'enquÃªteur de faire en sorte que les participants ne s'Ã©cartent pas du sujet, tout en tenant compte des points de vue individuels.

Pourtant, c'est une faÃ§on de procÃ©der qui prÃ©sente plusieurs inconvÃ©nients. En effet, mÃªme avec un guide d'entrevue, l'enquÃªteur peut parfois oublier des questions importantes. La souplesse dont il dispose pour l'enchaÃ®nement et la formulation des questions peut en outre rÃ©duire nettement la comparabilitÃ© des rÃ©ponses. De plus, la technique peut aussi sembler trÃ¨s intimidante pour l'interlocuteur, et l'impression que celui-ci se fait de l'enquÃªteur peut aussi saper la validitÃ© et la fiabilitÃ© des rÃ©ponses.

Lorsqu'il faut obtenir de chaque personne interrogÃ©e des renseignements strictement comparables, on peut avoir recours Ã une prÃ©sentation type permettant Ã l'enquÃªteur de poser les mÃªmes questions Ã chacune. Avant le dÃ©but des entrevues, on rÃ©dige le texte des questions ouvertes et fermÃ©es telles qu'elles seront posÃ©es. Toutes les explications et les prÃ©cisions nÃ©cessaires sont formulÃ©es Ã l'avance dans le texte, comme d'ailleurs toutes les questions Ã©ventuelles d'exploration.

Cette mÃ©thode rÃ©duit le risque de biais de l'enquÃªteur, puisque celui-ci doit poser les mÃªmes questions Ã chaque rÃ©pondant. L'entrevue est systÃ©matique et ne fait Ã peu prÃ¨s pas appel au jugement de l'enquÃªteur. En outre, l'analyse des donnÃ©es est facilitÃ©e, puisqu'on peut regrouper les questions et les rÃ©ponses qui se ressemblent. De plus, le texte mÃªme du questionnaire peut Ãªtre soumis aux dÃ©cideurs avant le dÃ©but des entrevues. Enfin, comme l'enquÃªteur doit fonctionner dans un cadre prÃ©cis, les entrevues sont habituellement plus courtes avec cette mÃ©thode qu'avec les autres.

Par contre, ce genre d'entrevue ne permet pas Ã l'enquÃªteur d'approfondir les thÃ¨mes qui pourraient Ãªtre soulevÃ©s seulement au cours de la conversation, mÃªme si l'emploi de questions ouvertes permet de mitiger un peu cet inconvÃ©nient. De plus, c'est une faÃ§on de procÃ©der qui empÃªche jusqu'Ã un certain point le chercheur de tenir compte des diffÃ©rences individuelles et des circonstances.

Dans les Ã©tudes d'Ã©valuation, la meilleure faÃ§on de procÃ©der est souvent une combinaison de la mÃ©thode du guide d'entrevue et de l'entrevue avec prÃ©sentation type. Il s'ensuit que, dans la plupart des cas, un certain nombre de questions sont formulÃ©es d'avance, quoique l'enquÃªteur dispose de la latitude voulue pour poser d'autres questions et pour dÃ©cider quand il vaut la peine d'approfondir certains points. On utilise souvent une prÃ©sentation type au dÃ©but de chaque entrevue, aprÃ¨s quoi l'enquÃªteur est plus libre de s'intÃ©resser Ã d'autres sujets gÃ©nÃ©raux pour le reste de l'entrevue.

EnquÃªte postale

La troisiÃ¨me mÃ©thode d'enquÃªte de base consiste Ã envoyer le questionnaire par la poste au rÃ©pondant, en l'invitant Ã y rÃ©pondre et Ã le retourner Ã l'expÃ©diteur. Pour obtenir les taux de rÃ©ponse Ã©levÃ©s indispensables Ã une bonne analyse, on utilise essentiellement des questions fermÃ©es dans la plupart des enquÃªtes de ce genre. C'est une mÃ©thode qui a l'avantage d'atteindre un gros Ã©chantillon de rÃ©pondants Ã un coÃ»t relativement modique. En outre, avec des questions quantitatives fermÃ©es, l'analyse des donnÃ©es est relativement simple, puisqu'on peut comparer directement les rÃ©ponses et les rÃ©sumer et les regrouper facilement. Par contre, cette mÃ©thode prÃ©sente l'inconvÃ©nient que les rÃ©pondants doivent adapter leur vÃ©cu et leurs opinions pour les faire correspondre Ã des catÃ©gories prÃ©Ã©tablies, ce qui peut fausser ce qu'ils voulaient dire en limitant leurs choix. Pour pallier ces difficultÃ©s, on ajoute souvent des questions ouvertes afin que les rÃ©pondants puissent prÃ©ciser et dÃ©velopper leurs rÃ©ponses.

Cela dit, l'un des principaux Ã©cueils associÃ©s aux enquÃªtes postales est leur faible taux de rÃ©ponse, qui peut aussi poser un problÃ¨me dans le cas des enquÃªtes tÃ©lÃ©phoniques et des entrevues directes, quoique dans une moindre mesure. Un faible taux de rÃ©ponse peut Ãªtre imputable Ã de nombreux facteurs, dont la non-disponibilitÃ© des rÃ©pondants ou le refus de participer. On a frÃ©quemment recours aux trois stratÃ©gies suivantes pour accroÃ®tre le taux de rÃ©ponse :

faire un suivi par la poste.

Dans le premier cas, l'enquÃªteur tÃ©lÃ©phone aux non-rÃ©pondants - aprÃ¨s un certain temps - pour les presser de remplir le questionnaire.

La deuxiÃ¨me stratÃ©gie consiste Ã prendre un Ã©chantillon de non-rÃ©pondants pour remplir le questionnaire avec eux au cours d'une entrevue tÃ©lÃ©phonique ou directe. Ensuite, on pondÃ¨re les rÃ©sultats de ces entrevues afin qu'ils soient reprÃ©sentatifs de l'ensemble de la population des non-rÃ©pondants, puis, en combinant les rÃ©sultats avec ceux des rÃ©pondants, on arrive Ã faire des gÃ©nÃ©ralisations non biaisÃ©es Ã l'ensemble de la population. Toutefois, pour que cette technique soit valide, il faut avoir Ã©tabli scientifiquement l'Ã©chantillon des non-rÃ©pondants sollicitÃ©s.

La troisiÃ¨me stratÃ©gie, le suivi postal, ressemble Ã celle de la relance tÃ©lÃ©phonique, mais elle est habituellement moins efficace. Elle consiste Ã envoyer de nouveau le questionnaire aux non-rÃ©pondants aprÃ¨s un certain temps, en leur demandant de bien vouloir le remplir.

De toute Ã©vidence, il peut arriver qu'on ne puisse pas faire grand-chose pour amÃ©liorer le taux de rÃ©ponse, faute de temps et d'argent. Il faut donc tenir compte du taux de non-rÃ©ponse quand on tire des conclusions sur la population Ã©tudiÃ©e Ã partir de l'information recueillie auprÃ¨s des membres de l'Ã©chantillon.

Un taux de rÃ©ponse faible dÃ©forme l'estimation des rÃ©sultats, Ã©tant donnÃ© qu'il est possible que les attitudes ou les intÃ©rÃªts des non-rÃ©pondants ne correspondent pas Ã ceux des rÃ©pondants. Heureusement, il existe plusieurs mÃ©thodes qui permettent de corriger le biais attribuable Ã un mauvais taux de rÃ©ponse, comme le sous-Ã©chantillonnage des non-rÃ©pondants.

EnquÃªte sur des objets (inventaire)

Les mÃ©thodes d'enquÃªte que nous venons de dÃ©crire s'appliquent Ã des personnes, mais on peut aussi rÃ©aliser des enquÃªtes sur des objets, comme des immeubles, des maisons ou toutes sortes d'articles. Les principes d'Ã©chantillonnage utilisÃ©s dans le cas des personnes valent Ã©galement pour les objets. En fait, l'Ã©lÃ©ment le plus important d'une enquÃªte est un enquÃªteur compÃ©tent, car c'est Ã lui de veiller Ã ce que des mesures appropriÃ©es soient prises, de les colliger et de les transmettre fidÃ¨lement. Dans les enquÃªtes sur des objets, le risque de distorsion des mesures est au moins aussi Ã©levÃ© que le risque de dÃ©formation attribuable aux biais de l'enquÃªteur dans les enquÃªtes basÃ©es sur des entrevues.

Prenons par exemple le cas d'un programme d'aide Ã un secteur d'activitÃ© industrielle conÃ§u pour inciter les entreprises Ã mettre au point du matÃ©riel d'usine moins Ã©nergivore. On pourrait mener une Ã©tude scientifique sur un Ã©chantillon de ce matÃ©riel afin de mesurer les Ã©conomies d'Ã©nergie qu'il rendrait possibles. Dans une situation comme celle-lÃ , il est manifestement indispensable d'avoir recours Ã des enquÃªteurs spÃ©cialisÃ©s capables de prendre les mesures nÃ©cessaires avec prÃ©cision.

1.3 Instruments de mesure

La collecte de donnÃ©es suppose gÃ©nÃ©ralement qu'on prenne des mesures. Or, comme la qualitÃ© d'une Ã©valuation est fonction de celle des mesures prises, il faudrait prendre soin de se donner des instruments de mesure capables de produire des donnÃ©es valides et fiables. (Pour une excellente analyse de l'Ã©laboration de questionnaires, voir Bradburn et al., 1979.) Dans les enquÃªtes, l'instrument de mesure est un questionnaire; or, la prÃ©paration de questionnaires est loin d'Ãªtre une science exacte. On estime d'ailleurs qu'au moins 20 Ã 30 p. 100 de la marge d'erreur des enquÃªtes est attribuable Ã l'ambiguÃ¯tÃ© des questions. Statistique Canada distribue Ã ce sujet un guide de sa conception intitulÃ© Conception d'un questionnaire de base.

Cela peut sembler Ã©tonnant, mais la tÃ¢che la plus difficile pour la conception d'un questionnaire consiste Ã prÃ©ciser exactement l'information recherchÃ©e. Ã€ cette fin, il faut habituellement :

comprendre les concepts Ã mesurer et la faÃ§on de le faire;
avoir une bonne idÃ©e du degrÃ© de validitÃ© et de fiabilitÃ© nÃ©cessaire pour arriver Ã produire de l'information, des donnÃ©es ou des Ã©lÃ©ments de preuve crÃ©dibles.

Avant de passer Ã l'Ã©tape suivante, la deuxiÃ¨me, il faut traduire les objectifs de la recherche en besoins d'information que l'enquÃªte est susceptible de combler.

Les questions peuvent Ãªtre prÃ©sentÃ©es de diverses faÃ§ons (ouvertes ou fermÃ©es, Ã choix unique ou Ã choix multiples, et ainsi de suite). L'Ã©chelle choisie pour l'attribution de valeurs aux rÃ©ponses Ã©ventuelles a elle aussi son importance, compte tenu de son incidence sur la validitÃ© des mesures.

C'est essentiellement un travail de communication, car il s'agit de savoir comment formuler des questions sans donner prise Ã l'ambiguÃ¯tÃ© ou Ã des biais, compte tenu des caractÃ©ristiques des rÃ©pondants. Dans bien des secteurs de programme, il existe des questions et des mesures toutes faites dont l'Ã©valuateur peut se servir avec profit. Par exemple, le Centre de recherche sur les enquÃªtes de l'UniversitÃ© du Michigan a dÃ©crit divers moyens de mesurer les attitudes psychosociologiques et Ã©valuÃ© les avantages et les inconvÃ©nients de chacun d'entre eux (Robinson et Shaver, 1973).

Il faut que l'enchaÃ®nement des questions Ã©veille l'intÃ©rÃªt des rÃ©pondants, tout en ne provoquant aucun biais, comme celui qui se manifeste lorsque l'ordre des questions semble mener Ã une conclusion prÃ©dÃ©terminÃ©e.

Un essai prÃ©alable du questionnaire permet de dÃ©tecter les questions ambiguÃ«s, les formulations boiteuses et les omissions. Cet essai devrait Ãªtre rÃ©alisÃ© auprÃ¨s d'un petit Ã©chantillon de la population visÃ©e (voir Smith, 1975).

1.4 Estimation des coÃ»ts

Pour estimer les coÃ»ts d'une enquÃªte, il faut diviser son exÃ©cution en plusieurs Ã©lÃ©ments distincts, puis calculer le coÃ»t de revient de chacun d'entre eux, selon qu'ils seront rÃ©alisÃ©s Ã l'interne ou Ã l'externe. Le coÃ»t par entrevue pourrait Ãªtre fondÃ© sur les coÃ»ts de la conception de l'enquÃªte, de la collecte et de la mise en forme des donnÃ©es, du codage et de la transcription des donnÃ©es brutes sous forme exploitable par machine, ainsi que de la compilation ou de l'analyse des donnÃ©es.

On peut confier des enquÃªtes Ã contrat aux groupes des enquÃªtes spÃ©ciales de Statistique Canada ou Ã des entreprises privÃ©es spÃ©cialisÃ©es. Statistique Canada publie d'ailleurs un rÃ©pertoire des organismes d'enquÃªte dans lequel leurs domaines de spÃ©cialisation sont prÃ©cisÃ©s.

Nous allons maintenant passer Ã l'Ã©tude de trois mÃ©thodes d'enquÃªte portant sur des personnes, dans le contexte des Ã©valuations. Pour une analyse des avantages et des inconvÃ©nients des aspects statistiques des enquÃªtes, voir Smith (1975), le chapitre 8 et Galtung (1967).

Entrevues directes

L'entrevue directe Ã©veille l'intÃ©rÃªt des rÃ©pondants et accroÃ®t le taux de participation. C'est une mÃ©thode qui permet Ã l'enquÃªteur de poser des questions complexes, pouvant exiger des explications ou des aides visuelles et mÃ©caniques. Elle a aussi l'avantage de lui donner l'occasion de se faire prÃ©ciser les rÃ©ponses. On opte gÃ©nÃ©ralement pour elle lorsqu'il faut obtenir beaucoup de renseignements dÃ©taillÃ©s des rÃ©pondants. En outre, elle est trÃ¨s souple, puisque l'enquÃªteur peut sauter les questions qui lui semblent non pertinentes et en poser d'autres. L'enquÃªteur peut aussi observer les caractÃ©ristiques des rÃ©pondants et les noter. Qui plus est, c'est une mÃ©thode Ã laquelle on peut avoir recours lorsqu'il est impossible d'Ã©tablir une base de sondage ou une liste des rÃ©pondants. D'un autre cÃ´tÃ©, elle prend beaucoup de temps, elle est difficile Ã administrer et Ã contrÃ´ler et, de plus, elle est trÃ¨s coÃ»teuse. Enfin, elle est vulnÃ©rable aux biais attribuables Ã l'enquÃªteur et aux rÃ©pondants loquaces, ce dernier se manifestant lorsque certaines personnes s'expriment plus ouvertement que d'autres, de sorte que leurs opinions sont plus en Ã©vidence.

L'entrevue tÃ©lÃ©phonique est une mÃ©thode Ã la fois rapide, Ã©conomique et facile Ã administrer et Ã contrÃ´ler, Ã condition d'Ãªtre rÃ©alisÃ©e Ã partir d'un point central. Les rÃ©sultats peuvent Ãªtre entrÃ©s directement dans un ordinateur, si le systÃ¨me tÃ©lÃ©phonique est raccordÃ© Ã un terminal, ce qui rend cette approche trÃ¨s efficace.

Ce genre d'entrevue est un excellent moyen d'avoir accÃ¨s Ã des gens difficiles Ã joindre, comme des cadres supÃ©rieurs occupÃ©s. Par contre, lorsqu'on communique par tÃ©lÃ©phone, il est difficile de faire de longues entrevues, de poser des questions complexes ou d'utiliser les aides visuelles ou mÃ©caniques. De plus, comme certaines personnes ont des numÃ©ros de tÃ©lÃ©phone confidentiels ou n'ont pas le tÃ©lÃ©phone, c'est une mÃ©thode qui peut comporter un biais attribuable Ã l'Ã©chantillonnage. Enfin, le biais attribuable Ã la non-rÃ©ponse peut lui aussi poser un problÃ¨me, puisque le rÃ©pondant peut raccrocher n'importe quand. Il ne faut pas non plus oublier le risque de biais attribuables aux rÃ©pondants loquaces.

EnquÃªtes postales

Le principal avantage des enquÃªtes postales est leur coÃ»t modique; leur principal inconvÃ©nient est imputable au nombre Ã©levÃ© de variables dont il est impossible de tenir compte puisqu'il n'y a pas d'enquÃªteur, par exemple, l'identitÃ© du rÃ©pondant, les personnes que celui-ci peut avoir consultÃ©es pour l'aider Ã rÃ©pondre au questionnaire, la vitesse de rÃ©ponse, l'ordre dans lequel les rÃ©ponses sont donnÃ©es ou la comprÃ©hension qu'a le rÃ©pondant des questions. NÃ©anmoins, pour bien des types de questions, l'expÃ©rience a clairement prouvÃ© que les enquÃªtes postales donnent des rÃ©sultats plus prÃ©cis que les autres mÃ©thodes d'enquÃªte. De plus, elles permettent d'atteindre beaucoup de gens, et les rÃ©pondants sont souvent plus ouverts lorsqu'ils rÃ©pondent par Ã©crit que lorsqu'ils doivent rÃ©pondre de vive voix. Malheureusement, si cette mÃ©thode a l'avantage d'Ãªtre peu coÃ»teuse, elle a aussi l'inconvÃ©nient majeur d'un taux de rÃ©ponse peu Ã©levÃ© et d'un biais attribuable Ã la non-rÃ©ponse. En outre, les enquÃªtes postales exigent beaucoup de temps (pour l'envoi, le traitement et la rÃ©ponse) et elles empÃªchent l'enquÃªteur d'approfondir et de clarifier certains points.

RÃ©sumÃ©

Comme nous l'avons vu, chaque mÃ©thode d'enquÃªte a ses avantages et ses inconvÃ©nients. Pour l'Ã©valuation, il faut tenir compte des facteurs suivants :

exactitude (absence de biais);
biais attribuable Ã la non-rÃ©ponse (risque que les non-rÃ©pondants soient systÃ©matiquement diffÃ©rents des rÃ©pondants);
coÃ»t par entrevue;
faisabilitÃ© opÃ©rationnelle (possibilitÃ© de respecter les contraintes opÃ©rationnelles, telles que les coÃ»ts et le personnel).

Les enquÃªtes sur les objets impliquent la collecte de renseignements objectifs, habituellement plus valides et plus crÃ©dibles que les opinions et les impressions d'Ã©ventuels rÃ©pondants. Pourtant, ces enquÃªtes ne sont pas exemptes de nombreuses erreurs, notamment d'Ã©chantillonnage (L'Ã©chantillon est-il bien reprÃ©sentatif des objets?) et de mesure (L'instrument de mesure utilisÃ© est-il prÃ©cis, et l'Ã©valuateur s'en sert-il correctement?).

Enfin, si bien conÃ§ue soit-elle, l'enquÃªte peut produire des donnÃ©es inutilisables lorsqu'elle est mal exÃ©cutÃ©e. Les enquÃªteurs doivent Ãªtre bien formÃ©s. Il est essentiel de consacrer le temps et les ressources nÃ©cessaires Ã leur formation et Ã celle des prÃ©posÃ©s au codage. En effet, il est possible d'accroÃ®tre la fiabilitÃ© et la validitÃ© des rÃ©sultats en favorisant la plus grande uniformitÃ© possible de la comprÃ©hension du questionnaire qu'ont les enquÃªteurs et les codeurs, de leur compÃ©tence et des instructions qu'on leur donne.

Evaluation et examen des programmes

SecrÃ©tariat du Conseil du TrÃ©sor du Canada
MÃ©thodes d'Ã©valuation des programmes : Mesure et attribution des rÃ©sultats des programmes

Annexe 2 - GLOSSAIRE

Analyse coÃ»ts-avantages : Analyse comparant les avantages que procure un programme aux coÃ»ts associÃ©s Ã son exÃ©cution. Une valeur monÃ©taire est attribuÃ©e aux avantages et aux coÃ»ts.

Analyse coÃ»t-efficacitÃ© : Analyse comparant les coÃ»ts d'un programme Ã ses retombÃ©es. Dans cette analyse, les retombÃ©es ne sont pas traduites en valeur monÃ©taire.

Analyse coÃ»ts-avantages/coÃ»t-efficacitÃ© ex ante : Analyse coÃ»ts-avantages ou coÃ»ts-efficacitÃ© portant non pas sur les avantages et les coÃ»ts rÃ©els d'un programme, mais sur des hypothÃ¨ses de coÃ»ts et d'avantages Ã©tablies a priori. Ce genre d'analyse est utilisÃ© pour la planification plutÃ´t que pour l'Ã©valuation.

Analyse coÃ»ts-avantages/coÃ»t-efficacitÃ© ex post : Analyse coÃ»ts-avantages ou coÃ»ts-efficacitÃ© effectuÃ©e lorsqu'un programme fonctionne depuis un certain temps afin d'Ã©valuer les coÃ»ts et les avantages rÃ©els.

Analyse statistique : Manipulation de donnÃ©es numÃ©riques ou catÃ©goriques afin de prÃ©voir des phÃ©nomÃ¨nes, de tirer des conclusions sur des rapports entre variables ou de gÃ©nÃ©raliser des rÃ©sultats.

Analyse statistique descriptive : Chiffres et tableaux servant Ã rÃ©sumer et Ã prÃ©senter succinctement une information quantitative.

Analyse infÃ©rentielle statistique : Analyse statistique utilisant des modÃ¨les pour confirmer les rapports entre variables ou pour gÃ©nÃ©raliser les constatations Ã l'ensemble de la population.

Appariement des sujets : Division de la population en Â«blocsÂ» Ã©tablis selon une ou plusieurs variables autres que le programme susceptibles d'exercer une influence sur l'effet du programme.

Aspects d'efficacitÃ© : CatÃ©gorie d'aspects sur lesquels porte une Ã©valuation, liÃ©s Ã la rÃ©alisation des objectifs d'un programme et aux autres consÃ©quences et effets escomptÃ©s ou non du programme.

Attribution : Estimation de la mesure dans laquelle les rÃ©sultats observÃ©s sont attribuables Ã un programme, ce qui signifie que le programme a eu des effets incrÃ©mentiels.

Attrition : Fait pour les participants Ã un traitement (ou les membres d'un groupe tÃ©moin) de dÃ©laisser le programme. Ce facteur peut nuire Ã la comparabilitÃ© des groupes expÃ©rimental et tÃ©moin et constituer un obstacle Ã la validitÃ© interne.

Biais attribuable Ã la sÃ©lection : Fait, pour les groupes expÃ©rimental et tÃ©moin relatifs Ã un programme, d'Ãªtre au dÃ©part inÃ©gaux sur le plan statistique, pour un ou plusieurs facteurs importants. C'est un obstacle Ã la validitÃ© interne.

Biais attribuable Ã l'enquÃªteur : Influence que l'enquÃªteur exerce sur le rÃ©pondant. Cette influence peut Ãªtre attribuable Ã plusieurs facteurs, dont les caractÃ©ristiques physiques et psychologiques de l'enquÃªteur, qui peuvent susciter des rÃ©ponses diffÃ©rentes selon le rÃ©pondant.

Biais attribuable Ã l'ordre des rÃ©ponses : Facteur de distorsion des rÃ©sultats causÃ© par l'ordre dans lequel les questions sont posÃ©es dans une enquÃªte.

Biais attribuable aux essais : Changements observÃ©s dans le cadre d'une quasi-expÃ©rience qui peuvent Ãªtre attribuables au fait que les participants connaissent bien l'instrument de mesure. C'est un obstacle possible Ã la validitÃ© interne.

Biais attribuable aux instruments : ConsÃ©quence d'un changement d'instrument selon la mesure lorsqu'on a recours Ã des enquÃªteurs diffÃ©rents. C'est un obstacle Ã la validitÃ© interne.

Biais attribuable aux rÃ©pondants loquaces : Biais qui se produit lorsque certaines personnes s'expriment plus franchement que d'autres, et que leurs points de vue ressortent davantage.

Biais de non-rÃ©ponse : Facteur de distorsion attribuable Ã la non-rÃ©ponse : les rÃ©ponses provenant d'unitÃ©s d'Ã©chantillonnage qui fournissent une information peuvent ne pas correspondre aux rÃ©ponses des unitÃ©s d'Ã©chantillonnage qui ne rÃ©pondent pas, et ce sur des aspects importants.

Biais statistiquement significatif : Biais observÃ© et probablement pas exclusivement attribuable au hasard. Ce biais peut Ãªtre vÃ©rifiÃ© au moyen de tests statistiques.

Composition alÃ©atoire : Technique utilisÃ©e pour les entrevues par tÃ©lÃ©phone et permettant de choisir un Ã©chantillon. L'enquÃªteur compose un numÃ©ro Ã l'aide d'un systÃ¨me de composition alÃ©atoire quelconque, sans savoir si ce numÃ©ro existe ni s'il s'agit du numÃ©ro d'une entreprise, d'un hÃ´pital ou d'un mÃ©nage.

Consultation de spÃ©cialistes : MÃ©thode de collecte des donnÃ©es faisant appel aux opinions et aux connaissances de spÃ©cialistes dans des domaines fonctionnels en tant qu'indicateurs des rÃ©sultats d'un programme.

DÃ©pouillement de la documentation spÃ©cialisÃ©e : MÃ©thode de collecte des donnÃ©es qui comprend l'examen de rapports de recherche, de publications et de livres.

Diffusion ou imitation du traitement : Fait pour les rÃ©pondants appartenant Ã un groupe tÃ©moin de ressentir eux aussi les effets destinÃ©s au groupe expÃ©rimental (exposÃ© au programme). C'est un obstacle Ã la validitÃ© interne.

DonnÃ©es longitudinales : DonnÃ©es recueillies au cours d'une pÃ©riode; il peut aussi s'agir d'une sÃ©rie de donnÃ©es accumulÃ©es concernant des personnes ou des entitÃ©s.

DonnÃ©es objectives : Observations dÃ©nuÃ©es d'impressions personnelles et fondÃ©es sur des faits observables. Les donnÃ©es objectives peuvent Ãªtre mesurÃ©es quantitativement ou qualitativement.

DonnÃ©es qualitatives : Observations catÃ©goriques plutÃ´t que numÃ©riques portant souvent sur les attitudes, les perceptions et les intentions.

DonnÃ©es secondaires : DonnÃ©es recueillies et consignÃ©es par une autre personne ou une autre organisation (ordinairement Ã une date antÃ©rieure), habituellement Ã des fins autres que celles de l'Ã©valuation en cours.

DonnÃ©es subjectives : Observations dans lesquelles entrent en jeu des sentiments, des attitudes et des perceptions personnelles. Les donnÃ©es subjectives peuvent Ãªtre mesurÃ©es quantitativement ou qualitativement.

Ã‰cart type : L'Ã©cart type d'un ensemble de mesures numÃ©riques (sur une Â«Ã©chelle d'intervallesÂ») indique le degrÃ© de regroupement des mesures individuelles autour de la moyenne.

Ã‰chantillonnage alÃ©atoire : SÃ©lection d'unitÃ©s d'une population fondÃ©e sur le principe de la rÃ©partition au hasard. Il existe pour chaque unitÃ© de la population une probabilitÃ© calculable (diffÃ©rente de zÃ©ro) d'Ãªtre choisie.

Ã‰chantillonnage non alÃ©atoire : Choix des unitÃ©s d'un Ã©chantillon effectuÃ© de faÃ§on Ã ce chaque unitÃ© de la population n'ait pas une probabilitÃ© calculable diffÃ©rente de zÃ©ro d'Ãªtre choisie pour faire partie de l'Ã©chantillon.

Ã‰chantillonnage par liste : Technique principalement utilisÃ©e pour les entrevues tÃ©lÃ©phoniques afin de prÃ©lever un Ã©chantillonnage. L'enquÃªteur part d'une base de sondage renfermant des numÃ©ros de tÃ©lÃ©phone, choisit une unitÃ© dans cette base et rÃ©alise une entrevue tÃ©lÃ©phonique soit avec une personne prÃ©cise, soit avec la premiÃ¨re qui rÃ©pond Ã ce numÃ©ro.

Ã‰chantillonnage stratifiÃ© : Technique d'Ã©chantillonnage alÃ©atoire suivant laquelle une population est divisÃ©e en couches relativement homogÃ¨nes appelÃ©es strates. Des Ã©chantillons appropriÃ©s sont choisis dans chaque strate.

Ã‰chantillonnage subdivisÃ© : Technique d'Ã©chantillonnage alÃ©atoire impliquant le choix d'un certain nombre d'Ã©chantillons indÃ©pendants Ã partir d'une population plutÃ´t que celui d'un seul Ã©chantillon. Chaque sous-Ã©chantillon est appelÃ© Ã©chantillon subdivisÃ© et est choisi indÃ©pendamment des autres en fonction du mÃªme plan d'Ã©chantillonnage.

Effet d'interaction : Effet net combinÃ© d'au moins deux variables qui influent sur le rÃ©sultat d'une quasi-expÃ©rience.

EnquÃªte : MÃ©thode de collecte des donnÃ©es qui suppose une dÃ©marche planifiÃ©e en vue de recueillir les donnÃ©es requises auprÃ¨s d'un Ã©chantillon de la population visÃ©e (ou au moyen d'un recensement complet). La population visÃ©e est composÃ©e des personnes ou des entitÃ©s touchÃ©es par le programme (ou de personnes ou entitÃ©s semblables).

Entrevue non structurÃ©e : Technique d'entrevue utilisant une conversation normale menant Ã des questions spontanÃ©es, souvent dans le cadre de l'observation rÃ©guliÃ¨re des activitÃ©s d'un programme.

Entrevue suivant une prÃ©sentation type : Technique d'entrevue utilisant des questions ouvertes et des questions fermÃ©es dont le texte est rÃ©digÃ© avant l'entrevue.

Erreur autre que d'Ã©chantillonnage : Type d'erreur non attribuable Ã l'Ã©chantillonnage se produisant dans presque toute activitÃ© d'enquÃªte (mÃªme un recensement). Il peut s'agir par exemple de l'interprÃ©tation diffÃ©rente que les rÃ©pondants donnent aux questions, d'erreurs de traitement des rÃ©sultats ou d'erreurs dans la base de sondage.

Erreur d'Ã©chantillonnage : Erreur attribuÃ©e Ã l'Ã©chantillonnage et Ã la mesure d'un segment de la population pour Ã©viter de devoir exÃ©cuter un recensement dans les mÃªmes conditions gÃ©nÃ©rales.

Ã‰tude de cas : MÃ©thode de collecte des donnÃ©es qui suppose des Ã©tudes en profondeur de cas ou de projets liÃ©s Ã un programme. Cette mÃ©thode comporte une ou plusieurs techniques de collecte des donnÃ©es (p. ex., entrevues, Ã©tude de dossiers).

Ã‰tude de dossiers : MÃ©thode de collecte des donnÃ©es impliquant l'examen des dossiers d'un programme. Il existe ordinairement deux sortes de dossiers : les dossiers Ã caractÃ¨re gÃ©nÃ©ral au sujet d'un programme et les dossiers portant sur des projets, clients ou participants particuliers.

Exactitude : DiffÃ©rence entre une estimation faite Ã partir d'un Ã©chantillon et des rÃ©sultats obtenus Ã la suite d'un recensement. Dans les estimations non biaisÃ©es, prÃ©cision et exactitude sont synonymes.

Facteurs de rÃ©gression : Pseudo-changements des rÃ©sultats d'un programme qui se produisent lorsqu'on a choisi pour un programme des personnes ou des unitÃ©s de traitement en raison de leurs rÃ©sultats extrÃªmes. Ces facteurs sont un obstacle Ã la validitÃ© interne.

FiabilitÃ© : DegrÃ© auquel une mesure appliquÃ©e de faÃ§on rÃ©pÃ©tÃ©e Ã une situation donnÃ©e produit les mÃªmes rÃ©sultats, pourvu que la situation ne change pas d'une application Ã une autre. La fiabilitÃ© peut correspondre Ã la stabilitÃ© de la mesure dans le temps ou Ã la permanence de la mesure d'un endroit Ã un autre.

Formule de la taille de l'Ã©chantillon : Ã‰quation utilisÃ©e pour dÃ©terminer la taille minimale requise de l'Ã©chantillon. Cette Ã©quation varie selon la sorte d'estimation Ã faire, le degrÃ© de prÃ©cision recherchÃ© et la mÃ©thode d'Ã©chantillonnage.

Groupe de comparaison : Groupe qui n'est pas exposÃ© Ã un programme ou Ã un traitement. Voir Ã©galement Â«groupe tÃ©moinÂ».

Groupe expÃ©rimental : En recherche, groupe de sujets qui bÃ©nÃ©ficie du programme; aussi appelÃ© groupe de traitement ou groupe exposÃ© au programme.

Groupe tÃ©moin : Dans les modÃ¨les quasi-expÃ©rimentaux, groupe de sujets qui Ã©prouve toutes les influences, sauf celles du programme, exactement de la mÃªme faÃ§on que le groupe exposÃ© Ã un traitement (qu'on appelle aussi Â«groupe expÃ©rimentalÂ»). On peut l'appeler groupe non exposÃ© au programme.

Guide d'entrevue : Liste de sujets Ã aborder ou de questions Ã poser au cours de l'entrevue.

HypothÃ¨ses plausibles : Autres faÃ§ons possibles d'expliquer les rÃ©sultats d'un programme, c'est-Ã -dire influences autres que celle du programme.

InfÃ©rence causale : Processus logique utilisÃ© pour tirer des conclusions Ã partir des donnÃ©es ou des Ã©lÃ©ments de preuve sur les retombÃ©es d'un programme. Lorsqu'on dit qu'un programme a produit ou causÃ© un certain rÃ©sultat, cela signifie que, s'il n'avait pas existÃ© (ou s'il avait existÃ© sous une forme ou avec une ampleur diffÃ©rentes), le rÃ©sultat obtenu (ou le niveau de rÃ©sultat) ne se serait pas produit.

Instruments de mesure : Instruments utilisÃ©s pour recueillir des donnÃ©es (p. ex., questionnaires, directives d'entrevue, formulaires d'inscription des observations).

Interaction entre la sÃ©lection et le programme : RÃ©ceptivitÃ© inhabituelle des participants Ã un programme attribuable au fait qu'ils sont conscients de participer au programme ou Ã une enquÃªte. C'est un obstacle Ã la validitÃ© interne et externe.

Interaction entre le milieu et le programme : Non-reprÃ©sentativitÃ© du milieu dans lequel se dÃ©roule le projet expÃ©rimental ou pilote par rapport au milieu envisagÃ© pour le programme. C'est un obstacle Ã la validitÃ© externe.

Interaction entre les Ã©vÃ©nements historiques et le programme : Conditions dans lesquelles s'est dÃ©roulÃ© le programme et qui ne sont pas reprÃ©sentatives des conditions futures. C'est un obstacle Ã la validitÃ© externe.

Maturation : Changements des rÃ©sultats attribuables au temps plutÃ´t qu'au programme, par exemple le vieillissement des participants. C'est un obstacle Ã la validitÃ© interne.

MÃ©thode d'Ã©chantillonnage : MÃ©thode de choix des unitÃ©s d'Ã©chantillonnage (p. ex., Ã©chantillonnage systÃ©matique, stratifiÃ©).

MÃ©thode de collecte des donnÃ©es : ManiÃ¨re dont sont rÃ©unis les faits relatifs Ã un programme et Ã ses rÃ©sultats. Le dÃ©pouillement de la documentation spÃ©cialisÃ©e, l'Ã©tude de dossiers, les observations directes, les enquÃªtes, la consultation de spÃ©cialistes et les Ã©tudes de cas figurent parmi les mÃ©thodes de collecte des donnÃ©es frÃ©quemment utilisÃ©es pour l'Ã©valuation de programmes.

MÃ©thodes analytiques directes : MÃ©thodes utilisÃ©es pour traiter les donnÃ©es afin de fournir des Ã©lÃ©ments de preuve sur les retombÃ©es ou les effets directs d'un programme.

ModalitÃ©s multiples d'Ã©tablissement de la preuve : Utilisation de plusieurs stratÃ©gies d'Ã©valuation indÃ©pendantes pour examiner la mÃªme question d'Ã©valuation, Ã partir de sources de donnÃ©es ou de mÃ©thodes analytiques des donnÃ©es diffÃ©rentes.

ModÃ¨le d'entrÃ©es-sorties : ModÃ¨le Ã©conomique pouvant servir Ã analyser les dÃ©pendances mutuelles entre diffÃ©rents Ã©lÃ©ments d'une Ã©conomie. C'est un modÃ¨le systÃ©matique qui prÃ©sente les Ã©changes de biens et de services entre les segments de production et de consommation d'une Ã©conomie.

ModÃ¨le d'Ã©valuation : ModÃ¨le logique ou cadre conceptuel utilisÃ© pour tirer des conclusions au sujet des rÃ©sultats.

ModÃ¨le d'Ã©valuation idÃ©al : Comparaison conceptuelle de deux ou de plusieurs situations identiques en tout point, sauf que le programme s'applique dans un seul cas. Un seul groupe (le groupe expÃ©rimental) bÃ©nÃ©ficie du programme; l'autre; les autres groupes (groupes tÃ©moins) sont exposÃ©s Ã toutes les influences pertinentes, sauf celles du programme, exactement de la mÃªme faÃ§on que le groupe expÃ©rimental. Les rÃ©sultats sont mesurÃ©s de maniÃ¨re identique pour chaque groupe, et toute diffÃ©rence observÃ©e peut Ãªtre attribuÃ©e au programme.

ModÃ¨le implicite : ModÃ¨le dans lequel il n'y a pas de groupe tÃ©moin officiel, et oÃ¹ les mesures sont prises aprÃ¨s l'exposition au programme.

ModÃ¨le macro-Ã©conomique : ModÃ¨le des interactions entre les marchÃ©s des produits, de la main-d'_uvre et des biens d'une Ã©conomie qui s'intÃ©resse aux niveaux de production et des prix, compte tenu des interactions entre l'offre et la demande globales.

ModÃ¨le micro-Ã©conomique : ModÃ¨le du comportement Ã©conomique des acheteurs et vendeurs individuels sur un marchÃ© donnÃ© et dans des circonstances particuliÃ¨res.

ModÃ¨le quasi expÃ©rimental : Structure d'Ã©tude utilisant des groupes de comparaison pour faire des infÃ©rences causales, mais sans recours Ã la randomisation pour constituer un groupe expÃ©rimental et un groupe tÃ©moin. Le premier groupe est ordinairement acquis; le groupe expÃ©rimental est choisi pour correspondre le plus possible avec lui, de faÃ§on Ã permettre des infÃ©rences sur les effets incrÃ©mentiels du programme.

ModÃ¨le statistique : ModÃ¨le ordinairement fondÃ© sur des recherches antÃ©rieures et permettant de transformer une mesure prÃ©cise des effets en une autre mesure prÃ©cise des effets, une mesure prÃ©cise des effets en une gamme d'autres mesures des effets ou une gamme de mesures des effets en une autre gamme de mesures des effets.

ModÃ¨les expÃ©rimentaux (ou alÃ©atoires) : ModÃ¨les utilisÃ©s pour Ã©tablir l'Ã©quivalence initiale entre un ou plusieurs groupes tÃ©moins et le groupe exposÃ© Ã un traitement en crÃ©ant administrativement des groupes par assignation alÃ©atoire, ce qui permet d'en assurer l'Ã©quivalence mathÃ©matique. Comme exemples de modÃ¨les expÃ©rimentaux ou alÃ©atoires, signalons les suivants : les modÃ¨les avec groupes alÃ©atoires, les modÃ¨les Ã carrÃ© latin, les modÃ¨les fractionnels et les quatre groupes de Salomon.

Niveau de confiance : Affirmation selon laquelle la valeur rÃ©elle d'un paramÃ¨tre pour une population donnÃ©e se situe Ã l'intÃ©rieur d'un certain niveau de probabilitÃ© dans une fourchette spÃ©cifiÃ©e de valeurs.

Non-rÃ©ponse : Situation qui se produit lorsqu'on ne peut pas obtenir d'information auprÃ¨s d'unitÃ©s d'Ã©chantillonnage.

ObjectivitÃ© : QualitÃ© des Ã©lÃ©ments de preuve et des conclusions qui peut Ãªtre vÃ©rifiÃ©e par une personne autre que les auteurs.

Observation sur le terrain : MÃ©thode de collecte des donnÃ©es qui suppose des visites aux endroits oÃ¹ un programme est exÃ©cutÃ©. Elle a pour but d'Ã©valuer directement le contexte du programme, ses activitÃ©s et les personnes qui y participent.

Politique monÃ©taire : Mesure de l'Ã‰tat exerÃ§ant une influence sur la masse monÃ©taire et les taux d'intÃ©rÃªt. Il peut aussi s'agir d'un programme.

Randomisation : Utilisation d'un plan de probabilitÃ© pour Ã©tablir un Ã©chantillon. On peut utiliser des tables de nombres alÃ©atoires, des ordinateurs, des dÃ©s, des cartes, etc.

StratÃ©gie d'Ã©valuation : MÃ©thode utilisÃ©e pour recueillir des donnÃ©es sur les retombÃ©es d'un programme. Elle comprend un modÃ¨le d'Ã©valuation, une mÃ©thode de collecte des donnÃ©es et une technique d'analyse.

UnitÃ© d'Ã©chantillonnage : UnitÃ© utilisÃ©e pour l'Ã©chantillonnage. La population devrait Ãªtre divisible en un nombre fini d'unitÃ©s distinctes qui ne se chevauchent pas, afin que chaque membre de la population n'appartienne qu'Ã une unitÃ© d'Ã©chantillonnage.

ValiditÃ© de la mesure : Une mesure est valable si elle reprÃ©sente ce qu'elle est censÃ©e reprÃ©senter. Les mesures valables ne prÃ©sentent pas de biais systÃ©matique.

ValiditÃ© des conclusions : Aptitude Ã gÃ©nÃ©raliser les conclusions tirÃ©es d'un programme actuel et Ã les appliquer Ã d'autres endroits, lieux ou situations. Pour formuler des conclusions gÃ©nÃ©ralisables, il faut satisfaire aux critÃ¨res de validitÃ© interne et de validitÃ© externe.

ValiditÃ© externe : Aptitude Ã gÃ©nÃ©raliser les conclusions tirÃ©es d'un programme et Ã les appliquer Ã des conditions futures ou diffÃ©rentes. Les obstacles Ã la validitÃ© externe comprennent l'interaction entre la sÃ©lection et le programme, l'interaction entre le milieu et le programme et l'interaction entre les Ã©vÃ©nements historiques et le programme.

ValiditÃ© interne : Aptitude Ã affirmer qu'un programme a eu des rÃ©sultats mesurÃ©s (jusqu'Ã un certain point), malgrÃ© d'autres explications plausibles. Les obstacles Ã la validitÃ© interne les plus courants sont les Ã©vÃ©nements historiques, la maturation, l'attrition, les biais attribuables Ã la sÃ©lection, les facteurs de rÃ©gression statistique, la diffusion et l'imitation du traitement, ainsi que l'essai.

Annexe 3 - BIBLIOGRAPHIE

Alkin, M.C., A Guide for Evaluation Decision Makers, Thousand Oaks : Sage Publications, 1986.

Angelsen, Arild et Ussif Rashid Sumaila, Hard Methods for Soft Policies : Environmental and Social Cost-Benefit Analysis, Bergen, NorvÃ¨ge : Institut Michelsen, 1995.

Australie, ministÃ¨re des Finances, Handbook of Cost-Benefit Analysis, Canberra, 1991.

Babbie, E.R., Survey Research Methods, Belmont : Wadsworth, 1973.

Baird, B.F., Managerial Decisions Under Uncertainty, New York : Wiley Interscience, 1989.

Behn, R.D. et J.W. Vaupel, Quick Analysis for Busy Division Makers, New York : Basic Books, 1982.

Belli, P., Guide to Economic Appraisal of Development Projects, Washington (DC) : Banque mondiale, 1996.

Bentkover, J.D., Covdlo, V.T. et J. Mumpower, Benefits Assessment : The State of the Art, Dordrecht, Pays-Bas : D. Reidel Publishing Co., 1986.

Berk, Richard A. et Peter H. Rossi, Thinking About Program Evaluation, Thousand Oaks : Sage Publications, 1990.

Bickman, L., Ã©d., Using Program Theory in Program Evaluation, Vol. 33 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1987.

Blalock, H.M., Jr., Measurement in the Social Sciences : Theories and Strategies, Chicago : Aldine, 1974.

Boberg, Alice L. et Sheryl A. Morris-Khoo, Â«The Delphi Method : A Review of Methodology and an Application in the Evaluation of a Higher Education ProgramÂ», Canadian Journal of Program Evaluation, Vol. 7, N^o 1, avril-mai, 1992, p. 27 Ã 40.

Boruch, R.F., Â«Conducting Social ExperimentsÂ», Evaluation Practice in Review, Vol. 34 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1987, p. 45 Ã 66.

Boruch, R.F., et al., Reanalysing Program Evaluations - Policies and Practices for Secondary Analysis for Social and Education Programs, San Francisco : Jossey-Bass, 1981.

Boruch, R.F., Â«On Common Contentions About Randomized Field ExperimentsÂ», in Glass, Gene V., Ã©d., Evaluation Studies Review Annual, Thousand Oaks : Sage Publications, 1976.

Bradburn, N.M. et S. Sudman, Improving Interview Methods and Questionnaire Design, San Francisco : Jossey-Bass, 1979.

Braverman, Mark T. et Jana Kay Slater, Advances in Survey Research, Vol. 70 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1996.

Buffa, E.S. et J.S. Dyer, Management Science Operations Research : Model Formulation and Solution Methods, New York : John Wiley and Sons, 1977.

Cabatoff, Kenneth A., Â«Getting On and Off the Policy Agenda : A Dualistic Theory of Program Evaluation UtilizationÂ», Canadian Journal of Program Evaluation, Vol. 11, N^o 2, automne 1996, p. 35 Ã 60.

Campbell, D., Â«Considering the Case Against Experimental Evaluations of Social InnovationsÂ», Administrative Science Quarterly ,Vol. 15, N^o 1, 1970, p. 111 Ã 122.

Campbell, D.T., Â«Degrees of Freedom and the Case StudyÂ», Comparative Political Studies, Vol. 8, 1975, p. 178 Ã 193.

Campbell, D.T. et J.C. Stanley, Experimental and Quasi-Experimental Designs for Research, Chicago : Rand-McNally, 1963.

Canada, SecrÃ©tariat du Conseil du TrÃ©sor, Aborder les annÃ©es 90 : Perspectives gouvernementales pour l'Ã©valuation de programmes, Ottawa, 1991.

Canada, SecrÃ©tariat du Conseil du TrÃ©sor, Â«Examen, vÃ©rification interne et Ã©valuationÂ», Manuel du Conseil du TrÃ©sor, Ottawa, derniÃ¨re rÃ©vision en 1994.

Services de qualitÃ© - Tour d'horizon, Ottawa, octobre 1995.
Guide I - Consultation des clients, Ottawa, octobre 1995.
Guide II - Mesure de la satisfaction des clients, Ottawa, octobre 1995.
Guide III - Collaboration avec les syndicats, Ottawa, octobre 1995.
Guide IV - Un milieu propice Ã l'apprentissage, Ottawa, octobre 1995.
Guide V - Reconnaissance du mÃ©rite, Ottawa, octobre 1995.
Guide VI - Sondage auprÃ¨s des employÃ©s, Ottawa, octobre 1995.
Guide VII - Normes de service, octobre 1995.
Guide VIII - Analyses comparatives et meilleures pratiques, Ottawa, octobre 1995.
Guide IX - Communications, Ottawa, octobre 1995.
Guide X - Analyse comparative et partage des pratiques examplaires - Mise Ã jour du Guide XI - Gestion efficace des plaintes, Ottawa, juin 1996.
Guide XII - Qui est le client? - Document de travail, Ottawa, juillet 1996.
Guide XIII - Guide des gestionnaires pour la prestation de services de qualitÃ©, Ottawa, septembre 1996.

Canada, SecrÃ©tariat du Conseil du TrÃ©sor, L'Ã©valuation des programmes fÃ©dÃ©raux : RÃ©pertoire sur l'utilisation des Ã©valuations, Ottawa, 1991.

Canada, SecrÃ©tariat du Conseil du TrÃ©sor, Mesure de la satisfaction des clients - Concevoir et adopter de saines pratiques de mesure et de suivi de la satisfaction des clients, Ottawa, octobre 1991.

Canada, SecrÃ©tariat du Conseil du TrÃ©sor, Normes d'Ã©valuation de programmes dans les ministÃ¨res et organismes fÃ©dÃ©raux, Ottawa, juillet 1989.

Canada, SecrÃ©tariat du Conseil du TrÃ©sor, Pour offrir aux Canadiens et aux Canadiennes un service de qualitÃ© Ã un prix raisonnable - Ã‰tablissement de normes de service au gouvernement fÃ©dÃ©ral, Ottawa, dÃ©cembre 1994.

Canada, SecrÃ©tariat du Conseil du TrÃ©sor, Pour une fonction d'examen plus efficace - Rapport annuel au Parlement par le PrÃ©sident du Conseil du TrÃ©sor, Ottawa, octobre 1995.

Canada, Statistique Canada, La structure par entrÃ©es-sorties de l'Ã©conomie canadienne 1961-1981, Ottawa, avril 1989, n^o de cat. 15-201F.

Canada, Statistique Canada, RÃ©pertoire des mÃ©thodes d'Ã©valuation des erreurs dans les recensements et les enquÃªtes, Ottawa, 1982, CSCCB-F.

Caron, Daniel J., Â«Knowledge Required to Perform the Duties of an EvaluatorÂ», Canadian Journal of Program Evaluation, Vol. 8, N^o 1, avril-mai 1993, p. 59 Ã 78.

Casley, D.J. et K. Kumar, The Collection, Analysis and Use of Monitoring and Evaluation Data, Washington (DC) : Banque mondiale, 1989.

Chelimsky, Eleanor; Ã©d., Program Evaluation : Patterns and Directions, Washington : American Society for Public Administration, 1985.

Chelimsky, Eleanor et William R. Shadish, Ã©d., Evaluation for the 21st Century : A Handbook, Thousand Oaks : Sage Publications, 1997.

Chen, H.T. et P.H. Rossi, Â«Evaluating with Sense : the Theory-Driven ApproachÂ», Evaluation Review, Vol. 7, 1983, p. 283 Ã 302.

Chen, Huey-Tsyh, Theory-Driven Evaluations, Thousand Oaks : Sage Publications, 1990.

Chenery, H. et P. Clark, Inter-industry Economics, New York : John Wiley and Sons, 1959.

Clemen, R.T., Making Hard Decisions, Duxbury Press, 1991, sections 1 Ã 3.

Cook, T.D. et D.T. Campbell, Quasi-Experimentation : Designs and Analysis Issues for Field Settings, Chicago : Rand-McNally, 1979.

Cook, T.D. et C.S. Reichardt, Ã©d.,Qualitative and Quantitative Methods in Evaluation Research, Thousand Oaks : Sage Publications, 1979.

Cordray, D.S., Â«Quasi-Experimental Analysis : A Mixture of Methods and JudgementÂ», in Trochim, W.M.K., Ã©d., Advances in Quasi-Experimental Design and Analysis, p. 9 Ã 27, Vol. 31 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1986.

Datta L. et R. Perloff., Improving Evaluations, Thousand Oaks : Sage Publications, 1979, section II.

Delbecq, A.L., et al., Group Techniques in Program Planning : A Guide to the Nominal Group and Delphi Processes, Glenview : Scott, Foresman, 1975.

Dexter, L.A., Elite and Specialized Interviewing, Evanston (Illinois) : Northwestern University Press, 1970.

Duncan, B.D., Introduction to Structural Equation Models, New York : Academic Press, 1975.

Eaton, Frank, Â«Measuring Program Effects in the Presence of Selection Bias : The Evolution of PracticeÂ», Canadian Journal of Program Evaluation, Vol. 9, N^o 2, octobre-novembre 1994, p. 57 Ã 70.

Favaro, Paul et Marie Billinger, Â«A Comprehensive Evaluation Model for Organizational DevelopmentÂ», Canadian Journal of Program Evaluation, Vol. 8, N^o 2, octobre-novembre 1993, p. 45 Ã 60.

Fienberg, S., The Analysis of Cross-classified Categorical Data (2^e Ã©dition), Cambridge : MIT (Massachusetts Institute of Technology), 1980.

Fowler, Floyd J., Improving Survey Questions : Design and Evaluation, Thousand Oaks : Sage Publications, 1995.

Fox, J., Linear Statistical Models and Related Methods, with Applications to Social Research, New York : Wiley, 1984.

Gauthier, B., Ã©d., Recherche sociale : de la problÃ©matique Ã la collecte des donnÃ©es, MontrÃ©al : Les Presses de l'UniversitÃ© du QuÃ©bec, 1984.

Gliksman, Louis, et al., Â«Responders vs. Non-Responders to a Mail Survey : Are They Different?Â», Canadian Journal of Program Evaluation, Vol. 7, N^o 2, octobre-novembre 1992, p. 131 Ã 138.

Globerson, AryÃ©, et al., You Can't Manage What You Don't Measure : Control and Evaluation in Organizations, Brookfield : Gower Publications, 1991.

Goldberger, A.S. et D.D. Duncan, Structural Equation Models in the Social Sciences, New York : Seminar Press, 1973.

Goldman, Francis et Edith Brashares, Â«Performance and Accountability : Budget Reform in New ZealandÂ», Public Budgeting and Finance, Vol. 11, N^o 4, hiver 1991, p. 75 Ã 85.

Goode, W.J. et Paul K. Hutt, Methods in Social Research, New York : McGraw-Hill, 1952, chapitre 9.

Gordon, R.A., Economic Instability and Growth : The American Record, Harper & Row, 1974.

Guba, E.G., Â«Naturalistic EvaluationÂ», in Cordray, D.S., et al., Ã©d., Evaluation Practice in Review, Vol. 34 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1987.

Guba, E.G. et Y.S. Lincoln, Effective Evaluation : Improving the Usefulness of Evaluation Results Through Responsive and Naturalistic Approaches, San Francisco : Jossey-Bass, 1981.

Hanley, J.A., Â«Appropriate Uses of Multivariate AnalysisÂ», Annual Review of Public Health, Palo Alto : Annual Reviews Inc., 1983, p. 155 Ã 180.

Hanushek, E.A. et J.E. Jackson, Statistical Methods for Social Scientists, New York : Academic Press, 1977.

Harberger, A.C., Project Evaluation : Collected Papers, Chicago : Markham Publishing Co., 1973.

Heilbroner, R.L. et L.C. Thurow, Economics Explained, Toronto : Simon and Schuster Inc., 1987.

Heise, D.R., Causal Analysis, New York : Wiley, 1975.

Henderson, J. et R. Quandt, Micro-economic Theory, New York : McGraw-Hill, 1961.

Hoaglin, D.C., et al., Data for Decisions, Cambridge (MA) : Abt Books, 1982.

Hudson, Joe, et al., Ã©d., Action Oriented Evaluation in Organizations : Canadian Practices, Toronto : Wall and Emerson, 1992.

Huff, D., How to Lie with Statistics, Penguin, 1973.

Jolliffe, R.F., Common Sense Statistics for Economists and Others, Routledge and Kegan Paul, 1974.

Katz, W.A., Introduction to Reference Work : Reference Services and Reference Processes, Vol. II, New York : McGraw-Hill, 1982, chapitre 4.

Kenny, D.A., Correlation and Causality, Toronto : John Wiley and Sons, 1979.

Kerlinger, F.N., Behavioural Research : A Conceptual Approach, New York : Holt, Rinehart and Winston, 1979.

Kidder, L.H. et M. Fine, Â«Qualitative and Quantitative Methods : when Stories ConvergeÂ», in Multiple Methods in Program Evaluation, Vol. 35 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1987.

Kish, L., Survey Sampling, New York : Wiley, 1965.

Krause, Daniel Robert, Effective Program Evaluation : An Introduction, Chicago : Nelson-Hall, 1996.

Krueger, R.A., Focus Groups : A Practical Guide for Applied Research, Thousand Oaks : Sage Publications, 1988.

Leontief, W., Input-Output Economics, New York : Oxford University Press, 1966.

Levine, M., Â«Investigative Reporting as a Research Method : an Analysis of Bernstein and Woodward's `All The President's Men'Â», American Psychologist, Vol. 35, 1980, p. 626 Ã 638.

Mark, M.M., Â«Validity Typologies and the Logic and Practice of Quasi-ExperimentationÂ», in W.M.K. Trochim, Ã©d., Advances in Quasi-Experimental Design and Analysis, p. 47 Ã 66, Vol. 31 de New Directions in Program Evaluation,San Francisco : Jossey-Bass, 1986.

Martin, Lawrence L. et Peter M. Kettner, Measuring the Performance of Human Service Programs, Thousand Oaks : Sage Publications, 1996.

Martin, Michael O. et V.S. Mullis, Ã©d., Quality Assurance In Data Collection, Chestnut Hill : Center for the Study of Testing, Evaluation, and Educational Policy, Boston College, 1996.

Maxwell, Joseph A., Qualitative Research Design : An Interactive Approach, Thousand Oaks : Sage Publications, 1996.

Mayne, John et Eduardo Zapico-GoÃ±i, Monitoring Performance in the Public Sector : Future Directions From International Experience, New Brunswick (NJ) : Transaction Publishers, 1996.

Mayne, John, et al., Ã©d., Advancing Public Policy Evaluation : Learning From International Experiences, Amsterdam : North-Holland, 1992.

Mayne, John, Â«In Defense of Program EvaluationÂ», Canadian Journal of Program Evaluation, Vol. 1, N^o 2, 1986, p. 97 Ã 102.

McClintock, C.C., et al., Â«Applying the Logic of Sample Surveys to Qualitative Case Studies : The Case Cluster MethodÂ», in Van Maanen, J., Ã©d., Qualitative Methodology, Thousand Oaks : Sage Publications, 1979.

Miles, M.B. et A.M. Huberman, Qualitative Data Analysis : A Sourcebook and New Methods, Thousand Oaks : Sage Publications, 1984.

Miller, J.C. III et B. Yandle, Benefit-Cost Analyses of Social Regulation, Washington : American Enterprise Institute, 1979.

Moore, M.H., Creating Public Value : Strategic Management in Government, Boston : Harvard University Press, 1995.

Morris, C.N. et J.E. Rolph, Introduction to Data Analysis and Statistical Inference, Englewood Cliffs : Prentice Hall, 1981.

Mueller, J.H., Statistical Reasoning in Sociology, Boston : Houghton Mifflin, 1977.

Nachmias, C. et D. Nachmias, Research Methods in the Social Sciences, New York : St. Martin's Press, 1981, chapitre 7.

Nelson, R., Merton, P. et E. Kalachek, Technology, Economic Growth and Public Policy, Washington (DC) : Brookings Institute, 1967.

Nutt, P.C. et R.W. Backoff, Strategic Management of Public and Third Sector Organizations, San Francisco : Jossey-Bass, 1992.

O'Brecht, Michael, Â«Stakeholder Pressures and Organizational StructureÂ», Canadian Journal of Program Evaluation, Vol. 7, N^o 2, octobre-novembre 1992, p. 139 Ã 147.

Okun, A., The Political Economy of Prosperity, Norton, 1970.

Paquet, Gilles et Robert Shepherd, Â«The Program Review Process : A DeconstructionÂ», Ottawa : FacultÃ© d'administration, UniversitÃ© d'Ottawa, 1996.

Patton, M.Q., Qualitative Evaluation Methods, Thousand Oaks : Sage Publications, 1980.

Patton, M.Q., Practical Evaluation, Thousand Oaks : Sage Publications, 1982.

Pearsol, J.A., Ã©d., Â«Justifying Conclusions in Naturalistic EvaluationsÂ», Evaluation and Program Planning, Vol. 10, N^o 4, 1987, p. 307 Ã 358.

Perret, Bernard, Â«Le contexte franÃ§ais de l'Ã©valuation : Approche comparativeÂ», Canadian Journal of Program Evaluation, Vol. 9, N^o 2, octobre-novembre 1994, p. 93 Ã 114.

Peters, Guy B. et Donald J. Savoie, Governance in a Changing Environment, Centre canadien de gestion, MontrÃ©al & Kingston : McGill-Queen's University Press, 1993.

Polkinghorn, R.S., Micro-theory and Economic Choices, Richard Irwin Inc., 1979.

Posavac, Emil J. et Raymond G. Carey, Program Evaluation : Methods and Case Studies (5^e Ã©dition), Upper Saddle River (NJ) : Prentice Hall, 1997.

Pressman, J.L. et A. Wildavsky, Implementation, Los Angeles : UCLA Press, 1973.

Ragsdale, C.T., Spreadsheet Modelling and Decision Analysis, Cambridge : Course Technology Inc., 1995.

Reavy, Pat, et al., Â«Evaluation as Management Support : The Role of the EvaluatorÂ», Canadian Journal of Program Evaluation, Vol. 8, N^o 2, octobre-novembre 1993, p. 95 Ã 104.

Rindskopf, D., Â«New Developments in Selection Modeling for Quasi-ExperimentationÂ», in W.M.K. Trochim, Ã©d., Advances in Quasi-Experimental Design and Analysis, p. 79 Ã 89, Vol. 31 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1986.

Rist, Ray C., Ã©d., Program Evaluation and the Management of the Government, New Brunswick (NJ) : Transaction Publishers, 1990.

Robinson, J.P. et P.R. Shaver, Measurement of Social Psychological Attitudes, Ann Arbor : Survey Research Centre, University of Michigan, 1973.

Rossi, P.H. et H.E. Freeman, Evaluation : A Systematic Approach (2^e Ã©dition), Thousand Oaks : Sage Publications, 1989.

Rush, Brian et Alan Ogborne, Â«Program Logic Models : Expanding their Role and Structure for Program Planning and EvaluationÂ», Canadian Journal of Program Evaluation, Vol. 6, N^o 2, octobre-novembre 1991, p. 95 Ã 106.

Rutman, L. et John Mayne, Â«Institutionalization of Program Evaluation in Canada : The Federal LevelÂ», in M.Q. Patton, Ã©d., Culture and Evaluation, Vol. 25 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1985.

Ryan, Brenda et Elizabeth Townsend, Â«Criteria MappingÂ», Canadian Journal of Program Evaluation, Vol. 4, N^o 2, octobre-novembre 1989, p. 47 Ã 58.

Samuelson, P., Foundations of Economic Analysis, Cambridge : Harvard University Press, 1947.

Sang, H.K., Project Evaluation, New York : Wilson Press, 1988.

Sassone, P.G. et W.A. Schaffer, Cost-Benefit Analysis : A Handbook, New York : Academic Press, 1978.

Schick, Allen, The Spirit of Reform : Managing the New Zealand State, rapport commandÃ© par le ministÃ¨re du TrÃ©sor et la Commission des services aux Ã‰tats de la Nouvelle-ZÃ©lande, 1996.

Schmid, A.A., Benefit-Cost Analysis : A Political Economy Approach, Boulder : Westview Press, 1989.

Seidle, Leslie., Rethinking the Delivery of Public Services to Citizens, MontrÃ©al : Institut de recherche en politiques publiques (IRPP), 1995.

Self, P., Econocrats and the Policy Process : The Politics and Philosophy of Cost-Benefit Analysis, Londres : MacMillan, 1975.

Shadish, William R., et al. Foundations of Program Evaluation : Theories of Practice, Thousand Oaks : Sage Publications, 1991.

Silk, L., The Economists, Avon Books, 1976.

Simon, H., Â«CausationÂ», in D.L. Sill, Ã©d., International Encyclopedia of the Social Sciences, Vol. 2, New York : Macmillan, 1968, p. 350 Ã 355.

Skaburskis, Andrejs et Fredrick C. Collignon, Â«Cost-Effectiveness Analysis of Vocational Rehabilitation ServicesÂ», Canadian Journal of Program Evaluation, Vol. 6, N^o 2, octobre-novembre 1991, p. 1 Ã 24.

Skelton, Ian, Â«Sensitivity Analysis in Multi-criteria Decision Aids : A Demonstration of Child Care Need AssessmentÂ», Canadian Journal of Program Evaluation, Vol. 8, N^o 1, avril-mai 1993, p. 103 Ã 116.

Sprent, P., Statistics in Action, Penguin, 1977.

Stolzenberg, J.R.M. et K.C. Land, Â«Causal Modeling and Survey ResearchÂ», in Rossi, P.H., et al., TITRE MANQUANT, Orlando : Academic Press, 1983, p. 613 Ã 675.

Stouthamer-Loeber, Magda et Welmoet Bok van Kammen, Data Collection and Management : A Practical Guide, Thousand Oaks : Sage Publications, 1995.

Suchman, E.A., Evaluative Research : Principles and Practice in Public Service and Social Action Programs, New York : Russell Sage, 1967.

Sugden, R. et A. Williams, The Principles of Practical Cost-benefit Analysis, Oxford : Oxford University Press, 1978.

Tellier, Luc-Normand, MÃ©thodes d'Ã©valuation des projets publics, Sainte-Foy : Presses de l'UniversitÃ© du QuÃ©bec, 1994, 1995.

Thomas, Paul G., Â«The Politics and Management of Performance Measurement and Service StandardsÂ», Winnipeg : St-John's College, University of Manitoba, 1996.

Thompson, M., Benefit-Cost Analysis for Program Evaluation, Thousand Oaks : Sage Publications, 1980.

Thurston, W.E., Â«Decision-Making Theory and the EvaluatorÂ», Canadian Journal of Program Evaluation, Vol. 5, N^o 2, octobre-novembre 1990, p. 29 Ã 46.

Trochim, W.M.K., Ã©d., Advances in Quasi-Experimental Design and Analysis, Vol. 31 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1986.

Uhl, Norman et Carolyn Wentzel, Â«Evaluating a Three-Day Exercise to Obtain Convergence of OpinionÂ», Canadian Journal of Program Evaluation, Vol. 10, N^o 1, avril-mai 1995, p. 151 Ã 158.

Warwick, D.P. et C.A. Lininger, The Survey Sample : Theory and Practice, New York : McGraw-Hill, 1975.

Watson, D.S., Price Theory in Action, Boston : Houghton Mifflin, 1970.

Watson, Kenneth, Â«Selecting and Ranking Issues in Program Evaluations and Value-for-Money AuditsÂ», Canadian Journal of Program Evaluation, Vol. 5, N^o 2, octobre-novembre 1990, p. 15 Ã 28.

Watson, Kenneth, Â«The Social Discount RateÂ», Canadian Journal of Program Evaluation, Vol. 7, N^o 1, avril-mai 1992, p. 99 Ã 118.

Weisberg, Herbert F., Krosmick, Jon A. et Bruce D. Bowen, Ã©d., An Introduction to Survey Research, Polling, and Data Analysis, Thousand Oaks : Sage Publications, 1996.

Weisler, Carl E., U.S. General Accounting Office, Review Topics in Evaluation : What Do You Mean by Secondary Analysis?

Williams, D.D., Ã©d., Naturalistic Evaluation, Vol. 30 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1986.

Wye, Christopher G. et Richard C. Sonnichsen, Ã©d., Evaluation in the Federal Government : Changes, Trends and Opportunities, San Francisco : Jossey-Bass, 1992.

Yates, Brian T., Analyzing Costs, Procedures, Processes, and Outcomes in Human Services, Thousand Oaks : Sage Publications, 1996.

Yin, R., The Case Study as a Rigorous Research Method, Thousand Oaks : Sage Publications, 1986.

Zanakis, S.H., et al., Â«A Review of Program Evaluation and Fund Allocation Methods within the Service and GovernmentÂ», Socio-Economic Planning Sciences, Vol. 29, N^o 1, mars 1995, p. 59 Ã 79.

ZÃºÃ±iga, Ricardo, L'Ã©valuation dans l'action : choix de buts et choix de procÃ©dures, MontrÃ©al : Librairie de l'UniversitÃ© de MontrÃ©al, 1992.

Annexe 4 - AUTRES RÃ‰FÃ‰RENCES

Administrative Science Quarterly
American Sociological Review
Canadian Public Administration
Canadian Public Policy
Evaluation and Program Planning
Evaluation Practice, anciennement Evaluation Quarterly
Evaluation Review
Human Organization
International Review of Administrative Sciences
Journal of the American Statistical Association
Journal of Policy Analysis and Management,
Management Science
New Directions in Program Evaluation, journal officiel de l'American Evaluation Association
Optimum
Policy Sciences
Psychological Bulletin
Public Administration
Public Administration Review
The Public Interest
Public Policy
Survey Methodology Journal

Le lecteur pourra aussi consulter avec profit d'autres publications sur l'Ã©valuation portant sur des secteurs de programme particuliers, comme les services de santÃ©, l'Ã©ducation, les services sociaux et la justice pÃ©nale.

Date de modification :: 2010-02-25

Nous procédons actuellement au transfert de nos services et de nos renseignements sur le Web vers Canada.ca.

Méthodes d'évaluation des programmes

Informations archivées

Avis aux lecteurs

Mesure et attribution des rÃ©sultats des programmes

Chapitre 1 - INTRODUCTION

1.1 Objectifs et plan

1.2 Processus d'Ã©valuation

1.3 Questions Ã Ã©valuer

RÃ©fÃ©rences : Introduction Ã l'Ã©valuation

Chapitre 2 - STRATÃ‰GIES D'Ã‰VALUATION

2.1 InfÃ©rence causale en Ã©valuation

2.2 InfÃ©rences causales

2.3 StratÃ©gies d'Ã©valuation

2.4 Ã‰valuations crÃ©dibles

2.4.1 CritÃ¨res de recherche

2.4.2 CritÃ¨res du contexte dÃ©cisionnel

2.4.3 StratÃ©gies multiples

2.5 RÃ©sumÃ©

Chapitre 3 - MODÃˆLES D'Ã‰VALUATION

3.1 Introduction

3.2 ModÃ¨les expÃ©rimentaux alÃ©atoires

3.3 ModÃ¨les quasi expÃ©rimentaux

3.3.1 ModÃ¨les dont les mesures sont prises avant et aprÃ¨s le programme

3.3.2 ModÃ¨les Ã sÃ©rie temporelle ou modÃ¨les chronologiques

3.3.3 ModÃ¨les dont les mesures sont prises aprÃ¨s le programme seulement

3.4 ModÃ¨les implicites

3.5 Utilisation des modÃ¨les de causalitÃ© pour l'Ã©valuation

3.6 RÃ©sumÃ©

Chapitre 4 - MÃ‰THODES DE COLLECTE DES DONNÃ‰ES

4.1 Introduction

4.2 DÃ©pouillement de la documentation spÃ©cialisÃ©e

4.3 Ã‰tude de dossiers

4.4 Observations directes

4.5 EnquÃªtes

4.6 Consultation de spÃ©cialistes

4.7 Ã‰tudes de cas

4.8 RÃ©sumÃ©

Chapitre 5 - MÃ‰THODES ANALYTIQUES

5.1 Introduction

5.2 Analyse statistique

5.3 Analyse de l'information qualitative

5.4 Analyse des autres rÃ©sultats des programmes

5.5 Utilisation de modÃ¨les

5.5.1 ModÃ¨les de simulation

5.5.2 ModÃ¨les d'entrÃ©es-sorties

5.5.3 ModÃ¨les micro-Ã©conomiques

5.5.4 ModÃ¨les macro-Ã©conomiques

5.5.5 ModÃ¨les statistiques

5.6 Analyse coÃ»ts-avantages et analyse coÃ»t-efficacitÃ©

5.7 RÃ©sumÃ©

Chapitre 6 - CONCLUSIONS

Annexe 1 - ENQUÃŠTES

1.1 Ã‰chantillonnage

1.2 MÃ©thodes d'enquÃªte

1.3 Instruments de mesure

1.4 Estimation des coÃ»ts

1.5 Avantages et inconvÃ©nients

Annexe 2 - GLOSSAIRE

Annexe 3 - BIBLIOGRAPHIE

Annexe 4 - AUTRES RÃ‰FÃ‰RENCES