Nous procédons actuellement au transfert de nos services et de nos renseignements sur le Web vers Canada.ca.

Le site Web du Secrétariat du Conseil du Trésor du Canada restera accessible jusqu’à  ce que le transfert soit terminé.

Méthodes d'évaluation des programmes


Informations archivées

Les informations archivées sont fournies aux fins de référence, de recherche ou de tenue de documents. Elles ne sont pas assujetties aux normes Web du gouvernement du Canada et n’ont pas été modifiées ou mises à  jour depuis leur archivage. Pour obtenir ces informations dans un autre format, veuillez communiquez avec nous.

Chapitre 3 - MODÈLES D'ÉVALUATION

3.1 Introduction

Un modèle d'évaluation décrit le système logique à appliquer pour recueillir de l'information sur les résultats susceptibles d'être attribués à un programme. La figure 2 illustre le principe fondamental du modèle expérimental, qui implique la comparaison de deux groupes (dont l'un exposé au programme), en attribuant toutes les différences entre les deux groupes au programme lui-même. On appelle ce type de modèle modèle d'évaluation idéal. Comme nous l'avons déjà vu, c'est un idéal difficile à atteindre dans la pratique. Pourtant, il est utile aux fins de comparaison et d'explication. On peut l'illustrer de la façon suivante :

 

Mesure
avant

Exposition au
programme

Mesure
après

Groupe expérimental

01

X

03

Groupe témoin

02

 

04

Dans ce schéma, «0» désigne une mesure ou une observation du résultat du programme et «X», l'exposition au programme. Les chiffres en indices indiquent des mesures ou des traitements différents. Le 01 représente des estimations (des moyennes estimatives, par exemple) fondées sur les observations relatives à des membres d'un groupe. Il faudrait interpréter des formules comme 03 - 04 comme des indications théoriques, plutôt que comme des écarts entre deux observations. Le schéma montre aussi à quel moment l'observation est faite (avant ou après l'exposition au programme). Nous emploierons la même symbolisation dans tout le chapitre pour illustrer de façon schématique les modèles décrits.

Dans le modèle d'évaluation idéal, le résultat attribué au programme est manifestement 03 - 04, puisque 01 = 02 et qu'il s'ensuit que 03 = 04 + X (le programme), ou que 03 - 0= X. Remarquons que, dans ce cas-ci, il n'est pas nécessaire que 01 et 02 déterminent le résultat net du programme, puisqu'on postule que leurs valeurs sont égales. Il s'ensuit donc que le modèle idéal pourrait être représenté comme suit :

 

Exposition au
programme

Mesure
après

Groupe expérimental

X

03

Groupe témoin  

04

Il se peut toutefois que l'évaluateur s'intéresse au changement relatif qui s'est produit, auquel cas il doit absolument prendre la mesure avant le programme.

Le modèle idéal est important parce qu'il sert de preuve sous-jacente de l'attribution des résultats à un programme pour tous les modèles d'évaluation décrits dans le présent chapitre. Par exemple, pour faire des inférences causales, il faut comparer des groupes identiques, sauf pour l'exposition au programme, avant et après celle-ci. (D'ailleurs, la caractéristique commune de tous les modèles examinés dans ces pages est l'utilisation de la comparaison.) Le facteur qui distingue les modèles d'évaluation est le degré auquel on les compare aux groupes en tout point identiques, sauf pour l'exposition au programme.

Dans les modèles les plus rigoureux, appelés modèles expérimentaux ou aléatoires, on tente d'assurer l'équivalence initiale des deux groupes en répartissant de façon aléatoire les sujets en deux groupes, un groupe de participants et un groupe témoin. De cette façon, les groupes à comparer s'équivalent, c'est-à-dire que le processus fait en sorte que les valeurs attendues (ainsi que les autres caractéristiques de distribution) de 01 et 02 soient égales. Nous étudierons les modèles expérimentaux ou aléatoires à la section 3.2.

Les modèles «intermédiaires», dits quasi expérimentaux, sont analysés à la section 3.3. Dans ces modèles, qui ressemblent aux modèles expérimentaux en ce sens que des groupes de comparaison servent à faire des inférences causales, on n'a pas recours aux modèles aléatoires ou à la «randomisation» pour créer un groupe de participants (ou expérimental) et un groupe témoin. On part généralement du principe que le groupe de participants est un acquis, ce qui signifie qu'on choisit un ou des groupes de comparaison (ou témoins) de façon qu'ils y correspondent le plus étroitement possible. Lorsqu'il n'y a pas randomisation, il n'est plus possible de postuler la comparabilité des groupes, de sorte qu'il faut trouver des moyens de remédier à leur éventuelle incomparabilité. Néanmoins, les modèles quasi expérimentaux demeurent les meilleurs lorsque la randomisation n'est pas possible.

On trouve à l'autre extrémité de l'échelle les modèles implicites, qui se prêtent habituellement mal à la mesure des changements et à leur attribution à un programme. En voici un exemple :

 

Exposition au
programme

Mesure
après

Groupe expérimental

X

01

Dans un modèle comme celui-là, on prend une mesure après l'exposition au programme, en posant des hypothèses sur les conditions présentes avant sa mise en oeuvre. On postule que tous les changements par rapport à la situation existante avant le programme lui sont attribuables. Autrement dit, on part de l'hypothèse qu'on ne constaterait aucun changement à l'égard d'un groupe témoin non précisé (ou du moins pas de changements de l'ampleur de ceux qui sont constatés pour le groupe expérimental). Nous reviendrons plus longuement sur les modèles implicites à la section 3.4.

Ces types de modèles ont tous des degrés différents de rigueur quant à l'établissement des résultats d'un programme; ils traduisent aussi une différence fondamentale entre les programmes expérimentaux et les programmes «ordinaires», c'est-à-dire non expérimentaux. Or, la plupart des programmes gouvernementaux ont pour objet d'apporter des avantages aux participants, et les administrateurs partent du principe qu'ils sont bel et bien efficaces. La participation à ces programmes est typiquement déterminée en fonction de critères d'admissibilité. C'est bien différent dans le cas des programmes expérimentaux ou pilotes, qui sont mis en oeuvre pour vérifier la validité théorique d'un programme et pour en déterminer l'efficacité. Les participants aux programmes de ce genre en retirent des avantages, mais c'est un résultat secondaire, le but étant essentiellement de vérifier si les programmes sont efficaces. Il s'ensuit que les participants sont souvent choisis pour maximiser les chances d'obtention de résultats concluants, pas nécessairement en fonction de critères d'admissibilité.

Ces deux buts, à savoir générer des avantages et vérifier la validité de la théorie sur laquelle le programme est fondé, sont presque toujours incompatibles. Les gestionnaires des programmes estiment normalement que ceux-ci ont pour objet de produire des avantages, même dans le cas d'un programme pilote. Les évaluateurs et les planificateurs, d'autre part, préfèrent exécuter un programme expérimental pour déterminer d'emblée s'il vaut la peine de lui donner plus d'importance. Dans la pratique, la plupart des programmes ne sont pas mis à l'essai, ce qui signifie que l'évaluateur doit fréquemment opter pour des modèles d'évaluation non expérimentaux.

Dans le présent chapitre, nous allons analyser les trois types de modèles d'évaluation dont nous venons de faire état. Nous allons décrire des modèles de chaque type en précisant leurs avantages et leurs inconvénients. Nous répartissons les modèles en trois types - aléatoires, quasi expérimentaux et implicites - pour faciliter l'analyse, mais la distinction entre les trois n'est pas toujours rigoureuse. En effet, les modèles quasi expérimentaux se confondent souvent avec les modèles implicites. Néanmoins, les distinctions sont utiles et révèlent, dans la plupart des cas, un degré de rigueur différent. L'évaluateur qui passe du modèle aléatoire au modèle implicite doit tenir compte d'un nombre croissant d'obstacles à la validité de ses inférences causales.

Références : Modèles d'évaluation

Abt, C.G., éd., The Evaluation of Social Programs, Thousand Oaks : Sage Publications, 1976.

Boruch, R.F., «Conducting Social Experiments», Evaluation Practice in Review, Vol. 34 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1987.

Campbell, D.T. et J.C. Stanley, Experimental and Quasi-experimental Designs for Research, Chicago : Rand-McNally, 1963.

Cook, T.D. et D.T. Campbell, Quasi-experimentation: Designs and Analysis Issues for Field Settings, Chicago : Rand-McNally, 1979.

Datta, L. et R. Perloff, Improving Evaluations, Thousand Oaks : Sage Publications, 1979, section II.

Globerson, Aryé, et al., You Can't Manage What You Don't Measure: Control and Evaluation in Organizations, Brookfield : Gower Publications, 1991.

Rossi, P.H. et H.E. Freeman, Evaluation: A Systematic Approach (2e Ã©dition), Thousand Oaks : Sage Publications, 1989.

Trochim, W.M.K., éd., Advances in Quasi-experimental Design and Analysis, Vol. 31 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1986.

Watson, Kenneth, «Program Design Can Make Outcome Evaluation Impossible: A Review of Four Studies of Community Economic Development Programs», Canadian Journal of Program Evaluation, Vol. 10, No 1, avril-mai 1995, p. 59 à 72.

Weiss, C.H., Evaluation Research, Englewood Cliffs (NJ) : Prentice-Hall, 1972, chapitre 4.

3.2 Modèles expérimentaux aléatoires

L'approche la plus rigoureuse pour établir des relations causales entre un programme et ses résultats est celle des modèles expérimentaux. S'ils sont bien appliqués, ces modèles fournissent les preuves les plus concluantes des effets du programme. Malheureusement, pour bien des programmes gouvernementaux, ils sont impossibles à mettre en oeuvre, pour peu que le programme soit offert depuis un certain temps. Néanmoins, ils sont importants, et ce pour les deux raisons suivantes.

Premièrement, ils sont aussi près que possible du modèle d'évaluation idéal que nous venons de décrire. Par conséquent, même s'il n'est pas possible d'appliquer un modèle expérimental, les modèles moins rigoureux sont souvent cotés selon leur degré de conformité à ce modèle expérimental, et c'est pour cette raison qu'il est important de comprendre leurs avantages et leurs inconvénients.

Deuxièmement, malgré leurs difficultés d'ordre pratique, les modèles expérimentaux peuvent être utilisés pour évaluer de nombreux programmes; ils l'ont souvent été, d'ailleurs. Par exemple, on s'est servi d'un modèle expérimental pour évaluer les programmes scolaires conçus afin de prévenir la consommation et l'abus d'alcool chez les adolescents, en faisant appel à un groupe expérimental et à un groupe témoin (certaines classes ayant accès au programme et d'autres pas) pour obtenir des mesures de l'attitude, des connaissances, des intentions et de la consommation réelle de boissons alcooliques (Schlegel, 1977).

Les modèles expérimentaux ou aléatoires sont caractérisés par la répartition aléatoire des participants éventuels entre le groupe expérimental et le groupe témoin, afin d'assurer l'équivalence des deux. On dit qu'il s'agit d'expériences, en ce sens que les participants au programme sont choisis au hasard parmi tous les candidats possibles. Il existe un grand nombre de modèles expérimentaux, dont les quatre suivants :

  • modèle aléatoire classique avec groupe témoin;
  • modèle aléatoire avec mesure après le programme seulement et groupe témoin;
  • modèle avec blocs aléatoires et carré latin;
  • modèle factoriel.

     

  • Il ne faut pas oublier que l'expression modèle aléatoire n'est pas synonyme d'échantillonnage aléatoire. Dans le premier cas, on choisit au hasard des membres d'une population cible soit pour le groupe témoin, soit pour le groupe expérimental, tandis que dans le second, on se fonde sur un calcul des probabilités pour choisir un échantillon d'une population donnée. L'échantillonnage aléatoire fondé sur deux populations différentes ne générerait pas de groupes équivalents aux fins d'une évaluation expérimentale.

Modèle aléatoire classique avec groupe témoin

On entend par là un modèle expérimental classique, qui peut être représenté de la façon suivante, «R» désignant une répartition aléatoire :

 

Mesure
avant

Exposition
au programme

Mesure
après

Groupe expérimental (R)

01

X

03

Groupe témoin (R)

02

 

04

Dans ce modèle, les participants éventuels au programme qui font partie de la population cible sont choisis au hasard, pour être répartis dans le groupe expérimental (où ils sont exposés au programme) ou le groupe témoin. On prend des mesures avant et après le programme (mesures préalables et postérieures au programme), dont le résultat net est représenté schématiquement par la formule (03 - 04) - (01 - 02).

La répartition aléatoire (ou, si l'on préfère, la randomisation) signifie qu'il y a pour chaque membre de la population cible une probabilité connue qu'il soit choisi pour faire partie du groupe expérimental ou du groupe témoin. Ces probabilités sont souvent égales, auquel cas chaque membre a des chances égales d'être choisi pour faire partie d'un groupe ou de l'autre. Par suite de cette randomisation, les groupes expérimental et témoin sont mathématiquement équivalents, ce qui signifie que les valeurs attendues de 01 et 02 sont égales. Toutefois, les mesures réelles prises avant le programme peuvent varier de façon aléatoire, et c'est pourquoi elles peuvent donner une meilleure idée du résultat net, puisqu'elles permettent de tenir compte de toute différence susceptible d'exister entre les groupes (01 - 02) en dépit de la randomisation. Bref, dans ce modèle, l'intervention du programme (ou le traitement) est la seule différence, à part le hasard, entre le groupe expérimental et le groupe témoin.

Modèle aléatoire avec mesure après le programme seulement et groupe témoin

Le modèle aléatoire classique a notamment pour inconvénient d'être vulnérable à une distorsion attribuable à l'essai. La validité de l'évaluation est en effet menacée puisque la mesure préalable au programme elle-même peut influer sur le comportement du groupe expérimental ou du groupe témoin (ou des deux), et ce à tel point que toute inférence causale que l'évaluateur pourrait vouloir faire risquerait d'être mise en doute. Pour éviter cette difficulté, l'évaluateur peut décider de ne pas faire de mesure avant le programme, auquel cas le schéma de son modèle se présente comme suit :

 

Exposition au
programme

Mesure
après

Groupe expérimental (R)

X

01

Groupe témoin (R)  

02

Le modèle aléatoire avec mesure après le programme peut être extrêmement rigoureux. Toutefois, il faut bien se rappeler que, même avec une répartition aléatoire, il se peut que les deux groupes choisis soient nettement différents quant aux mesures d'intérêt. On n'est donc jamais sûr d'avoir complètement éliminé les différences entre les groupes initiaux susceptibles d'influer sur le résultat de l'évaluation.

Modèle avec blocs aléatoires et carré latin

Afin de minimiser la probabilité que l'effet net d'un programme soit imputable à une erreur d'échantillonnage, il est préférable d'utiliser un échantillon aussi gros que possible. Malheureusement, cela peut coûter fort cher. Pour éviter cet écueil, on pourrait combiner la répartition aléatoire et l'appariement des sujets (constitution de blocs) lorsqu'il faut absolument utiliser des échantillons relativement petits. L'appariement consiste à diviser la population cible dans laquelle les membres du groupe expérimental et du groupe témoin sont choisis en «blocs» définis en fonction d'une ou de plusieurs variables qui devraient influer sur les résultats du programme.

Par exemple, si l'on s'attend à ce que les urbains réagissent plus favorablement que les ruraux à un programme social, on peut constituer deux blocs, l'un urbain et l'autre rural. Ensuite, à l'intérieur de chaque bloc, on fait une répartition aléatoire pour choisir les membres du groupe expérimental et du groupe témoin. Cette approche pourrait contribuer à assurer une participation raisonnablement égale des sujets urbains et ruraux. En fait, on devrait toujours opter pour l'appariement des sujets lorsque les variables importantes sont connues.

Bien entendu, les groupes peuvent être appariés en fonction de plus d'une variable. Néanmoins, l'augmentation du nombre de variables fait vite augmenter le nombre de blocs et, par conséquent, la taille de l'échantillon nécessaire. Ainsi, quand on s'attend à ce que la langue officielle parlée (le français ou l'anglais) influe sur les résultats du programme, il faut envisager de créer les blocs suivants : urbain anglophone, rural anglophone, urbain francophone et rural francophone. En outre, puisque chaque bloc doit contenir un groupe expérimental et un groupe témoin, il faut en constituer huit en tout, en respectant pour chacun les règles relatives à la taille minimale de l'échantillon. Heureusement, il existe des méthodes pour réduire le nombre de groupes nécessaires, comme le modèle du carré latin. Ces méthodes ne peuvent toutefois être employées que si les effets d'interaction entre les variables du groupe expérimental et du groupe témoin sont relativement minimes.

Modèle factoriel

Dans les modèles classiques et dans ceux qui font appel à des blocs aléatoires, il n'y a qu'une seule variable expérimentale (ou de traitement) en jeu. Or, les programmes font souvent appel à toute une série d'incitations pour aiguiller les bénéficiaires vers un résultat recherché. Quand l'évaluateur est en mesure de distinguer les effets des différentes méthodes d'intervention utilisées, il peut avoir recours à un modèle factoriel, ce qui lui permet non seulement de distinguer les effets particuliers de chaque variable expérimental, mais aussi d'estimer les effets nets mixtes (les effets d'interaction) de paires de variables expérimentales. C'est un grand avantage, puisqu'on observe souvent des effets d'interaction dans les phénomènes sociaux. Par exemple, les effets combinés d'une hausse des taxes sur le tabac et d'une augmentation du budget anti-tabagisme peuvent être plus marqués que la somme des effets isolés des deux.

Avantages et inconvénients

  • Les modèles expérimentaux sont les plus rigoureux lorsqu'il s'agit de faire des inférences causales sur les résultats des programmes. Ils permettent en effet d'éliminer la plupart des obstacles à la validité interne, puisqu'ils font appel à un groupe témoin, à des modèles aléatoires ainsi qu'à des modèles avec blocs aléatoires et à des modèles factoriels. Leur principal inconvénient est qu'ils sont souvent difficiles à appliquer.

Malheureusement, la randomisation (c.-à-d. la répartition aléatoire entre le groupe expérimental et le groupe témoin) n'est souvent pas possible :

  • quand toute la population cible bénéficie du programme, il n'existe aucune variable pouvant servir à la constitution d'un groupe témoin;
  • quand le programme fonctionne depuis assez longtemps, il risque probablement d'exister des différences sensibles entre ceux qui y ont participé (le groupe expérimental éventuel) et les autres (le groupe témoin éventuel);
  • il peut être illégal ou immoral de faire bénéficier du programme certaines personnes (les membres du groupe expérimental) en en privant d'autres (les membres du groupe témoin).

La plupart des programmes gouvernementaux correspondent manifestement à au moins un des cas qui précèdent, ce qui fait que la randomisation est extrêmement difficile à leur égard, sauf peut-être s'ils sont considérés comme une véritable expérience, comme dans un programme pilote.

  • Les modèles expérimentaux sont toujours vulnérables à tous les obstacles à la validité externe et à certains de ceux qui sapent la validité interne.

Même avec un modèle expérimental, la difficulté de généraliser à partir des conclusions sur les résultats d'un programme n'est pas automatiquement éliminée. Par exemple, la randomisation aux fins de généralisation est une tout autre question que la sélection aléatoire des groupes expérimental et témoin, car elle exige que la population cible initiale à partir de laquelle les deux groupes seront créés soit elle-même choisie au hasard à même la population des bénéficiaires éventuels en général (soit la population des sujets à l'égard desquels l'évaluateur peut souhaiter généraliser ses résultats).

En outre, plusieurs obstacles importants à la validité interne perdurent, malgré le choix au hasard des membres des deux groupes :

  • l'attrition différentielle (ou le retrait des membres des groupes expérimental et témoin) pourrait fausser la randomisation initiale;
  • la diffusion du traitement entre les deux groupes pourrait fausser les résultats.

De plus, le modèle expérimental classique présente lui aussi des risques :

  • des changements d'instruments pourraient de toute évidence fausser les mesures prises;
  • la réaction à l'essai pourrait entraîner des comportements différents des membres du groupe expérimental et du groupe témoin.

Comme ces deux derniers facteurs sont essentiellement attribuables aux essais préalables, le modèle aléatoire avec mesure après le programme seulement en comparaison avec le groupe témoin peut les éviter, comme nous l'avons déjà expliqué. Il faudrait néanmoins comprendre clairement que, en dépit de leurs avantages, les résultats obtenus grâce aux modèles expérimentaux devraient être interprétés avec beaucoup de circonspection.

Références : Modèles expérimentaux aléatoires

Boruch, R.F., «Conducting Social Experiments», Evaluation Practice in Review, Vol. 34 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1987, p. 45 à 66.

Boruch, R.F., «On Common Contentions About Randomized Field Experiments», in Gene V. Glass, éd., Evaluation Studies Review Annual, Thousand Oaks : Sage Publications, 1976.

Campbell, D., «Considering the Case Against Experimental Evaluations of Social Innovations», Administrative Science Quarterly, Vol. 15, No 1, 1970, p. 111 à 122.

Eaton, Frank, «Measuring Program Effects in the Presence of Selection Bias: The Evolution of Practice», Canadian Journal of Program Evaluation, Vol. 9, No 2, octobre-novembre 1994, p. 57 à 70.

Trochim, W.M.K., éd., «Advances in Quasi-experimental Design and Analysis», Vol. 31 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1986.

3.3 Modèles quasi expérimentaux

Même lorsqu'on est incapable de faire une randomisation, il peut être possible d'établir un groupe témoin ressemblant suffisamment au groupe expérimental pour permettre des inférences valides sur les résultats attribuables au programme. Dans la présente section, on entend par «modèles quasi expérimentaux» ceux pour lesquels on a recours à un groupe témoin non aléatoire pour faire des inférences sur les résultats d'un programme. Le groupe témoin pourrait être soit un groupe créé de toutes pièces qui n'a pas été exposé au programme, soit un groupe réflexif, c'est-à-dire le groupe expérimental lui-même avant son exposition au programme.

Nous allons décrire trois modèles quasi expérimentaux généraux, à savoir :

  • les modèles à mesures avant et après le programme;
  • les modèles à série temporelle ou modèles chronologiques;
  • les modèles à mesures prises après le programme seulement.

Les trois modèles sont présentés en ordre de rigueur descendant, même si le degré d'équivalence entre le groupe expérimental et le groupe témoin est le facteur déterminant de la rigueur du modèle dans chaque cas.

3.3.1 Modèles dont les mesures sont prises avant et après le programme

Il y a fondamentalement deux types de modèles de ce genre, ceux dont les mesures sont prises avant et après le programme avec groupe témoin non équivalent et ceux dont les mesures sont prises avant et après le programme avec un seul groupe, le groupe expérimental. Dans le premier cas, on utilise un groupe témoin créé; dans le second, un groupe témoin réflexif.

Modèles dont les mesures sont prises avant et après le programme avec groupe témoin non équivalent

Ce modèle, dont la structure est analogue à celle du modèle expérimental classique, est fondé sur des mesures prises avant et après le programme dans le groupe expérimental et dans un groupe témoin.

 

Mesure
avant

Exposition au programme

Mesure
après

Groupe expérimental

01

X

03

Groupe témoin

02

 

04

Le groupe témoin est choisi de façon que ses caractéristiques importantes ressemblent le plus possible à celles du groupe expérimental. Le degré de similarité entre les groupes est déterminé grâce à une comparaison effectuée avant le programme. Dans la mesure où l'on a réalisé un bon appariement (fondé sur les variables qui semblent exercer une influence sur celles des résultats), on peut dire que ce modèle s'apparente au modèle aléatoire avec groupe témoin, et qu'il permet de minimiser les obstacles à la validité interne. Malheureusement, il est généralement difficile d'apparier parfaitement toutes les variables importantes, de sorte qu'il subsiste normalement au moins une autre explication plausible des résultats observés nets du programme, à savoir que les deux groupes n'étaient pas égaux au départ.

Modèle dont les mesures sont prises avant et après le programme avec un seul groupe

On utilise souvent ce modèle simple en dépit de toute ses lacunes intrinsèques, probablement parce que c'est celui qui ressemble le plus à ce qu'on entend communément par les résultats d'un programme, à savoir les changements survenus entre la période antérieure au programme et celle qui lui est postérieure. On peut le représenter de la façon suivante :

 

Mesure
avant

Exposition au
programme

Mesure
après

Groupe expérimental

01

X

02

De nombreux obstacles peuvent saper la validité interne de ce modèle, car bien des explications plausibles pourraient justifier les différences constatées entre O2 et 01, puisque le groupe témoin est en l'occurrence le groupe expérimental avant son exposition au programme (c'est un groupe témoin réflexif). L'absence de groupe témoin distinct signifie que la plupart des obstacles à la validité interne sont présents. Les événements historiques risquent d'ailleurs de poser un problème, étant donné que le modèle ne peut tenir compte des événements extérieurs au programme qui influent sur les résultats observés. La maturation normale de la population visée peut elle-même expliquer les changements, le cas échéant. En outre, le changement observé peut être simplement un facteur de régression, et O1 peut être anormalement faible, de sorte que la mesure 02 - 01 porte davantage sur une fluctuation aléatoire que sur un changement attribuable au programme. Enfin, les essais, les instruments et l'attrition peuvent tous poser des problèmes.

Le seul avantage de ce modèle est sa simplicité. Si l'évaluateur réussit à tenir suffisamment compte des facteurs externes, le modèle fournit de l'information et des données raisonnablement valides et concluantes. Dans le domaine des sciences naturelles, on arrive habituellement à contrôler suffisamment les facteurs externes, en laboratoire, mais c'est beaucoup plus difficile dans le domaine des sciences sociales.

3.3.2 Modèles à série temporelle ou modèles chronologiques

Les modèles à série temporelle ou modèles chronologiques sont caractérisés par une série de mesures échelonnées dans le temps à la fois avant et après l'exposition au programme. Tous les modèles que nous avons décrits dont les mesures sont prises avant et après le programme pourraient être transformés en modèles chronologiques. Autrement dit, les modèles chronologiques pour lesquels il n'existe que quelques mesures avant et après le programme sont vulnérables aux mêmes obstacles influant sur la validité interne que les modèles à mesures uniques correspondants. À l'inverse, une série complète de mesures avant et après le programme permet à l'évaluateur d'éliminer un grand nombre de ces obstacles, en analysant les tendances antérieures et postérieures au programme.

Nous allons maintenant décrire deux modèles chronologiques :

  • le modèle de base à série temporelle
  • le modèle à série temporelle avec groupe témoin non équivalent.

Modèle de base à série temporelle

Le modèle de base à série temporelle est un modèle chronologique courant grâce auquel on peut prendre un nombre quelconque de mesures antérieures et postérieures au programme. Il peut être représenté comme suit :

 

Mesure
avant

Exposition au
programme

Mesure
après

Groupe expérimental

01020304

X

05060708

Avec ce modèle, l'évaluateur peut déterminer les effets d'un programme donné en fonction du changement qui se manifeste dans la série de mesures prises avant et après l'exposition au programme. Si les données de la série temporelle sont fiables, le modèle peut être relativement rigoureux, auquel cas il permet d'éliminer de nombreux obstacles à la validité interne, notamment les effets de maturation et d'essai. Certains autres obstacles subsistent quand même, notamment ceux relatifs aux événements historiques, parce que les modèles à série temporelle ne peuvent éliminer le risque qu'un facteur autre que le programme ait produit le changement entre le moment où les mesures ont été prises avant le programme et celui où elles l'ont été après.

Modèles à série temporelle avec groupe témoin non équivalent

Les modèles à série temporelle peuvent être améliorés lorsqu'on y ajoute des groupes témoins, comme dans le modèle à série temporelle avec groupe témoin non équivalent ci-dessous :

 

Mesure
avant

Exposition au
programme

Mesure
après

Groupe expérimental

0102030405

X

011012013014015

Groupe témoin

06070809010

 

016017018019020

Puisque le groupe expérimental et le groupe témoin devraient normalement être soumis aux mêmes facteurs externes, il est peu probable qu'un changement observé soit attribuable à un autre facteur que le programme. Comme pour n'importe quel modèle dans lequel on utilise un groupe témoin non équivalent, il faut toutefois que les groupes se ressemblent suffisamment en ce qui concerne les caractéristiques étudiées. Si c'est le cas, un modèle chronologique comme celui-ci peut se révéler très rigoureux.

Il faut quand même signaler un certain nombre des avantages et des inconvénients de ces modèles.

  • Les modèles chronologiques fondés sur des données de série temporelle fiables peuvent éliminer de nombreux obstacles à la validité interne.

Cette caractéristique est attribuable au fait que, lorsqu'ils sont bien exécutés, ces modèles rendent possibles une certaine évaluation de la tendance de maturation avant l'intervention du programme.

  • Les modèles chronologiques peuvent être utilisés pour analyser divers effets du programme dépendant du facteur temps.

L'aspect longitudinal des modèles historiques permet à l'évaluateur qui s'en sert d'analyser plusieurs questions en déterminant, par exemple, si l'effet observé est continu ou s'il s'estompe avec le temps et s'il est immédiat ou à retardement, ou encore saisonnier. Chaque fois qu'une question de ce genre est importante, il faut utiliser un modèle comme celui-là.

  • On n'a pas toujours de données fiables pour mener l'analyse à série temporelle qui s'impose.

Les modèles chronologiques posent de nombreux problèmes de données. Par exemple, les séries temporelles utilisables sont souvent plus courtes que celles qu'on recommande normalement pour l'analyse statistique (il n'y a pas suffisamment de données); on peut en outre avoir utilisé différentes méthodes de collecte des données au cours de la période à l'étude, et il se peut aussi que les indicateurs aient changé avec le temps.

  • Lorsqu'on utilise un modèle chronologique, il faut ordinairement faire une analyse spéciale des séries temporelles.

Les régressions des moindres carrés les plus courantes ne se prêtent pas à l'analyse des séries temporelles. Il faut donc recourir à diverses techniques spécialisées (voir par exemple Cook et Campbell, 1979, chapitre 6; Fuller, 1976; Jenkins, 1979; et Ostrom, 1978).

3.3.3 Modèles dont les mesures sont prises après le programme seulement

Dans le cas de ces modèles, les mesures sont prises uniquement après l'exposition au programme, ce qui élimine les obstacles associés aux essais et aux instruments. Néanmoins, puisqu'il n'existe pas d'information sur la situation antérieure au programme, d'importants obstacles à la validité subsistent, même lorsqu'on utilise un groupe témoin. Nous allons décrire deux modèles de ce genre.

Modèle dont les mesures sont prises après le programme seulement avec groupe témoin non équivalent

Ce genre de modèle se présente comme suit :

 

Exposition au
programme

Mesure
après

Groupe expérimental

X

01

Groupe témoin  

02

La sélection et l'attrition sont les principaux obstacles à la validité interne d'un modèle de ce genre. Il est absolument impossible de savoir si les deux groupes étaient équivalent avant l'exposition au programme. Il se pourrait donc que l'écart entre O1 et O2 soit simplement le reflet de leur différence initiale et ne soit donc pas attribuable à l'exposition au programme. Qui plus est, on ne connaît pas le taux d'abandon du programme (effet attribuable à l'attrition), faute d'avoir pris des mesures avant son exécution. Enfin, même si les deux groupes avaient été équivalents au départ, il est possible que O1 ou O2 n'incluent pas les personnes qui ont abandonné le programme, ce qui risque d'entraîner une distorsion des estimations de ses effets.

Modèle dont les mesures sont prises après le programme seulement avec traitements différents

C'est un modèle plus juste, qui se présente de la façon suivante :

 

Exposition au
programme

Mesure
après

Groupe 1

X1

01

Groupe 2

X2

02

Groupe 3

X3

03

Groupe 4

X4

04

Dans ce cas-ci, différents groupes bénéficient du programme à des degrés différents, ce qui peut arriver lorsqu'il y a des variantes régionales de la prestation et des avantages d'un programme national. Si les échantillons sont suffisamment importants, on pourrait faire une analyse statistique pour établir le lien entre les différents niveaux d'application du programme et les résultats observés (O1), tout en tenant compte aussi des autres variables.

Pour ce modèle comme pour le précédent, la sélection et l'attrition sont les principaux obstacles à la validité interne.

Avantages et inconvénients

  • Il faut de la créativité et du talent pour concevoir un modèle quasi expérimental, qui peut toutefois générer des constatations très précises.

Souvent, il n'y a rien de mieux pour faire une évaluation que d'utiliser un modèle quasi expérimental. En effet, si la randomisation ne permet pas d'établir l'équivalence du groupe expérimental et du groupe témoin, la meilleure solution consiste à exploiter toutes ses connaissances préalables pour choisir le modèle expérimental le moins entaché de facteurs de confusion. D'ailleurs, un modèle quasi expérimental bien exécuté peut aboutir à des constatations plus fiables que celles d'un modèle expérimental mal appliqué.

  • Les modèles quasi expérimentaux peuvent être moins coûteux et plus faciles à appliquer que les modèles expérimentaux.

Puisque les modèles quasi expérimentaux n'exigent pas le traitement au hasard et un groupe témoin, leur utilisation peut être moins coûteuse et leur application plus facile que celles des modèles expérimentaux.

  • Lorsqu'on utilise un modèle quasi expérimental, il faut tenir compte individuellement de chaque obstacle à la validité interne.

La mesure dans laquelle les obstacles à la validité interne posent un problème est largement fonction de celle dans laquelle l'évaluateur réussit à apparier le groupe expérimental et le groupe témoin. S'il réussit à définir et à apparier convenablement les principales variables à étudier, il peut réduire énormément les obstacles à la validité interne. Malheureusement, il est souvent impossible d'apparier toutes ces variables-là.

Pour choisir le modèle approprié, l'évaluateur devrait examiner les modèles quasi expérimentaux envisageables, déterminer les principaux obstacles à la validité de chacun et choisir celui qui lui permet d'éliminer ou de réduire le plus les principaux obstacles, ou au moins de tenir compte de leur impact.

3.4 Modèles implicites

Les modèles implicites sont probablement ceux qu'on utilise le plus souvent, mais ce sont aussi les moins rigoureux. Souvent, il est impossible d'en tirer des conclusions fiables. Par contre, ils peuvent s'imposer dans les cas où l'on peut soutenir logiquement qu'un résultat est attribuable au programme. Au fond, ce sont des modèles dont les mesures sont prises après le programme, sans groupe témoin. Schématiquement, on peut les représenter comme suit :

 

Exposition au
programme

Mesure
après

Groupe expérimental

X

01

Comme on peut le constater dans cet exemple, l'envergure des effets du programme est inconnue (puisqu'il n'y a aucune mesure prise avant), et il est impossible d'arriver à des constatations manifestes au sujet de l'attribution (01 pourrait être attribuable à une foule de facteurs). Dans la pire des éventualités, cela suppose qu'on demande aux participants s'ils ont «aimé» le programme. Les témoignages positifs sont alors présentés comme preuves de son succès. Campbell (1977), entre autres, déplore cette méthode d'évaluation pourtant très répandue.

Bien que sa popularité soit en partie attribuable à une mauvaise conception de l'évaluation, il arrive parfois que ce modèle soit le seul utilisable, lorsqu'il n'existe pas de mesures antérieures au programme, ni de groupe témoin. En pareil cas, il vaudrait mieux tirer le meilleur parti de la situation en convertissant le modèle implicite en un modèle implicite quasi expérimental, auquel cas il y a trois possibilités :

  • modèle avec groupe témoin théorique,
  • modèle avec mesures antérieures au programme rétrospectives,
  • modèle d'estimation directe de la différence.

Nous allons maintenant décrire ces trois modèles.

Modèle dont les mesures sont prises après le programme seulement avec groupe témoin théorique

Ce modèle, pour lequel on postule l'équivalence d'un groupe témoin théorique, ressemble à un modèle quasi expérimental dont les mesures sont prises après le programme seulement avec groupe témoin non équivalent. Il se présente de la façon suivante :

 

Exposition au
programme

Mesure
après

Groupe expérimental

X

01

Groupe témoin théorique

 

02*

La différence, c'est que la mesure O2* est postulée plutôt qu'observée. L'évaluateur pourrait théoriquement postuler que le résultat serait inférieur à un certain niveau si le programme n'avait pas existé. Par exemple, dans le cas d'un programme conçu pour sensibiliser la population aux effets nocifs de la caféine, on pourrait supposer que les connaissances de la Canadienne ou du Canadien moyen (02*) seraient négligeables en l'absence d'un programme d'information nationale. Prenons un autre exemple : la détermination de l'avantage économique d'un programme ou d'un projet de l'État. En l'absence d'un programme, on postule souvent que l'investissement équivalent laissé à l'initiative du secteur privé aurait un taux de rendement social moyen de 10 p. 100, soit le 02* dans ce cas, ce qui signifie qu'on comparerait alors le taux de rendement du projet d'investissement gouvernemental (01) à la norme de 10 p. 100 du secteur privé (02*).

Modèle dont les mesures sont prises après le programme seulement avec mesures antérieures rétrospectives

Dans ce cas, on obtient bel et bien des mesures avant le programme, quoique après l'exposition, de sorte que le modèle ressemble à un modèle quasi expérimental dont les mesures sont prises avant et après le programme :

 

Mesure avant
(rétrospective)

Exposition au
programme

Mesure
après

Groupe expérimental

01

X

02

Par exemple, supposons que les deux questions suivantes soient posées à des étudiants ayant suivi un cours de français :

  • 1. Sur une échelle de 1 à 5, évaluez votre connaissance du français avant le cours.

    2. Sur une échelle de 1 à 5, évaluez votre connaissance du français après le cours.

On demanderait donc aux étudiants d'évaluer leurs connaissances du français avant et après le cours, une fois celui-ci terminé. La différence entre les deux évaluations pourrait servir à déterminer l'efficacité du programme.

Modèle dont les mesures sont prises après le programme seulement avec estimation de la différence

Ce modèle implicite est le moins efficace de tous. On peut le représenter de la façon suivante :

 

Exposition au
programme

Mesure
après

Groupe expérimental

X

0 = (02 - 01)

Dans ce cas-ci, le répondant estime directement l'effet incrémentiel du programme. On pourrait, par exemple, demander à des représentants d'entreprises combien d'emplois ont été créés grâce à une subvention, ou encore inviter des étudiants qui ont suivi un cours de français à donner une estimation de la nature et de l'étendue des connaissances qu'ils ont acquises grâce au cours. La différence entre ce modèle et celui qui fait appel à des mesures antérieures rétrospectives, c'est que les répondants eux-mêmes doivent répondre directement à la question sur l'effet du programme.

Avantages et inconvénients

  • Les modèles implicites sont souples, polyvalents et faciles à appliquer.

Puisqu'ils sont peu exigeants, les modèles implicites sont toujours réalisables. En effet, on peut toujours demander aux participants à un programme, aux gestionnaires ou à des spécialistes leur opinion sur ses résultats. Toutefois, cette facilité d'application même peut constituer un inconvénient en ce sens qu'on risque d'être tenté d'opter pour des modèles implicites «faciles», alors qu'on aurait pu avoir recours à un modèle implicite plus rigoureux, voire à un modèle quasi expérimental, avec un peu plus de travail et d'ingéniosité.

  • Les modèles implicites peuvent servir à étudier virtuellement n'importe quelle question et peuvent être utilisés comme instruments d'exploration.

On peut poser n'importe quelle question sur le programme aux participants ou aux gestionnaires. Malgré leurs lacunes évidentes en ce qui concerne l'examen objectif des résultats du programme et leur attribution, les modèles implicites peuvent entièrement permettre de trouver la réponse à des questions sur l'exécution d'un programme. Dans le cas d'un programme de services, par exemple, ils permettent à l'évaluateur d'étudier les questions relatives au degré de satisfaction de la clientèle. En outre, avec une enquête ultérieure au programme, ils peuvent cerner un certain nombre de résultats susceptibles d'être étudiés grâce à d'autres stratégies d'évaluation.

  • Les modèles implicites produisent peu de preuves objectives des résultats découlant d'un programme.

Il est possible de tirer des conclusions sur les résultats d'un programme à l'aide d'un modèle implicite seulement si l'on pose des hypothèses majeures sur ce qui se serait produit en l'absence du programme. Les obstacles à la validité interne sont donc aussi nombreux qu'importants (au titre des événements historiques, de la maturation et de l'attrition, par exemple), et il faut les éliminer un à un.

  • Lorsque l'attribution (ou le changement incrémentiel) est une question d'évaluation importante, il est préférable de ne pas s'en tenir exclusivement à des modèles implicites, mais de les utiliser plutôt avec des éléments probants.

3.5 Utilisation des modèles de causalité pour l'évaluation

À la section 2.2 du présent chapitre, nous avons insisté sur la nature conceptuelle du modèle d'évaluation idéal ou classique. Dans ce modèle, la cause possible du résultat d'un programme est isolée grâce à l'utilisation de deux groupes en tout point identiques, exception faite de leur exposition au programme. À partir d'un modèle idéal, nous avons décrit d'autres modèles pouvant servir à attribuer des résultats à un programme, en précisant les divers degrés qui permettront à l'évaluateur de procéder par inférence et d'établir les obstacles à la validité interne correspondant à chacun d'entre eux.

Or, il existe une autre façon d'envisager les questions d'inférence causale, en utilisant un modèle de causalité, ce qui consiste à décrire l'influence marginale sur une variable dépendante d'une série de variables indépendantes choisies. Alors que le modèle quasi expérimental est axé sur des comparaisons entre les bénéficiaires du programme et les membres d'un ou plusieurs groupes témoins, le modèle de causalité se concentre sur les variables à inclure, tant endogènes (intrinsèques au programme) qu'exogènes (extérieures au programme), et sur les rapports de causalité postulés. Dans le modèle quasi expérimental, le programme est l'élément le plus important; dans le modèle de causalité, il ne constitue qu'une variable indépendante parmi d'autres, toutes censées influer sur la variable dépendante.

Si nous revenons à notre exemple de l'évaluation d'un programme d'aide à un secteur d'activité industrielle dans lequel on compare les ventes à l'exportation réalisées par les entreprises qui bénéficient du programme à celles d'autres entreprises, un modèle de causalité tiendrait compte de variables telles que le secteur d'activité dans lequel les entreprises oeuvrent, leur taille et le fait qu'elles ont bénéficié ou non du programme. À partir de là, l'évaluateur ferait une analyse de régression pour déterminer l'influence marginale de chacune de ces variables sur les ventes à l'exportation des entreprises intéressées.

De même, l'évaluation d'un programme de subventions à des organismes culturels dans diverses collectivités pourrait comparer a) les changements de l'assistance aux activités culturelles dans les collectivités qui bénéficient d'une importante subvention par tête et b) les changements de l'assistance dans les collectivités qui ont reçu une subvention moins importante. On pourrait générer un modèle de causalité des répercussions sur les niveaux d'assistance actuels du profil socio-économique et de l'infrastructure culturelle de la collectivité, ainsi que de ses tendances historiques à l'assistance à des activités culturelles. Les données ainsi obtenues pourraient remplacer à l'approche comparative que nous avons traitée ou s'y ajouter.

Dans la pratique, la plupart des évaluateurs préfèrent utiliser les deux méthodes à la fois pour déterminer les résultats d'un programme. Ils peuvent se servir d'un modèle quasi expérimental pour créer et manipuler des groupes témoins et, à partir de là, pour faire des inférences causales sur les résultats du programme, et peuvent aussi faire appel à un modèle de causalité pour obtenir une estimation de l'effet marginal des variables qui influent sur le succès du programme. Les recherches de Bickman (1987) et Trochim (1986) ont produit des indications utiles sur la meilleure façon d'utiliser des modèles de causalité pour faire des évaluations.

Ces modèles sont particulièrement utiles dans les cas où une expérience empirique suffisante a confirmé avant l'évaluation l'existence de rapports entre les variables étudiées. En l'absence de modèle a priori, l'évaluateur aurait intérêt à utiliser la technique de l'appariement (constitution de blocs), comme nous l'avons vu aux sections 3.2.2 et 3.3.2, afin de recueillir des données pour les variables jugées importantes. En outre, il pourrait faire des analyses statistiques pour tenir compte des biais attribuables à la sélection ou aux événements historiques, afin d'accroître la validité de ces conclusions sur les effets du programme.

Les évaluateurs qui utilisent des modèles de causalité ont intérêt à consulter le chapitre 7 de l'ouvrage de Cook et Campbell (1979) intitulé Quasi-experimentation,qui contient une analyse des écueils à éviter lorsqu'on tente de faire des inférences causales fondées sur une «observation passive» (lorsqu'il n'y a pas formation de propos délibéré d'un groupe témoin). Deux des écueils les plus courants mentionnés dans cet ouvrage sont l'attention insuffisante accordée aux obstacles à la validité et l'utilisation de modèles structurels acceptables pour faire des prévisions, mais non des inférences causales.

Références : Modèles de causalité

Bickman, L., éd., Using Program Theory in Program Evaluation, Vol. 33 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1987.

Blalock, H.M., Jr., éd., Causal Models in the Social Sciences, Chicago : Aldine, 1971.

Blalock, H.M., Jr., Measurement in the Social Sciences: Theories and Strategies, Chicago : Aldine, 1974.

Chen, H.T. et P.H. Rossi, «Evaluating with Sense: The Theory-Driven Approach», Evaluation Review, Vol. 7, 1983, p. 283 à 302.

Cook, T.D. et D.T. Campbell, Quasi-experimentation, Chicago : Rand-McNally, 1979, chapitres 4 et 7.

Cordray, D.S., «Quasi-experimental Analysis : A Mixture of Methods and Judgement», in W.M.K. Trochim, éd., Advances in Quasi-experimental Design and Analysis, Vol. 31 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1986, p. 9 à 27.

Duncan, B.D., Introduction to Structural Equation Models, New York : Academic Press, 1975.

Goldberger, A.S. et D.D. Duncan, Structural Equation Models in the Social Sciences, New York : Seminar Press, 1973.

Heise, D.R., Causal Analysis, New York : Wiley, 1975.

Mark, M.M., «Validity Typologies and the Logic and Practice of Quasi-experimentation», in W.M.K. Trochim, éd., Advances in Quasi-experimental Design and Analysis, Vol. 31 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1986, p. 47 à 66.

Rindskopf, D., «New Developments in Selection Modeling for Quasi-experimentation», in W.M.K. Trochim, éd., Advances in Quasi-experimental Design and Analysis, Vol. 31 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1986, p. 79 à 89.

Simon, H., «Causation», in D.L. Sill, éd., International Encyclopedia of the Social Sciences, Vol. 2, New York : Macmillan, 1968, p. 350 à 355.

Stolzenberg, J.R.M. et K.C. Land, «Causal Modeling and Survey Research», in Rossi, P.H.,et al., éd., TITRE MANQUANT, Orlando : Academic Press, 1983, p. 613 à 675.

Trochim, W.M.K., éd., Advances in Quasi-experimental Design and Analysis, Vol. 31 de New Directions in Program Evaluation, San Francisco : Jossey-Bass, 1986.

3.6 Résumé

Le choix du modèle d'évaluation optimal est une tâche difficile, et c'est aussi l'aspect le plus important de la sélection d'une stratégie d'évaluation, puisque l'exactitude de l'information et des données - donc des preuves - produites dans ce contexte est largement fonction de la rigueur du modèle utilisé. C'est pour cette raison que l'évaluateur devrait s'efforcer d'opter pour le modèle le plus rigoureux possible compte tenu du temps et des ressources dont il dispose, ainsi que des autres facteurs d'ordre pratique. Le modèle choisi devrait être le plus près possible du modèle idéal (modèle expérimental). La rigueur du modèle d'évaluation et la crédibilité des résultats faiblissent à mesure que l'évaluateur descend la barre en passant d'un modèle expérimental à un modèle quasi expérimental, puis à un modèle implicite. Quel que soit le modèle choisi, il serait souhaitable d'inclure des éléments du modèle de causalité, pour renforcer la crédibilité des constatations.

Il arrive souvent que le seul modèle utilisable soit relativement peu rigoureux. Dans ce cas, l'évaluateur devrait cerner explicitement les principaux obstacles à la crédibilité des conclusions qu'il tire, afin de nuancer ses constatations en conséquence. Il devrait aussi rechercher d'autres modèles d'évaluation en vue de les utiliser pour étayer ses conclusions et pour atténuer les obstacles à la validité de sa démarche, voire pour ces deux raisons à la fois.

  • Bref, l'évaluateur devrait préciser explicitement le genre de modèle d'évaluation auquel il a recours pour chaque stratégie d'évaluation.

Parfois, on fait une évaluation sans bien comprendre le modèle utilisé, ce qui sape la crédibilité de l'information et des données obtenues, puisqu'on ne saisit pas bien le fondement de la «preuve». En précisant explicitement le modèle, l'évaluateur peut analyser ouvertement les principaux obstacles et trouver les arguments logiques ou d'autres éléments d'information susceptibles de les éliminer, de les atténuer ou d'en tenir compte de façon à renforcer la crédibilité globale de son évaluation.

  • Pour chaque modèle de recherche utilisé, l'évaluateur devrait dresser la liste des principaux obstacles plausibles à la validité, en analysant les implications de chacun.

Les auteurs ne s'entendent pas sur les obstacles à la validité que tel ou tel modèle permet généralement d'éliminer. Cronbach (1982), par exemple, conteste un grand nombre d'affirmations sur les obstacles à la validité décrits dans l'ouvrage plus classique de Cook et Campbell (1979). Ce désaccord est toutefois moins fréquent à l'égard d'évaluations données et de leurs modèles. En effet, dans chaque cas, il est habituellement évident s'il existe ou non d'autres explications plausibles d'un changement observé.

 



Date de modification :