octobre 2004
TABLE DES MATIÈRES
Résumé
Introduction
Objet
Méthodologie
Constatations
Conclusions et Recommandations
1. Introduction
1.1 Politique d'évaluation du SCT
1.2 Centre d'excellence en évaluation
1.3 Organisation du rapport
2. Méthodologie
2.1 Conception du Guide d'examen des évaluations
2.2 Échantillon
2.3 Examen des Rapports d'évaluation
2.4 Analyse
3. Constatations
3.1 Qualité des évaluations de la fonction publique fédérale : Aperçu et faits saillants
3.2 Constatations détaillées
3.3 Forces et faiblesses des évaluations de la fonction publique fédérale
3.4 Variations de la qualité selon les caractéristiques organisationnelles et la date du rapport
4. Conclusions et recommandations
4.1 Conclusions
4.2 Recommandations
ANNEXE A : Gabarit d'examen
ANNEXE B : Répartition des rapports examinés par ministère et organisme
Un groupe de travail a été mis sur pied afin de fournir des commentaires et des suggestions pour l'examen. Nous désirons exprimer nos sincères remerciements aux personnes suivantes :Un groupe de travail a été mis sur pied afin de fournir des commentaires et des suggestions pour l'examen. Nous désirons exprimer nos sincères remerciements aux personnes suivantes :
Elles ont fourni de la rétroaction sur le mandat de l'étude, des suggestions concernant le gabarit d'examen et des commentaires sur l'ébauche du rapport.
Nous sommes très reconnaissants à Glenn Crone et Zeljka Spasojevic du Centre d'excellence en évaluation, Secrétariat du Conseil du Trésor du Canada, de leur soutien continu.
Les membres du Groupe ont travaillé en collaboration avec Shelley Borys, Michael Callahan, Mary Latreille, Norm Leckie, et Janice Remai de EKOS Research Associates, Inc.
Introduction
L'évaluation soutient le but du gouvernement du Canada de devenir une organisation apprenante. Elle y réussit en
aidant les cadres supérieurs, les gestionnaires de programme et les décideurs à découvrir si leurs initiatives fonctionnent ou non et si elles atteignent les objectifs; elle les aide aussi à établir
s'il y a lieu de poursuivre ces initiatives et à déterminer comment mieux les concevoir et les exécuter afin d'atteindre les objectifs d'une façon rentable. La qualité des rapports d'évaluation est
primordiale pour que la fonction d'évaluation réponde à ces besoins d'information.
Objet
En 2001, le Secrétariat du Conseil du Trésor (SCT) a créé le Centre d'excellence en évaluation (CEE) et a établi une nouvelle
Politique d'évaluation destinée à renforcer la fonction d'évaluation et la qualité des rapports. L'un des objectifs clés du présent rapport est de déterminer si la qualité des rapports est acceptable
et s'il y a eu une amélioration de la qualité. L'un des aspects importants de ce travail est de promouvoir des rapports d'évaluation de qualité. Le présent examen représente un élément de la
stratégie d'ensemble du CEE pour surveiller et renforcer la qualité des rapports. Les autres activités comprennent : l'étude des meilleures pratiques; une enquête annuelle sur la santé des unités
d'évaluation des ministères et des petits organismes; des rencontres individuelles, l'examen continu des évaluations, les Cadres de gestion et de responsabilisation axés sur les résultats (CGRR), les
plans d'évaluation ministériels et un rapport annuel documentant les constatations des évaluations et indiquant comment elles contribuent au renforcement de la responsabilisation et à l'examen des
dépenses du gouvernement.
Méthodologie
Diverses ressources ont servi à l'élaboration des critères que nous avons utilisés pour notre examen, dont le
Guide d'examen des rapports d'évaluation du Centre d'excellence en évaluation, SCT, janvier 2004 et des extraits du Rapport de 1993 du Bureau du
vérificateur général du Canada (BVG) sur l'évaluation de programmes (critiques des rapports d'évaluation). Nous avons également consulté un groupe de référence d'unités d'évaluation de ministères et
d'organismes. Le gabarit que nous avons utilisé pour l'examen se trouve à l'Annexe A. [1]
Constatations
Les constatations du présent l'examen indiquent que la plupart des rapports d'évaluation de la fonction publique fédérale
sont de qualité acceptable, quoique nous ayons déterminé que presque le quart des évaluations (23 %) étaient inadéquates dans l'ensemble. Nous n'avons pas observé de variations claires et constantes
de la qualité pour les organisations fédérales de tailles différentes et pour les ministères par rapport aux organismes. Une comparaison des rapports élaborés avant avril 2002 et de ceux qui ont été
élaborés par la suite démontre toutefois une amélioration de la qualité concernant un certain nombre de critères dans les évaluations les plus récentes. Par exemple : les questions de rentabilité ont
été traitées; il y a une rigueur méthodologique; les solutions de remplacement sont indiquées; les constatations présentées sont fondées sur des données; ils contiennent des recommandations
formelles. Cette amélioration de la qualité avec le temps laisse croire que les efforts du SCT pour améliorer la qualité des évaluations ont peut-être un effet positif, en ayant accordé une année,
jusqu'en avril 2002, aux ministères et aux organismes pour comprendre entièrement la Politique et pour donner le temps au nouveau Centre d'excellence en évaluation de commencer à fonctionner. Mais il
y a un besoin pressant d'améliorer encore les choses, comme l'indiquent les constatations qui suivent.
Les principales forces des évaluations examinées dans le présent examen incluent ce qui suit :
Voici d'autre part quelques faiblesses des évaluations et des rapports :
Conclusions et Recommandations
Dans l'ensemble, la plupart des évaluations que nous avons
examinées sont de qualité raisonnable. Nous avons déterminé que la majorité étaient adéquates dans l'ensemble (45 %) ou plus qu'adéquates (32 %). Mais nous avons aussi déterminé qu'une proportion
considérable des évaluations (23 %) étaient inadéquates, une constatation qu'il faut traiter. C'est pourquoi le présent rapport recommande que le Centre d'excellence en évaluation du SCT prenne les
mesures suivantes :
L'évaluation soutient le but du gouvernement du Canada de devenir une organisation apprenante. Elle y réussit en aidant les gestionnaires de programme et les décideurs à découvrir si leurs initiatives fonctionnent ou non et si elles atteignent les objectifs, à déterminer s'il y a lieu de poursuivre ces initiatives et à déterminer comment mieux les concevoir et les exécuter afin d'atteindre les objectifs d'une façon rentable. Le Secrétariat du Conseil du Trésor (SCT) a introduit la Politique d'évaluation (la Politique) en avril 2001 afin de clarifier le rôle important de l'évaluation dans son cadre de gestion.
Le Centre d'excellence en évaluation (CEE) a été établi en 2001 pour faciliter la mise en oeuvre de la nouvelle Politique d'évaluation et pour en surveiller la réussite. Le CEE, en surveillant les pratiques d'évaluation des ministères et des organismes fédéraux, a déterminé qu'il y avait lieu d'examiner le niveau de qualité des évaluations de ces ministères et de ces organismes, afin de déterminer les forces et les faiblesses des pratiques d'évaluation et les réponses convenables. Le présent document contient le projet de Rapport final de cet examen des évaluations de la fonction publique fédérale.
1.1 Politique d'évaluation du SCT
Dans le contexte de renouveau du gouvernement fédéral, les évaluations ont pris considérablement plus
d'importance, mais il n'en a pas été ainsi de la capacité de les exécuter [2] . Les ressources, humaines et autres, consacrées à l'évaluation ont
diminué régulièrement depuis le début des années 1990. De plus, la Politique d'évaluation courante a accru la tâche requise pour faire les évaluations.
La Politique d'évaluation du SCT, qui a été révisée la dernière fois le 1er avril 2001, soutient « l'engagement permanent du gouvernement en vue de l'amélioration continue de la gestion et de la responsabilisation », comme l'a déclaré la ministre Robillard dans un communiqué de presse du 14 février 2003 [3] . Dans la Politique d'évaluation courante, l'évaluation a un rôle clé à jouer pour soutenir la gestion des résultats dans la fonction publique. La Politique repose sur les trois principes suivants : les gestionnaires de la fonction publique ont la responsabilité de réaliser les objectifs et d'en faire rapport; l'évaluation rigoureuse et objective est un outil important de la gestion des résultats; et les ministères et les organismes sont responsables, avec le soutien du SCT, d'assurer la rigueur des évaluations. L'objectif déclaré de la Politique est de « faire en sorte que le gouvernement dispose en temps voulu de renseignements stratégiques, objectifs et solides au sujet du rendement de ses politiques, programmes et initiatives, pour produire de meilleurs résultats pour les Canadiens et les Canadiennes. » Ses exigences clés sont les suivantes :
1.2 Centre d'excellence en évaluation
Le CEE a été établi en même temps que la Politique d'évaluation pour assurer un
leadership et faciliter la mise en Guvre de la Politique. L'examen courant de la qualité des évaluations soutiendra le mandat de surveillance et de rapport du CEE concernant l'état de la capacité
d'évaluation dans l'ensemble de la fonction publique fédérale. Le CEE a été conçu pour offrir les fonctions clés suivantes :
Le CEE exécute à ces fins des activités comme : la mise en Guvre de politiques; la surveillance; le renforcement de la capacité; les conseils stratégiques; les communications et le réseautage.
1.3 Organisation du rapport
Le présent document contient les résultats de l'« Examen de la qualité des évaluations dans les
ministères et les organismes ». Notre méthodologie est présentée au chapitre suivant. Les constatations sont présentées au chapitre 3 et les conclusions au chapitre 4.
Le présent chapitre décrit la démarche méthodologique du projet. La description est divisée en quatre sections : la conception du guide d'examen; l'échantillon; l'examen des rapports d'évaluation; et une note concernant l'analyse.
2.1 Conception du Guide d'examen des évaluations
Nous avons évalué diverses ressources dans l'élaboration des
critères aux fins du présent examen. En cherchant les indicateurs possibles de qualité pour lesquels nous allions recueillir des données pour notre examen, nous nous sommes d'abord tournés vers le
Cadre de gestion et de responsabilisation axé sur les résultats (CGRR) pour la Politique d'évaluation du Secrétariat du Conseil du Trésor. Une analyse du CGRR a révélé que l'examen facilitera
particulièrement le traitement du groupe des questions présentées à la Section E, Questions liées au progrès et à la réussite, c'est-à-dire : « La fonction d'évaluation produit-elle des commentaires
opportuns et efficaces intégrés à la prise de décisions des ministères? »; contribuant aux résultats immédiats attendus de la Politique, à savoir des rapports crédibles en temps voulu et fondés sur
des données. Toutefois, à cause de l'ampleur du projet, il n'est pas possible d'évaluer si les rapports sont présentés en temps voulu. En outre, nous avons examiné seulement les rapports d'évaluation
achevés depuis que la Politique a été mise en Guvre; nous n'avons donc pas de mesure de référence de la qualité pour comparer les résultats de notre examen.
De nombreux documents traitent la question des critères de qualité qui ont été consultés au cours de la conception du présent travail. En voici quelques-uns :
Voici les questions centrales de notre étude : Est-ce que la qualité des rapports est acceptable et est-ce qu'il y a eu une amélioration de la qualité? Notons qu'un simple examen des rapports d'évaluation ne nous a pas permis de déterminer s'il y a eu une amélioration de la qualité des rapports. On peut obtenir ce genre d'information seulement en faisant des comparaisons avec les évaluations faites avant l'adoption de la Politique et en interrogeant les responsables. Toutefois, selon un examen de la Politique d'évaluation (y compris l'Annexe B de la Politique), de son CGRR et du matériel mentionné ci-dessus, les indicateurs possibles qui ont été identifiés pour mesurer la qualité des rapports d'évaluation comportent les caractéristiques suivantes :
Nous nous sommes fondés sur notre analyse de tout le matériel de référence mentionné ci-dessus pour élaborer un projet de gabarit d'examen. Comme suite à l'élaboration d'un projet d'instrument contenant les critères proposés et l'examen de celui-ci avec les autorités responsables du projet, nous avons rencontré le groupe de travail du CEE (représentant huit ministères fédéraux) pour discuter des critères et de la portée de l'examen. Les révisions apportées au gabarit d'examen tiennent compte des commentaires que nous avons reçus à ce moment-là. Le gabarit final utilisé pour l'examen se trouve à l'Annexe A.
2.2 Échantillon
Nous avions proposé de choisir l'échantillon de rapports d'évaluation dans une base de données compilée par le CEE sur les rapports
d'évaluation effectués depuis l'adoption de la Politique d'évaluation, c'est-à-dire l'exercice financier 2001-2002. La « population » des rapports serait stratifiée selon certaines variables clés
d'intérêt. Les titres des rapports seraient choisis en proportion des caractéristiques de la population, ou en nombres suffisants pour assurer la représentation de tous les sous-groupes clés.
Dans la mesure où la stratification était possible ou désirée, ou les deux, nous avions un certain nombre de stratifications possibles de l'échantillon et de variables de sélection, par exemple : le type d'évaluation, formative ou sommative; la taille et le type de ministère ou d'organisme; l'année de l'évaluation (on peut s'attendre en effet à ce que la qualité des évaluations augmente avec le temps, à mesure que la Politique est mise en oeuvre et que les évaluateurs et les responsables du CEE se familiarisent avec elle).
Il s'est avéré que la population des rapports à prendre en considération pour notre examen était constituée seulement des rapports d'évaluation [4] qui ont été présentés au SCT. Même si les ministères sont tenus de présenter tous les rapports d'évaluation produits, ils ne semblent pas le faire de manière fiable. Selon l'étude d'évaluation des capacités exécutée par le CEE il y a deux ans, il semble qu'environ 250 évaluations sont effectuées chaque année, ce qui aurait dû donner 500 rapports à examiner. Mais le SCT a reçu seulement 214 rapports produits au cours des deux dernières années (les années visées par le présent examen). De plus, d'autres dossiers d'évaluation sont en format électronique (liens sur le Web et examens par exemple), mais ne respectaient pas la définition de « copie complète sur papier d'une évaluation disponible aux fins d'examen ».
Étant donné le temps limité pour effectuer l'examen, il était impossible d'obtenir la série complète des rapports d'évaluation des ministères individuels. Il est de plus difficile de déterminer quelle aurait été l'incidence sur l'objectivité de l'échantillon si nous avions réclamé des ministères et des organismes qu'ils nous présentent des rapports aux fins du présent examen.
Il est donc important de noter que nous avons examiné cet échantillon limité de rapports d'évaluation qui ont été présentés au SCT et qui étaient complets. Étant donné que l'échantillon ne comprend pas l'ensemble de la population, il est difficile d'évaluer dans quelle mesure le lot des rapports examinés est biaisé ou non.
Dans le processus de recherche de rapports pour l'examen, nous avons consulté la série complète des rapports présentés après le 1er avril 2001 et offerts par l'entremise du SCT. Même si la base de données indiquait que plus de 200 rapports étaient disponibles pour cet exercice, il a été établi qu'un grand nombre des dossiers ne convenaient pas pour l'examen. Certains dossiers contenaient par exemple seulement un résumé d'un rapport, ou étaient des rapports sur des vérifications, des études spéciales (par exemple pour fournir une analyse approfondie d'une question destinée à faire partie d'une évaluation, mais qui n'était pas une évaluation en elle-même) ou d'autres types d'examen qui ne constituaient pas une évaluation.
Le plan de travail consistait à examiner un total de 110 rapports. Nous disposions finalement de 122 rapports à examiner et nous en avons examiné 115. Ceux qui n'ont pas été examinés (n=7) étaient des rapports de ministères qui étaient déjà très représentés dans l'échantillon. Nous avons essayé de limiter le nombre total de rapports examinés pour un ministère en particulier, afin d'assurer la représentation dans la population des rapports disponibles. Il s'est avéré que plusieurs ministères avaient 10 ou 12 rapports qui ont été examinés (et ces ministères étaient également ceux qui offraient des rapports qui n'ont pas été examinés).
Le CEE avait élaboré six des rapports de l'échantillon. Comme il n'était pas convenable que nous examinions nos propres rapports, des analystes du SCT ont été formés pour appliquer le gabarit d'examen et ont ensuite exécuté les examens de cinq de ces six rapports (le sixième rapport provenait d'un ministère déjà bien représenté et n'était par conséquent pas nécessaire).
La distribution des rapports examinés par ministère et par organisme se trouve à l'Annexe B.
2.3 Examen des Rapports d'évaluation
Un long processus prétest auquel ont pris part tous les examinateurs a été entrepris, non
seulement pour mettre à l'épreuve le gabarit d'examen, mais également pour assurer la fiabilité inter-évaluateur. Chacun des membres de l'équipe de base a examiné un total de trois rapports. Après
l'examen de chaque rapport et l'application du gabarit, l'équipe s'est réunie pour discuter en détails des notes attribuées par chaque examinateur. Quand il y avait des écarts, la discussion
subséquente a permis de clarifier la signification de certains aspects de l'examen ou de certaines notes. Le gabarit a également été révisé pour tenir compte de ces éclaircissements additionnels
quand c'était possible. On utilisait ensuite le gabarit révisé pour l'examen de prétest suivant. Il a été déterminé à la fin du troisième examen de prétest que la fiabilité inter évaluateur (évaluée
qualitativement) était suffisamment élevée pour entreprendre les examens indépendants.
Suite aux prétests et à la mise au point du gabarit d'examen, nous avons entrepris l'examen complet des évaluations. Chacun des rapports d'évaluation a été évalué par un seul examinateur. Tous les examinateurs étaient des évaluateurs chevronnés possédant des antécédents considérables en matière d'évaluation des programmes de la fonction publique fédérale. L'examen de chaque rapport a duré en moyenne deux heures et demie.
2.4 Analyse
Nous avons exécuté des analyses à une variable et des analyses croisées sur les données des examens. La plupart des critères évalués
dans les examens ont été notés sur une échelle de cinq points allant de 1 (« médiocre ») à 5 (« excellente »), la note médiane 3 signifiant « adéquate ». Nous avons fait une réduction pour les
analyses, les notes y représentant alors les trois catégories suivantes : 1-2 (« inadéquate »), 3 (« adéquate ») et 4-5 (« plus qu'adéquate »). Nous avons fait ensuite des croisements selon la taille
du ministère ou de l'organisme. Trois catégories ont été élaborées : petite (500 ETP ou moins, n=18) [5] ; moyenne (501 à 4
600 ETP, n=51); et grande (plus de 4 600 employés, n=46). Nous avons également fait des croisements sur l'année du rapport (jusqu'à mars 2002, n=37, et avril 2002 et après, n=78) et également sur les
ministères (n=91) par rapport aux organismes (n=24). Les tableaux des résultats sont présentés à l'Annexe technique dans un document distinct.
A) Limites
La qualité des évaluations peut être mesurée de différentes manières. Durant cet examen, nous nous sommes penchés sur la qualité des évaluations, selon les rapports d'évaluation. Il
convient de signaler qu'une autre dimension importante de la qualité des évaluations, non examinée durant cet examen, est l'utilité, comme l'indique le degré de mise en Guvre des recommandations
d'évaluation. Le CEE a précisé qu'il examinera ce critère de qualité en recourant à d'autres sources de données.
Il est important de noter qu'à titre d'examinateurs externes d'un rapport d'évaluation, nous n'avons pas toujours eu toute l'information sur les limites possibles d'une évaluation particulière
(p.ex., les restrictions budgétaires, le temps alloué, les contraintes internes) ou le contexte (nous n'avons pas interrogé les gestionnaires de programme ou des évaluations). Il est donc possible
que certains rapports apparaissent faibles dans notre examen, même s'ils étaient peut-être en fait très forts compte tenu du contexte ou des limites externes qu'ils comportaient.
Le Groupe de travail du CEE a aussi mentionné que la qualité des rapports d'évaluation sur lesquels a porté cet examen peut sembler faible à certains égards parce que les ministères ignoraient les
critères d'évaluation avant d'effectuer les évaluations. De plus, il a mentionné que les ministères peuvent avoir évalué ou inclus des critères prévus dans cet examen, sans en traiter dans le rapport
d'évaluation, parce que ceux-ci ont fait l'objet d'autres rapports ou n'ont pas été jugés pertinents pour ce rapport.
De plus, en raison des contraintes budgétaires et temporelles qui s'appliquaient au présent examen (seulement deux heures et demie pour examiner chaque rapport), il a été déterminé avec le client au
cours de la phase de conception que l'examen serait essentiellement quantitatif (c'est-à-dire des articles fermés dans le gabarit d'examen présenté à l'Annexe A). Par conséquent, l'information
qualitative détaillée expliquant les diverses notes de chaque rapport d'évaluation n'a pas été recueillie.
3.1 Qualité des évaluations de la fonction publique fédérale : Aperçu et faits saillants
Les constatations
du présent examen indiquent que la plupart des rapports d'évaluation de la fonction publique fédérale sont de qualité acceptable, quoique nous ayons déterminé que presque le quart des évaluations (23
%) étaient inadéquates dans l'ensemble. Nous n'avons pas observé de variations claires et constantes de la qualité pour les organisations fédérales de tailles différentes et pour les ministères par
rapport aux organismes. Une comparaison des rapports produits avant avril 2002 et de ceux produits par la suite démontre toutefois une amélioration de la qualité concernant un certain nombre de
critères dans les évaluations les plus récentes. Cela laisse croire que la Politique d'évaluation d'avril 2001 du SCT a peut-être eu un effet positif (c'est à dire en accordant une année, jusqu'en
avril 2002, aux ministères et aux organismes pour comprendre entièrement la Politique et avoir le temps de mettre en Guvre quelques améliorations). Mais il y a un besoin d'améliorer encore les
choses, comme l'indiquent les faiblesses mentionnées ci-dessous.
L'examen révèle que les rapports d'évaluation de la fonction publique fédérale ont un certain nombre de forces et de limites, dont il n'y a pas de modèle clair (c'est-à-dire qu'une section donnée des rapports, comme l'introduction et le contexte, contient à la fois des forces et des faiblesses selon le critère particulier évalué). Les principales forces des évaluations examinées dans le présent examen incluent :
Voici d'autre part quelques faiblesses des évaluations et des rapports :
Voici les faits saillants des constatations concernant chacune des grandes questions et des grands éléments évalués dans l'examen :
A) Résumé
La majorité des rapports examinés (86 %) comprenaient un résumé. Les ministères étaient plus susceptibles d'inclure un résumé dans leurs rapports d'évaluation que les organismes (90 %
contre 71 %). De plus, les organisations de grande et de moyenne tailles (83 % et 92 % respectivement) étaient plus susceptibles d'inclure un résumé que les petites organisations (78 %).
En ce qui a trait à la clarté et à la concision de la rédaction et à la cohérence à titre de document autonome, nous avons déterminé que la plupart des résumés étaient adéquats ou plus qu'adéquats (43 % et 31 % respectivement) et que le quart étaient inadéquats.
Autres caractéristiques clés des résumés :
B) Introduction et contexte
Description
La grande majorité des évaluations des programmes de la fonction publique fédérale, soit 98 %, offrait une description claire et concise du programme, de la
politique ou de l'initiative évalué (voir Tableau 1). Les notes de la qualité de la description de programme étaient fortes également : nous avons déterminé que 35 % des évaluations étaient adéquates
selon ce critère et qu'une autre tranche de 49 % des évaluations offrait une discussion plus qu'adéquate.
La plupart des rapports décrivaient la totalité (64 %) ou une partie (29 %) des bénéficiaires visés et des intéressés du programme, de la politique ou de l'initiative. Nous avons déterminé que la plupart des rapports étaient adéquats (61 %) ou plus qu'adéquats (25 %) selon ce critère. Les rapports d'évaluation étaient un peu plus susceptibles d'avoir indiqué les bénéficiaires du programme (77 %) que ses intéressés (68 %).
La plupart des rapports d'évaluation de la fonction publique fédérale (71 %) incluaient une discussion de la répartition des ressources dans la description de programme. Nous avons déterminé que cette discussion était adéquate (37 %) ou plus qu'adéquate (40 %) dans ces rapports.
Environ six rapports d'évaluation de la fonction publique fédérale sur dix (59 %) décrivaient les hypothèses sous-jacentes du programme étudié (comme le financement, les partenariats) ou les facteurs externes (comme les influences environnementales). Dans les rapports (n=68) qui déterminaient ces facteurs, 78 % décrivaient les hypothèses sous-jacentes du programme tandis que 66 % déterminaient les facteurs externes.
La principale faiblesse du volet de la description de programme était le manque de référence à un modèle de logique du programme : moins d'un rapport d'évaluation de la fonction publique fédérale sur quatre présentait un modèle de logique (19 % dans le rapport lui-même et un autre 4 % dans un document cité comme source de référence). À cet égard, seulement 22 % des rapports d'évaluation de la fonction publique fédérale incluaient une description des grands rapports de cause et d'effet sur lesquels le programme ou la politique était basé (par exemple, tel que présenté dans le modèle de logique). Dans les rapports qui incluaient une discussion de grands rapports de cause et d'effet (n=29), nous avons déterminé que la discussion était adéquate ou plus qu'adéquate dans la plupart des cas (41 % et 31 % respectivement), mais inadéquate dans le cas de 28 % des rapports.
| TABLEAU 1 : Description de programme - Critères et Notes | ||||
| Critères |
Respect des critères (%) |
Notes |
||
|
Inadéquat (%) |
Adéquat (%) |
Plus qu'adéquat (%) |
||
| Décrire le programme, la politique ou l'initiative |
98 |
16 |
35 |
49 |
| Décrire les bénéficiaires et les intéressés |
93* |
14 |
61 |
25 |
| Examiner l'attribution des ressources |
71 |
23 |
37 |
40 |
| Décrire les hypothèses sous-jacentes et les facteurs externes |
59 |
10 |
59 |
30 |
| Présenter un modèle logique |
23** |
s.o. |
s.o. |
s.o. |
| Décrire les grands rapports de cause et d'effet |
22 |
28 |
41 |
31 |
| Source : Examen des évaluations de la fonction publique fédérale (n=115). Seuls les rapports qui respectaient les critères ont été notés (n=29 à 113). « s.o. » signifie qu'il n'y a pas eu de note selon un critère. *La totalité ou une partie des bénéficiaires. **Présentation dans le rapport ou référence à un autre document. | ||||
Contexte d'évaluation
La grande majorité des rapports d'évaluation de la fonction publique fédérale (91 %) incluait une déclaration des objectifs de l'évaluation (Tableau
2). La notation de la qualité était élevée pour ce critère : nous avons déterminé que 52 % des rapports étaient adéquats et que 32 % étaient plus qu'adéquats à cet égard.
Environ six rapports sur dix (58 %) expliquaient le moment choisi pour l'évaluation (c'est-à-dire la période visée par l'étude) et une proportion semblable de rapports (56 %) décrivait la signification de l'évaluation. Les rapports des ministères contenaient plus souvent une discussion de la signification de l'évaluation que les rapports des organismes (59 % contre 42 %) et les rapports des grandes organisations contenaient eux aussi plus souvent une discussion (65 %) que ceux des organisations de moyenne ou de petite taille (53 % et 39 % respectivement). La notation de la qualité pour ce critère était positive : nous avons déterminé qu'elle était plus qu'adéquate dans 30 % des cas, adéquate dans 59 % des cas et inadéquate dans 11 % des cas.
En ce qui a trait aux éléments et aux questions d'évaluation, les rapports d'évaluation de la fonction publique fédérale énumèrent simplement en général (les deux tiers) les questions (au lieu de les examiner, comme nous l'avons observé dans seulement 24 % des rapports). Cette pratique a fait en sorte que la note pour ce critère était comparativement faible par rapport aux autres notes. Pour ce critère, nous avons déterminé que 45 % des rapports étaient adéquats, que 20 % étaient plus qu'adéquats et que 35 % étaient inadéquats.
Une petite minorité des rapports d'évaluation de la fonction publique fédérale (8 %) a déterminé les éléments d'évaluation dans le contexte d'un Cadre de gestion et de responsabilisation axés sur les résultats (CGRR). Nous n'avons pratiquement pas noté de différences sur ce point selon le moment ou l'évaluation a été faite (avant ou après avril 2002). Toutefois, 42 % des rapports examinaient les éléments et les questions d'évaluation dans le contexte d'un autre document (habituellement un Cadre d'évaluation). La moitié des rapports n'ont pas fait référence à un contexte d'élaboration des éléments et des questions d'évaluation.
| TABLEAU 2 : Contexte d'évaluation - Critères et Notes | ||||
| Critères |
Respect des critères (%) |
Notes |
||
|
Inadéquat (%) |
Adéquat (%) |
Plus qu'adéquat (%) |
||
| Décrire les objectifs de l'évaluation |
91 |
16 |
52 |
32 |
| Décrire le moment choisi pour l'évaluation |
58 |
s.o. |
s.o. |
s.o. |
| Décrire la signification de l'évaluation |
56 |
11 |
59 |
30 |
| Décrire la signification de l'évaluation |
89* |
35 |
45 |
20 |
| Décrire le moment choisi pour l'évaluation |
58 |
s.o. |
s.o. |
s.o. |
| Source : Examen des évaluations de la fonction publique fédérale (n=115). Seuls les rapports qui respectaient les critères ont été notés (n=64 à 106). « s.o. » signifie qu'il n'y a pas eu de note selon un critère. * Décrire ou énumérer les éléments. | ||||
En ce qui a trait à la couverture des éléments [7] (Tableau 3), la grande majorité des rapports d'évaluation de la fonction publique fédérale couvrait les éléments de réussite (94 %), suivis des éléments de pertinence (74 %) et des éléments de mise en Guvre et d'exécution (72 %). Les rapports sont beaucoup moins susceptibles d'avoir traité les pratiques de gestion (47 %) ou la rentabilité (44 %).
La couverture des éléments de la pertinence était plus courante dans les évaluations des petites et des moyennes organisations (89 % et 80 % respectivement) que dans les évaluations des grandes organisations (61 %). Les éléments de rentabilité étaient plus susceptibles d'être traités dans les évaluations faites après avril 2002 que dans celles faites avant (51 % par rapport à 27 %). Les évaluations des ministères étaient plus susceptibles que celles des organismes de traiter les éléments de pratiques de gestion (52 % par rapport à 29 %), comme les rapports des grandes et des moyennes organisations étaient plus susceptibles aussi de les traiter (50 % et 51 % respectivement) que ceux des petites organisations (28 %).
| TABLEAU 3 : Couverture des éléments d'évaluation | |
| Élément |
Couverture (%) |
| Pertinence |
74 |
| Réussite |
94 |
| Rentabilité |
44 |
| Mise en Guvre et exécution |
72 |
| Pratiques de gestion |
47 |
| Source : Examen des évaluations de la fonction publique fédérale (n=115) | |
C) Méthodologie
Description de la méthodologie et de la conception
Les discussions de la méthodologie d'évaluation des rapports d'évaluation de la fonction publique fédérale étaient de
qualité diverse - 56 % offraient une description complète de la méthodologie et de la conception de l'évaluation (Tableau 4). Quatre rapports sur dix énuméraient seulement quelques
renseignements.
Dans la discussion de la méthodologie, les rapports étaient plus susceptibles d'établir la taille de l'échantillon (comme pour les entrevues avec les répondants clés et les enquêtes) (68 %). D'autre part, 45 % des rapports indiquaient la méthode d'échantillonnage, 30 % établissaient le lien entre les méthodes et les éléments et 26 % fournissaient des instruments de collecte des données. Le quart des rapports (27 %) ont fait référence à un document technique plus étoffé sur la méthodologie. Trois rapports sur dix ne contenaient rien de ce qui précède dans leur discussion méthodologique (c'est-à-dire la taille de l'échantillon, la méthode d'échantillonnage, les instruments, le lien entre les méthodes et les éléments, la référence aux documents techniques).
Le manque d'information méthodologique a affaibli la note de la qualité des rapports pour le critère en question : nous avons considéré que 46 % des rapports étaient inadéquats à cet égard, que 32 % étaient adéquats et que 21 % étaient plus qu'adéquats.
La moitié des rapports d'évaluation de la fonction publique fédérale (49 %) n'incluaient pas d'instruments de collecte des données et ne contenaient pas de référence à un document technique où trouver les instruments. Ce défaut était plus courant dans les évaluations des moyennes organisations (61 %) que dans celles des grandes ou des petites organisations (37 % et 44 % respectivement). Le quart des rapports (23 %) présentaient tous les instruments de recherche avec le rapport et quelques-uns des instruments étaient présentés dans une autre tranche de 10 % des rapports. Et 18 % des rapports faisaient référence à un document technique où il était possible de trouver les instruments.
Dans l'ensemble, la plupart des évaluations (72 %) étaient conçues convenablement en fonction des objectifs visés par l'étude (selon des considérations comme la rentabilité, la faisabilité et la validité). Il y avait 5 % des évaluations qui n'étaient pas conformes à ce critère et, dans 23 % des cas, l'examinateur a été incapable de faire une évaluation (à cause de la description inadéquate de la conception). Les évaluations considérées inadéquates avaient tendance à représenter seulement une gamme limitée de perspectives (par exemple, pas de participation du client, des entrevues avec des représentants de la fonction publique fédérale seulement) ou à avoir consulté seulement un petit nombre de particuliers et d'organisations.
Les notes de la qualité de la conception méthodologique étaient favorables : nous avons déterminé que 45 % des rapports d'évaluation étaient adéquats et que 42 % étaient plus qu'adéquats à cet égard. Nous avons déterminé que seulement 14 % de ces évaluations étaient inadéquates en ce qui a trait à la conception.
| TABLEAU 4 : Méthodologie - Critères et Notes | ||||
| Critères |
Respect des critères (%) |
Notes |
||
|
Inadéquat (%) |
Adéquat (%) |
Plus qu'adéquat (%) |
||
| Décrire les méthodologies et les conceptions appliquées |
56 |
46 |
32 |
21 |
| Éléments de description |
s.o. |
s.o. |
s.o. |
|
| Taille de l'échantillon |
68 |
|||
| Méthode d'échantillonnage |
45 |
|||
| Liens entre les méthodes et les éléments |
30 |
|||
| Référence à des documents techniques |
27 |
|||
| Instruments |
26 |
|||
| Conception convenable |
72 |
13 |
45 |
42 |
| Source : Examen des évaluations de la fonction publique fédérale (n=115). Seuls les rapports qui respectaient les critères ont été notés (n=64 à 106). « s.o. » signifie qu'il n'y a pas eu de note selon un critère. * Décrire ou énumérer les éléments. | ||||
Sources de données multiples
Parmi les forces des évaluations de la fonction publique fédérale, pratiquement toutes les études (97 %) contenaient des sources multiples de
données pour appuyer les constatations (Tableau 5). Nous avons déterminé que presque les deux tiers des rapports présentaient un équilibre adéquat entre les méthodologies qualitatives et
quantitatives, tandis que 14 % présentaient un équilibre inadéquat (nous avons déterminé qu'environ les deux tiers de ces rapports dépendaient trop de méthodes qualitatives) et dans 23 % des cas,
l'examinateur a été incapable de faire une évaluation.
Voici les méthodologies utilisées le plus fréquemment : entrevues avec des répondants clés (94 %), examens de documents (78 %), enquêtes sur échantillon (38 %), examens de dossiers (38 %), analyses documentaires (36 %), études de cas (35 %) et groupes de réflexion (24 %).
L'intégration de données d'un système de mesure continue du rendement n'était pas fréquente : 24 % des rapports indiquaient ces données comme sources de données pour l'évaluation.
Nous avons également déterminé que la majorité des rapports étaient de qualité adéquate (50 %) ou plus qu'adéquate (28 % ) quant à l'inclusion d'une gamme de perspectives d'intéressés. Les évaluations des programmes de la fonction publique fédérale ont le plus souvent examiné la perspective de la gestion du programme et du personnel exécutant (83 %); les clients et les bénéficiaires (58 %); les partenaires (39 %); les bénéficiaires de financement (36 %); et les tiers exécutants (24 %). Des experts ont également été consultés dans 20 % des évaluations; cette pratique était plus courante après avril 2002 qu'avant (24 % contre 11 %).
Seulement 26 % des rapports contenaient toutefois des données qualitatives obtenues de répondants clés qui n'avaient pas un intérêt dans le programme. Cette caractéristique méthodologique désirable était plus courante dans les évaluations faites après avril 2002 qu'avant (31 % contre 16 %) et dans les évaluations des petites et des moyennes organisations (39 % et 33 % respectivement) plutôt que dans celles des grandes organisations (13 %).
| TABLEAU 5 : Sources de données multiples - Critères et Notes | ||||
| Critères |
Respect des critères (%) |
Notes |
||
|
Inadéquat (%) |
Adéquat (%) |
Plus qu'adéquat (%) |
||
| Inclure des sources de données multiples |
97 |
s.o. |
s.o. |
s.o. |
| Utiliser des données de surveillance continue du rendement |
24 |
s.o. |
s.o. |
s.o. |
| Équilibrer convenablement l'aspect qualitatif et l'aspect quantitatif |
64 |
s.o. |
s.o. |
s.o. |
| Inclure toutes les perspectives des intéressés* |
s.o. |
23 |
50 |
28 |
| Inclure les perspectives des non intéressés |
26 |
s.o. |
s.o. |
s.o. |
| Source : Examen des évaluations des programmes de la fonction publique fédérale (n=115) « s.o. » signifie qu'il n'y a pas eu de note selon un critère. *Seuls les rapports pour lesquels ce critère pouvait être évalué ont été notés (n=97). | ||||
Limites
Quatre évaluations sur dix (39 %) des rapports d'évaluation de la fonction publique fédérale incluaient une discussion des limites des méthodologies et des sources
de données utilisées (biais, fiabilité des données). Une proportion semblable de rapports (44 %) indiquaient les contraintes de l'évaluation, la disponibilité des données et le temps (34 % et 19 %
respectivement) étant les contraintes mentionnées le plus souvent.
Rigueur
En ce qui a trait à la rigueur, peu d'évaluations des programmes de la fonction publique fédérale employaient la conception expérimentale traditionnelle ou quasi
expérimentale. Si 44 % des évaluations incluaient un sondage représentatif des participants, seulement 13 % incluaient un groupe de comparaison et 14 % comparaient les données d'évaluation à une
mesure de référence. Une proportion un peu plus grande des rapports (22 %) incluait toutefois des données comparatives de la documentation ou un autre point de référence.
On note la tendance des évaluations des moyennes organisations à être un peu moins rigoureuses que celles des grandes ou des petites organisations. Par exemple, un sondage représentatif des participants et un groupe de comparaison étaient moins courants dans les évaluations des moyennes organisations (31 % et six pour cent respectivement) que dans celles des petites organisations (67 % et 22 %) ou dans celles des grandes organisations (50 % et 17 %).
D) Constatations clés
Pertinence
Juste un peu plus de la moitié des rapports d'évaluation (57 %) présentaient des données démontrant le besoin réel du programme en question et la réceptivité du
programme à ce besoin (Tableau 6). Nous avons déterminé que la présentation de ces constatations était adéquate ou mieux pour 85 % des rapports examinés. La présentation de données sur ces deux
éléments était moins courante dans les rapports des grandes organisations (46 % et 48 % respectivement) que dans ceux des moyennes organisations (61 % et 59 %) ou ceux des petites organisations (78 %
pour les deux éléments). De plus, la qualité des données sur le second élément (réceptivité au besoin) était notée différemment selon la taille de l'organisation. Les rapports des petites et des
grandes organisations étaient plus susceptibles d'être notés plus qu'adéquats à cet égard (47 % et 41 % respectivement) que les rapports des moyennes organisations (19 %). Notons également que ces
éléments n'étaient simplement pas traités dans environ le tiers des évaluations.
| TABLEAU 6 : Constatations de la pertinence - Critères et Notes | ||||
| Critères |
Respect des critères (%) |
Notes |
||
|
Inadéquat (%) |
Adéquat (%) |
Plus qu'adéquat (%) |
||
| Des données pour démontrer le besoin réel |
57 |
15 |
45 |
40 |
| Des données pour démontrer la réceptivité au besoin |
57 |
13 |
54 |
32 |
| Des données pour démontrer la pertinence continue par rapport aux priorités du gouvernement |
58 |
12 |
47 |
41 |
| Des données pour démontrer qu'il n'y a pas de double emploi |
34 |
18 |
54 |
28 |
| Source : Examen des évaluations des programmes de la fonction publique fédérale (n=115). Seuls les rapports qui respectaient les critères ont été notés (n=39 à 68). | ||||
De même, 58 % des rapports incluaient des données sur la pertinence continue du programme par rapport aux priorités du gouvernement et nous avons déterminé que la présentation de ces constatations était adéquate (47 %) ou plus qu'adéquate (41 %) pour la plupart des rapports. À nouveau, toutefois, la présentation de données sur cet élément de pertinence était moins courante dans les rapports des grandes organisations (48 %) que dans ceux des moyennes ou des petites organisations (environ les deux tiers dans chaque cas). Nous avons déterminé que moins de rapports des grandes organisations étaient plus qu'adéquats à cet égard (30 %) que ceux des petites ou des moyennes organisations (50 % et 46 % respectivement). Nous avons également déterminé que moins de rapports présentés avant avril 2002 étaient plus qu'adéquats que dans le cas des rapports présentés après cette date (32 % contre 46 %). Cet élément n'a pas été traité du tout dans 35 % des évaluations.
Concernant l'élément qui consiste à déterminer si le programme fait double emploi ou est en contraste avec d'autres programmes ou d'autres initiatives, seulement 34 % des évaluations présentaient des données et un groupe de 54 % n'a même pas traité cet élément. Pour les évaluations qui ont présenté certaines données, les notes étaient légèrement inférieures à celles des autres éléments de la pertinence : nous avons déterminé que 82 % des rapports étaient adéquats ou mieux, mais que 18 % étaient inadéquats à cet égard.
Réussite
La grande majorité des évaluations (87 %) a présenté des constatations démontrant si le programme, la politique ou l'initiative en question produisait ou non des
résultats appuyant sa poursuite ou son renouvellement (Tableau 7). Seulement quatre pour cent des évaluations n'ont pas présenté ces constatations relatives à la réussite, et les éléments de réussite
n'étaient pas traités dans le dernier groupe de neuf pour cent des évaluations. La proportion d'évaluations qui ont présenté des constatations relatives à la réussite était relativement plus élevée
pour les petites organisations (100 %) que pour les moyennes et les grandes organisations (84 % et 85 % respectivement).
| TABLEAU 7 : Constatations de la réussite - Critères et Notes | ||||
| Critères |
Respect des critères (%) |
Notes |
||
|
Inadéquat (%) |
Adéquat (%) |
Plus qu'adéquat (%) |
||
| Décrire les résultats du programme et l'attribution du programme par rapport à la réussite |
87 |
26 |
37 |
37 |
| Déterminer d'autres programmes, politiques et initiatives qui ont des liens, des résultats partagés |
37 |
s.o. |
s.o. |
s.o. |
| Prendre ce qui précède en considération dans l'attribution |
19 |
s.o. |
s.o. |
s.o. |
| Examiner d'autres facteurs qui contribuent aux résultats |
61 |
14 |
50 |
36 |
| Examiner les résultats fortuits |
25 |
14 |
60 |
21 |
| Traiter l'incrémentalité |
26 |
26 |
48 |
27 |
| Source : Examen des évaluations des programmes de la fonction publique fédérale (n=115). Seuls les rapports qui respectaient les critères ont été notés (n=29 à 100). « s.o. » signifie qu'il n'y a pas eu de note selon un critère. | ||||
Nous avons déterminé qu'environ le tiers (37 %) des évaluations avaient décrit les résultats plus qu'adéquatement, une proportion semblable (37 %) adéquatement et 26 % inadéquatement. La proportion indiquant que la présentation des constatations était inadéquate était considérablement inférieure pour les grandes organisations (18 %) par rapport aux petites et aux moyennes organisations (28 % et 33 % respectivement); et pour les évaluations produites après avril 2002 que pour les évaluations produites avant (19 % contre 39 %).
Un peu plus du tiers des évaluations (37 %) identifiaient d'autres programmes, politiques ou initiatives susceptibles de présenter des similarités, des rapports, des résultats partagés, ou des effets inter-programmes prévus, ou tout cela. Environ la moitié des évaluations (51 %) ne l'a pas fait. La proportion d'évaluations qui n'identifiaient pas d'autres programmes était considérablement plus élevée pour les organismes (62 %) que pour les ministères (49 %).
Environ le cinquième des évaluations (19 %) a pris d'autres programmes ou d'autres initiatives en considération dans la mesure de la réussite (attribution). Trois évaluations sur cinq (58 %) ne l'ont pas fait. La proportion des évaluations qui prennent d'autres programmes en considération augmente avec la taille de l'organisation, de 6 % pour les petites organisations, de 18 % pour les moyennes organisations et de 24 % pour les grandes organisations.
Trois évaluations sur cinq (61 %) examinaient d'autres facteurs qui contribuent aux résultats, tandis qu'environ le tiers des évaluations (31 %) ne l'a pas fait. Les petites organisations (72 %) étaient plus susceptibles de considérer d'autres facteurs contributifs que les organisations des autres tranches de taille (59 % pour les moyennes et les grandes organisations). De plus, les organismes étaient considérablement plus susceptibles de considérer d'autres facteurs que les ministères (75 % contre 57 %). Des proportions semblables identifiaient des facteurs internes et des facteurs externes.
Nous avons déterminé qu'environ le tiers (36 %) des évaluations avait considéré d'autres facteurs plus qu'adéquatement et que 50 % l'avaient fait adéquatement. Nous avons déterminé que seulement 14 % des évaluations avaient considéré les facteurs contributifs moins qu'adéquatement. La proportion des évaluations plus qu'adéquates était considérablement plus élevée pour les moyennes organisations (45 %) que pour les petites et les grandes organisations (31 % et 29 %).
Le quart des évaluations (25 %) ont considéré les résultats fortuits et environ les deux tiers (63 %) ne l'ont pas fait. Aucune différence importante n'a émergé des caractéristiques considérées. Parmi les évaluations qui mesuraient les résultats fortuits, environ la moitié a considéré les résultats positifs et environ la moitié a considéré les résultats négatifs.
Nous avons déterminé qu'environ les deux tiers des évaluations (66 %) examinaient adéquatement les résultats fortuits et que le cinquième (21 %) les examinait plus qu'adéquatement. Il y avait trop peu d'observations pour considérer les différences des résultats selon la taille et le type d'organisation et le moment choisi pour l'évaluation.
Le quart des évaluations (26 %) a considéré les résultats par incrémentalité tandis que presque les deux tiers (64 %) ne l'ont pas fait. La mesure de l'incrémentalité était considérablement plus élevée pour les organismes que pour les ministères (38 % contre 23 %) et pour les évaluations faites après avril 2002 que pour les évaluations faites avant (30 % contre 17 %). Parmi les évaluations qui ont évalué l'incrémentalité, 72 % ont examiné l'élément subjectivement et 28 % l'ont fait objectivement. Nous avons déterminé que l'incrémentalité était traitée adéquatement dans 53 % des rapports et plus qu'adéquatement dans 27 % des rapports. Il y avait trop peu d'observations pour considérer les différences dans les résultats selon la taille et le type d'organisation ou selon le moment choisi pour l'évaluation.
Rentabilité
Environ le quart des évaluations (26 %) examinait des démarches de remplacement qui pourraient produire des façons plus rentables de réaliser les résultats. Une
proportion de 16 % des évaluations ne l'a pas fait et 58 % des évaluations n'ont pas traité la rentabilité. La proportion des évaluations qui a traité des démarches de remplacement baisse fortement
selon la taille de l'organisation, dans une proportion de 50 % pour les petites organisations et dans une proportion de 13 % pour les grandes organisations. De plus, cette proportion est beaucoup
plus importante pour les évaluations faites après avril 2002 que pour les évaluations faites avant (31 % contre 16 %) et un peu plus importante pour les organismes que pour les ministères (38 %
contre 23 %).
Parmi les évaluations qui ont considéré des démarches de remplacement rentables, nous avons jugé que 42 % les avaient évaluées adéquatement et que 29 % l'avaient fait plus qu'adéquatement. Encore une fois, il y avait trop peu d'observations pour considérer les différences dans les résultats selon la taille et le type d'organisation ou selon le moment choisi pour l'évaluation.
Parmi les évaluations qui ont considéré la rentabilité, environ deux fois plus d'évaluations l'ont considéré qualitativement que quantitativement. Ce ratio n'a pas varié beaucoup dans les caractéristiques en question, sauf qu'il était légèrement inférieur dans les grandes organisations. Nous avons déterminé qu'environ la moitié (49 %) des évaluations qualitatives ou quantitatives de la rentabilité des évaluations avait été exécutée adéquatement et que le quart (23 %) l'avait été plus qu'adéquatement. Nous avons déterminé cependant que 28 % de ces évaluations étaient inadéquates. Il y avait trop peu d'observations pour nous permettre d'observer à quel point la rentabilité a été traitée dans les caractéristiques des organisations.
Exécution et mise en Guvre
La plupart des évaluations (81 %) ont présenté des constatations relatives à la pertinence du modèle d'exécution, ou des pratiques de gestion, ou
tout cela, pour contribuer aux objectifs du programme. Plus précisément, environ les deux tiers des évaluations (64 %) ont évalué le modèle d'exécution et 50 % ont examiné les pratiques de gestion.
Une évaluation de ce dernier élément était plus courante dans les rapports des moyennes et des grandes organisations (55 % et 52 % respectivement) que dans les rapports des petites organisations (33
%). La présentation de ces constatations relatives à l'exécution et à la mise en oeuvre a obtenu une note élevée : nous avons déterminé que 50 % des évaluations étaient adéquates et que 39 % étaient
plus qu'adéquates. Les évaluations plus qu'adéquates étaient beaucoup plus nombreuses pour les grandes que pour les petites organisations (43 % contre 29 %).
En outre, la plupart des évaluations (76 %) présentaient des données relatives au besoin d'améliorer les structures de programme ou les ententes d'exécution. Dans le cas de 14 % des évaluations examinées, les éléments d'exécution et de mise en Guvre n'ont pas été traités.
Autres aspects des constatations et de l'analyse
Dans la plupart des évaluations examinées, les éléments et les questions d'évaluation ont été traités adéquatement (47 %) ou
plus qu'adéquatement (31 %), quoique 23 % des évaluations aient été inadéquates selon ce critère (Voir Tableau 8). De plus, en ce qui a trait à la présentation de constatations fondées sur des
données qui découlent logiquement de données et d'analyses, la majorité des évaluations ont été jugées adéquates ou mieux (46 % et 33 % respectivement), même si environ le cinquième (21 %) ont été
jugées inadéquates. Les rapports des petites organisations étaient plus susceptibles d'être jugés plus qu'adéquats à cet égard (44 %) que ceux des grandes ou des moyennes organisations (36 % et 26 %
respectivement). De plus, les évaluations faites après avril 2002 étaient un peu plus susceptibles d'être plus qu'adéquates selon ce critère que celles faites avant (37 % contre 24 %).
En ce qui a trait à la pertinence de l'analyse (c'est-à-dire la mesure dans laquelle l'analyse est appuyée par les données selon les tests de signification, les taux de réponse, etc.), les notes étaient relativement peu élevées. Premièrement, nous avons été incapables de faire cette évaluation pour 50 % des rapports d'évaluation, ce qui laisse croire que les renseignements clés relatifs à l'analyse ne sont pas inclus dans les rapports d'évaluation. Deuxièmement, parmi les rapports que nous avons évalués, environ les deux tiers étaient adéquats ou mieux (47 % et 21 % respectivement), mais 32 % étaient quand même inadéquats selon ce critère clé. Les raisons qui nous ont incités à considérer que l'analyse était inadéquate étaient notamment les suivantes : ne pas attribuer les constatations à des groupes distincts spécifiques qui avaient été consultés; ne pas indiquer la magnitude d'une constatation (par exemple, la proportion générale des intéressés qui pouvaient avoir une certaine opinion); trop se fonder sur l'analyse qualitative et anecdotique; et présenter des données d'échantillons de très petites tailles sans les accompagner des mises en garde qui s'imposent. Sur une note plus encourageante, nous avons déterminé qu'un moins grand nombre des évaluations faites après avril 2002 étaient inadéquates que dans le cas des évaluations faites avant (26 % contre 41 %), ce qui dénote une certaine amélioration. Les évaluations inadéquates étaient plus fréquentes pour les organismes (55 %) que pour les ministères (26 %).
| Tableau 8 : Autres aspects des constatations et de l'analyse - Notes | |||
| Critères |
Inadéquat (%) |
Adéquat (%) |
Plus qu'adéquat (%) |
| Les éléments et les questions d'évaluation sont traités adéquatement |
23 |
47 |
31 |
| Les constatations sont fondées sur les données et découlent logiquement de l'interprétation des données et de l'analyse |
21 |
46 |
33 |
| L'analyse est convenable |
32 |
47 |
21 |
| Source : Examen des évaluations des programmes de la fonction publique fédérale (n=57 à 115) | |||
E) Conclusions clés
La plupart des évaluations présentaient des conclusions sur la pertinence (57 %) et la réussite (80 %) du programme ou de l'initiative en question, mais seulement 29 % ont tiré des
conclusions sur la rentabilité. Il faut noter que moins d'évaluations des grandes organisations ont présenté des conclusions sur la pertinence ou la réussite (41 % et 70 % respectivement) que dans le
cas des évaluations des petites organisations (67 % et 89 %) ou des moyennes organisations (67 % et 86 %). Parmi les évaluations qui ont tiré des conclusions sur ces trois éléments, nous avons
déterminé que la plupart étaient adéquates (49 %) ou plus qu'adéquates (27 %) quant à la prestation de conclusions objectives, fondées sur des données, même si nous avons déterminé que 24 % des
évaluations étaient inadéquates selon ce critère (Tableau 9). Nous avons déterminé qu'un nombre un peu plus élevé d'évaluations des grandes organisations étaient inadéquates (31 %) que d'évaluations
des petites ou des moyennes organisations (environ le cinquième dans chacun des cas). Nous avons également déterminé que plus d'évaluations faites après avril 2002 étaient plus qu'adéquates selon ce
critère que les évaluations faites auparavant (30 % contre 20 %), signe d'une certaine amélioration.
| TABLEAU 9 : Conclusions - Critères et Notes | ||||
| Critères |
Respect des critères (%) |
Notes |
||
|
Inadéquat (%) |
Adéquat (%) |
Plus qu'adéquat (%) |
||
| Présenter des conclusions objectives, fondées sur des données, sur la pertinence, la réussite, ou la rentabilité, ou tout cela |
s.o. |
24 |
49 |
27 |
| Présenter des conclusions objectives, fondées sur des données, sur la mise en Guvre et l'exécution, ou sur les pratiques de gestion, ou tout cela |
s.o. |
15 |
52 |
33 |
| Présenter d'autres leçons apprises |
54 |
5 |
54 |
41 |
| Les conclusions sont fondées sur des critères de jugement ou des points de référence explicites |
21 |
s.o. |
s.o. |
s.o. |
| Source : Examen des évaluations des programmes de la fonction publique fédérale (n=115). Seuls les rapports qui respectaient les critères ont été notés (n=56 à 96). « s.o. » signifie qu'il n'y a pas eu de note selon un critère. | ||||
Presque les deux tiers des évaluations ont tiré des conclusions sur la mise en Guvre et l'exécution (64 %), mais moins de la moitié a traité les pratiques de gestion dans les conclusions (44 %). Les conclusions relatives à ce dernier élément étaient moins courantes dans les évaluations des petites organisations (22 %) que dans celles des grandes ou des moyennes organisations (44 % et 53 % respectivement); dans les évaluations des organismes plutôt que dans celles des ministères (33 % contre 47 %); et dans les évaluations faites après avril 2002 que dans celles faites avant (40 % par rapport à 54 %). Les notes que nous avons déterminées pour la prestation de conclusions objectives, fondées sur des données, sur ces deux éléments étaient très fortes : nous avons déterminé que la majorité des évaluations étaient adéquates (52 %) ou plus qu'adéquates (33 %). Les notes élevées, plus qu'adéquates, étaient plus courantes pour les évaluations des grandes organisations (45 %) que pour celles des petites ou des moyennes organisations (environ le quart dans chaque cas) et pour les évaluations faites après avril 2002 (40 %) que pour les évaluations faites avant ce temps (20 %).
Environ la moitié des évaluations (49 %) présentait d'autres leçons apprises au sujet du programme. Dans le cas de ces rapports, les notes étaient très élevées quant à cet aspect. Nous avons déterminé que juste un peu plus de la moitié (54 %) des rapports étaient adéquats et que 41 % étaient plus qu'adéquats. Les notes les plus élevées (c'est-à-dire plus qu'adéquates) étaient plus courantes pour les évaluations faites après avril 2002 que pour celles faites avant (47 % contre 25 %).
Les conclusions de l'évaluation étaient clairement fondées sur des critères de jugement ou des points de référence explicites dans le cas de seulement une minorité (21 %) des évaluations, quoique nous ayons été incapables de faire une évaluation sur ce point pour 34 % des rapports (par exemple à cause du manque d'information). Nous avons observé l'absence de tels critères et de tels points de référence dans le cas de 45 % de l'ensemble des évaluations, et ce défaut était plus courant pour les évaluations faites avant avril 2002 que pour celles faites après (57 % contre 40 %).
F) Recommandations
Les trois quarts des rapports d'évaluation examinés contenaient des recommandations formelles (77 %). Une proportion additionnelle de 13 % des rapports proposait des mesures à
prendre, sans indiquer toutefois qu'il s'agissait de recommandations. Seulement 10 % des rapports ne contenaient pas de recommandations ou de propositions. Les recommandations formelles étaient plus
susceptibles d'apparaître dans les rapports des petites et des moyennes organisations (89 % et 86 % respectivement) que dans ceux des grandes organisations (63 %). Les rapports faits à compter
d'avril 2002 étaient plus susceptibles de contenir des recommandations formelles que ceux faits avant (83 % contre 65 %). Finalement, les rapports produits par les organismes étaient plus
susceptibles de contenir des recommandations formelles que ceux des ministères (88 % contre 75 %).
Parmi les rapports qui contenaient des recommandations (n=99), 26 % indiquaient des scénarios de remplacement et 35 % tenaient compte des contraintes pratiques comme les règlements et les budgets. Si nous avons déterminé que seulement 36 % des rapports étaient détaillés, nous avons également déterminé que les deux tiers étaient opérationnels (67 %) et que juste un peu moins des deux tiers étaient pratiques (61 %). Les recommandations dans les rapports produits à compter d'avril 2002 étaient plus susceptibles d'être opérationnelles et pratiques que celles des rapports antérieurs (72 % contre 57 % et 65 % contre 51 % respectivement). Les recommandations dans les rapports des organismes étaient plus susceptibles d'être opérationnelles que celles dans les rapports des ministères (79 % contre 64 %).
Presque tous les rapports qui contenaient des recommandations (94 %) ont traité des constatations importantes (c'est-à-dire des constatations clés relatives aux grands éléments d'évaluation prioritaires), quoique neuf pour cent aient également traité des constatations qui n'étaient pas importantes. Nous avons déterminé de plus que la grande majorité des recommandations (94 %) découlaient logiquement des constatations et des conclusions de l'évaluation (Tableau 10).
Le quart des rapports qui contenaient des recommandations incluait une recommandation relative au financement global, et dans tous ces cas, la recommandation était d'accroître le financement. De plus, aucun rapport ne présentait de données indiquant qu'un programme n'était pas pertinent ou qu'il n'était pas nécessaire. Tous les rapports qui ont présenté des données sur les éléments de pertinence ont présenté des données indiquant que le programme évalué était pertinent et nécessaire. Il faut toutefois noter que ces constatations étaient parfois accompagnées de recommandations ou de propositions indiquant qu'il était nécessaire de restructurer ou de faire d'autres changements, mais toujours dans le contexte d'un programme encore pertinent et nécessaire.
| TABLEAU 10 : Recommandations - Critères et Notes | ||||
| Critères |
Respect des critères (%) |
Notes |
||
|
Inadéquat (%) |
Adéquat (%) |
Plus qu'adéquat (%) |
||
| Établir les scénarios de remplacement et tenir compte des contraintes pratiques |
s.o. |
35 |
48 |
17 |
| Présenter des recommandations détaillées et opérationnelles (et pratiques) |
s.o. |
20 |
51 |
29 |
| Présenter des recommandations qui traitent les constatations importantes |
94 |
13 |
57 |
30 |
| Présenter des recommandations qui découlent logiquement des constatations et des conclusions |
94 |
15 |
53 |
32 |
| Inclure une recommandation relative au financement global |
25 |
s.o. |
s.o. |
s.o. |
| Source : Examen des évaluations des programmes de la fonction publique fédérale (n=115). Seuls les rapports qui respectaient les critères ont été notés (n=99 à 103). « s.o. » signifie qu'il n'y a pas eu de note selon un critère. | ||||
G) Réponse de la direction et Plan d'action
Juste un peu moins de la moitié des rapports d'évaluation examinés contenait une réponse de la direction (48 %). Les autres rapports (52 %) n'en contenaient pas.
Le tiers des rapports d'évaluation examinés contenait un plan d'action en réponse à l'évaluation (33 %). Les autres rapports (67 %) ne contenaient pas cet élément.
H) Clarté et autres aspects du rapport
Nous avons déterminé que les rapports d'évaluation étaient rédigés en général clairement, que 42 % étaient adéquats et que 44 % étaient plus qu'adéquats (Tableau 11). Notons que nous avons déterminé que 17 % des rapports étaient excellents à ce sujet. Une proportion de 22 % des rapports contenaient un lexique des acronymes pour les rendre plus clairs. Les rapports présentés à compter d'avril 2002 ont obtenu de meilleures notes que ceux qui ont été présentés avant cette date (53 % contre 24 % de rapports plus qu'adéquats).
En ce qui a trait à la présentation de l'information technique, nous avons déterminé que 55 % des rapports contenaient suffisamment mais non excessivement d'information dans le corps du rapport et que les annexes de 38 % des rapports contenaient de l'information technique pertinente et pratique (il faut noter que ces deux aspects ne sont pas mutuellement exclusifs). Nous avons toutefois déterminé que le tiers des rapports (33 %) étaient inadéquats quant à la pertinence de la présentation de l'information technique.
Nous avons déterminé que la grande majorité des rapports qui incluaient des annexes techniques (n=72) était de bonne qualité (69 % étaient adéquats et 18 % étaient plus qu'adéquats).
Une proportion de 43 % des rapports d'évaluation que nous avons examinés comptait entre 25 et 40 pages, une longueur jugée raisonnable aux fins de ces rapports. En ce qui a trait aux autres rapports, 20 % comptaient moins de 25 pages et 37 % en comptaient plus.
| Tableau 11 : Clarté et autres aspects du rapport - Notes | |||
| Critères |
Inadéquat (%) |
Adéquat (%) |
Plus qu'adéquat (%) |
| Rédiger le rapport d'évaluation avec clarté |
15 |
42 |
44 |
| Présenter l'information technique de façon convenable |
30 |
51 |
18 |
| Présenter des annexes techniques de qualité élevée |
13 |
69 |
18 |
| Présenter les données de façon acceptable |
33 |
46 |
21 |
| Utiliser efficacement les tableaux et les graphiques |
25 |
52 |
23 |
| Bien organiser le rapport pour qu'il soit facile à consulter |
19 |
49 |
32 |
| Source : Examen des évaluations des programmes de la fonction publique fédérale (n=72 à 115) | |||
Les rapports avaient tendance à être seulement modérément bien en ce qui a trait à la présentation des données. Nous avons déterminé que le tiers des rapports étaient inadéquats quant à la présentation acceptable des données (33 %) et que 25 % étaient pareillement inadéquats quant à l'utilisation efficace des tableaux et des graphiques. Nous avons déterminé en ce qui a trait à ces deux caractéristiques que juste un peu moins du quart des rapports étaient plus qu'adéquats. Nous avons cependant déterminé que la plus grande partie des rapports étaient adéquats quant à la présentation acceptable des données et à l'utilisation efficace des tableaux et des graphiques (46 % et 52 % respectivement). De plus, malgré les notes modérées qui précèdent, 65 % des rapports présentaient des chiffres et 71 % documentaient les sources de données.
Nous avons finalement déterminé, en ce qui a trait à la bonne organisation des rapports et à la facilité de les consulter, que presque le tiers étaient plus qu'adéquats (33 %) et que presque la moitié étaient adéquats (49 %). Les rapports présentés à compter d'avril 2002 étaient plus susceptibles d'être plus qu'adéquats en ce qui a trait à cette caractéristique que ceux qui ont été présentés avant cette date (39 % contre 16 %).
I) Évaluation globale
À la fin de chaque examen, l'examinateur a noté subjectivement la qualité globale du rapport d'évaluation. Nous avons déterminé que la plupart des rapports d'évaluation étaient adéquats (45 %) ou plus qu'adéquats (32 %), quoique seulement huit pour cent aient été « excellents ». Nous avons déterminé d'autre part que juste un peu moins du quart (23 %) étaient globalement inadéquats.
Il n'y avait pas de modèle clair des différences dans l'évaluation globale par rapport à la taille de l'organisation (par exemple, les rapports des petites organisations étaient à la fois plus susceptibles d'être inadéquats et d'être plus qu'adéquats que ceux des grandes organisations, qui étaient plus susceptibles d'être adéquats que ceux des petites organisations). Les rapports étaient toutefois plus susceptibles d'être inadéquats s'ils avaient été présentés avant avril 2002 (32 %, par rapport à 18 % pour avril 2002 et par la suite) et plus susceptibles d'être plus qu'adéquats s'ils avaient été présentés à compter d'avril 2002 et par la suite (37 % contre 22 % des rapports présentés avant cette date).
3.3 Forces et faiblesses des évaluations de la fonction publique fédérale
A) Forces
Voici les résumés des principales forces des évaluations de la fonction publique fédérale que nous avons déterminées :
B) Faiblesses
Voici les principales faiblesses ou les principaux aspects des évaluations de la fonction publique fédérale incluses dans le présent examen qui ont besoin d'amélioration :
3.4 Variations de la qualité selon les caractéristiques organisationnelles et la date du rapport
A) Taille de l'organisation
Nous avons observé un certain nombre de différences intéressantes selon la taille de l'organisation. Il n'y avait toutefois pas de modèle constant dans les résultats selon la taille de l'organisation. Il n'est pas ressorti que les organisations d'une catégorie de taille particulière ou d'une autre présentaient de façon constante des évaluations de qualité supérieure à celles des organisations des autres catégories de taille. Les grandes différences selon la taille incluaient ce qui suit :
B) Avant et après avril 2002
Nous avons noté des différences clés selon le moment où le rapport a été produit. En général, les évaluations faites après avril 2002 avaient des notes plus élevées que celles faites avant. Voici les résultats détaillés :
C) Organisme par rapport au ministère
Nous avons observé quelques différences entre les évaluations parrainées par les organismes et celles parrainées par les ministères, mais il n'y avait pas de modèle constant dans les résultats. Les différences entre les rapports des organismes et ceux des ministères étaient notamment les suivantes :
4. CONCLUSIONS ET RECOMMANDATIONS
4.1 Conclusions
Dans l'ensemble, la plupart des évaluations que nous avons examinées sont de qualité raisonnable. La majorité a reçu la note
globale adéquate (45 %) ou « plus qu'adéquate » (32 %). Mais une proportion considérable des évaluations (23 %) a reçu la note inadéquate et il s'agit d'une constatation sur laquelle le CEE doit se
pencher. Nous n'avons pas observé de modèles clairs et constants quand nous avons comparé les rapports des organisations de tailles différentes ou les rapports des ministères par rapport à ceux des
organismes. Nous avons toutefois observé une amélioration visible concernant un certain nombre de critères quand nous avons comparé les évaluations faites avant avril 2002 à celles faites après cette
date. Les évaluations plus récentes démontrent une amélioration importante de la qualité, ce qui laisse croire que la Politique d'évaluation d'avril 2001 du SCT a pu avoir un effet favorable.
Comme nous l'avons illustré de façon détaillée dans le chapitre précédent, nous avons déterminé un certain nombre de forces dans les évaluations des programmes de la fonction publique fédérale. Les principales forces incluent : une description complète du programme ou de l'initiative examiné, y compris ses ressources, ses bénéficiaires et ses intéressés; une déclaration claire des objectifs d'évaluation; le recours à des sources multiples de données dans la méthodologie; une bonne présentation des constatations, en particulier, sur les éléments de la pertinence, de l'exécution et de la mise en Guvre; l'inclusion de recommandations formelles ou de propositions d'améliorations, avec des recommandations découlant logiquement des constatations et des conclusions; et des rapports bien rédigés et bien organisés.
D'autre part, notre examen a également révélé un certain nombre de faiblesses des évaluations et des rapports, incluant ce qui suit : négliger de présenter le modèle logique du programme ou ne pas en indiquer la référence; présenter une discussion inadéquate des éléments d'évaluation et ne pas indiquer la référence aux documents sources comme les CGRR ou les Cadres d'évaluation; décrire de façon inadéquate les aspects de la méthodologie et négliger de joindre les instruments de collecte des données ou d'en indiquer la référence; utiliser de façon inadéquate les données de surveillance du rendement et les points de vue des répondants clés indépendants qui n'ont pas un intérêt dans le programme; évaluer de façon inadéquate l'impact différentiel des programmes et ne pas utiliser suffisamment de groupes de comparaison et de mesures de référence dans les conceptions d'évaluation; couvrir superficiellement les éléments de rentabilité.
4.2 Recommandations
Sur la base des constatations du présent examen, voici ce qui est recommandé au CEE :
1) Encourager les divisions des évaluations des ministères et des organismes fédéraux à renforcer leurs rapports d'évaluation en traitant les faiblesses majeures déterminées dans le présent examen :
Améliorer les rapports d'évaluation
Améliorer les rapports d'évaluation
2) Peaufiner les lignes directrices et les critères du Conseil du Trésor concernant les caractéristiques attendues des (1) méthodes d'évaluation et (2) des rapports d'évaluation, et les diffuser.
3) Poursuivre la mise en oeuvre d'une démarche rigoureuse de surveillance de la qualité des évaluations et l'utiliser comme base d'élaboration de fiches de rendement individuelles sur la qualité et la santé globale de la fonction d'évaluation par ministère et par petit organisme.
4) Indiquer des mesures, y compris une structure de stimulants et des normes, afin d'assurer que les ministères et les organismes présentent des évaluations et des examens d'une façon responsable et raisonnable. Le respect de ces normes par les ministères et les organismes devrait être annoncé publiquement.
Gabarit d'examen
Description du rapport d'évaluation
| Numéro du rapport | |
| Ministère | Petit o Moyen o Grand o |
| Organisme | Petit o Moyen/Grand o |
| Taille du Groupe d'évaluation de l'org. | |
| Type de rapport | o Examen |
| o Évaluation formative | |
| o Évaluation sommative | |
| o Étude spéciale (p. ex., recherche) | |
| o Autre : ___________________ | |
| Date du rapport | |
| Examinateur |
Examen de la qualité des évaluations
Gabarit d'examen
(Version finale : 7e ébauche)
Examen de la qualité des évaluations
Gabarit d'examen (26 avril 2004)
|
Éléments/Exigences |
Critères |
Considérations |
Liste de vérification générale |
Liste de vérification détaillée |
Note [8] |
Évaluation qualitative [9] |
Autres observations |
| 1.0 Résumé (Remarque : Évaluation dernière) | |||||||
| 1.1 Présenter une évaluation claire et concise, cohérente à titre de document autonome |
o Oui
o Non |
Médiocre 1 2 Adéquate 3 4 Excellente 5 |
|||||
| 1.2 Présenter les éléments d'évaluation clés et répondre à ces éléments avec de l'information pertinente au moyen d'une analyse solide | Les éléments d'évaluation clés sont résumés |
o Oui - complètement
o Oui - partiellement o Non |
|||||
| Les constatations d'évaluation clés sont résumées |
o Oui - complètement
o Oui - partiellement o Non |
||||||
| Les conclusions d'évaluation clés sont résumées |
o Oui - complètement
o Oui - partiellement o Non |
||||||
| Les recommandations d'évaluation sont présentées |
o Oui - complètement
o Oui - partiellement o Non o s.o. |
||||||
|
Éléments/Exigences |
Critères |
Considérations |
Liste de vérification générale |
Liste de vérification détaillée |
Note |
Évaluation qualitative |
Autres observations |
| 2.0 Introduction et Contexte | |||||||
| 2.1 Description | 2.1.1 Décrire clairement et avec concision le programme, la politique ou l'initiative évalué |
o Oui
o Non |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
||||
| 2.1.2 Décrire les bénéficiaires visés et les intéressés concernés |
o Oui - tous
o Oui - quelques-uns o Non |
o bénéficiaires
o intéressés |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
||||
| 2.1.3 Décrire les liens de cause et d'effet entre les intrants, les activités, les extrants et les résultats, et les facteurs externes contribuant à la réussite ou à l'échec | Présenter un modèle de logique dans le rapport |
o Oui
o Non - mais référence o Non - pas de référence |
|||||
| Décrire les grands rapports de cause et d'effet (p.ex., comme présentés dans le modèle de logique) |
o Oui
o Non |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
|||||
| Décrire les hypothèses sous-jacentes (p.ex., le financement, les partenariats) ou les facteurs externes (comme les influences environnementales) ou tout cela |
o Oui
o Non |
o hypothèses sous-jacentes
o facteurs externes |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
||||
| 2.1.4 Examiner l'attribution des ressources à la politique, au programme ou à l'initiative | Décrire clairement les ressources du programme pour faire comprendre comment les crédits du programme ont été attribués et dépensés |
o Oui
o Non |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
||||
| 2.2 Contexte d'évaluation | 2.2.1 Déterminer le rôle de l'évaluation et son importance/sa signification au moment où elle a été exécutée | Décrire les objectifs de l'évaluation |
o Oui
o Non |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
|||
| Décrire le moment choisi pour l'évaluation |
o Oui
o Non |
||||||
| Décrire la signification de l'évaluation |
o Oui
o Non |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
|||||
| 2.2.2 Décrire les éléments d'évaluation clés et les questions liés au programme, à la politique ou à l'initiative | Décrire les éléments d'évaluation et les questions |
o Oui - les éléments sont examinés
o Oui - les éléments sont seulement énumérés o Non |
o présenter les éléments dans une annexe technique |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
|||
| Déterminer les éléments d'évaluation dans le contexte d'un CGRR ou d'autres documents clés |
o Oui - CGRR
o Oui - autres documents o Non o Impossibilité d'évaluer |
||||||
|
Couverture :
› pertinence › réussite › rentabilité |
o pertinence
o réussite o rentabilité |
||||||
|
Inclure les éléments concernant :
› la mise en Guvre et l'exécution › les pratiques de gestion |
o la mise en Guvre et l'exécution
o les pratiques de gestion |
||||||
|
Éléments/Exigences |
Critères |
Considérations |
Liste de vérification générale |
Liste de vérification détaillée |
Note |
Évaluation qualitative |
Autres observations |
| 3.0 Méthodologie | |||||||
| 3.1 Description de la méthodologie et de la conception | 3.1.1 Décrire les méthodologies logiques, valides, fondées sur des données qui sont liées aux éléments d'évaluation explorés OU inclure une référence claire à un document technique contenant cette information | Décrire les méthodologies et la conception qui s'appliquent à l'évaluation |
o Oui - description
o Oui - seulement l'énumération de quelques détails o Non - pas de référence à des documents techniques o Non - référence à des documents techniques |
o taille de l'échantillon
o Méthode d'échantillonnage o I nstruments o Liens entre les méthodes et les éléments o Référence à des documents techniques |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
||
| Présenter les instruments |
o Oui - tous
o Oui - quelques-uns o Non - pas de référence à des documents techniques o Non - référence à des documents techniques |
||||||
| Utiliser une conception convenable pour les objectifs visés de l'étude (p.ex., rentable, faisable, logique, valide) |
o Oui
o Non o Impossibilité d'évaluer |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
a | ||||
| 3.2 Sources de données multiples | 3.2.1 Inclure des sources multiples de données dans l'évaluation pour appuyer la validité des constatations |
Faire dépendre l'évaluation de plus d'une source de données pour appuyer ses constatations
› qualitative › quantitative › analyse documentaire › examen des documents › examen des dossiers › analyse des données secondaires › examen des bases de données › analyse des données sur le rendement › études de cas › analyse de rentabilité › autre |
o Oui
o Non - non mais elle aurait dû o Non - mais ce n'est pas nécessaire ou convenable pour l'évaluation en question |
o qualitative
o groupe de discussion o entrevues avec des répondants clés o autre ______ o quantitative o recensement o taille de l'échantillon o autre ______ o analyse documentaire o examen des documents o examen des dossiers o analyse des données secondaires o examen des bases de données o analyse des données sur le rendement o études de cas o analyse de rentabilité o autre ______ |
|||
| L'évaluation utilise des données d'un système de surveillance continue du rendement |
o Oui
o Non - données existantes mais non utilisées o Non - pas de données o Sans objet o Impossibilité d'évaluer |
||||||
| 3.2.2 Est-ce que l'équilibre est convenable entre les méthodologies qualitatives et quantitatives? |
o Oui
o Non o s.o. |
a | |||||
| 3.2.3 Inclure les perspectives de tous les intéressés |
› Clients/bénéficiaires
› gestion et exécution du programme (fonction publique fédérale › tiers exécutants › partenaires › experts › bénéficiaires de financement › non-bénéficiaires › autre ______ |
o Impossibilité d'évaluer |
o clients/ bénéficiaires
o gestion et exécution du programme (fonction publique fédérale) o tiers exécutants o partenaires o experts o bénéficiaires de financement o non-bénéficiaires o autre ______ |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
|||
| Obtention de données qualitatives de répondants clés qui n'ont pas un intérêt dans le programme |
o Oui
o Non o Impossibilité d'évaluer |
||||||
| 3.4 Limites | 3.4.1 Formuler clairement les limites et les compromis des méthodologies, des sources de données et des données utilisées dans l'évaluation | Description des limites : détermination et explication des biais réels et possibles et la fiabilité des données du point de vue de leur incidence sur les constatations présentées |
o Oui
o Non o Pas de limites apparentes |
o description des biais
o explication de la qualité des données |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
||
| Les contraintes de l'évaluation sont présentées clairement |
o Oui
o Non o Pas de contraintes apparentes |
o budget
o temps o disponibilité des données o autre _______ |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
||||
| 3.5 Rigueur | 3.5.1 Existence d'un « point » de comparaison |
Enquête auprès d'un groupe représentatif de participants |
o Oui
o Non |
||||
| Groupe de comparaison |
o Oui
o Non |
||||||
| Comparaison avec des mesures de référence |
o Oui
o Non |
||||||
| Comparaison avec des normes, de la documentation, d'autres points de repère |
o Oui
o Non |
||||||
|
Éléments/Exigences |
Critères |
Considérations |
Liste de vérification générale |
Liste de vérification détaillée |
Note |
Évaluation qualitative |
Autres observations |
| 4.0 Constatations clés | |||||||
| 4.1 Pertinence | 4.1.1 Présenter des constatations concernant l'établissement de la pertinence continue et de la contribution à la réalisation des résultats en liant les résultats aux besoins sociétaux et aux priorités du gouvernement | Des données pour démontrer le besoin réel |
o Oui
o Non o Non traité |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
|||
| Des données pour démontrer la réceptivité au besoin |
o Oui
o Non o Non traité |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
|||||
| Des données pour démontrer la pertinence continue par rapport aux priorités du gouvernement |
o Yes
o No o Non traité |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
|||||
| Des données pour démontrer que le programme ne fait pas double emploi ou ne contraste pas avec d'autres programmes, politiques ou initiatives |
o Oui
o Non o Non traité |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
|||||
| 4.2 Réussite | 4.2.1 Présenter des constatations qui démontrent si le programme, la politique ou l'initiative en question produit ou non des résultats qui appuient sa poursuite ou son renouvellement | Décrire clairement ce qui s'est produit comme résultat du programme et formuler la contribution du programme, de la politique ou de l'initiative à la réussite |
o Oui
o Non o S.O. - les éléments de réussite ne sont pas traités |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
|||
| 4.2.2 Déterminer d'autres programmes, politiques ou initiatives susceptibles de présenter des similarités, des rapports, des résultats partagés, ou des effets inter-programmes prévus, ou tout cela. | Déterminer d'autres programmes, politiques ou initiatives |
o Oui
o Non o S.O. - les éléments de réussite ne sont pas traités |
|||||
| Prendre ce qui précède en considération dans l'attribution |
o Oui
o Non o S.O. - les éléments de réussite ne sont pas traités |
||||||
| 4.2.3 Examiner d'autres facteurs qui contribuent aux résultats (p.ex. concernant le financement ou le partenariat, les facteurs externes) |
o Oui
o Non o S.O. - les éléments de réussite ne sont pas traités |
o Facteurs internes du programme
o Facteurs externes |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
||||
| 4.2.4 Examiner s'il s'est produit des résultats fortuits qui ont contribué à la réussite ou qui ont présenté des contraintes spécifiques |
o Oui
o Non o S.O. - les éléments de réussite ne sont pas traités |
o Résultats positifs
o Résultats négatifs |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
||||
| 4.2.5 L'incrémentalité est traitée |
o Oui
o Non o S.O. - les éléments de réussite ne sont pas traités |
o Subjectivement
o Objectivement |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
||||
| 4.3 Rentabilité | 4.3.1 Déterminer la mesure dans laquelle le programme, la politique ou l'initiative aurait pu être exécuté avec des méthodes plus convenables et rentables pour réaliser ses objectifs | Examiner des démarches de remplacement qui pourraient produire des façons plus rentables d'obtenir les résultats |
o Oui
o Non o N/A - S.O. - les éléments de rentabilité ne sont pas traités |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
|||
|
Présenter :
› une évaluation qualitative de la rentabilité › une évaluation quantitative de la rentabilité |
o Yes
o No o S.O. - les éléments de rentabilité ne sont pas traités |
o Évaluation qualitative
o Évaluation quantitative Médiocre |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
||||
| 4.4 Exécution et mise en oeuvre | 4.4.1 Présenter des constatations relatives à la détermination de l'efficacité et de la pertinence du champ des structures du programme et des ententes de prestation du service pour le programme, la politique ou l'initiative |
Évaluer le modèle d'exécution, sa pertinence et sa contribution à la réalisation des objectifs
› pratiques de gestion |
o Oui
o Non o S.O. |
o Modèle d'exécution
o Pratiques de gestion |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
||
| Présenter des données permettant de déterminer s'il y a lieu d'améliorer les structures ou les ententes d'exécution du programme |
o Oui
o Non o S.O. |
||||||
| 4.5 Éléments d'évaluation | 4.5.1 Traiter convenablement les éléments et les questions d'évaluation |
Médiocre 1 2 Adéquate 3 4 Excellente 5 |
|||||
| 4.6 Constatations fondées sur des données | 4.6.1 Présenter des constatations fondées sur des données extraites de l'étude d'évaluation | Démontrer que les constatations découlent logiquement de l'interprétation des données et des analyses |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
||||
| 4.7 Analyse | 4.7.1 L'analyse est convenable | Les données soutiennent l'analyse (selon, par exemple, les tests de signification et les taux de réponse) | o Impossibilité d'évaluer |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
|||
|
Éléments/Exigences |
Critères |
Considérations |
Liste de vérification générale |
Liste de vérification détaillée |
Note |
Évaluation qualitative |
Autres observations |
| 5.0 Conclusions clés | |||||||
| 5.1 Présenter des conclusions claires, impartiales et exactes fondées sur des données | Les conclusions répondent objectivement aux éléments d'évaluation et sont appuyées par les constatations |
o pertinence
o réussite o rentabilité |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
||||
|
o la mise en Guvre et l'exécution
o pratiques de gestion |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
||||||
| Présenter d'autres leçons apprises au sujet du programme à la lumière de l'évaluation |
o Oui
o Non o Impossibilité d'évaluer |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
|||||
| Les conclusions sont fondées sur des critères de jugement ou des points de repère explicites |
o Oui
o Non o Impossibilité d'évaluer |
o pas de critères présentés | |||||
| 6.0 Recommandations | |||||||
| 6.1 Présenter de façon claire des recommandations pratiques qui peuvent être réalisées | Établir les scénarios de remplacement et tenir compte des contraintes pratiques (p.ex., les règles, les établissements et le budget) |
o Oui - recommandations formelles
o Oui - des propositions qui ne sont pas appelées des o Non |
o scénarios de remplacement
o contraintes pratiques |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
|||
| Présenter des recommandations détaillées et opérationnelles (et pratiques) |
o détaillées
o opérationnelles o pratiques |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
|||||
| 6.2 Présenter des recommandations qui découlent logiquement des constatations et des conclusions et sur lesquelles elles sont appuyées | Présenter des recommandations qui traitent les constatations importantes |
o Oui
o Non |
o traiter aussi les recomman- dations moins importantes |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
|||
| Présenter des recommandations qui découlent logiquement des constatations et des conclusions |
o Oui
o Non |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
|||||
| 6.3 Inclure une recommandation relative au financement global |
o Oui
o Non |
o augmenter le financement
o diminuer le financement |
|||||
| 7.0 Réponse de la direction |
o Oui
o Non |
||||||
| 8.0 Plan d'action |
o Oui
o Non |
||||||
|
Éléments/Exigences |
Critères |
Considérations |
Liste de vérification générale |
Liste de vérification détaillée |
Note |
Évaluation qualitative |
Autres observations |
| 9.0 Aspects généraux/Autre | |||||||
| 9.1 Clarté | 9.1.1 Le rapport est rédigé en clair et les annexes techniques fournissent de l'information technique détaillée | Rédiger le rapport d'évaluation avec clarté | o lexique des acronymes |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
|||
| Présenter l'information technique de façon convenable |
o suffisamment d'information technique dans le corps du rapport mais non exces- sivement
o information technique pertinente et pratique dans les annexes |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
|||||
| 9.2 Autres aspects du rapport | 9.2.1 Le corps du rapport est d'une longueur raisonnable (25 à 40 pages) |
o Oui
o Non |
o moins de 25 pages
o 25 à 40 pages o plus de 40 pages |
||||
| 9.2.2 Les annexes techniques sont déterminées clairement, comme les endroits où elles se trouvent |
o Oui - clairement
o Oui - mais pas assez clairement o Non |
||||||
| 9.2.3 Présenter des annexes techniques de qualité élevée |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
||||||
| 9.2.4 Présenter les données de façon acceptable |
Présenter les chiffres
Documenter les sources |
o présentation des chiffres
o documentation des sources |
Médiocre 1 2 Adéquate 3 4 Excellente 5 |
||||
| 9.2.5 Utiliser efficacement les tableaux et les graphiques |
Bonne présentation
Facile à lire Acceptable |
o Pas de tableaux
o Pas de graphiques o Les tableaux ou les graphiques ne sont pas nécessaires ou convenables pour le rapport |
o tableaux efficaces
o graphiques efficaces |
Médiocre 1 2 Adéquate 3 4 Excellente 5 s.o. 9 |
|||
| 9.2.6 Bien organiser le rapport pour qu'il soit facile à consulter |
Médiocre 1 2 Adéquate 3 4 Excellente 5 |
||||||
| 9.2.7 L'examen est entravé par le degré d'interdiction en vertu de la Loi sur l'accès à l'information |
o Oui - grandement
o Oui - légèrement o Non |
||||||
| 10. Évaluation globale | |||||||
| 10.1 Évaluation globale |
Médiocre 1 2 Adéquate 3 4 Excellente 5 |
||||||
Répartition des rapports examinés par ministère et organisme
| Ministère et organisme |
Nombre de rapports |
| Affaires étrangères et Commerce international |
3 |
| Affaires indiennes et du Nord Canada |
10 |
| Agence canadienne de développement international |
4 |
| Agence de développement économique du Canada pour les régions du Québec |
3 |
| Agence des douanes et du revenu du Canada |
2 |
| Agence de promotion économique du Canada atlantique |
1 |
| Agence spatiale canadienne |
1 |
| Agriculture et Agroalimentaire Canada |
3 |
| Anciens Combattants Canada |
2 |
| Bureau de la protection des infrastructures essentielles et de la protection civile |
1 |
| Centre canadien de gestion |
1 |
| Centre canadien d'hygiène et de sécurité au travail |
1 |
| Citoyenneté et Immigration Canada |
1 |
| Commission de la fonction publique |
1 |
| Commission nationale des libérations conditionnelles |
1 |
| Communications Canada/Bureau d'information du Canada |
3 |
| Condition féminine Canada |
1 |
| Conseil national de recherches du Canada |
5 |
| Conseil de recherches en sciences naturelles et en génie |
1 |
| Défense nationale |
2 |
| Défense nationale/Anciens Combattants Canada |
1 |
| Développement des ressources humaines Canada |
5 |
| Finances Canada |
1 |
| Gendarmerie royale du Canada |
1 |
| Industrie Canada |
12 |
| Instituts de recherche en santé du Canada |
2 |
| Justice Canada |
4 |
| Ministère de la Diversification de l'économie de l'Ouest |
5 |
| Patrimoine canadien |
11 |
| Pêches et Océans Canada |
2 |
| Ressources naturelles Canada |
10 |
| Santé Canada |
6 |
| Secrétariat du Conseil du Trésor |
2 |
| Service correctionnel du Canada |
3 |
| Transports Canada |
3 |
| Total |
115 |
[1] Nous avons d'abord voulu utiliser un échantillon stratifié de rapports d'évaluation en fonction de variables clés d'intérêt. Il s'est avéré que l'ensemble de rapports à prendre en considération dans notre examen était constitué seulement des rapports d'évaluation qui ont été présentés au SCT. Même si les ministères sont tenus de présenter tous les rapports d'évaluation produits, ils ne semblent pas le faire de manière fiable. Selon l'étude d'évaluation des capacités exécutée par le CEE il y a deux ans, il semble qu'environ 250 évaluations sont effectuées chaque année, ce qui aurait dû donner 500 rapports à examiner. Mais le SCT a reçu seulement 214 rapports achevés au cours des deux dernières années (les années visées par le présent examen). De plus, un grand nombre de dossiers d'évaluation sont en format électronique (liens sur le web et examens par exemple) et ne respectent pas la définition de copie complète sur papier d'une évaluation disponible aux fins d'examen. Étant donné que l'échantillon ne comprend pas l'ensemble des rapports, il est difficile d'évaluer dans quelle mesure le lot des rapports examinés est biaisé ou non. La distribution des rapports examinés par ministère et par organisme se trouve à l'Annexe B.
[2] Secrétariat du Conseil du Trésor du Canada (septembre 2003). Politique d'évaluation : Cadre de gestion et de responsabilisation axé sur les résultats (CGRR).
[3] Politique d'évaluation : Cadre de gestion et de responsabilisation axé sur les résultats (CGRR), opt. cit.
[4] Les rapports de la population et de notre échantillon (n=115) incluaient à la fois les rapports d'évaluation qui étaient obligatoires et ceux qui ne l'étaient pas. Les évaluations obligatoires (c'est-à-dire celles qui ont été faites pour appuyer une demande de renouvellement de financement de programme au Conseil du Trésor) sont axées sur des questions particulières (p.ex. celles qui sont précisées dans le CGRR) et les directives du CT sont donc claires quant à ce que ces rapports devraient traiter. Par contre, le champ des évaluations non obligatoires peut être plus étroit ou plus large, selon leur raison-d'être.
[5] Le petit nombre de rapports de petits organismes fait en sorte que les constatations relatives à cette catégorie doivent être traitées avec précaution.
[6] La plupart des critères évalués dans le présent examen ont été notés sur une échelle de cinq points allant de 1 (« médiocre ») à 5 (« excellent »), la note médiane 3 signifiant « adéquat ». En présentant les constatations dans le présent chapitre, nous avons fait une réduction pour que les notes représentent les trois catégories suivantes : 1-2 (« inadéquat »), 3 (« adéquat ») et 4-5 (« plus qu'adéquat »).
[7] Outre les éléments d'évaluation de base du CT concernant la pertinence continue d'un programme, les résultats, les réussites et la rentabilité, certains rapports d'évaluation couvraient des éléments de la mise en Guvre et de l'exécution du programme (par exemple, la mesure selon laquelle les résultats attendus du programme étaient produits et offerts aux bénéficiaires visés) et les pratiques de gestion (par exemple, la pertinence de la structure de gouvernance du programme, la clarté des rôles de gestion, de responsabilités et de communications).
[8] Une note de 3 indique que le critère est respecté, tandis qu'une note de 1 ou 2 indique que le critère n'est pas respecté convenablement. Une note de 4 ou 5 indique une qualité excellente qui signifie que les considérations minimales de base du critère sont dépassées ou extrêmement bien appliqués.
[9] Évaluation qualitative à faire seulement lorsque P apparaît dans la cellule.