TS.tex 70.1 KB
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 488 489 490 491 492 493 494 495 496 497 498 499 500 501 502 503 504 505 506 507 508 509 510 511 512 513 514 515 516 517 518 519 520 521 522 523 524 525 526 527 528 529 530 531 532 533 534 535 536 537 538 539 540 541 542 543 544 545 546 547 548 549 550 551 552 553 554 555 556 557 558 559 560 561 562 563 564 565 566 567 568 569 570 571 572 573 574 575 576 577 578 579 580 581 582 583 584 585 586 587 588 589 590 591 592 593 594 595 596 597 598 599 600 601 602 603 604 605 606 607 608 609 610 611 612 613 614 615 616 617 618 619 620 621 622 623 624 625 626 627 628 629 630 631 632 633 634 635 636 637 638 639 640 641 642 643 644 645 646 647 648 649 650 651 652 653 654 655 656 657 658 659 660 661 662 663 664 665 666 667 668 669 670 671 672 673 674 675 676 677 678 679 680 681 682 683 684 685 686 687 688 689 690 691 692 693 694 695 696 697 698 699 700 701 702 703 704 705 706 707 708 709 710 711 712 713 714 715 716 717 718 719 720 721 722 723 724 725 726 727 728 729 730 731 732 733 734 735 736 737 738 739 740 741 742 743 744 745 746 747 748 749 750 751 752 753 754 755 756 757 758 759 760 761 762 763 764 765 766 767 768 769 770 771 772 773 774 775 776 777 778 779 780 781 782 783 784 785 786 787 788 789 790 791 792 793 794 795 796 797 798 799 800 801 802 803 804 805 806 807 808 809 810 811 812 813 814 815 816 817 818 819 820 821 822 823 824 825 826 827 828 829 830 831 832 833 834 835 836 837 838 839 840 841 842 843 844 845 846 847 848 849 850 851 852 853 854 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 870 871 872 873 874 875 876 877 878 879 880 881 882 883
\chapter{Système de Recommandation dans AI-VT}

\section{Introduction}

L'un des principaux modules d'un EIAH est le système de recommandation visant à trouver les faiblesses et à réviser la séance d'entraînement proposée initialement par celui-ci. Ce type de module permet donc au système de personnaliser les contenus et les exercices en fonction des besoins et des résultats de chacun des apprenants. Certains auteurs n'hésitent pas à considérer que l'efficacité d'un EIAH dans l'acquisition des connaissances et l'adaptation aux différents types d'apprentissage dépend de ce type de module fondé sur la recommandation \cite{Liu2023}. 

Les systèmes de recommandation dans les environnements d'apprentissage prennent en compte les exigences, les besoins, le profil, les acquis, compétences, les intérêts et l'évolution de l'apprenant pour adapter et recommander des ressources ou des exercices. Dans ces systèmes, l'adaptation peut être de deux types : l'adaptation de la présentation qui montre aux apprenants des ressources d'étude en fonction de leurs faiblesses et/ou l'adaptation du parcours qui change la structure du cours en fonction du niveau et du style d'apprentissage de chaque apprenant \cite{MUANGPRATHUB2020e05227}.

Parmi les algorithmes les plus prometteurs pouvant aider à proposer des recommandations, nous avons identifié l'algorithme d'échantillonnage de Thompson (TS). Il s'agit d'un algorithme probabiliste appartenant à la catégorie des algorithmes d'apprentissage par renforcement. À l'instant $t$, TS choisit l'action $a_t$ d'un ensemble $A$ d'actions possibles, et obtient une récompense pour celle-ci. À $t+1$, une action $a_{t+1}$ est sélectionnée en tenant compte de la récompense précédente. L'objectif consiste à maximiser la récompense. Selon le principe bayésien, cette maximisation itérative est opérée en suivant une distribution de probabilité évoluant à chaque itération. Cette évolution peut être calculée selon la variante de Bernoulli où la récompense n'a que deux valeurs possibles 0 ou 1 (échec ou succès), ou selon une distribution \textit{Beta} définie sur l'intervalle $[0, 1]$ et calculée en fonction de deux valeurs $\alpha$ et $\beta$ \cite{9870279}.

Ce chapitre est divisé en trois parties, la première partie présente un algorithme délivrant des recommandations en fonction des résultats produits par l'apprenant en temps réel. Une partie de cette proposition est publiée dans \cite{Soto2}. Cet algorithme permet l'adaptation automatique en temps réel d'une séance prédéterminée dans l'EIAH AI-VT. Nous considérons qu'elle intervient durant la phase de révision du cycle classique du raisonnement à partir de cas (RàPC). L'algorithme proposé est stochastique et il a été testé selon trois scénarios différents. Les résultats montrent de quelle manière AI-VT peut proposer des recommandations pertinentes selon les faiblesses identifiées de l'apprenant.

La deuxième partie de ce chapitre montre l'intégration de tous les algorithmes présentés dans les chapitres précédents à AI-VT. L'algorithme intégré est appliqué au système AI-VT sur des données générées et des données réelles. Plusieurs types de test sont exécutés pour montrer que l'algorithme final permet en effet d'améliorer les capacités d'identification et d'adaptation. Les performances de ce nouveau algorithme sont comparées à celles d'autres algorithmes. Enfin, l'évolution de l'acquisition des connaissances induites par ces nouveaux algorithmes de recommandation stochastiques est analysée dans cette deuxième partie du présent chapitre.

Pour terminer, dans la troisième partie de ce chapitre, nous présentons une évolution de ce système de recommandation intégrant le processus de Hawkes. L'intérêt de ce dernier réside dans le fait qu'il utilise une courbe d'oubli, nous permettant ainsi de tenir compte du fait que certaines connaissances et certains mécanismes doivent être rappelés aux apprenants. Cette troisième partie intègre une étude des performances du système de recommandation incluant ce processus stochastique de Hawkes.

\section{Système de recommandation stochastique fondé sur l'échantillonnage de Thompson}
\sectionmark{Système de recommandation fondé sur TS}

\subsection{Algorithme Proposé}

L'algorithme proposé, en tant que système de recommandation, prend en compte les notes antérieures des apprenants pour estimer leurs connaissances et leur maîtrise des différentes compétences, sous-compétences et niveaux de complexité au sein du système AI-VT. Puis il adapte les séances pour maximiser l'acquisition des connaissances et la maîtrise des différents domaines contenus dans la même compétence définie. 

La famille de distributions de probabilité Beta est utilisée pour définir dynamiquement le niveau de complexité (équation \ref{eqBeta}) à proposer à l'apprenant. Cet algorithme permet de recommander des niveaux de complexité non contigus et dans lesquels des lacunes ont été détectées. Les paramètres initiaux des distributions de probabilité peuvent forcer le système à recommander des niveaux de complexité contigus (juste inférieur ou supérieur).

\begin{equation}
    Beta(\theta | \alpha, \beta) = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \Gamma(\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}
    \label{eqBeta}
\end{equation}

\begin{table}[!ht]
\centering
\begin{tabular}{ccc}
ID&Description&Domaine\\
\hline
$c_n$&Niveaux de complexité&$\mathbb{N} \; | \; c_n>0$\\
$g_m$&Valeur maximale dans l'échelle des notes& $\mathbb{N} \;|\; g_m>0$ \\
$g_t$&Seuil de notation &$(0, g_m) \in \mathbb{R}$\\
$s$&Nombre de parcours définis&$\mathbb{N} \; | \; s>0$\\
$s_c$&Parcours courant fixe défini&$[1, s] \in \mathbb{N}$\\
$\Delta s$&Pas pour les paramètres de la distribution bêta dans le parcours $s$ &$(0,1) \in \mathbb{R}$\\
$t_m$&Valeur maximale du temps de réponse&$\mathbb{R} \; | \; t_m>0$\\
$g_{c}$&Note de l'apprenant à une question de complexité $c$&$[0, g_m] \in \mathbb{R}$\\
$ng_c$&Grade de l'apprenant avec pénalisation du temps &$[0, g_m] \in \mathbb{R}$\\
$t_{c}$&Le temps de réponse à une question de complexité $c$&$[0, t_m] \in \mathbb{R}$\\
$ncl$&Nouveau niveau de complexité calculé&$\mathbb{N}$\\
$\alpha_{c}$&Valeur de $\alpha$ dans la complexité $c$&$\mathbb{R} \; | \; \alpha_{c}>0$\\
$\beta_{c}$&Valeur de $\beta$ dans la complexité $c$&$\mathbb{R} \; | \; \beta_{c}>0$\\
$\Delta \beta$&Pas initial du paramètre bêta&$\mathbb{N} \; | \; \Delta \beta >0$\\
$\lambda$&Poids de la pénalisation temporelle&$(0,1) \in \mathbb{R}$\\
$G_c$&Ensemble de $d$ notes dans le niveau de complexité $c$&$\mathbb{R}^d \;, d\in \mathbb{N} \; | \; d>0$\\
$x_c$&Notes moyennes normalisées&$[0, 1] \in \mathbb{R}$\\
$n_c$&Nombre total de questions dans une séance&$\mathbb{N} \; | \; n_c>0$\\
$ny_c$&Nombre de questions dans le niveau de complexité $c$&$\mathbb{N} \; | \; 0<ny_c \le n_c$\\
$y_c$&Proportion de questions dans le niveau de complexité $c$&$[0, 1] \in \mathbb{R}$\\
$r$&Valeur totale de la métrique définie pour l'adaptabilité&$[0, c_n] \in \mathbb{R}$\\
$sc$&Valeur totale de la métrique de similarité cosinus&$[-1, 1] \in \mathbb{R}$\\
\end{tabular}
\caption{Variables et paramètres du système de recommandation proposé}
\label{tabPar}
\end{table}

Le tableau \ref{tabPar} présente les variables de l'algorithme de recommandation. Nous avons considéré que les notes $g_c$ obtenues au niveau de complexité $c$ tiennent compte du temps de réponse. C'est la raison pour laquelle, nous avons défini le grade de l'apprenant $ng_c$ au niveau de complexité $c$. Ce grade calculé selon l'équation \ref{eqsGT}, tient compte d'un poids de pénalisation temporelle $\lambda$.

\begin{equation}
	ng_c=g_c- \left(g_c * \lambda * \frac{t_c}{t_m} \right)
	\label{eqsGT}
\end{equation}

Dans cet algorithme, la variable de seuil de grade $g_t$ détermine la variabilité de la distribution de probabilité pour chaque niveau de complexité. Les niveaux de complexité des exercices proposés à l'apprenant sont calculés par récompense inverse selon les équations \ref{eqgtc} et \ref{eqltc}. Chaque niveau de complexité est associé à une distribution de probabilité Beta avec des valeurs initiales $\alpha$ et $\beta$ prédéfinies.

\begin{equation}
ng_c \ge g_t \rightarrow
\begin{cases}
\beta_c=\beta_c+\Delta_s\\
\beta_{c-1}=\beta_{c-1} + \frac{\Delta_s}{2}\\
\alpha_{c+1}=\alpha_{c+1} + \frac{\Delta_s}{2}
\end{cases}
\label{eqgtc}
\end{equation}

\begin{equation}
ng_c < g_t \rightarrow
\begin{cases}
\alpha_c=\alpha_c+\Delta_s\\
\alpha_{c-1}=\alpha_{c-1} + \frac{\Delta_s}{2}\\
\beta_{c+1}=\beta_{c+1} + \frac{\Delta_s}{2}
\end{cases}
\label{eqltc}
\end{equation}

Pour chaque niveau de complexité $c$, $Beta(\alpha_c, \beta_c)$ fournit une distribution de probabilité $\theta_c$ dont nous calculons l'espérance $\mathbb{E}[\theta_c]$. Le nouveau niveau de complexité $ncl$ correspond à l'espérance maximale obtenue.

Le détail des pas d'exécution de l'algorithme proposé sont dans l'algorithme \ref{alg2}.

\begin{algorithm}
\caption{Algorithme de recommandation stochastique}
\begin{algorithmic}
\State Initialisation de la distribution de probabilité
\For {\textbf{each} question $q$}
	\State Soit le niveau de complexité $i$
	\State $ng_i=g_i- \left(g_i * \lambda * \frac{t_i}{t_m} \right)$ \Comment{eq \ref{eqsGT}}
	\State Calculs des paramètres $\alpha_i$ et $\beta_i$ \Comment{eq \ref{eqgtc} et eq \ref{eqltc}}
	\State Choisir $\theta_c$ selon la distribution de probabilité Beta \Comment{$\forall c, \theta_c  = Beta(\alpha_c, \beta_c)$}
	\State $ncl = max(\mathbb{E}[\theta_c]), \forall c$ 
\EndFor
\end{algorithmic}
\label{alg2}
\end{algorithm}

\subsection{Résultats}

Le comportement du module de recommandation a été testé avec des données générées contenant les notes et les temps de réponse de mille apprenants pour cinq niveaux de complexité différents. Ces données sont décrites dans le tableau \ref{tabDataSet}. Les notes des apprenants sont générées selon la loi de probabilité logit-normale considérée comme la plus fidèle dans ce contexte par \cite{Arthurs}.

L'ensemble de données générées résulte d'une simulation des notes obtenues par des apprenants virtuels ayant répondu à quinze questions réparties sur cinq niveaux de complexité. L'ensemble de données simule, via la distribution de probabilité logit-normale, une faiblesse dans chaque niveau de complexité pour 70\% des apprenants sur les dix premières questions. La difficulté de la complexité est quant à elle simulée en réduisant le score moyen et en augmentant la variance. La figure \ref{figData} montre la manière dont sont réparties les notes selon le niveau de complexité.

\begin{figure}
\includegraphics[width=\textwidth]{./Figures/dataset.png}
\caption{Répartition des notes générées selon le niveau de complexité.}
\label{figData} 
\end{figure}

\begin{table}[!ht]
\centering
\begin{tabular}{ccc}
ID&Description&Domaine\\
\hline
$q_{c}$&Niveau de complexité de une question $q$&$[0, c_n] \in \mathbb{N}$\\
$q_{g,c}$&Note obtenue $g$ pour la question $q$ avec complexité $c$ &$[0,g_m] \in \mathbb{R}$\\
$q_{t,c}$&Temps employé $t$ pour une question $q$ avec complexité $c$&$[0, t_m] \in \mathbb{R}$\\
\end{tabular}
\caption{Description des données utilisées pour l'évaluation}
\label{tabDataSet}
\end{table}

Toutes les valeurs des paramètres pour tester l'algorithme sont dans le tableau \ref{tabgm1}.

\begin{table}[!ht]
\centering
\begin{tabular}{c|cccccccccccccc}
ID&$c_n$&$g_m$&$t_m$&$s$&$s_c$&$\lambda$&$g_t$&$\alpha_{x,1}$&$\alpha_{x,y}$&$\beta_{x,1}$&$\Delta \beta_{x,y}$&$\Delta_1$&$\Delta_2$&$\Delta_3$\\
\hline
Valeur&5&10&120&3&2&0.25&6 & 2 & 1 & 1 & 1 & 0.3 & 0.5 & 0.7\\
\end{tabular}
\caption{Valeurs des paramètres pour les scénarios évalués}
\label{tabgm1}
\end{table}

La figure \ref{figCmp2} permet de comparer les résultats obtenus par le module proposé, un système de recommandation déterministe et le système AI-VT initial lors d'un \textit{démarrage à froid} (c'est-à-dire sans données historiques ni informations préalables sur le profil de l'apprenant). Sur les graphiques de cette figure, les numéros des questions posées sont reportées en abscisse selon l'ordre chronologique d'apparition durant la séance d’entraînement, le niveau de complexité de chaque question posée est représenté par une couleur différente, et le nombre d'apprenants ayant eu des questions de ce niveau de complexité sont reportés en ordonnées. Ainsi, le système AI-VT initial (premier graphique de la figure) et le système de recommandation déterministe (deuxième graphique) ont tous deux proposé trois questions de niveau de complexité 0 (le plus faible) à tous les apprenants au démarrage de la séance d'entraînement. Nous pouvons remarquer que le système initial est resté sur ce niveau de complexité durant toute la séance (pour les 15 questions du test), tandis que le système de recommandation déterministe a progressivement mixé les complexités des questions posées. Le système de recommandation stochastique décrit dans ce chapitre a quant à lui mixé ces niveaux de complexité dès la première question.

Ainsi, les systèmes de recommandation permettent de proposer une adaptation progressive du niveau de complexité en fonction des notes obtenues. L'algorithme déterministe génère quatre grandes transitions avec un grand nombre d'apprenants dans les questions 5, 6, 8 et 12, toutes entre des niveaux de complexité contigus. La tendance est à la baisse pour les niveaux 0, 1 et 2 après la huitième question et à la hausse pour les niveaux 1 et 3. L'algorithme stochastique commence par proposer tous les niveaux de complexité possibles tout en privilégiant le niveau 0. Avec ce système, les transitions sont constantes mais pour un petit nombre d'apprenants. La tendance après la dixième question est à la baisse pour les niveaux 0 et 4 et à la hausse pour les niveaux 1, 2 et 3. 

\begin{figure}
\includegraphics[width=\textwidth]{./Figures/comp2.png} 
\caption{Niveaux de complexité des questions posées aux apprenants par les trois systèmes testés lors de la première séance avec un démarrage à froid (sans données initiales sur les apprenants). Gauche - RàPC, centre - recommandation déterministe (DM), droite - moyenne de 100 exécutions de recommandation stochastique (SM)}
\label{figCmp2}
\end{figure}

Après la génération de la première séance, le système peut continuer avec une deuxième liste d'exercices. Pour cette partie des tests, les trois algorithmes ont été initialisés avec les mêmes données, et des valeurs égales pour tous les apprenants. La figure \ref{figCmp3} permet de voir que la première transition du système initial n'intervient qu'entre deux séances. Les transitions sont très lentes, et tous les apprenants doivent suivre un chemin identique même s'ils obtiennent des notes différentes au cours de celle-ci. 

Pour leur part, les deux autres systèmes de recommandation testés proposent un fonctionnement différent. L'algorithme déterministe présente trois transitions aux questions 3, 5 et 12. Les tendances sont y relativement homogènes et progressives pour le niveau 3, très variables pour le niveau 2 et fortement décroissantes pour le niveau 0. L'algorithme stochastique quant à lui, propose des transitions douces mais il a tendance à toujours privilégier le niveau le plus faible. Nous pouvons observer une prépondérance du niveau 1 avec ce système. Ici, les niveaux 0 et 1 sont décroissants, le niveau 2 est statique et les niveaux 3 et 4 sont ascendants.

\begin{figure}
\includegraphics[width=\textwidth]{./Figures/comp3.png} 
\caption{Niveaux de complexité des questions posées aux apprenants par les trois systèmes testés lors de la deuxième séance. Gauche - RàPC, centre - recommandation déterministe (DM), droite - moyenne de 100 exécutions de recommandation stochastique (SM)}
\label{figCmp3}
\end{figure}

Les questions de la première et la deuxième séance étant de niveaux 0 et 1, le système a proposé des niveaux de complexité 1 ou 2 pour la troisième séance. La figure \ref{figCmp4} montre que le système initial est très lent à passer d'un niveau à l'autre. La figure \ref{figCmp3} permet de voir la première transition du système initial ne réagissant qu'aux notes obtenues dans les séances précédentes et non à celles de la séance en cours.  Dans ce cas, l'algorithme de recommandation déterministe adopte la même stratégie et propose un changement brutal à tous les apprenants autour de la cinquième question. L'algorithme stochastique continue avec des changements progressifs tout en privilégiant le niveau 2. 

\begin{figure}
\includegraphics[width=\textwidth]{./Figures/comp4.png} 
\caption{Niveaux de complexité des questions posées aux apprenants par les trois systèmes testés lors de la troisième séance. Gauche - RàPC, centre - recommandation déterministe (DM), droite - moyenne de 100 exécutions de recommandation stochastique (SM)}
\label{figCmp4}
\end{figure}

Pour comparer numériquement le système initial, l'algorithme déterministe et l'algorithme de recommandation proposé, un ensemble d'équations a été défini (équation \ref{eqMetric1} et équation \ref{eqMetric2}). Celles-ci permettent de décrire le système de recommandation idéal si l'objectif de l'apprenant est de suivre un apprentissage standard, c'est à dire le parcours où l'objectif est d'avancer dans l'acquisition de la connaissance et les niveaux de complexité. Une valeur est calculée pour chaque niveau de complexité en fonction de la moyenne des notes et du nombre de questions recommandées dans ce niveau de complexité. L'objectif de cette mesure est d'attribuer un score élevé aux systèmes de recommandation qui proposent plus d'exercices au niveau de complexité où l'apprenant a obtenu une note moyenne plus basse, lui permettant ainsi de renforcer ses connaissances pour ce niveau de complexité. De la même manière, il est attendu que le système de recommandation propose moins d'exercices aux niveaux de complexité pour lesquels les notes moyennes sont élevées, l'étudiant ayant acquis des connaissances suffisantes à ces niveaux de complexité. Les scores faibles sont attribués aux systèmes qui recommandent peu d'exercices à des niveaux de complexité dont les notes moyennes sont faibles et, inversement, s'ils proposent beaucoup d'exercices à des niveaux de complexité dont les notes moyennes sont élevées.

\begin{equation}
%r_c=x+y-2xy
%r_c=x^2+y^2-2x^2y^2
rp_c(x)=e^{-2(x_{0,c}+x_{1,c}-1)^2} ; \{x \in \mathbb{R}^2 | 0<=x<=1\}
\label{eqMetric1}
\end{equation}

\begin{equation}
r=\sum_{c=0}^{c_n-1} rp_c
\label{eqMetric2}
\end{equation}

Les propriétés de la métrique sont : 
\begin{itemize}
    \item $\{\forall x \in \mathbb{R}^2 | 0<=x<=1\},  rp_c(x)>0$
    \item $max(rp_c(x))=1; \; if \; x_{0,c}+x_{1,c}=1$
    \item $min(rp_c(x))=0.1353; \; if \; \left ( \sum_{i=1}^2 x_{i,c}=0 \; \lor \; \sum_{i=1}^2 x_{i,c} = 2 \right )$\\
\end{itemize}

Dans l'équation \ref{eqMetric1}, $x_{0,c}$ est la moyenne normalisée des notes dans le niveau de complexité $c$ (équation \ref{eqXc}), et $x_{1,c}$ est le nombre normalisé de questions auxquelles des réponses ont été données dans le niveau de complexité $c$ (équation \ref{eqYc}). Ainsi, plus la valeur de $r$ est élevée, meilleure est la recommandation.

\begin{equation}
x_{0,c}=\frac{<g_c>_{G_c}}{g_m}
\label{eqXc}
\end{equation}

\begin{equation}
x_{1,c}=\frac{ny_c}{n_c}
\label{eqYc}
\end{equation}

La figure \ref{figMetric} représente la fonction $rp_c(x)$. La valeur maximale de $r$ dans un niveau de complexité spécifique étant égale à $1$, la valeur maximale globale pour les scénarios testés est égale à 5. 

\begin{figure}
\includegraphics[width=\textwidth]{./Figures/metric.png} 
\caption{Fonction d'évaluation de la qualité de la recommandation pour un parcours standard}
\label{figMetric}
\end{figure}

Les résultats des calculs de la métrique $rp_c(x)$ établie pour le système initial et les deux algorithmes dans les trois scénarios testés sont présentés dans le tableau \ref{tabRM}.

\begin{table}[!ht]
\centering
\begin{tabular}{cccccccc}
&$c_0$&$c_1$&$c_2$&$c_3$&$c_4$&Total ($r$)&Total ($\%$)\\
\hline
Test 1\\
\hline
RàPC&0.5388&-&-&-&-&0.5388&10.776\\
DM&0.8821&0.7282&\textbf{0.9072}&\textbf{0.8759}&-&3.3934&67.868\\
SM&\textbf{0.9463}&\textbf{0.8790}&0.7782&0.7108&0.6482&\textbf{3.9625}&\textbf{79.25}\\
\hline
Test 2\\
\hline
RàPC&0.9445&\textbf{0.9991}&-&-&-&1.9436&38.872\\
DM&-&0.9443&\textbf{0.8208}&\textbf{0.9623}&-&2.7274&54.548\\
SM&\textbf{0.9688}&0.9861&0.8067&0.7161&0.6214&\textbf{4.0991}&\textbf{81.982}\\
\hline
Test3\\
\hline
RàPC&-&0.8559&0.7377&-&-&1.5936&31.872
\\
DM&-&-&0.5538&\textbf{0.7980}&-&1.3518&27.036\\
SM&0.9089&\textbf{0.9072}&\textbf{0.9339}&0.7382&0.6544&\textbf{4.1426}&\textbf{82.852}\\
\end{tabular}
\caption{Résultats de la métrique $rp_c(x)$ (RàPC - Système sans module de recommandation, DM - Module de recommandation déterministe, SM - Module de recommandation stochastique)}
\label{tabRM}
\end{table}

Les équations \ref{eqMetricS1} et \ref{eqMetricS2} permettent de caractériser un apprentissage progressif ou de révision, où l'objectif est de renforcer la connaissance de chaque niveau de complexité avant d'avancer au suivant. Dans ce cas, un score élevé est attribué aux systèmes proposant plus d'exercices dans un niveau de complexité où les notes moyennes sont légèrement insuffisantes (4/10), plus flexibles avec des notes moyennes plus basses, et un petit nombre d'exercices pour des notes moyennes élevées. Les scores faibles sont attribués aux systèmes qui recommandent de nombreuses questions dans un niveau de complexité avec des notes moyennes élevées ou faibles.

\begin{equation}
rs_c(x)=e^{-\frac{2}{100}(32x_{0,c}^2-28x_{0,c}+10x_{1,c}-4)^2} ; \{x \in \mathbb{R}^2 | 0<=x<=1\}
\label{eqMetricS1}
\end{equation}

\begin{equation}
r=\sum_{c=0}^{c_n-1} rs_c
\label{eqMetricS2}
\end{equation}

Les propriétés de la métrique sont : 
\begin{itemize}
    \item $\{\forall x \in \mathbb{R}^2 | 0<=x<=1\},  rs_c(x)>0$
    \item $max(rs_c(x))=1; \; if \; 16x_{0,c}^2-14x_{0,c}+5x_{1,c}-2=0$\\
\end{itemize}

La figure \ref{figMetric2} représente la fonction $rs_c(x)$. Comme pour $rp_c$, la valeur maximale de $r$ dans un niveau de complexité spécifique étant égale à $1$, la valeur maximale globale pour les scénarios testés est égale à 5.

Les résultats du calcul des métriques pour le système initial et les deux algorithmes dans les trois scénarios définis sont présentés dans le tableau \ref{tabRM2}.

\begin{figure}[!ht]
\centering
\includegraphics[width=\textwidth]{./Figures/metric2.png}
\caption{Fonction d'évaluation de la qualité de la recommandation pour un apprentissage progressif.}
\label{figMetric2}
\end{figure}

\begin{table}[!ht]
\centering
\begin{tabular}{cccccccc}
&$c_0$&$c_1$&$c_2$&$c_3$&$c_4$&Total ($r$)&Total ($\%$)\\
\hline
Séance 1\\
\hline
RàPC&\textbf{0.9979}&-&-&-&-&0.9979&19.96\\
DM&0.8994&0.1908&\textbf{0.3773}&\textbf{0.2990}&-&1.7665&35.33\\
SM&0.8447&\textbf{0.3012}&0.2536&0.2030&\textbf{0.1709}&\textbf{1.7734}&\textbf{35.47}\\
\hline
Séance 2\\
\hline
RàPC&\textbf{0.4724}&\textbf{0.7125}&-&-&-&1.1849&23.70\\
DM&-&0.6310&\textbf{0.3901}&\textbf{0.4253}&-&1.4464&28.93\\
SM&0.2697&0.7089&0.2634&0.2026&\textbf{0.1683}&\textbf{1.6129}&\textbf{32.26}\\
\hline
Séance 3\\
\hline
RàPC&-&\textbf{0.9179}&0.2692&-&-&1.1871&23.74
\\
DM&-&-&0.2236&\textbf{0.9674}&-&1.191&23.82\\
SM&0.1873&0.3038&\textbf{0.6345}&0.2394&\textbf{0.1726}&\textbf{1.5376}&\textbf{30.75}\\
\end{tabular}
\caption{Évaluation des recommandations proposées selon $rs_c(x)$ par les différents systèmes de recommandation testés : RàPC - Système sans module de recommandation, DM - Algorithme deterministique, SM - Algorithme stochastique}
\label{tabRM2}
\end{table}

En complément, le tableau \ref{tabCS} présente les similarités entre toutes les recommandations faites aux apprenants par les trois systèmes et les trois séances d'entraînement. Pour ce faire, nous avons choisi d'appliquer l'équation \ref{eqCS} permettant de calculer une similarité cosinus entre deux vecteurs $A$ et $B$.

\begin{equation}
sc=\frac{\sum_{i=1}^n A_i B_i}{\sqrt{\sum_{i=1}^n A_i^2} \sqrt{\sum_{i=1}^n B_i^2}}
\label{eqCS}
\end{equation}

\begin{table}[!ht]
\centering
\begin{tabular}{cccc}
Système de recommandation & Séance 1 & Séance 2 & Séance 3\\
\hline
RàPC&1&1&1\\
DM&0.9540&0.9887&0.9989\\
SM&\textbf{0.8124}&\textbf{0.8856}&\textbf{0.9244}\\
\end{tabular}
\caption{Moyenne de la diversité des propositions pour tous les apprenants. Une valeur plus faible représente une plus grande diversité. (RàPC - Système sans module de recommandation, DM - Module déterministe, SM - Module stochastique)}
\label{tabCS}
\end{table}

\subsection{Discussion et Conclusion}
Avec la génération d'exercices par le système de RàPC initial, AI-VT propose les mêmes exercices à tous les apprenants, et l'évolution des niveaux de complexité est très lente, un changement toutes les trois ou quatre séances environ. En effet, le système ne prend pas en compte les notes obtenues pendant la séance. Les systèmes intégrant l'un des modules de recommandation testés sont plus dynamiques et les évolutions sont plus rapides. En considérant les notes des apprenants, l'algorithme déterministe suggère des changements de niveaux à un grand nombre d'apprenants de manière soudaine, tandis que l'algorithme stochastique est plus axé sur la personnalisation individuelle et les changements de niveau de complexité sont produits pour un petit nombre d'apprenants. Les deux modules de recommandation proposés ont la capacité de détecter les faiblesses des apprenants et d'adapter la séance à leurs besoins particuliers.

Les données générées ont permis de simuler diverses situations avec les notes de mille apprenants, permettant ainsi d'évaluer le comportement des systèmes de recommandation avec différentes configurations.

Les résultats numériques montrent que les distributions des questions dans une séance par les deux modules de recommandation sont différentes bien que la tendance générale soit similaire. Les modules de recommandation proposés tentent de répartir les questions dans tous les niveaux de complexité définis. Globalement, le module de recommandation stochastique a obtenu un meilleur score. En comparaison du système initial, les modules de recommandation (déterministe et stochastique) proposent 15\% à 68\% d'adaptations de la complexité pour tous les niveaux. Pour cette raison, l'approche stochastique sera préférée à l'approche déterministe dans la suite des travaux de recherche.

Selon la métrique de la similarité cosinus, le module de recommandation stochastique augmente la diversité des propositions par rapport au système initial dans les trois séances d'entraînement testées, ce qui indique qu'en plus d'atteindre l'adaptabilité, des propositions personnalisées sont générées tout en maintenant l'objectif de progression des niveaux de compétence des apprenants. La diversité des propositions est une caractéristique essentielle de l'algorithme de recommandation dans ses deux versions.

Les modules de recommandation sont un élément essentiel pour certains EIAH car ils aident à guider le processus d'apprentissage individuel. Ils permettent également d'identifier les faiblesses et de réorienter le processus complet afin d'améliorer les connaissances et les compétences. Les deux modules de recommandation proposés peuvent détecter en temps réel les faiblesses de l'apprenant et tentent de réorienter la séance vers le niveau de complexité le plus adapté. Même si l'ensemble des données générées est une simulation de temps de réponse et de notes fictives d'apprenants fictifs, les tests démontrent la flexibilité et la robustesse des modules de recommandation proposés : les données relatives aux apprenants présentent en effet une grande diversité et obligent le système à s'adapter à différents types de configuration. Par conséquent, il est possible de conclure que les modules de recommandation proposés ont la capacité de fonctionner dans différentes situations et de proposer des chemins alternatifs et personnalisés pour améliorer le processus d'apprentissage global. 

\section{ESCBR-SMA et échantillonnage de Thompson}
\sectionmark{ESCBR-SMA et TS}

La section précédente a démontré l'intérêt de l'intégration d'un module de recommandation afin de proposer des exercices d'un niveau de difficulté adapté aux besoins de l'apprenant en fonction des difficultés décelées au cours de la séance d'entraînement. Le système AI-VT initial fondé sur le cycle du raisonnement à partir de cas et ne proposant que des adaptations entre deux séances d’entraînement consécutives, a été supplanté par l'intégration de modules de recommandation utilisés durant la phase de révision du cycle classique du RàPC. Les deux modules de recommandation testés dans la section précédente étaient l'un déterministe, l'autre stochastique. 

La section précédente a également démontré qu'il était possible et intéressant que les niveaux de complexité des exercices proposés puissent suivre des fonctions permettant de les faire fluctuer de manière progressive au cours de la séance, et ce afin que les apprenants ne soient pas confrontés à des difficultés changeant de manière trop abrupte durant l'entraînement. Cette étude nous amène donc à considérer la résolution de la génération d'une séance d'exercices sous l'angle de la régression. Nous proposons donc dans cette partie de montrer de quelle manière nous avons intégré et vérifié l'intérêt des outils définis dans le chapitre précédent dans l'EIAH AI-VT.

\subsection{Concepts Associés}

Cette section présente les concepts, les définitions et les algorithmes nécessaires à la compréhension du module proposé. Le paradigme fondamental utilisé dans ce travail est le raisonnement à partir de cas (RàPC), qui permet d'exploiter les connaissances acquises et l'expérience accumulée pour résoudre un problème spécifique. L'idée principale est de rechercher des situations antérieures similaires et d'utiliser l'expérience acquise pour résoudre de nouveaux problèmes. Le RàPC suit classiquement un cycle de quatre étapes pour améliorer la solution d'inférence \cite{jmse11050890}.

L'un des algorithmes les plus couramment utilisés dans les EIAH pour adapter le contenu et estimer la progression du niveau de connaissance des apprenants est le BKT (\textit{Bayesian Knowledge Tracing}) \cite{ZHANG2018189}. Cet algorithme utilise quatre paramètres pour estimer la progression des connaissances. $P(k)$ estime la probabilité de connaissance dans une compétence spécifique. $P(w)$, est la probabilité que l'apprenant démontre ses connaissances. $P(s)$, est la probabilité que l'apprenant fasse une erreur. $P(g)$, est la probabilité que l'apprenant ait deviné une réponse. La valeur estimée de la connaissance est mise à jour selon les équations \ref{eqbkt1}, \ref{eqbkt2} et \ref{eqbkt3}. Si la réponse de l'apprenant est correcte, l'équation \ref{eqbkt1} est utilisée, mais si la réponse est incorrecte, l'équation \ref{eqbkt2} est utilisée.

\begin{equation}
    P(k_{t-1}|Correct_t)=\frac{P(k_{t-1})(1-P(s))}{P(k_{t-1})(1-P(s))+(1-P(k_{t-1}))P(g)}
    \label{eqbkt1}
\end{equation}

\begin{equation}
    P(k_{t-1}|Incorrect_t)=\frac{P(k_{t-1})P(s)}{P(k_{t-1})(P(s))+(1-P(k_{t-1}))(1-P(g))}
    \label{eqbkt2}
\end{equation}

\begin{equation}
    P(k_{t})=P(k_{t-1}|evidence_t)+(1-P(k_{t-1}|evidence_t))P(w)
    \label{eqbkt3}
\end{equation}

Le module de recommandation proposé, associé à AI-VT, est fondé sur le paradigme de l'apprentissage par renforcement. L'apprentissage par renforcement est une technique d'apprentissage automatique qui permet, par le biais d'actions et de récompenses, d'améliorer les connaissances du système sur une tâche spécifique \cite{NEURIPS2023_9d8cf124}.  Nous nous intéressons ici plus particulièrement à l'échantillonnage de Thompson, qui, par le biais d'une distribution de probabilité initiale (distribution a priori) et d'un ensemble de règles de mise à jour prédéfinies, peut adapter et améliorer les estimations initiales d'un processus \cite{pmlr-v238-ou24a}. La distribution de probabilité initiale est généralement définie comme une distribution spécifique de la famille des distributions Beta (équation \ref{fbeta}) avec des valeurs initiales prédéterminées pour $\alpha$ et $\beta$ \cite{math12111758}, \cite{NGUYEN2024111566}.

%\begin{equation}
%    Beta(x,\alpha,\beta)=\begin{cases}
%        \frac{(x^{\alpha -1})(1-x)^{\beta -1}}{\int_0^1(u^{\alpha -1})(1-u)^{\beta -1} du}&x \in [0, 1]\\
%        0&otherwise
%    \end{cases}
%\end{equation}

\begin{equation}
    Beta(\theta | \alpha, \beta) = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \Gamma(\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}
    \label{fbeta}
\end{equation}

En utilisant la définition formelle de la fonction $\Gamma$ (équation \ref{eqGamma1}) et en remplaçant certaines variables, une nouvelle expression de la fonction Beta est obtenue (équation \ref{f2beta}).

\begin{equation}
    \Gamma(z)=\int_0^\infty e^{-x} x^{z-1} dx
    \label{eqGamma1}
\end{equation}

\begin{equation}
    Beta(\theta | \alpha, \beta) = \frac{\int_0^\infty e^{-s} s^{\alpha+\beta-1}ds}{\int_0^\infty e^{-u} u^{\alpha-1}du\int_0^\infty e^{-v} v^{\beta-1}dv}\theta^{\alpha-1}(1-\theta)^{\beta-1}
    \label{f2beta}
\end{equation}

En exprimant les deux intégrales du dénominateur comme une seule intégrale, l'équation \ref{f3Beta} est obtenue.

\begin{equation}
    \int_{u=0}^{\infty}\int_{v=0}^\infty e^{-u-v} u^{\alpha-1} v^{\beta-1}du dv
    \label{f3Beta}
\end{equation}

$u=st$, $v=s(1-t)$, $s=u+v$ et $t=u/(u+v)$ sont ensuite remplacées par le résultat du Jacobien \ref{eqJac}, menant ainsi à l'expression finale définie par l'équation \ref{f4Beta}.

\begin{equation}
    \left (
    \begin{matrix}
        \frac{\partial u}{\partial t} & \frac{\partial u}{\partial s}\\
        \frac{\partial v}{\partial t} & \frac{\partial v}{\partial s}\\
    \end{matrix}
    \right ) =
    \left (
    \begin{matrix}
        sdt & tds \\
        -sdt & (1-t)ds\\
    \end{matrix}
    \right ) = s \; dtds
    \label{eqJac}
\end{equation}

\begin{equation}
    \int_{s=0}^\infty \int_{t=0}^1 e^{-s}(st)^{\alpha-1}(s(1-t))^{\beta-1}s \; dsdt
    \label{f4Beta}
\end{equation}

Viennent ensuite les équations \ref{f5Beta} et \ref{f6Beta} en exprimant les intégrales en fonction des variables de substitution indépendantes $s$ et $t$.

\begin{equation}
    \int_{s=0}^\infty e^{-s}s^{\alpha+\beta-1}ds \int_{t=0}^1 t^{\alpha-1}(1-t)^{\beta-1}dt
    \label{f5Beta}
\end{equation}

\begin{equation}
    Beta(\theta | \alpha, \beta) = \frac{\int_0^\infty e^{-s} s^{\alpha+\beta-1}ds}{\int_{s=0}^\infty e^{-s}s^{\alpha+\beta-1}ds \int_{t=0}^1 t^{\alpha-1}(1-t)^{\beta-1}dt
}\theta^{\alpha-1}(1-\theta)^{\beta-1}
    \label{f6Beta}
\end{equation}

Finalement, la famille de fonctions de distribution Beta peut être calculée selon l'équation \ref{f7Beta}. 

\begin{equation}
    Beta(\theta | \alpha, \beta) = \frac{\theta^{\alpha-1}(1-\theta)^{\beta-1}}{\int_{0}^1 t^{\alpha-1}(1-t)^{\beta-1}dt
    }
    \label{f7Beta}   
\end{equation}

L'évolution de l'algorithme de recommandation TS résulte du changement des distributions de probabilité. Il est à noter qu'au moment de quantifier l'évolution, le changement et la variabilité doivent être calculés en fonction du temps. Les distributions de probabilités peuvent être comparées pour déterminer leur degré de similitude. 

Par ailleurs, l'apprentissage automatique utilise la divergence de Kullback-Liebler, qui décrit l'entropie relative de deux distributions de probabilités. Cette fonction est fondée sur le concept d'entropie et le résultat peut être interprété comme la quantité d'informations nécessaires pour obtenir la distribution de probabilité $q$ à partir de la distribution de probabilité $p$. Bien que largement utilisée, la divergence de Kullback-Liebler (équation \ref{dkl}) présente toutefois l'inconvénient de ne pas être une mesure symétrique car elle ne satisfait pas à l'inégalité triangulaire et n'est pas bornée \cite{Li_2024}. Pour remédier à cette difficulté, il est possible d'utiliser la divergence de Jensen-Shannon.

\begin{equation}
    D_{KL}(p(x),q(x))=\int_{-\infty}^{\infty}p(x) log \left(\frac{p(x)}{q(x)} \right)dx
    \label{dkl}
\end{equation}

La divergence de Jenser-Shannon est fondée sur la divergence de Kullback-Liebler. Une distribution de probabilité auxiliaire $m$ est créée dont la définition est fondée sur les distributions initiales $p$ et $q$ \cite{Kim2024}. L'équation \ref{djs} montre la définition formelle de la divergence de Jensen-Shannon, où $m(x)$ est une distribution de mélange de probabilités fondée sur $p(x)$ et $q(x)$. Celle-ci est calculée selon l'équation \ref{djs2}. Les distributions de probabilité à comparer doivent être continues et définies dans le même domaine.

%Jensen-Shannon Divergence (equations \ref{djs}, \ref{djs2}).\\

\begin{equation}
    D_{JS}(p(x),q(x))=\frac{1}{2}D_{KL}(p(x), m(x))+\frac{1}{2}D_{KL}(q(x), m(x))
    \label{djs}
\end{equation}

\begin{equation}
    m(x)=\frac{1}{2}p(x)+\frac{1}{2}q(x)
    \label{djs2}
\end{equation}

La prédiction utilisée dans le module proposé ici a été présentée dans le chapitre \ref{ChapESCBR}. Il s'agit d'un algorithme d'empilement de raisonnement à partir de cas mettant en œuvre deux niveaux d'intégration. Le module utilise globalement la stratégie d'empilement pour exécuter plusieurs algorithmes afin de rechercher des informations dans un ensemble de données et générer des solutions à différents problèmes génériques. En outre une étape d'évaluation permet de sélectionner la solution la plus optimale pour un problème donné en fonction d'une métrique adaptative définie pour les problèmes de régression. 
	
\subsection{Algorithme Proposé}
\label{Sec:TS-ESCBR-SMA}

Nous proposons ici une intégration de l'algorithme d'adaptation stochastique (fondé sur l'échantillonnage de Thompson) avec ESCBR-SMA. Ainsi, le module de recommandation révise la séance en fonction des notes de l'apprenant et ESCBR-SMA effectue une prédiction pour valider l'adaptation générée.

L'idée est d'unifier les deux modules en se fondant à la fois sur des informations locales (recommandation fondée sur l'échantillonnage de Thompson (TS) et les informations propres à l'apprenant), et sur des informations globales (cas similaires de la base de connaissances du système de RàPC en suivant le principe du paradoxe de Stein) car le RàPC combine différents observations pour réaliser une estimation.

L'architecture de l'algorithme est présentée sur la figure \ref{fig:Amodel}, où l'on peut voir que les deux algorithmes TS et RàPC sont exécutés en parallèle et indépendamment. Des synchronisations sont faites après obtention des résultats de chaque module. Ces résultats sont unifiés via d'une fonction de pondération. La recommandation finale est calculée selon l'équation \ref{eqMixModels_}. Le \textit{paradoxe de Simpson} est un paradoxe dans lequel un phénomène observé dans plusieurs groupes s'inverse lorsque les groupes sont combinés \cite{10.1145/3578337.3605122}. L'unification d'ensembles de données différents peut atténuer ce paradoxe \cite{lei2024analysis}. 

\begin{figure}
    \centering
    \includegraphics[width=0.7\linewidth]{Figures/Model.png}
    \caption{Schéma de l'architecture de l'algorithme proposé}
    \label{fig:Amodel}
\end{figure}

La première étape est l'adaptation avec l'échantillonnage de Thompson. Vient ensuite la prédiction via ECBR-SMA. Enfin, le processus se termine par la prise de décision concernant la suite de la séance à délivrer à l'apprenant. Le système de recommandation obtient une valeur de probabilité pour tous les niveaux de complexité et l'ECBR-SMA évalue la proposition avec une prédiction pour chaque niveau de complexité. Le tableau \ref{tabvp} présente les variables et les paramètres du module proposé ainsi que les mesures employées. 

\begin{table}[!ht]
    \centering
    \footnotesize
    \begin{tabular}{c|c|>{\centering\arraybackslash}p{8cm}|c}
    ID&Type&Description&Domaine\\
    \hline
    $\alpha$&p&Paramètre de la distribution beta&$[1, \infty] \in \mathbb{R}$\\
    $\beta$&p&Paramètre de la distribution beta&$[1, \infty] \in \mathbb{R}$\\
    $t$&p&Numéro de l'itération&$\mathbb{N}$\\
    $c$&p&Niveau de complexité&$\mathbb{N}$\\
    $x_c$&p&Notes moyennes par niveau de complexité $c$&$\mathbb{R}$\\
    $y_c$&p&Nombre de questions par niveau de complexité $c$&$\mathbb{N}$\\
    $r$&f&Fonction suivie pour la recommandation&$[0,1] \in \mathbb{R}$\\
    $k_{t,c}$&v&Évolution de la connaissance dans le temps $t$ pour le niveau de complexité $c$&$[0,1] \in \mathbb{R}$\\
    $vk_{t,c}$&v&Évolution de la connaissance pour chaque niveau de complexité $c$&$\mathbb{R}$\\
    $TS_c$&v&Récompense d'échantillonnage de Thompson pour un niveau de complexité $c$&$[0,1] \in \mathbb{R}$\\
    $TSN_c$&v&Normalisation de $TS_c$ avec d'autres niveaux de complexité&$[0,1] \in \mathbb{R}$\\
    $ESCBR_c$&v&Prédiction de la note pour un niveau de complexité $c$&$\mathbb{R}_+$\\
    $p_c$&f&Fonction de densité de probabilité pour le niveau de complexité $c$&$\mathbb{R}_+$\\
    $D_{JS}$&f&Divergence de Jensen-Shannon&$[0,1] \in \mathbb{R}$\\
        
    \end{tabular}
    \caption{Paramètres (p), variables (v) et fonctions (f) de l'algorithme proposé et des métriques utilisées}
    \label{tabvp}
\end{table}

Pour rappel, le processus de recommandation se fait en trois étapes. Tout d'abord, il est nécessaire d'avoir des valeurs aléatoires pour chaque niveau de complexité $c$ en utilisant les distributions de probabilité générées avec le algorithme TS (équation \ref{IntEq1_}). Une fois que toutes les valeurs de probabilité correspondant à tous les niveaux de complexité ont été obtenues, la normalisation de toutes ces valeurs est calculée selon l'équation \ref{IntEq2_}. Les valeurs de normalisation servent de paramètres de priorité pour les prédictions effectuées par ESCBR-SMA (équation \ref{eqMixModels_}). La recommandation finalement proposée est celle dont la valeur est la plus élevée.

\begin{equation}
    TS_c \sim (Beta(\alpha_c, \beta_c))
    \label{IntEq1_}
\end{equation}

\begin{equation}
    TSN_c=\frac{TS_c}{\sum_{i=0}^4TS_i}
    \label{IntEq2_}
\end{equation}

\begin{equation}
    n_c=argmax_c(TSN_c*ESCBR_c)
    \label{eqMixModels_}
\end{equation}

\subsection{Résultats et Discussion}

Le principal inconvénient posé par la validation d'un tel système « en situation réelle » est la difficulté à collecter des données et à évaluer des systèmes différents dans des conditions strictement similaires. Cette difficulté est accentuée dans les contextes d'apprentissage autorégulés, puisque les apprenants peuvent quitter la plateforme d'apprentissage à tout moment rendant ainsi les données incomplètes \cite{badier:hal-04092828}.

Pour cette raison, les différentes approches proposées ont été testées sur des données générées : les notes et les temps de réponse de 1000 apprenants fictifs et cinq questions par niveau de complexité. Les notes des apprenants ont été créées en suivant la loi de distribution \textit{logit-normale} que nous avons jugée proche de la réalité de la progression d'un apprentissage \cite{Data}.

Quatre séries de tests ont été effectuées. La première série a été menée sur le système AI-VT intégrant le système de RàPC pour la régression afin de démontrer la capacité de l'algorithme à prédire les notes à différents niveaux de complexité.
La deuxième série de tests a évalué la progression des connaissances avec TS afin d'analyser la capacité du module à proposer des recommandations personnalisées. Lors de la troisième série de tests, nous avons comparé les algorithmes de recommandation BKT et TS. Enfin, lors de la quatrième série de tests, nous avons comparé TS seul et TS avec ESCBR-SMA.

\subsubsection{Régression avec ESCBR-SMA pour l'aide à l'apprentissage humain}

Le SMA que nous avons implémenté utilise un raisonnement bayésien, ce qui permet aux agents d'apprendre des données et d’interagir au cours de l'exécution et de l'exploration.

ESCBR-SMA utilise une fonction noyau pour obtenir la meilleure approximation de la solution du problème cible. Dans notre cas, l'obtention de la meilleure solution est un problème NP-Difficile car la formulation est similaire au problème de Fermat-Weber à $N$ dimensions \cite{doi:10.1137/23M1592420}.

Les différents scénarios du tableau \ref{tab:scenarios} ont été considérés dans un premier temps. Dans le scénario $E_1$, il s'agit de prédire la note d'un apprenant au premier niveau de complexité, après 3 questions. Le scénario $E_2$ considère les notes de 8 questions et l'objectif est de prédire la note de la neuvième question dans le même niveau de complexité. Le scénario $E_3$ interpole la neuvième note que l'apprenant obtiendrait si la neuvième question était de niveau de complexité supérieur à celui de la huitième question. Cette interpolation est faite sur la base des notes obtenues aux quatre questions précédentes. Le scénario $E_4$ considère 4 questions et le système doit interpoler 2 notes dans un niveau de complexité supérieur.

\begin{table}[!ht]
    \centering
    \begin{tabular}{ccc}
    Scenario&Caractéristiques du problème&Dimension de la solution\\
    \hline
      $E_1$  &  5 & 1\\
      $E_2$   & 15& 1\\
      $E_3$   & 9 & 1\\
      $E_4$   & 9 & 2\\
    \end{tabular}
    \caption{Description des scénarios}
    \label{tab:scenarios}
\end{table}

ESCBR-SMA a été comparé aux neuf outils classiquement utilisés pour résoudre la régression consignés dans le tableau \ref{tabAlgs} et selon l'erreur quadratique moyenne (RMSE - \textit{Root Mean Squared Error}), l'erreur médiane absolue (MedAE - \textit{Median Absolute Error}) et l'erreur moyenne absolue (MAE - \textit{Mean Absolute Error}).

\begin{table}[!ht]
\centering
\footnotesize
\begin{tabular}{ll|ll}
ID&Algorithme&ID&Algorithme\\
\hline
A1&Linear Regression&A6&Polinomial Regression\\
A2&K-Nearest Neighbor&A7&Ridge Regression\\
A3&Decision Tree&A8&Lasso Regression\\
A4&Random Forest (Ensemble)&A9&Gradient Boosting (Ensemble)\\
A5&Multi Layer Perceptron&A10&Proposed Ensemble Stacking RàPC\\
\end{tabular}
\caption{Liste des algorithmes évalués }
\label{tabAlgs}
\end{table}

Le tableau \ref{tab:results} présente les résultats obtenus par les 10 algorithmes sur les quatre scénarios. Ces résultats montrent qu'ESCBR-SMA (A10) et le \textit{Gradient Boosting} (A9) obtiennent toujours les deux meilleurs résultats. Si l'on considère uniquement la RMSE, ESCBR-SMA occupe toujours la première place sauf pour $E_3$ où il est deuxième. Inversement, en considérant l'erreur médiane absolue ou l'erreur moyenne absolue, A10 se classe juste après A9.  ESCBR-SMA et le \textit{Gradient Boosting} sont donc efficaces pour interpoler les notes des apprenants.

\begin{table}[!ht]
    \centering
    \footnotesize
    \begin{tabular}{c|cccccccccc}
        &\multicolumn{10}{c}{\textbf{Algorithme}}\\
        \hline
        &  A1&A2&A3&A4&A5&A6&A7&A8&A9&A10\\
    \textbf{Scenario (Métrique)}\\
    \hline
		$E_1$ (RMSE)&0.625&0.565&0.741&0.56&0.606&0.626&0.626&0.681&0.541&\textbf{0.54}\\
        $E_1$ (MedAE) & 0.387&0.35&0.46&0.338&0.384&0.387&0.387&0.453&\textbf{0.327}&0.347\\
        $E_1$ (MAE) &0.485&0.436&0.572&0.429&0.47&0.485&0.485&0.544&\textbf{0.414}&0.417\\
        \hline
        $E_2$ (RMSE)&        0.562&0.588&0.78&0.571&0.61&0.562&0.562&0.622&0.557&\textbf{0.556}\\
        $E_2$ (MedAE)&0.351&0.357&0.464&0.344&0.398&0.351&0.351&0.415&\textbf{0.334}&0.346\\
        $E_2$ (MAE)&0.433&0.448&0.591&0.437&0.478&0.433&0.433&0.495&\textbf{0.422}&0.429\\
        \hline
        $E_3$ (RMSE)&0.591&0.59&0.79&0.57&0.632&0.591&0.591&0.644&\textbf{0.555}&0.558\\
        $E_3$ (MedAE)&0.367&0.362&0.474&0.358&0.404&0.367&0.367&0.433&\textbf{0.336}&0.349\\
        $E_3$ (MAE)&0.453&0.45&0.598&0.441&0.49&0.453&0.453&0.512&\textbf{0.427}&0.43\\
        \hline
        $E_4$ (RMSE)&0.591&0.589&0.785&0.568&0.613&0.591&0.591&0.644&0.554&\textbf{0.549}\\
        $E_4$ (MedAE)&0.367&0.362&0.465&0.57&0.375&0.367&0.367&0.433&\textbf{0.336}&0.343\\
        $E_4$ (MAE)&0.453&0.45&0.598&0.438&0.466&0.453&0.453&0.512&0.426&\textbf{0.417}\\
    \end{tabular}
    \caption{Erreurs moyennes et médianes des interpolations des 10 algorithmes sélectionnés sur les 4 scénarios considérés et obtenues après 100 exécutions.}
    \label{tab:results}
\end{table}

\subsubsection{Progression des connaissances}

L'algorithme de recommandation TS est fondé sur le paradigme bayésien le rendant ainsi particulièrement adapté aux problèmes liés à la limitation de la quantité de données et à une incertitude forte. Afin de quantifier la connaissance et de voir sa progression dans le temps avec TS, la divergence de Jensen-Shannon avec la famille de distribution Beta en $t$ et $t-1$ a été mesurée. L'équation \ref{eqprog1} décrit formellement le calcul à effectuer avec les distributions de probabilité en un temps $t$ pour un niveau de complexité $c$, en utilisant la définition $m$ (équation \ref{eqprog2}).

%\begin{equation}
\begin{multline}
    k_{t,c}=\frac{1}{2}
\int_{0}^{1}p_c(\alpha_t,\beta_t,x) log \left(\frac{p_c(\alpha_t,\beta_t,x)}{m(p_c(\alpha_{t-1},\beta_{t-1},x),p_c(\alpha_t,\beta_t,x))} \right)dx
\\
+\frac{1}{2}
\int_{0}^{1}p_c(\alpha_{t-1},\beta_{t-1},x) log \left(\frac{p_c(\alpha_{t-1},\beta_{t-1},x)}{m(p_c(\alpha_{t-1},\beta_{t-1},x),p_c(\alpha_t,\beta_t,x))} \right)dx
\label{eqprog1}
\end{multline}
%\end{equation}

\begin{multline}
    m(p(\alpha_{(t-1)},\beta_{(t-1)},x),p(\alpha_{t},\beta_{t},x))=\frac{1}{2} \left( \frac{x^{\alpha_{(t-1)}-1}(1-x)^{\beta_{(t-1)}-1}}{\int_0^1 u^{\alpha_{(t-1)}-1}(1-u^{\beta_{(t-1)}-1})du} \right )\\
    +\frac{1}{2} \left (\frac{x^{\alpha_{t}-1}(1-x)^{\beta_{t}-1}}{\int_0^1 u^{\alpha_{t}-1}(1-u^{\beta_{t}-1})du} \right )
%\end{equation}
\label{eqprog2}
\end{multline}

La progression du nombre total de connaissances en $t$ est la somme des différences entre $t$ et $t-1$ pour tous les $c$ niveaux de complexité calculés avec la divergence de Jensen-Shannon (équation \ref{eqTEK}). Pour ce faire, nous évaluons la progression de la variabilité données par équation \ref{eqVarP}.

\begin{equation}
    vk_{t,c}=\begin{cases}
        D_{JS}(Beta(\alpha_{t,c},\beta_{t,c}), Beta(\alpha_{t+1,c},\beta_{t+1,c})), & \frac{\alpha_{t,c}}{\alpha_{t,c}+\beta_{t,c}} < \frac{\alpha_{t+1,c}}{\alpha_{t+1,c}+\beta_{t+1,c}}\\
        -D_{JS}(Beta(\alpha_{t,c},\beta_{t,c}), Beta(\alpha_{t+1,c},\beta_{t+1,c})),& Otherwise
    \end{cases}
    \label{eqVarP}
\end{equation}

\begin{equation}
    k_t=\sum_{c=4}^{c=0 \lor k_t \neq 0}
    \begin{cases}
    \alpha_{c-1} vk_{t,c-1};&vk_{t,c} > 0\\
    0;&Otherwise
    \end{cases}
    \label{eqTEK}
\end{equation}

\begin{figure}[!ht]
    \centering
    \includegraphics[width=\textwidth]{Figures/kEvol_TS.jpg}
    \caption{Progression des connaissances avec l'échantillonnage de Thompson selon la divergence de Jensen-Shannon}
    \label{fig:evolution}
\end{figure}

La figure \ref{fig:evolution} montre la progression cumulée des connaissances sur les quinze questions d'une même séance d'entraînement. L'augmentation de la moyenne du niveau de connaissance entre la première et la dernière question de la même séance montre que tous les apprenants ont statistiquement augmenté leur niveau de connaissance. La variabilité augmente à partir de la première question jusqu'à la question neuf, où le système a acquis plus d'informations sur les apprenants. À ce stade, la variabilité diminue et la moyenne augmente. 

\subsubsection{Système de recommandation avec un jeu de données d'étudiants réels}

Le système de recommandation TS a été testé avec un ensemble de données adaptées extraites de données réelles d'interactions d'étudiants avec un environnement d'apprentissage virtuel pour différents cours \cite{Kuzilek2017}. Cet ensemble contient les notes de $23366$ apprenants dans différents cours. Les apprenants ont été évalués selon différentes modalités (partiels, projets, QCM) \cite{Data}. Cet ensemble de données a pu être intégré au jeu de données d'AI-VT (notes, temps de réponse et 5 niveaux de complexité). Le test a consisté à générer une recommandation pour l'avant dernière question en fonction des notes précédentes. Ce test a été exécuté 100 fois pour chaque apprenant. Les nombres de questions recommandées sont reportés sur la figure \ref{fig:stabilityBP} pour chaque niveau de complexité. Celle-ci montre que malgré la stochasticité, la variance globale dans tous les niveaux de complexité est faible en fonction du nombre total d'apprenants et du nombre total de recommandations, et démontre ainsi la stabilité de l'algorithme.\\

\begin{figure}[!ht]
    \centering
    \includegraphics[width=1\linewidth]{Figures/stabilityBoxplot.png}
    \caption{Nombre de recommandations par niveau de complexité}
    \label{fig:stabilityBP}
\end{figure}

La précision de la recommandation pour tous les apprenants est évaluée en considérant comme comportement correct deux états : i) l'algorithme recommande un niveau où l'apprenant a une note supérieure ou égal à 6 et ii) l'algorithme recommande un niveau inférieur au niveau réel évalué par l'apprenant. Le premier cas montre que l'algorithme a identifié le moment précis où l'apprenant doit augmenter le niveau de complexité, le second cas permet d'établir que l'algorithme propose de renforcer un niveau de complexité plus faible. Puis la précision est calculée comme le rapport entre le nombre d'états correspondant aux comportements corrects définis et le nombre total de recommandations. La figure \ref{fig:precision} montre les résultats de cette métrique après 100 exécutions.\\

\begin{figure}[!ht]
    \centering
    \includegraphics[width=1\linewidth]{Figures/precision.png}
    \caption{Précision de la recommandation}
    \label{fig:precision}
\end{figure}

\subsubsection{Comparaison entre TS et BKT}

La figure \ref{fig:EvGrades} permet de comparer la recommandation fondée sur l'échantillonnage de Thompson et celle fondée sur BKT. Cette figure montre l'évolution des notes des apprenants en fonction du nombre de questions auxquelles ils répondent dans la même séance. Dans ce cas, le TS génère moins de variabilité que BKT, mais les évolutions induites par les deux systèmes restent globalement très similaires. 

\begin{figure}[!ht]
    \centering
    \includegraphics[width=\textwidth]{Figures/GradesEv.jpg}
    \caption{Comparaison de l'évolution des notes entre les systèmes fondés sur TS et BKT.}
    \label{fig:EvGrades}
\end{figure}

Toutefois, si l'on considère l'évolution du niveau de complexité recommandé (figure \ref{fig:EvCL}), TS fait évoluer le niveau de complexité des apprenants, alors que BKT a tendance à laisser les apprenants au même niveau de complexité. Autrement dit, avec BKT, il est difficile d'apprendre de nouveaux sujets ou des concepts plus complexes au sein du même domaine. En comparant les résultats des deux figures (figures \ref{fig:EvGrades} et \ref{fig:EvCL}), TS permet de faire progresser la moyenne des notes et facilite l'évolution des niveaux de complexité.

\begin{figure}[!ht]
    \centering
    \includegraphics[width=\textwidth]{Figures/LevelsEv.jpg}
    \caption{Comparaison de l'évolution des niveaux entre les systèmes de recommandation fondés sur BKT et TS}
    \label{fig:EvCL}
\end{figure}

\subsubsection{Système de recommandation avec ESCBR-SMA}

La troisième étape est l'association des deux algorithmes afin de combiner des observations qui ne sont pas directement liées l'une à l'autre, c'est-à-dire en utilisant l'information individuelle (recommandation avec Thomson) et le filtre collaboratif (interpolation avec ESCBR-SMA). Cette partie présente une comparaison entre le système de recommandation TS et le système de recommandation TS intégré à la prédiction ESCBR-SMA.

Les résultats proposés sont comparés après réponse des apprenants à six questions car il est nécessaire de disposer d'informations préalables pour utiliser l'algorithme ESCBR-SMA et prédire les notes dans tous les niveaux de complexité à la question suivante.

\subsubsection{Progression des connaissances TS vs TS et ESCBR-SMA}

Pour établir la différence entre le système de recommandation TS et ce même système associé à la prédiction fondée sur le raisonnement à partir de cas ESCBR-SMA, nous utiliserons la métrique de Jensen-Shannon (définie suivant les équations \ref{eqjs4} et \ref{eqjs5}). Dans ce cas la comparaison est faite sur le même niveau de complexité et dans le même temps $t$. 

\begin{multline}
    k_{t,c}=\frac{1}{2}
\int_{0}^{1}p_c(\alpha_{p1,t},\beta_{p1,t},x)
log \left(\frac{p_c(\alpha_{p1,t},\beta_{p1,t},x)}{m(p_c(\alpha_{p1,t},\beta_{p1,t},x),p_c(\alpha_{p2,t},\beta_{p2,t},x))} \right)dx
\\
+\frac{1}{2}
\int_{0}^{1}p_c(\alpha_{p2,t},\beta_{p2,t},x) log \left(\frac{p_c(\alpha_{p2,t},\beta_{p2,t},x)}{m(p_c(\alpha_{p1,t},\beta_{p1,t},x),p_c(\alpha_{p2,t},\beta_{p2,t},x))} \right)dx
\label{eqjs4}
\end{multline}
%\end{equation}

\begin{multline}
    m(p(\alpha_{p1,t},\beta_{p1,t},x),p(\alpha_{p2,t},\beta_{p2,t},x))=\frac{1}{2} \left( \frac{x^{\alpha_{p1,t}-1}(1-x)^{\beta_{p1,t}-1}}{\int_0^1 u^{\alpha_{p1,t}-1}(1-u^{\beta_{p1,t}-1})du} \right )\\
    +\frac{1}{2} \left (\frac{x^{\alpha_{p2,t}-1}(1-x)^{\beta_{p2,t}-1}}{\int_0^1 u^{\alpha_{p2,t}-1}(1-u^{\beta_{p2,t}-1})du} \right )
    \label{eqjs5}
%\end{equation}
\end{multline}

La figure \ref{fig_cmp2} présente une visualisation normalisée des différences de progression entre TS et TS intégré à ESCBR-SMA. Cette figure montre une rupture après la septième question. Pour toutes les questions de la même séance, en moyenne, la progression avec TS associé à ESCBR-SMA est meilleure que celle avec TS seul.  

\begin{figure}[!h]
    \centering
    \includegraphics[width=1\textwidth]{Figures/Metric4.jpg}
    \caption{Différence normalisée entre la progression avec échantillonnage de Thompson seul et échantillonnage de Thompson associé à ESCBR-SMA pour 1000 apprenants}
    \label{fig_cmp2}
\end{figure}

\subsection{Conclusion}

Cette partie montre que l'intégration du module d'échantillonnage de Thompson au module de régression ESCBR-SMA est profitable à l'EIAH AI-VT dans la mesure où leur utilisation conjointe permet de réviser une séance d'entraînement en proposant des exercices de difficulté adaptée à l'apprenant en fonction des notes obtenues aux réponses précédentes.

Le système proposé permet de générer des recommandations personnalisées pour chaque apprenant avec relativement peu de données historiques. Il permet de réviser une séance en se fondant sur des informations générales (progression standardisée) et locales (niveau acquis par l'apprenant). 
%les deux modèles se complètent mutuellement en améliorant les résultats finaux d'une manière généralisée. Le modèle proposé a été conçu pour être utilisé dans le cadre d'un projet de recherche et de développement en cours.\\\\

Toutefois, un apprentissage n'est pas linéaire et il est nécessaire de proposer des rappels de cours ou de notions à l'apprenant. La partie suivante de ce chapitre tente d'apporter une solution à cette observation pouvant limiter les performances d'AI-VT en introduisant le processus de Hawkes.

\section{ESCBR-SMA, échantillonnage de Thompson et processus de Hawkes}
\sectionmark{ESCBR-SMA, TS et Hawkes}

Dans la partie précédente, nous avons proposé un système capable de permettre à l'apprenant de suivre une progression relativement linéaire. Toutefois, certaines notions sont parfois oubliées par les apprenants et des rappels doivent être proposés afin de mieux consolider les connaissances. C'est la raison pour laquelle nous nous intéressons dans cette partie à l'intégration d'un processus de Hawkes qui permet de simuler une courbe d'oubli.

\subsection{Algorithme Proposé}

L'algorithme proposé est une intégration de la recommandation stochastique (fondée sur l'échantillonnage de Thompson), du raisonnement à partir de cas (ESCBR-SMA) et du processus de Hawkes. Dans ce cas, l'algorithme de recommandation produit une adaptation en fonction des notes de l'apprenant et l'ESCBR-SMA effectue une prédiction pour valider l'adaptation générée, le processus de Hawkes simule la courbe d'oubli dans le processus d'apprentissage.

L'idée de cette unification est d'obtenir des informations d'un point de vue local où une recommandation est obtenue en se fondant sur les informations des apprenants individuels (rôle de l'échantillonnage de Thompson), la prédiction globale fondée sur les expériences acquises précédemment par le système (le système de RàPC fournit des exercices ayant permis par le passé à d'autres apprenants aux profils similaires d'acquérir les connaissances visées), et le processus d'apprentissage dynamique avec le processus de Hawkes.

La figure \ref{fig:Amodel} montre de quelle manière sont organisés ces différents modules les uns par rapport aux autres. TS et ESCBR-SMA sont exécutés en parallèle et indépendamment avec les informations extraites de la même base de connaissances. Une fois que les résultats de chaque module sont obtenus, ils sont unifiés par une fonction de pondération et une distribution de probabilité mise à jour dynamiquement selon les événements passés et le niveau de complexité sélectionné. Une dernière étape permet de consolider et d'atténuer l'effet du paradoxe de Simpson \cite{10.1145/3578337.3605122}.

\begin{figure}[!ht]
    \centering
    \includegraphics[width=0.6\linewidth]{Figures/ModelHawkes.png}
    \caption{Organisation des modules TS, ESCBR-SMA et processus de Hawkes.}
    \label{fig:Amodel}
\end{figure}

La première étape est l'adaptation avec l'échantillonnage de Thompson et la prédiction de l'ECBR-SMA. Celle-ci est suivie par la prise de décision pour l'envoi à l'apprenant. Le système de recommandation obtient une valeur de probabilité pour tous les niveaux de complexité pour l'apprenant et l'ECBR-SMA évalue la proposition avec une prédiction pour chaque niveau de complexité. Le tableau \ref{tabvp} présente les variables et les paramètres du module proposé et les mesures employées.

Après la sélection du niveau de complexité, toutes les distributions de probabilité sont mises à jour selon le processus de Hawkes (équation \ref{hp1}) pour chaque paramètre $\alpha$ et $\beta$ en utilisant la fonction d'intensité définie constante (équations \ref{hp21} et \ref{hp22}) et la fonction d'excitation (équation \ref{hp30} avec des valeurs $\alpha=10$ et $\beta=0.02$ équation \ref{hp31}), afin de simuler la courbe d'oubli dans l'évolution de la distribution de probabilité Beta.

\begin{equation}
    \lambda(t)=\mu(t)+\sum_{t_i<t} \phi(t-t_i)
    \label{hp1}
\end{equation}

\begin{equation}
    \mu_{\alpha,c}(t)=\begin{cases}
        2 ,& c=0\\
        1 ,& 1\le c \le 4\\
    \end{cases}
    \label{hp21}
\end{equation}

\begin{equation}
    \mu_{\beta,c}(t)=\begin{cases}
        1,&c=0\\
        3,&c=1\\
        5,&c=2\\
        7,&c=3\\
        9,&c=4\\
    \end{cases}
    \label{hp22}
\end{equation}

\begin{equation}
    \phi_h(t)=\alpha \beta e^{-\beta t}
    \label{hp30}
\end{equation}

\begin{equation}
    \phi_h(t)=(10)(0.02)e^{-0.02t}
    \label{hp31}
\end{equation}

L'équation \ref{hpfa} montre la définition complète pour tous les $\alpha$ et l'équation \ref{hpfb} la définition pour les paramètres $\beta$.

\begin{equation}
    \lambda_{\alpha}(t)=\mu_{\alpha,c}(t)+\sum_{t_i<t} \phi_h(t-t_i)
    \label{hpfa}
\end{equation}

\begin{equation}
    \lambda_{\beta}(t)=\mu_{\beta,c}(t)+\sum_{t_i<t} \phi_h(t-t_i)
    \label{hpfb}
\end{equation}

Et pour chaque niveau de complexité $c$, l'équation \ref{eqBetaH} décrit la distribution des probabilités.

\begin{equation}
    P_c(x,\lambda_{\alpha}(t),\lambda_{\beta}(t))=\frac{x^{\lambda_{\alpha}(t)}(1-x)^{\lambda_{\beta}(t)}}{\int_0^1u^{\lambda_{\alpha}(t)}(1-u)^{\lambda_{\beta}(t)} du}
    \label{eqBetaH}
\end{equation}

\subsection{Résultats et Discussion}

\subsubsection{Système de recommandation avec un jeu de données d'étudiants réels (TS avec Hawkes)}

Le système de recommandation TS a été testé avec un ensemble de données adaptées extraites des données réelles des interactions des étudiants avec un environnement d'apprentissage virtuel pour différents cours \cite{Kuzilek2017}. Cet ensemble de données compte 23366 apprenants répartis dans différents cours et évalués de différentes manières \cite{Data}.

Le format de cet ensemble de données est adapté à la structure de la connaissance dans AI-VT (notes, temps de réponse et niveau de complexité), et les exercices y sont répartis en cinq niveaux de complexité. La figure \ref{fig:stabilityBP} montre le nombre de recommandations générées par un processus d'apprentissage statique et par le module dynamique associant TS au processus de Hawkes, sur les différents niveaux de complexité. Cette figure montre les moyennes obtenues avec 100 exécutions des algorithmes. La faible variance globale obtenue dans tous les niveaux de complexité montre la stabilité des recommandations.

\begin{figure}[!ht]
    \centering
    \includegraphics[width=\textwidth]{./Figures/stabilityBoxplot1.png}\hfill
    \includegraphics[width=\textwidth]{./Figures/stabilityBoxplot2.png}
    \caption{Nombre de recommandations par niveau de complexité (processus d'apprentissage statique en haut, processus d'apprentissage dynamique avec processus de Hawkes en bas)}
    \label{fig:stabilityBP}
\end{figure}

Le module incluant le processus de Hawkes recommande plus de niveaux de faible complexité car la connaissance tend à diminuer avec le temps, avant de tendre à renforcer la connaissance dans tous les niveaux de complexité. La configuration initiale privilégiant les niveaux inférieurs (grâce à une plus grande probabilité), le module tend à répéter les niveaux plus accessibles nécessaires pour atteindre les niveaux supérieurs.

\subsubsection{Mesures de performances}

Pour mesurer les performances des différents modules, nous avons utilisé le même jeu de données simulées que dans la section précédente. 
La comparaison est faite avec la métrique décrite dans l'équation \ref{metric1}, où $x_c$ est la moyenne des notes, $y_c$ est le nombre de questions pour chaque niveau de complexité $c$.

\begin{equation}
    r(x_c,y_c)=e^{-2(x_c+y_c-1)^2}
    \label{metric1}
\end{equation}

Un scénario spécifique a été défini sans données initiales (notes et temps de réponse) en simulant un démarrage à froid. Le tableau \ref{tab:my_label} montre les résultats obtenus après 10000 exécutions pour TS et TS associé au processus de Hawkes. Malgré les changements dans chaque niveau de complexité, les deux approches donnent des résultats similaires.

\begin{table}[!ht]
    \centering
    \begin{tabular}{c|ccccccc}&$r_{C0}$&$r_{C1}$&$r_{C2}$&$r_{C3}$&$r_{C4}$&Total&Percent\\
    \hline
    TS&0.9695&0.7945&0.6377&0.5615&0.5184&3.4816&69.632\\%TS&0.971&0.7982&0.6315&0.551&0.5014&3.4531&69.062\\
    TS-Hawkes&0.9414&0.7175&0.6434&0.5761&0.5448&3.4232&68.464\\
    %TS-Hawkes&0.9432&0.7107&0.6253&0.5853&0.5291&3.3936&67.872\\
    \end{tabular}
    \caption{Comparaison entre ESCBR-TS et ESCBR-TS-Hawkes lors d'un démarrage à froid.}
    \label{tab:my_label}
\end{table}

La variance (figure \ref{fig:vars}) montre qu'avec le processus de Hawkes, les valeurs sont maintenues autour de la configuration initiale, ce qui permet une plus grande adaptabilité aux changements dynamiques des connaissances qui se produisent dans le processus d'apprentissage. Étant donné que la distribution de probabilité Beta converge rapidement vers une valeur unique, plus on obtient de valeurs, plus la variance est faible et s'il y a un changement dans la valeur de convergence, la distribution a besoin de plus de données pour converger vers la nouvelle valeur. Ce dernier comportement peut être expliqué par le fait que les changements dans la moyenne sont proportionnels à la valeur de la variance avec un pas de changement constant pour les paramètres. Dans le cas de la modélisation du processus d'apprentissage, il est donc préférable de maintenir une valeur de variance relativement élevée pour faciliter l'adaptation aux changements imprévus.

\begin{figure}[!ht]
    \centering
    \includegraphics[width=1\textwidth]{Figures/Var.png}
    
    \medskip
    \hrulefill\par
    \vspace{15pt}
    
    \includegraphics[width=1\textwidth]{Figures/VarH.png}
    \caption{Variance pour la distribution de probabilité bêta et tous les niveaux de complexité (en haut : processus d'apprentissage statique. En bas : processus d'apprentissage dynamique avec processus de Hawkes)}
    \label{fig:vars}
\end{figure}

\subsection{Conclusion}

Cette partie a présenté un algorithme intégrant un système de recommandation fondé sur l'algorithme d'échantillonnage de Thompson, un algorithme de régression d'ensemble fondé sur le raisonnement à partir de cas et système multi-agents, et une fonction d'oubli fondée sur le processus de Hawkes. 

L'algorithme de régression d'ensemble ESCBR-SMA permet d'interpoler la note qu'un apprenant aurait à la question suivante selon le niveau de complexité de celle-ci. L'échantillonnage de Thompson permet de recommander la complexité de la question suivante en fonction d'informations locales : les notes obtenues et les temps de réponses de cet apprenant aux questions précédentes. Enfin, le processus de Hawkes incite le système à proposer des rappels de compétences acquises en intégrant un modèle d'oubli.

Nous avons mesuré ces performances sur un ensemble de données générées permettant de simuler les notes et temps de réponses obtenus par 1000 apprenants sur un EIAH proposant des exercices répartis sur cinq niveaux de complexité et aussi avec une base de données réelle non-symétrique de 23366 apprenants. Ces tests ont été réalisés en vue d'une intégration à l'EIAH AI-VT. Les résultats montrent que le module final permet de réviser les séances d'entraînement, de proposer des exercices progressivement plus difficiles, tout en intégrant des rappels de notions.