chapitre_HCL.tex
55.9 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
\label{HCL}
Si un consensus scientifique existe autour du lien entre la forme des pulsations cardiaques du signal de PIC et la compliance cérébrale (), il n'existe que peu d'études quantitatives sur la pertinence clinique du ratio P2/P1 dans le traitement des différentes pathologies pour lesquelles le monitorage de la PIC est recommandé. La relative pauvreté de la littérature scientifique à ce sujet s'explique principalement par la difficulté à identifier automatiquement les pics P1 et P2 sur un signal de PIC. Des obstacles techniques apparaissent à différents niveaux :
\begin{enumerate}
\item Une forte variabilité morphologique du signal de PIC est observée entre les différents patients.
\item Les pics P1 et P2 ne sont pas toujours observables, en particulier dans dans les valeurs de PIC extrêmes (proche de 0 mmHg ou supérieur à 25-30 mmHg).
\item Les signaux de PIC peuvent être pollués par différentes types d'artefacts (toux, manipulations des patients, bruits électroniques ...)
\item Les ambiguïtés d'identification manuelle des pics P1 et P2 sont difficiles à lever, bien que des signaux secondaires (pression artérielle, Doppler transcrânien) peuvent être utiles à cette fin.
\end{enumerate}
La solution technique proposée ici est le pipeline d'analyse ICP-SWAn (Selective Waveform Analysis), permettant un monitorage du ratio P2/P1 en temps réel dans un dispositif embarqué au lit du patient. Différents tests statistiques sont réalisés de façon à ne pas afficher de valeur en présence d'artefacts ou de détections identifiées comme incertaines. Plus formellement, l'analyse des pulsations est effectuée successivement par deux réseaux de neurones récurrents. Le premier modèle identifie les pulsations valides sur lesquelles le second modèle peut identifier les pics P1 et P2. Après la phase d'entraînement, des seuils d'incertitude sur les sorties des réseaux de neurones sont calculés en appliquant la théorie du \textit{Learn-then-Test}. Le développement présenté ci-dessous s'appuie largement sur la classification de Wroclaw pour quantifier les performances d'ICP-SWAn dans différentes situations types.
\section{Matériel et méthodes}
\subsection{Collecte des données}
Les signaux de PIC ont été acquis dans deux cohortes distinctes de patients admis dans une unité de soins intensifs neurologiques (NICU) entre janvier 2021 et mars 2024. Une cohorte (49 patients) a été dédiée au processus de formation et l'autre (59 patients) au processus de test. Les signaux de PIC ont été acquis à l'aide d'un capteur intraparenchymateux (Pressio, Sophysa, Orsay, France) à une fréquence d'échantillonnage de 100 Hz. Dans le cas des données de test, un signal de pression artérielle synchronisé à 100 Hz a également été acquis à l'aide d'un cathéter artériel invasif. Les critères d'inclusion étaient les suivants : âge compris entre 18 et 80 ans et sédation sous ventilation mécanique. Les patients présentant une défaillance hémodynamique majeure ou une craniectomie décompressive étaient exclus d'office. Un second jeu de test, disponible publiquement en ligne, a également été utilisé dans le processus de test. Celui-ci contient 11 172 pulsations de PIC valides extraites de 64 enregistrements différents acquis au moyen d'un capteur intraparenchymateux avec une résolution minimale de 240 Hz. Le partitionnement final des données est illustré par la figure~\ref{hcl-fig:fig2}
\begin{figure}[h!]
\centering
\includegraphics[width=0.9\linewidth]{HCL/fig2.png}
\caption{Partitionnement des données utilisées.}
\label{hcl-fig:fig2}
\end{figure}
L'utilisation de deux ensembles de tests différents est un moyen de mettre en évidence les variations de performances potentiellement induites par le contexte d'évaluation. En particulier, le jeu de test privé a été conçu pour couvrir la plupart des difficultés pouvant survenir dans une contexte de monitorage en temps réel en incluant des segments bruités ou artéfactés (voir table~\ref{tab:demographie}). Concernant la composition de la cohorte de test, la population des patients atteints de HSA comprend 60\% de femmes pour un âge moyen de 56.4 ans. En comparaison, la population de patients atteints de TC compte 12\% de femmes pour un âge moyen de 44.6 ans, avec un pic observé entre 30 et 40 ans. Dans les deux cas, ces proportions sont globalement représentatives de l'épidémiologie observée dans les pays d'Europe occidentale (), malgré une légère sous-représentation des femmes dans la population des TC.
\begin{table}[h!]
\centering
\begin{tabular}{|c||c|c|c|}
\hline
Démographie & Jeu d'entraînement & Jeu de test privé & Jeu de test public \\
\hline
\textit{n}& 59&49 &64\\
Age& 53, std = 17&49, std = 12 &-\\
Sexe& 19 (F) / 40 (M)&21 (F) / 28 (M) &-\\
TC& 42&28 &-\\
HSA& 11&15 &-\\
Autre & 6&6 &-\\
\hline
\makecell{Caractéristiques \\ des segments}& & &\\
\hline
PIC moyenne (mmHg) & 11.90, std = 9.7& 8.88, std = 8.11&3.46, std = 7.28\\
Ratio P2/P1 moyen &1.22, std = 0.59 & 1.44, std = 0.58 &1.25, std = 0.34\\
\hline
\makecell{Composition des \\ jeux de données}& & &\\
\hline
Pulsations valides & 49,380 (86.4\%)&10,835 (82.7\%) &11,172 (100\%)\\
Pulsations sans P2/P1 & 3,988 (6.9\%)&838 (6.4\%) &-\\
Artefacts &3,889 (6.7\%)&1,413 (10.8\%) &-\\
\hline
Classification de Wroclaw & & &\\
\hline
T1 & 15,655 (27.7\%)& 2,151 (16.4\%) &1,486 (13.3\%)\\
T2 & 17,041 (30.2\%)& 3,232 (24.7\%) &5,994 (53.7\%)\\
T3 & 9,554 (16.9\%)& 4,392 (33.6\%) &2,811 (25.2\%)\\
T4 & 5,507 (9.74\%)& 1,692 (12.9\%) &514 (4.6\%)\\
A+E & 8,758 (15.5\%) & 1,619 (12.4\%) &367 (3.3\%)\\
\hline
Total& 57,257& 13,086 &11,172\\
\hline
\end{tabular}
\caption{Composition des jeux de données. $n$ --- nombre de patients, std --- écart type, TC --- Traumatisme crânien, HSA --- hémorragie subarachnoïdienne, PIC --- Pression intracrânienne}
\label{tab:demographie}
\end{table}
\subsection{Processus d'annotation}
Les chercheurs en charge du processus d'annotation ont utilisé un outil d'annotation développé à cet effet, avec un accès à l'ensemble des enregistrements de PIC. Dans le cas de l'ensemble de données de test, un signal de PA auxiliaire synchronisé était également disponible comme une aide à l'interprétation. Le jeu d'entraînement était constitué de pulsations extraites de segments contigus de 10 minutes manuellement sélectionnés sur chacun des 59 enregistrements. Pour constituer le jeu de test, deux segments contigus de 100 secondes et distants d'au moins 24 heures ont été manuellement sélectionnés sur chacun des 49 enregistrements inclus. Ce processus d'extraction a été appliqué pour couvrir une large gamme de formes d'ondes sur la base de trois critères : (i) les valeurs moyennes de la PIC, (ii) le rapport P2/P1, et (iii) la morphologie globale de la forme d'onde évaluée par la classification de Wroclaw (voir table~\ref{tab:demographie}). Pour chacune des pulsations des segments, les P1 et P2 ont été annotés manuellement lorsqu'ils étaient identifiables. Dans le cas contraire, la pulsation était classée comme non-interprétable ou comme artéfact. L'ensemble de données d'entraînement a été entièrement annoté par le premier auteur (DL). En revanche, le processus d'annotation pour l'ensemble de données de test a été conçu comme suit : (i) 94 segments du PCI ont été répartis de manière égale entre trois annotateurs (VG, GP ou AK), chaque segment étant attribué à un seul auteur. (ii) Les 4 échantillons restants (représentant 514 impulsions) ont été labellisés par chacun des trois annotateurs afin de valider l'accord entre les annotateurs. Indépendamment de cette procédure, les segments provenant de 10 enregistrements ont été signalés comme particulièrement bruités et difficiles à interpréter durant le processus d'annotations. Ces enregistrements ont alors été re-labellisés par chacun des annotateurs pour adopter le jugement majoritaire.
\subsection{Prétraitements}
\label{prep}
En amont des analyses décrites ci-dessous, un filtre Butterworth passe-bas de quatrième ordre avec une cut-off fixé à 20 Hz est appliqué à l'ensemble des enregistrements pour retirer des oscillations de nature électrique. Les pulsations sont isolées au moyen de l'algorithme de Scholkmann modifié (). Chaque pulsation ainsi extraites subit les traitements suivants:
\begin{enumerate}
\item Une interpolation polynomiale cubique est appliquée de façon à fixer la longueur de la pulsation à 180 points et supprimer les variations liées à la fréquence cardiaque.
\item La ligne droite passant par le premier minimum local et le dernier minimum local de la pulsation est soustraite pour supprimer une potentielle rotation due à l'onde respiratoire.
\item Les valeurs de PIC sont ramenées linéairement dans l'intervalle [0, 1] de façon à éliminer mes différences d'amplitude.
\end{enumerate}
Le jeu d'entraînement a ensuite été divisé en trois sous-ensembles : (i) le premier (90\%) dédié à l'entraînement des modèles en tant que tel, (ii) le deuxième (5\%) utilisé comme validation, (iii) et le troisième utilisé pour l'étape de calibration, c'est-à-dire la définition des seuils de décision. Cette séparation a été effectuée de façon à ce que les pulsations d'un même patient soient exclusivement utilisées soit pour l'entraînement, soit pour la validation/calibration.
\subsection{Génération de données synthétiques}
Des exemples synthétiques ont été générés pour augmenter la variabilité du sous-ensemble dédié à l'entraînement, et en particulier pour compenser la sur-représentation des pulsations valides. La procédure retenue consiste à ajouter un bruit gaussien multivarié à la première composante principale de pulsations moyennées localement. Plus formellement, la procédure est la suivante :
\begin{itemize}
\item Une analyse en composantes principales (ACP) est calculée sur l'ensemble des pulsations originales.
\item Pour chaque exemple $x_{i}$, une matrice de variance-covariance $\Sigma$ de dimensions $p \times p$ est calculée à partir des $p$ premières composantes principales des $n$ plus proches voisins, identifiés sur le critère de la distance euclidienne.
\item La pulsation barycentre de ces $n+1$ pulsations est calculée. Un bruit aléatoire multivarié est additionné à cette pulsation synthétique. Celui-ci est échantillonné à partir d'une distribution normale multivariée d'espérance 0 et de variance-covariance $k\Sigma$, où $k$ est un scalaire multiplicatif choisi par l'utilisateur.
\item La pulsation synthétique est re-projetée dans l'espace initial. Les prétraitements décrits dans la section \ref{prep} lui sont appliqués.
\item La pulsation synthétique $\tilde{x}_{i}$ est associée à la même classe que la pulsation $x_{i}$. Si des positions de P1 et P2 avaient été repérées manuellement sur $x_{i}$, des positions pour P1 et P2 sont également attribuées à $\tilde{x}_{i}$. Celles-ci sont alors calculées comme les maxima locaux de courbure minimisant les distance respectives aux P1 et P2 originaux.
\end{itemize}
En pratique, un nouvel ensemble de données a d'abord été généré. Les paramètres $(n, p, k)$ ont été fixés à $(5, 10, 10)$. Une augmentation plus ciblée a ensuite été effectuée afin d'accroître la présence d'artefacts dans l'ensemble d'apprentissage. Pour cette seconde procédure, les paramètres $(n, p, k)$ ont été fixés à $(5, 10, 50)$. Au total, l'ensemble de données d'entraînement augmenté comprend 178 930 pulsations, dont 119 306 pulsations valides, 8 000 pulsations non-interprétables et 51 624 artefacts. Cette procédure d'augmentation n'a été effectuée que sur l'ensemble destiné à l'apprentissage en tant que tel, sans affecter les jeux de validation, calibration ou de test.
\subsection{Procédure d'analyse des pulsations}
Comme décrit précédemment, les pulsations cardiaques sont analysées successivement par deux modèles d'apprentissage automatique, en l'occurrence des réseaux de neurones récurrents. Le premier classifie les pulsations de façon à éliminer les artefacts et les pulsations sans ratio P2/P1 calculable. Le second détecte les pics P1 et P2 en renvoyant un premier intervalle de prédiction pour P1 et un second pour P2. Les modèles ont été implémentés en Python 3.11.3 au moyen de la version 2.0 de la bibliothèque PyTorch. Les expériences ont été menées sur une machine virtuelle WSL Ubuntu 20.04.5 installée sur un ordinateur portable Windows 10 équipé de 16 Go de RAM et d'un processeur 12th Gen Intel(R) Core(TM) i7-128.
\subsubsection{Sélection des pulsations}
En premier lieu, les pulsations prétraitées sont classées en trois catégories : (i) les pulsations valides, (ii) les pulsations non-interprétables, et (iii) les artefacts (voir la figure~\ref{hcl-fig:fig3}). Bien que seules les impulsions valides soient envoyées à l'étape de détection, trois classes ont été définies de façon à faciliter le processus d'annotation manuelle et améliorer la convergence du réseau neuronal. L'entraînement a été réalisé sur 100 époques au moyen de l'algorithme d'optimisation ADAM, une fonction de perte de type entropie croisée et une taille de batch de 512.
\begin{figure}[h!]
\centering
\includegraphics[width=0.9\linewidth]{HCL/fig3.png}
\caption{Exemples des trois classes de pulsations utilisées par le pipeline. I~\textemdash~"pulsation valide". II~\textemdash~"pulsation non-interprétable". III~\textemdash~"artefact"}
\label{hcl-fig:fig3}
\end{figure}
\subsubsection{Détection des pics}
La procédure de détection, inspirée de l'algorithme MOCAIP original (), consiste à désigner les P1 et P2 parmi un ensemble de positions candidates. Pour ce faire, une régression par quantiles est effectuée par le second modèle neuronal sur les pulsations classées comme valides. Celui-ci renvoie deux intervalles de prédiction autour des positions des pics P1 et P2, respectivement notées $x_{P1}$ et $x_{P2}$. Plus formellement, pour une pulsations $x$, le modèle neuronal renvoie un vecteur à quatre composantes, noté $(l_{P1}(x), u_{P1}(x), l_{P2}(x))$. L'intervalle de prédiction pour $x_{P1}$ est donné par $[l_{P1}(x), u_{P1}(x)]$, tandis que l'intervalle de prédiction pour $x_{P2}$ est donné par $[l_{P2}(x), u_{P2}(x)]$. En parallèle de cette régression, l'ensemble des positions candidates $\Gamma(x) = (\gamma_{i})_{i=1}{g}$ est calculé. Celui-ci correspond aux $g$ maxima locaux positifs du vecteur $\kappa(-1000*x)$, où $kappa(s) = s" / s(1+s'^{2})^{3/2}$ avec $s"$ et $s'$ désignant respectivement les première et seconde dérivées discrètes d'une pulsation $s$. La fonction $\kappa$ est généralement appelée la \textit{courbure} d'un signal. Avec d'un côté les intervalles de prédictions pour P1 et P2, et d'un autre l'ensemble des positions candidates, les positions $x_{P1}$ et $x_{P2}$ sont alors estimées de la façon suivante :
\[
\widehat{x}_{P1} = \underset{i \in [\![1, g]\!]}{\arg\min} [(\gamma_{i} - \ell_{p1}(x))^{2} + (\gamma_{i} - u_{p1}(x))^{2}]
\]
et
\[
\widehat{x}_{P2} = \underset{j \in [\![P1, g]\!]}{\arg\min} [(\gamma_{j} - \ell_{p2}(x))^{2} + (\gamma_{j} - u_{p2}(x))^{2}].
\]
Les $\hat{x}_{P1}$ et $\hat{x}_{P2}$ finaux ne sont pas nécessairement inclus dans leurs intervalles de prédictions respectifs, comme montré dans l'exemple de la figure (4). L'introduction de ces intervalles de prédictions a pour unique de objectif d'utiliser la largeur de cet intervalle comme une indication de l'incertitude du modèle neuronal. L'entraînement a été réalisé sur 300 époques au moyen de l'algorithme d'optimisation ADAM et une taille de batch de 512. La fonction de perte utilisée combine deux fonctions L1 asymétriques (encore appelées \textit{pinball-losses}) conçues pour renvoyer une estimation des quantiles à 25\% et 75\% des positions $x_{P1}$ et $x_{P2}$.
\begin{figure}[h!]
\centering
\includegraphics[width=15cm]{HCL/fig4.png}
\caption{Processus d'identification de P1 et P2. Les positions candidates correspondent aux maxima locaux positifs de la courbure de la pulsation. Les intervalles de prédiction de P1 et P2 sont calculés par un modèle neuronal. Comme dans cet exemple, les pics peuvent être choisis en-dehors des intervalles de prédiction. Les pics P1 et P2 annotés sont ici confondus avec les pics choisis par l'algorithme.}
\label{hcl-fig:fig4}
\end{figure}
\subsection{Contrôle conforme des risques}
\subsubsection{Procédure de contrôle des risques}
Cette étape visite à garantir certaines propriétés statistiques du pipeline d'analyse complet. La procédure de contrôle des risques est conçue pour identifier les prédictions non-fiables de façon à ne pas les prendre en compte lors de l'affichage final. Trois critères sont utilisés pour quantifier l'incertitude des modèles neuronaux. En premier lieu, le classifieur renvoie la probabilité $\hat{f}$ de ne pas pouvoir calculer de ratio P2/P1 (\textit{i.e.}, du fait de pics manquants ou de la présence d'artefacts). Dans un second temps, le détecteur renvoie deux intervalles de prédiction $[l_{P1}(x), u_{P1}(x)]$ et $[l_{P2}(x), u_{P2}(x)]$ dont les largeurs sont respectivement notées $\hat{w}_{P1}$ et $\hat{w}_{P2}$. Ainsi, des seuils sur $\hat{f}$, $\hat{w}_{P1}$ et $\hat{w}_{P2}$ peuvent être utilisés pour rejeter des prédictions identifiées comme trop incertaines et garantir certaines propriétés statistiques sur les sorties du pipeline. Plus formellement, soit $\lambda = [\lambda_{0}, \lambda_{1}, \lambda_{2}] \in [0,1] \times [0, 180] \times [0, 180]$ un triplet de seuils. La fonction de décision finale est définie comme suit:
\[
\mathcal{F}_{\lambda}(x)=
\begin{cases}
-1 ,& \text{if } \widehat{f}(x) > \lambda_{0} \text{ or } \widehat{w_{1}}(x) > \lambda_{1} \text{ or } \widehat{w_{2}}(x) > \lambda_{2}\\
\widehat{P}2(x)/\widehat{P}1(x), & \text{sinon.}
\end{cases}
\]
L'objectif est contrôler simultanément deux risques :
\[
R_{0}(\lambda) = \mathbb{P}(\mathcal{F}_{\lambda}(X_{i}) = -1 \,\vert\, Y_{i} \neq -1)
\]
et
\[
R_{1}(\lambda) = \mathbb{P}\left(\|\frac{Y_{i} - \mathcal{F}_{\lambda}(X_{i})}{Y_{i}}\| > \epsilon \,\vert\,\mathcal{F}_{\lambda}(X_{i}) \neq - 1\right),
\]
où $\|\cdot\|$ désigne la norme euclidienne. $R_{0}$ correspond à la probabilité qu'une pulsation valide soit rejetée à une étape du pipeline d'analyse. $R_{1}$ correspond à la probabilité que l'erreur relative sur un P2/P1 ratio dépasse un seuil de tolérance $\epsilon$ défini par l'utilisateur, fixé ici à 10\%. Par construction de $R_{1}$, les cas où un ratio P2/P1 est affiché pour une pulsation invalide sont également considérés comme un dépassement du seuil de tolérance. L'objectif est d'assurer que $\mathbb{P}(R_{0} < \alpha_{0}) > 1 - \delta$ et que $\mathbb{P}(R_{1} < \alpha_{1}) > 1 - \delta$. Pour ce faire, une recherche systématique est effectuée de façon à identifier un triplet $\lambda$ qui permette le rejet des deux hypothèses nulles suivantes :
\[
\mathcal{H}_{\lambda}^{0} : R_{0}(\lambda) > \alpha_{0} \text{ and } \mathcal{H}_{\lambda}^{1} : R_{1}(\lambda) > \alpha_{1}.
\]
Sous $\mathcal{H}_{\lambda}^{0}$ et $\mathcal{H}_{\lambda}^{1}$, $R_{0}$ et $R_{1}$ peuvent être estimées au moyen d'un jeu de calibration de $n$ pulsations, parmi lesquelles le sous-ensemble $M$ des pulsations avec une ratio P2/P1 calculable (c'est-à-dire avec $Y \neq -1$):
\[
\widehat{R}_{0, \text{null}}(\lambda) = \frac{1}{\vert M\vert}\sum_{X \in M}\mathbb{1}(\mathcal{F}_{\lambda}(X) = -1)
\]
et
\[
\widehat{R}_{1, \text{null}}(\lambda) = \frac{1}{n}\sum_{i=1}^{n}\left[\mathbb{1}\left(\|\frac{Y_{i} - \mathcal{F}_{\lambda}(X_{i})}{Y_{i}}\| > \epsilon\right) - \alpha_{1}\mathbb{1}(\mathcal{F}_{\lambda}(X_{i}) = -1)\right],
\]
où $\vert M\vert$ désigne le cardinal de l'ensemble $M$ et $\mathbb{1}(\cdot)$ la fonction indicatrice.
Ayant choisi un seuil de confiance $\delta$, il est possible de calculer les $p$-values $p_{\lambda}^{0}$ et $p_{\lambda}^{1}$, respectivement associées aux hypothèses $\mathcal{H}_{\lambda}^{0}$ and $\mathcal{H}_{\lambda}^{1}$. Pour contrôler les risques
$R_{0}$ et $R_{1}$, un triplet
$\lambda$ doit satisfaire le critère $p_{\lambda} = \max(p_{\lambda}^{0}, p_{\lambda}^{1}) < \delta$. Les calculs des deux $p$-values sont effectués de deux manières différentes. En premier lieu, $R_{0}$ peut être modélisé comme la moyenne d'une séquences de variables de Bernoulli iid. Par conséquent, $p_{\lambda}^{0}$ peut être calculé sur le jeu de calibration tel que $p_{\lambda}^{0} = B(\widehat{R}_{0, \text{null}}(\lambda)$), où $B$ désigne la fonction de répartition d'une loi binomiale $\mathcal{B}(\vert M\vert, \alpha_{0}$). Dans un second temps, $p_{\lambda}^{1}$ doit être calculée en utilisant une borne plus conservative issue de l'inégalité de Hoeffding-Bentkus \cite{bates2021distribution} du fait de sa composante conditionnelle.
\subsubsection{Recherche de seuils valides}
En pratique, la recherche du triplet $\lambda$ est limitée au produit cartésien $\Lambda = [0,01, 0,02, ..., 0,99] \times [0.1, 0.2, ..., 3] ^{2}$, soit environ 80 000 hypothèses à tester au niveau de confiance $1-\delta$. Pour réduire le risque de rejeter une hypothèse nulle par erreur (c'est-à-dire d'accepter un triplet $\lambda$ par erreur), la théorie du \textit{Learn-then-Test} propose d'appliquer un algorithme de contrôle du taux d'erreur par famille (\textit{family-wise error rate}, FWER) pour réaliser le test d'hypothèses multiples. La procédure retenue ici est un test en séquence fixe (\textit{fixed-sequence testing})(), qui consiste à tester successivement une série d'hypothèses nulles jusqu'à ce que l'une d'entre elles soit acceptée, c'est-à-dire jusqu'à obtenir une \textit{p}-value supérieur à $\delta$. L'ensemble $\Lambda^{*}$ des seuils associés à une hypothèse nulle rejetée est considéré comme valide pour atteindre le contrôle de risque souhaité. La procédure de test en séquence fixe est généralement conçue de manière à ce que les hypothèses nulles les plus improbables (c'est-à-dire les triplets les plus prometteurs) apparaissent en premier dans la séquence de test. Dans le cas de seuils tridimensionnels, concevoir une telle séquence n'est pas trivial. Dans le cas présent, l'ordre des hypothèses à tester est choisi par une procédure de division des séquences (\textit{splti-sequence testing}) (). Cette méthode consiste à diviser aléatoirement l'ensemble de données de calibration en deux parties $c1$ et $c2$, de façon à identifier sur $c1$ les triplets à tester en priorité sur $c2$.
\subsection{Comparaison à une ligne de base}
Différentes versions du pipeline d'analyse décrit ci-dessus sont implémentées à des fins de comparaison. Dans chacune d'entre elles, les réseaux neuronaux récurrents sont remplacés par différents algorithmes d'apprentissage supervisé. Comme pour le pipeline original, deux modèles sont entraînés pour séparer les tâches de classification et de régression par quantile. Les algorithmes choisis sont les suivants:
\begin{enumerate}
\item K plus proches voisins (\textit{K-Nearest neighbors, KNN}) : soit \textit{p} une pulsation à analyser. Pour la classification et la régression, la réponse des KNN est estimée en interpolant les étiquettes des \textit{k} plus proches voisins de \textit{p}dans l'ensemble d'apprentissage. Son extension à la régression par quantile peut être réalisée facilement sans étape d'apprentissage spécifique.
\item Extreme Gradient Boosting (XGB) : cet algorithme est une version régularisée de l'algorithme des \textit{gradient-boosted trees}(). Au cours de l'étape d'apprentissage, une combinaison linéaire d'arbres de décision est construite itérativement pour minimiser une fonction de perte. Comme tout algorithme basé sur la descente de gradient, une régression par quantile peut être réalisée en utilisant une fonction de perte asymétrique pour l'apprentissage.
\item Forêts aléatoires (\textit{Random Forests}, RF): la fonction de décision repose sur la une combinaison d'un grand nombre d'arbres de décision se concentrant chacun des caractéristiques choisies aléatoirement durant l'étape d'apprentissage. Comme les forêts aléatoires ne reposent pas sur une descente de gradient, les modifications nécessaires à la régression par quantiles sont effectuées au moment de l'évaluation ().
\item Perceptron multi-couches (\textit{Multi-layer Perceptron, MLP}): il s'agit d'une architecture simple de modèle neuronal où plusieurs couches denses de neurones sont alignées linéairement. Un \textit{drop-out} de 10\% a également été appliqué juste avant la couche de sortie. Comme pour les réseaux récurrents, la régression par quantiles est effectuée en utilisant une fonction de perte L1 asymétrique lors de l'étape d'apprentissage.
\end{enumerate}
Pour chaque algorithme, les principaux paramètres sont choisis à l'issue d'une validation croisée à cinq pli, et décrits dans la table~\ref{hcl-tab:params}. Les paramètres non-mentionnés sont laissés par défaut.
\begin{table}[h!]
\label{hcl-tab:params}
\centering
{
\begin{tabular}{|c||c|c|c|}
\hline
Algorithme & Classification & Régression & Implémentation \\
\hline
KNN & \makecell{voisins: 10, \\ pondération\\ par les distances: oui} & \makecell{voisins: 5, \\ pondération \\ par les distances: non} & \makecell{Scikit-learn, \\ sklearn-quantiles} \\
\hline
RF & \makecell{arbres: 50} & \makecell{arbres: 50} & \makecell{Scikit-learn, \\ sklearn-quantiles} \\
\hline
XGB & \makecell{profondeur max: 6, \\ L2-régularisation: 1.0} & \makecell{profondeur max: 6, \\ L2-régularisation: 0.0} & XGBoost \\
\hline
MLP & \makecell{neurones par couche: 16, \\ couches cachées: 7} & \makecell{neurones par couches: 16, \\ couches cachées: 3} & PyTorch \\
\hline
\end{tabular}
}
\caption{Détails d'implémentation des algorithmes d'apprentissage supervisés utilisés dans les différentes versions du pipeline d'analyse}
\end{table}
\section{Résultats}
\subsection{Définition des seuils de rejet}
\subsubsection{Performances initiales sur le jeu de calibration}
Différents indicateurs de performance sont d'abord calculés indépendamment sur les deux parties du pipeline (c'est-à-dire la partie de classification des impulsions et la partie de détection des sous-crêtes) en utilisant l'ensemble de validation. L'objectif est de choisir
des niveaux de risque $\alpha_{0}$ et $\alpha_{1}$ appropriés pour l'étape de calibration. Les résultats obtenus avec le classifieur sur l'ensemble de validation (n = 2 862 impulsions) sont présentés comme une tâche de classification binaire. L'objectif étant d'évaluer l'identification des pulsations présentant un rapport P2/P1 calculable, les classes 1 (impulsions non-interprétables) et 2 (artefacts) ont donc été fusionnées. La courbe caractéristique de performance (\textit{receiver-operating characteristic}, ROC) est présentée dans la figure~\ref{FIG:5}A. En ce qui concerne les performances du détecteur, la distribution des erreurs relatives sur le ratio P2/P1 est présentée dans la figure~\ref{FIG:5}B.
\begin{figure}[h!]
\centering
\includegraphics[width=15cm]{HCL/fig5.png}
\caption{Performances brutes des deux modèles neuronaux sur le jeu de validation. A: Courbe ROC du classifieur. Les métriques sont calculés sur une tâche de classification binaire où les exemples positifs correspondent aux pulsations associées à un ratio P2/P1. B: Distribution des erreurs relatives associées au P2/P1 calculés.}
\label{FIG:5}
\end{figure}
Un premier seuil naïf pour le classificateur peut être choisi en maximisant la différence entre le taux de vrais positifs et le taux de faux positifs sur l'ensemble de données de validation. En utilisant la courbe ROC présentée ci-dessus, ce seuil a été fixé à 0.81. Sans critères supplémentaires sur \textit{w1} et \textit{w2}, le triplet correspondant est défini comme $\lambda_{init} = (0.81, 180, 180)$. $R_{0}(\lambda_{
init})$ et $R_{1}(\lambda_{init})$ sont respectivement estimés à 1.3\% et 16.6\%.
\subsubsection{Calcul des seuils}
Pour une distribution de données quelconque, il n'est en général pas possible de contrôler un risque à n'importe quel niveau $\alpha$. Par conséquent, la performance obtenue dans l'ensemble de données de validation est utilisée comme une aide pour choisir des niveaux réalistes de contrôle du risque. Les niveaux de tolérances sont donc choisis en arrondissant aux 5\% les plus proches les $\widehat{R}_{0}$ et $\widehat{R}_{1}$ estimés sur le jeu de validation. Ainsi, les seuils de tolérance $\alpha_{0}$ et $\alpha{1}$ sont respectivement fixés à 5\% et 15 \%. Une seconde calibration est également effectuée en utilisant les seuils moins restrictifs de $\alpha_{0}$ = 10\% et $\alpha_{1}$ = 20\%. Cette seconde calibration est un moyen de s'assurer qu'un contrôle des risques puisse être garanti pour chacun des modèles, mais également d'étudier l'impact du choix des seuils. Pour chaque calibration, le niveau de confiance 1-$\delta$ est fixé à 0.95. L'ensemble de calibration est séparé aléatoirement en deux parties égales $C_{1}$ et $C_{2}$. Une séquence de 200 hypothèses est construite à partir de $C_{1}$ de façon à effectuer un test en séquence fixe sur $C_{2}$. Parmi les triplets permettant de rejeter les deux hypothèses nulles, le seuil $\lambda$ utilisé par la suite correspond au triplet apparu le plus tardivement dans la séquence de test.
\subsection{Comparaison des modèles}
Différents indicateurs de performances sont calculés sur les deux ensembles de test. En plus des estimations des risques $R_{0}$ et $R_{1}$, (i) l'erreur moyenne absolue sur le ratio P2/P1 ($MAE_{P2/P1}$), (ii) la proportions de pulsations pour lesquelles le délai absolu de détection sur P1 excède 10 ms ($\Delta P1_{> 10 ms}$) et (iii) la proportions de pulsations pour lesquelles le délai absolu de détection sur P2 excède 10 ms ($\Delta P2_{> 10 ms}$) sont également calculés. Pour mesurer l'impact des pulsations synthétiques générées lors de la phase d'entraînement, un pipeline d'analyse à base de réseaux récurrents, noté $LSTM^{*}$, est entraîné sans données augmentées.
\subsubsection{Jeu de test public}
Comme présenté dans la table~\ref{hcl-tab:comparison_public}, les $\widehat{R_{0}}$ et $\widehat{R_{1}}$ naïfs sont très en-dessous des niveaux de tolérance pour la plupart des modèles. La calibration détériore légèrement les performances des modèles neuronaux (\textit{i.e.}, les pipelines MLP et LSTM) en augmentant la proportion $\widehat{R_{0}}$ sans réelle amélioration des autres indicateurs. En contrepartie, la calibration permet de stabiliser les frontières de décisions des modèles à bases d'arbres de décision en abaissant les $\widehat{R_{0}}$ associés sous la barre des 1\%. Les seuils choisis naïvement pour les pipelines LSTM$^{*}$ et KNN sont clairement trop restrictifs avec des $\widehat{R_{0}}$ excédant 15\%. Il est intéressant de relever que les deux pipelines à base de réseaux récurrents ont à la fois la meilleure précision sur la détection de P1 ($\Delta P1_{> 10 ms} < 5$\%) et la pire sur P2 ($\Delta P2_{> 10 ms} > 14)$\%).
\begin{table}[h!]
\centering
\resizebox{1\textwidth}{!}{
\begin{tabular}{|l|c||ccccc|}
\hline
&Calibration& $\widehat{R_{0}}$ (\%)& $\widehat{R_{1}}$ (\%)& $\Delta P1_{>\text{10 ms}}$ (\%)& $\Delta P2_{>\text{10 ms}}$ (\%)& $MAE_{P2/P1}$\\
\hline
&$C_{ROC}$& 39.20& 1.86& 5.77& 6.92& 0.015\\
KNN&$C_{5-15}$& 0.32& 3.24& 9.62& 13.05& 0.024\\
&$C_{10-20}$& 1.92& 2.98& 9.36& 12.59& 0.023\\
\hline
&$C_{ROC}$& 6.15& 2.99& 8.92& 11.11& 0.02\\
RF&$C_{5-15}$& 0.72& 3.62& 9.76& 12.40& 0.023\\
&$C_{10-20}$& 2.46& 2.85& 9.51& 11.53& 0.019\\
\hline
&$C_{ROC}$& 2.66& 3.01& 9.44& 11.61& 0.02\\
XGB&$C_{5-15}$& 0.21& 3.44& 9.88& 12.27& 0.022\\
&$C_{10-20}$& 0.91& 3.23& 9.79& 11.98& 0.021\\
\hline
&$C_{ROC}$& 0.97& 2.89& 9.40& 12.94&0.02\\
MLP&$C_{5-15}$& 8.41& 2.93& 8.85& 12.04&0.020\\
&$C_{10-20}$& 0.30& 2.99& 9.57& 13.06&0.021\\
\hline
& $C_{ROC}$& 0.36& 1.89& 3.70& 14.94&0.016\\
LSTM& $C_{5-15}$& 3.52& 1.88& 3.71& 14.70&0.016\\
& $C_{10-20}$& 7.38& 1.88& 3.71& 14.43&0.016\\
\hline
& $C_{ROC}$& 17.44& 4.86& 4.14& 18.90&0.043\\
LSTM*& $C_{5-15}$& 7.11& 4.92& 4.64& 18.23&0.043\\
& $C_{10-20}$& 9.83& 5.06& 4.72& 18.58&0.044\\
\hline
\end{tabular}
}
\caption{Indicateurs de performances de modèles évalués sur le jeu de test public. $MAE_{P2/P1}$ --- Erreur moyenne absolue sur le ratio P2/P1. $\widehat{R_{0}}$ --- Proportion des pulsations avec un ratio P2/P1 calculable rejetées par ereur. $\widehat{R_{1}}$ --- Proportion des valeurs de ratio P2/P1 associées à une pulsation invalide ou à une erreur relative supérieure à 10\%. $\Delta P1_{>\text{10 ms}}$ --- Proportion des pulsations valides où l'erreur de détection excède 10 ms sur P1. $\Delta P2_{>\text{10 ms}}$ --- Proportion des pulsations valides où l'erreur de détection excède 10 ms sur P2. KNN --- K-Nearest Neighbors, RF --- Random Forests, XGB --- eXtreme Gradient Boosting, MLP --- MultiLayer Perceptron, LSTM --- Long Short-Term Memory, LSTM* --- pipeline d'analyse incluant des modèles de LSTM entraînés sans pulsations synthétiques. $C_{ROC}$ --- Calibration naïve, basée sur la courbe ROC. $C_{5-15}$ --- Calibration effectuée avec les seuils de tolérance $\alpha_{0} = 5\%$ et $\alpha_{1} = 15\%$. $C_{10-20}$ --- Calibration effectuée avec les seuils de tolérance $\alpha_{0} = 10\%$ and $\alpha_{1} = 20\%$.}
\label{hcl-tab:comparison_public}
\end{table}
Une analyse plus fine peut être effectuée en groupant les métriques selon la classification de Wroclaw. Cette démarche permet d'identifier les pulsations posant le plus de difficultés d'analyses. Les erreurs détaillées sont présentées dans la table ~\ref{hcl-tab:public} pour comparer les performances du pipeline LSTM avant et après la calibration à $\alpha_{0} = 5\%$ et $\alpha_{1} = 15\%$. Cette étape impacte particulièrement la frontière de décision dans le cas des pulsations de classe "T1" et "A+E", pour lesquels les faux rejets sont plus fréquents. En particulier, le $\widehat{R_{0}}$ estimé pour la classe "A+E" passe de 8.17\% à 17.98\%.
\begin{table}[h!]
\centering
\resizebox{\textwidth}{!}{
\begin{tabular}{|c||ccccc|ccccc|}
\hline
&\multicolumn{5}{c|}{Naive thresholds ($C_{ROC}$)}& \multicolumn{5}{c|}{Calibrated thresholds ($C_{5-15}$)}\\
\hline
Classe& $\widehat{R}_{0}$(\%)& $\widehat{R}_{1}$(\%)& $\Delta P1_{>\text{10 ms}}$& $\Delta P2_{>\text{10 ms}}$& MAE\textsubscript{P2/P1}& $\widehat{R}_{0}$(\%)& $\widehat{R}_{1}$(\%)&$\Delta P1_{>\text{10 ms}}$& $\Delta P2_{>\text{10 ms}}$&MAE\textsubscript{P2/P1}\\
\hline
T1
& 0.34& 2.36& 0.41& 14.11& 0.010& 9.96& 2.24 & 0.37 & 15.17 & 0.010
\\
T2
& 0.03& 0.60& 3.46& 13.84& 0.008& 2.65 & 0.58 & 3.43 & 13.33 & 0.008
\\
T3
& 0.11& 0.71& 1.99& 10.76& 0.014& 0.71 & 0.72& 2.01 & 10.46 & 0.013
\\
T4
&
0.0& 18.09& 21.98& 34.05& 0.013& 0.00 & 18.09 & 21.98 & 34.05 & 0.134
\\
A+E
& 8.17& 7.72& 8.90& 43.92& 0.029& 17.98 & 8.64 & 8.31 & 45.18 & 0.029
\\
\hline
all&
0.36 & 1.89 & 3.70 & 14.94 & 0.016 &3.52 &1.88 & 3.71 & 14.70& 0.016\\
\hline
\end{tabular}
}
\caption{Indicateurs de performances du pipeline LSTM évalué sur le jeu de test public avant et après calibration. $MAE_{P2/P1}$ --- Erreur moyenne absolue sur le ratio P2/P1. $\widehat{R_{0}}$ --- Proportion des pulsations avec un ratio P2/P1 calculable rejetées par ereur. $\widehat{R_{1}}$ --- Proportion des valeurs de ratio P2/P1 associées à une pulsation invalide ou à une erreur relative supérieure à 10\%. $\Delta P1_{>\text{10 ms}}$ --- Proportion des pulsations valides où l'erreur de détection excède 10 ms sur P1. $\Delta P2_{>\text{10 ms}}$ --- Proportion des pulsations valides où l'erreur de détection excède 10 ms sur P2. $C_{ROC}$ --- Calibration naïve, basée sur la courbe ROC. $C_{5-15}$ --- Calibration effectuée pour les seuils de tolérance $\alpha_{0} = 5\%$ et $\alpha_{1} = 15\%$.}
\label{hcl-tab:public}
\end{table}
\subsubsection{Jeu de test privé}
Pour valider l'accord inter-annotateur, quatre segments de PIC représentant 514 pulsations ont été indépendamment labellisés par trois annotateurs (VG, GP, AK). La classification a été unanime dans 94.9\% des cas. Pour 481 pulsations (91.9\%) au moins deux annotateurs ont attribué un ratio P2/P1. la différence moyenne absolue entre les P2/P1 ratios était de 0.02 (écart type = 0.07). Pour ce jeu de test, il apparaît clairement, dans la plupart des cas, que le contrôle des risques n'a pas pu être obtenu pour les tolérances $\alpha_{0} = 5\%$ et $\alpha_{1} = 15\%$ (voir table~\ref{hcl-tab:comparison_custom}).
\begin{table}[h!]
\centering
\resizebox{1\textwidth}{!}{
\begin{tabular}{|l|c||ccccc|}
\hline
&Calibration& $\widehat{R_{0}}$ (\%)& $\widehat{R_{1}}$ (\%)& $\Delta P1_{>\text{10 ms}}$ (\%)& $\Delta P2_{>\text{10 ms}}$ (\%)& $MAE_{P2/P1}$\\
\hline
&$C_{ROC}$& 55.31& 9.18& 17.43& 21.38& 0.042\\
KNN&$C_{5-15}$& 0.93& 19.89& 20.44& 26.91& 0.087\\
&$C_{10-20}$& 3.90& 18.59& 20.22& 26.28& 0.085\\
\hline
&$C_{ROC}$& 19.37& 14.08& 19.72& 27.960& 0.061\\
RF&$C_{5-15}$& 1.62& 20.51& 21.01& 30.24& 0.085\\
&$C_{10-20}$& 4.44& 18.83& 20.33& 29.04& 0.079\\
\hline
&$C_{ROC}$& 5.57& 19.21& 21.81& 30.64& 0.094\\
XGB&$C_{5-15}$& 0.38& 22.33& 22.50& 31.52& 0.101\\
&$C_{10-20}$& 1.93& 21.26& 22.20& 31.06& 0.100\\
\hline
&$C_{ROC}$& 6.28& 17.02& 20.48& 25.61&0.076\\
MLP&$C_{5-15}$& 10.73& 15.38& 20.12& 24.49&0.067\\
&$C_{10-20}$& 0.90& 20.43& 21.09& 26.97&0.088\\
\hline
& $C_{ROC}$& 1.68& 14.51& 7.32& 14.39&0.063
\\
LSTM& $C_{5-15}$& 4.94& 13.52& 6.74& 13.87&0.061\\
& $C_{10-20}$& 10.68& 12.85& 6.60& 12.900&0.060\\
\hline
& $C_{ROC}$& 7.94& 17.23& 9.49& 15.09&0.081\\
LSTM*& $C_{5-15}$& 4.67& 17.96& 9.77& 15.53&0.09\\
& $C_{10-20}$& 5.37& 17.73& 9.59& 15.35&0.088\\
\hline
\end{tabular}
}
\caption{Indicateurs de performances de modèles évalués sur le jeu de test privé. $MAE_{P2/P1}$ --- Erreur moyenne absolue sur le ratio P2/P1. $\widehat{R_{0}}$ --- Proportion des pulsations avec un ratio P2/P1 calculable rejetées par ereur. $\widehat{R_{1}}$ --- Proportion des valeurs de ratio P2/P1 associées à une pulsation invalide ou à une erreur relative supérieure à 10\%. $\Delta P1_{>\text{10 ms}}$ --- Proportion des pulsations valides où l'erreur de détection excède 10 ms sur P1. $\Delta P2_{>\text{10 ms}}$ --- Proportion des pulsations valides où l'erreur de détection excède 10 ms sur P2. KNN --- K-Nearest Neighbors, RF --- Random Forests, XGB --- eXtreme Gradient Boosting, MLP --- MultiLayer Perceptron, LSTM --- Long Short-Term Memory, LSTM* --- pipeline d'analyse incluant des modèles de LSTM entraînés sans pulsations synthétiques. $C_{ROC}$ --- Calibration naïve, basée sur la courbe ROC. $C_{5-15}$ --- Calibration effectuée avec les seuils de tolérance $\alpha_{0} = 5\%$ et $\alpha_{1} = 15\%$. $C_{10-20}$ --- Calibration effectuée avec les seuils de tolérance $\alpha_{0} = 10\%$ and $\alpha_{1} = 20\%$.}
\label{hcl-tab:comparison_custom}
\end{table}
À l'exception du LSTM, tous les pipelines ont dépassé les seuils choisis pour $R_{0}$ et $R_{1}$. Cependant, la procédure de calibration a permis d'homogénéiser les performances des différentes pipelines, en particulier dans les cas des pipelines KNN et RF pour lesquels les seuils naïfs basés sur la courbe ROC sont associés à un taux de faux négatifs élevé (respectivement, 55.31\% et 19.37\%). Comme pour le jeu de test public, les différentes métriques groupées par classes de pulsations sont présentées dans la table~\ref{hcl-tab:custom}. Dans le cas de cette cohorte, l'étape de calibration a également un coût sur le taux de rejets erronés (le $R_{0}$ passe de 1.68\% à 4.94\%) mais améliore cette fois les autres métriques. Comme dans le jeu de test public, la classe "A+E" est la plus impactée avec un $R_{0}$ passant de 23.11\% à 34.75\%. Pour les autres formes de pulsations, la calibration a un effet homogène, augmentant la précision de la détection des pics au prix d'un $R_{0}$ légèrement plus élevé.
\begin{table}[h!]
\centering
\resizebox{\textwidth}{!}{
\begin{tabular}{|c||ccccc|ccccc|}
\hline
&\multicolumn{5}{c|}{Naive thresholds ($C_{ROC}$)}& \multicolumn{5}{c|}{Calibrated thresholds ($C_{5-15}$)}\\
\hline
Shape& $\widehat{R}_{0}$(\%)& $\widehat{R}_{1}$(\%)& $\Delta P1_{>\text{10 ms}}$& $\Delta P2_{>\text{10 ms}}$& MAE\textsubscript{P2/P1}& $\widehat{R}_{0}$(\%)& $\widehat{R}_{1}$(\%)&$\Delta P1_{>\text{10 ms}}$& $\Delta P2_{>\text{10 ms}}$&MAE\textsubscript{P2/P1}\\
\hline
T1
& 0.54 & 18.48 & 2.42 & 28.17 & 0.037 & 4.76 & 18.16 & 2.08 & 28.02 & 0.034
\\
T2
& 0.71 & 9.42 & 7.29 & 13.93 & 0.031 & 4.51 & 8.74 & 6.54 & 13.22 & 0.028
\\
T3
& 0.43 & 3.98 & 4.04 & 5.77 & 0.028 & 2.25 & 3.16 & 3.60 & 5.61 & 0.026
\\
T4
&
0.54 & 35.20 & 20.16 & 18.44 & 0.25 & 2.49 & 34.96 & 20.16 & 18.17 & 0.253
\\
A+E
& 23.11 & 43.04 & 23.32 & 30.77 & 0.18 & 34.75 & 40.64 & 20.96 & 28.89 & 0.167
\\
\hline
all&
1.68 & 14.51 & 7.32 & 14.39 & 0.063 &4.94 & 13.52 & 6.74 & 13.87 & 0.061\\
\hline
\end{tabular}
}
\caption{Indicateurs de performances du pipeline LSTM évalué sur le jeu de privé public avant et après calibration. $MAE_{P2/P1}$ --- Erreur moyenne absolue sur le ratio P2/P1. $\widehat{R_{0}}$ --- Proportion des pulsations avec un ratio P2/P1 calculable rejetées par ereur. $\widehat{R_{1}}$ --- Proportion des valeurs de ratio P2/P1 associées à une pulsation invalide ou à une erreur relative supérieure à 10\%. $\Delta P1_{>\text{10 ms}}$ --- Proportion des pulsations valides où l'erreur de détection excède 10 ms sur P1. $\Delta P2_{>\text{10 ms}}$ --- Proportion des pulsations valides où l'erreur de détection excède 10 ms sur P2. $C_{ROC}$ --- Calibration naïve, basée sur la courbe ROC. $C_{5-15}$ --- Calibration effectuée pour les seuils de tolérance $\alpha_{0} = 5\%$ et $\alpha_{1} = 15\%$.}
\label{hcl-tab:custom}
\end{table}
\subsection{Visualisation du processus de décision}
La méthode des gradients intégrés (\textit{integrated gradients})() est utilisée pour visualiser les processus de décision des modèles neuronaux. Cette technique vise à identifier les composantes du vecteur d'entrée ayant le plus d'influence sur le vecteur de sortie. Pour ce faire, une droite $d$ est calculée dans l'espace $[0, 1]^{180}$ entre une pulsation $x$ et une ligne de base $x'$, ici le vecteur nul. Pour chaque dimension, les gradients de la fonction de décision F sont intégrés le long de la droite $d$ tel que :
\[
IG_{i}(x) = (x_i - x'_i) \times \int_{\alpha=0}^{1} \frac{\partial F(x' + \alpha \times (x - x'))}{\partial x_i} \, d\alpha
\]
où $x_{i}$ représente la $i$-ème dimension de la pulsation $x$. Dans notre cas, l'intégration est effectuée indépendamment selon chacune des dimensions des sorties. La figure~\ref{FIG:6} présente les intégrations des gradients pour la probabilité $\hat{\bar{f}}(x)$ que la pulsation $x$ a un ratio P2/P1 ratio calculable, et pour les bornes inférieures $\hat{l}p1(x)$ et $\hat{l}p2(x)$ des positions respectives de P1 et P2. Les intégrations des gradients sont calculées sur six pulsations différentes issues du jeu de test privé. Cinq d'entre elles minimisent la distance euclidienne par rapport à la pulsation médiane de leur classes respectives. La dernière minimise la distance euclidienne par rapport à la pulsation médiane de l'ensemble des données. Comme attendu, les résultats du modèle sont principalement influencés par la morphologie de la première moitié de la pulsation, où P1 et P2 apparaissent généralement. Toutefois, des oscillations prononcées dans le dernier quart de la pulsation peuvent faire basculer la prédiction du classificateur vers la classe des artefacts, comme observé dans le cas de l'échantillon A+E. Il est intéressant de noter que les zones situées à proximité des véritables P1 et P2 influencent les détections des deux pics, parfois avec des gradients opposés, comme dans les exemples "T1", "T2" et "T3". Cela suggère que le détecteur apprend une représentation commune de l'impulsion avec des zones d'intérêt identifiées par la suite ensuite comme P1 et P2 en fonction du contexte.
\begin{figure}[h!]
\centering
\includegraphics[width=15cm]{HCL/fig6.png}
\caption{Visualisation des gradients intégrés sur six pulsations issues du jeu de test. Chacune des pulsations minimise la distance euclidienne à la pulsation médiane de la classification de Wroclaw indiquée. $\widehat{l}{p1}$ --- borne inférieure estimée de la position de P1. $\widehat{l}{p2}$ --- borne inférieure estimée de la position de P2. $\widehat{\overline{f}}$ --- Probabilité estimée que la pulsation est associée à un ratio P2/P1.}
\label{FIG:6}
\end{figure}
\subsection{Monitorage continu du ratio P2/P1}
Pour produire des exemples de monitorage continu de P2/P1 avec les modèles entraînés, ICP-SWAn a été exécuté rétrospectivement sur les deux premiers jours d'enregistrement de la PIC dans la cohorte de test. La cohorte d'entraînement a été laissée de côté pour deux raisons : (i) environ la moitié des enregistrements ne durent que quelques heures, (ii) la proportion de valeurs manquantes pourrait être sous-estimée sur les signaux utilisés pour entraîner les modèles. Parallèlement au ratio P2/P1, l'amplitude des pulsations cardiaques (AMP) et le PSI ont également été calculé. Par soucis d'homogénéité, les trois indices ont été lissés par une fenêtre glissante de 5 minutes actualisées toues les dix secondes. Pour chaque fenêtre, la valeur moyenne n'est calculée que si elle contient moins de 50\% de valeurs manquantes. Un exemple de ce type de suivi rétrospectif est présenté dans la figure~\ref{FIG:7}.
\begin{figure}[h!]
\centering
\includegraphics[width=15cm]{HCL/fig7.png}
\caption{Exemple d'une monitorage rétrospectif de deux jours pour différents indicateurs de compliance cérébrale.}
\label{FIG:7}
\end{figure}
En pratique, le monitorage du ratio P2/P1 peut être discontinu sur trop de pulsations sont rejetées. Comme présenté dans la figure~\ref{FIG:8}A, la proportion de temps passé sans valeur de P2/P1 varie grandement en fonction des patients. Parmi les 49 monitorages étudiés, la proportion de ratios P2/P1 manquants excède 10\% dans une dizaine de cas. Seulement un enregistrement particulièrement bruité contient plus de 50\% de valeurs manquantes. De manière intéressante, comme présenté dans la figure~\ref{FIG:8}B, l'AMP n'est que faiblement corrélée au PSI (0.15) et au ratio P2/P1 (0.22). Concernant la faisabilité d'un monitorage en temps réel au lit du patient, une version embarquée d'ICP-SWAn a été implémentée dans un microprocesseur i.MX6 de 600 MHz sans carte graphique. Le signal de PIC est analysé dans cette version par batches d'une minute. Le temps moyen d'analyse d'un batch est de 2.32 secondes. En comparaison, le temps d'analyse d'un batch d'une minute par un ordinateur de bureau équipé d'une carte graphique (voir les spécifications section ), est de 0.028 secondes. Dans tous les cas, la complexité calculatoire du pipeline complet permet d'envisager un monitorage du ratio P2/P1 en temps réel.
\begin{figure}[h!]
\centering
\includegraphics[width=15cm]{HCL/fig8.png}
\caption{A: Taux de valeurs manquantes au sein des 49 enregistrements de deux jours. B: Carte de corrélation entre les indicateurs de compliance cérébrale et le taux de valeurs manquantes (NaN).}
\label{FIG:8}
\end{figure}
\section{Discussion}
ICP-SWAn est un pipeline de détection automatisé des pics P1 et P2 ne nécessitant qu'un signal de PIC univarié en entrée. La méthode proposée repose sur une régression sélective permettant d'éliminer les prédictions identifiées comme incertaines de l'affichage final. L'objectif est d'éviter d'afficher des informations potentiellement erronées dans un environnement aussi saturé en information qu'une chambre de réanimation. En pratique, le pipeline est conçu pour isoler les pulsations individuelles du signal de PIC univarié et retourner un ratio P2/P1 quand la confiance dans la prédiction est estimée comme étant suffisante. Pour ce faire, une procédure de calibration est effectuée sur un jeu de pulsations dédié de façon à contrôler simultanément deux risques $R_{0}$ et $R_{1}$ avec un niveau de confiance de 95\%. $R_{0}$ correspond à la probabilité de rejeter une pulsation valide par erreur, tandis que $R_{1}$ correspond à la probabilité de renvoyer un ratio P2/P1 avec une erreur relative supérieure à 10\%. Comme la procédure de calibration est indépendante du modèle utilisé (pourvu que celui-ci puisse effectuer une régression par quantile), différentes versions du pipeline ont été implémentées en remplaçant les modèles neuronaux récurrents par quatre autres algorithmes d'apprentissage supervisé.
\par Sur le jeu de test public, l'étape de calibration tend à homogénéiser les performances des différents pipelines, avec une erreur moyenne sur le ratio P2/P1 comprise entre 0.016 (LSTM) et 0.023 (KNN et RF). Dans le cas spécifique du pipeline basé sur un modèle neuronal récurrent, la procédure de calibration n'a que peu ou pas d'effet sur les performances de détection, mais a augmenté de 3.12\% le pourcentage d'impulsions exclues par erreur. Ces résultats peuvent s'expliquer par les valeurs de base de $R_{0}$ et $R_{1}$ déjà bien inférieures aux seuils de tolérance définis. En revanche, ces résultats mettent clairement en valeur les bénéfices de l'ajout de pulsations synthétiques sur les performances du pipeline LSTM. En particulier, le $R_{0}$ mesuré passe de 7.11\% à 3.52\%, et le $R_{1}$ de 4.92\% à 1.88\%.
\par Le jeu de données privé apparaît comparativement plus difficile à analyser. Dans ce contexte, les $R_{0}$ et $R_{1}$ estimés pour le pipeline LSTM s'élèvent respectivement à 4.92\% et 13.52\%, ce qui apparaît comme le meilleur compromis entre les deux risques parmi les différents pipelines. Rétrospectivement, les seuils de tolérance utilisés pour la première calibration, à savoir $\alpha_{0} = 5\%$ et $\alpha_{1} = 15\%$, apparaissent comme trop restrictifs pour l'ensemble des autres pipelines. Cependant, la seconde calibration, utilisant les seuils moins restrictifs de $\alpha_{0} = 5\%$ et $\alpha_{1} = 15\%$, a permis de mener à bien la procédure de test en séquence fixe et d'obtenir un contrôle des risques robuste pour tous les algorithmes. Dans l'ensemble, les erreurs sont principalement
concentrées sur les pulsations de type T1, T4 et A+E. Le type T1 correspond aux pulsations associées à une compliance cérébrale élevée, où le pic P2 est souvent très peu prononcé. En comparaison, le type T4 se trouve à l'opposé du spectre avec des formes d'ondes triangulaires où P1 peut être difficile à localiser précisément. Enfin, les pulsations de type A+E sont proches de la limite de rejet et sont donc souvent difficiles à interpréter, y compris pour les annotateurs manuels. Pour les deux jeux de tests utilisés, le
processus de calibration a d'abord augmenté la proportion de faux négatifs dans la classe A+E, mais a amélioré de manière homogène la plupart des autres indicateurs de performances dans toutes les autres classes de pulsations. En ce sens, la classification a principalement permis d'identifier quelques prédictions aberrantes, aux prix d'une prudence accrue dans le cas des pulsations proches de la frontière de décision humaine.
\par De fait, le processus d'annotation s'est révélé être une difficulté majeure de cette étude. Si le repérage manuel des pics P1 et P2 s'avère plutôt aisé pour la plupart des enregistrements, il n'existe en revanche aucun moyen d'accéder à la biomécanique sous-jacente dans les cas difficiles à interpréter. Même si tous les annotateurs ont signalé leur difficulté à annoter certains signaux de PIC (10 sur 98 ont même été ré-annotés indépendamment par tous les annotateurs), le niveau de confiance humaine n'est pas évident à quantifier. Dans la pratique, ces cas difficiles ne sont pas répartis uniformément entre les enregistrements de PIC. Étant donné que les changements dans la morphologie de la forme d'onde de la PIC sont généralement lents et progressifs (à l'échelle des heures),
les formes d'onde non-interprétables ont tendance à se produire dans un sous-ensemble limité de patients, mais pendant des périodes de temps significatives, rendant alors indisponible le monitorage du ratio P2/P1.
\par La théorie du \textit{Learn-then-Test} apparaît alors comme un outil adapté pour rendre compte de cette incertitude dans un contexte de monitorage au lit du patient. Plus précisément, l'objectif est de trouver un compromis optimal entre le risque d'un ratio P2/P1 rarement disponible et le risque d'afficher des résultats inexacts. Dans le contexte de soins intensifs, il n'est toutefois pas absurde de considérer le premier écueil comme plus acceptable. De plus, le ratio P2/P1 étant en pratique moyenné à l'échelle de la minute, des faux négatifs ponctuels n'ont que peu d'impact sur l'information transmise au praticien. Dans le futur, les trois indicateurs de certitude choisis pourraient toutefois être affinés, par exemple en prenant en compte les résultats de méthodes d'explicabilité telles que l'intégration de gradients. La définition du risque $R_{1}$ peut également être débattue. Dans le cas présent, le choix d'utiliser l'erreur relative, et donc d'accorder plus de tolérance aux valeurs de ratio élevées, est guidé par l'interprétation clinique du ratio P2/P1 : en particulier, un ratio nettement supérieur à 1 est de toute façon le reflet d'une compliance cérébrale dégradée. De manière générale, la procédure de calibration est surtout intéressante dans un contexte de monitorage en temps réel, où les prédictions aberrantes ne peuvent pas être corrigées manuellement.
\par Concernant la pertinence clinique du ratio P2/P1, l'étude des monitorages continus montrent que les indices purement morphologiques comme le ratio P2/P1 ou le PSI ne sont que faiblement corrélés à l'amplitude des pulsations en mmHg. Sur les quarante-neuf enregistrements de deux jours, la corrélation entre l'amplitude moyenne et le ratio moyen est seulement de 0.22, ce qui confirme que ces indices ne reflètent pas exactement les mêmes propriétés mécaniques du système cérébrospinal. En comparaison, le PSI moyen et le ratio moyen affichent une corrélation moyenne de 0.79. Cependant, comme décrit dans la figure 6, le signal de ratio P2/P1 peut proposer des variations plus fines et progressives du fait du spectre continu des valeurs possibles.
\section{Conclusion}
Le pipeline d'analyse ICP-SWAn permet de monitorer en temps réel le ratio P2/P1 sur des signaux ICP univariés. Les détections incertaines sont identifiées statistiquement au moyen de trois indicateurs de qualité basés sur les sorties des modèles neuronaux. Les performances du pipeline ont été évaluées sur deux jeux de tests annotés par deux équipes indépendantes. Les erreurs de détection se produisent principalement pour des valeurs extrêmes de compliance cérébrale. Des études cliniques supplémentaires sont nécessaires pour évaluer
la pertinence du rapport P2/P1 dans la gestion des diverses pathologies pour lesquelles un monitorage de la PIC est recommandé.