Il ruolo dei 'big data' nella farmacovigilanza
Negli ultimi 10 anni, il termine 'big data' è diventato una parola d'ordine utilizzata in diversi ambiti. Nonostante sia un termine diffuso, non è sempre chiaro a che cosa si riferisca. La definizione più appropriata è quella delle cosiddette 'quattro V': volume, velocità, varietà, veridicità, che indicano una grande mole di dati, eterogenei tra di loro, rapidamente analizzabili, e che devono essere sistematicamente sottoposti a controlli di qualità.1
In ambito sanitario si sente sempre più spesso parlare di 'big data', di come si possa sfruttare l'enorme mole di dati raccolti tramite le cartelle cliniche informatizzate o con i flussi di dati amministrativi (prescrizioni farmaceutiche, schede di dimissione ospedaliera, prestazioni ambulatoriali, eccetera)2 e di come questi dati possano supportare le decisioni regolatorie, anche nell'ambito della farmacovigilanza. Dagli anni '90 in poi, si è ricorso sempre più spesso all'uso delle banche dati sanitarie in tutto il mondo, soprattutto in Europa e in America e più recentemente in Asia, e i database sanitari sono utilizzati per la valutazione dei trattamenti farmacologici in fase post marketing, e in particolare per analisi su appropriatezza prescrittiva, efficacia comparativa e sicurezza dei farmaci.3-5
Le analisi sulla sicurezza post marketing possono avvalersi di fonti dati di ampie dimensioni, tra cui i sistemi informativi di segnalazione spontanea di sospette reazioni avverse (ADR).6 La Food and Drug Administration (FDA) possiede un sistema di segnalazione degli eventi avversi (FAERS) disponibili per la consultazione pubblica. Nel 2006, FAERS ha ricevuto quasi mezzo milione di segnalazioni, arrivando a 1,2 milioni nel 2014.7 Altri sistemi di segnalazione spontanea che raccolgono le informazioni nei rispettivi database sono Vigibase, il sistema informativo dell'Organizzazione Mondiale della Sanità (OMS) che finora ha ricevuto quasi 15 milioni di segnalazioni di ADR8, ed EudraVigilance dell'Agenzia Europea per i Medicinali (EMA), che ha raccolto a oggi quasi 11 milioni di segnalazioni.9
Oltre alle banche dati di segnalazione spontanea, esistono varie altre tipologie di banche dati che sono utilizzate nell'ambito della farmacovigilanza, per esempio le banche dati dei flussi di dati amministrativi e gli electronic medical records (EMR). I database amministrativi sono molto comuni in Italia, come quelli relativi ai servizi e prodotti rimborsati dal Servizio Sanitario Nazionale (SSN). Questi flussi amministrativi contengono le dispensazioni dei farmaci e il flusso delle schede di Dimissione Ospedaliera (SDO), in cui sono memorizzate diagnosi e procedure registrate a ogni ricovero ospedaliero. Questi flussi, insieme ad altri flussi associati all'SSN, possono essere collegati tra loro, permettendo di ricostruire la storia clinica di un paziente. Molte regioni in Italia, tramite le Aziende Sanitarie Locali (ASP), gestiscono i flussi amministrativi sanitari e li utilizzano per attività di farmacovigilanza e per valutazioni sulla sicurezza dei farmaci.10,11 Gli EMR database invece contengono informazioni demografiche e cliniche dei pazienti, come diagnosi e prescrizioni, che vengono registrati dal medico di medicina generale ogni volta che il paziente viene visitato.
L'uso contemporaneo di diverse banche dati sanitarie per valutare l'uso e la sicurezza dei farmaci, anche attraverso l'integrazione di banche dati di diverse tipologie (per esempio, banche dati amministrative ed EMR), è sempre più frequente. Le iniziative multi-database hanno mostrato la tendenza a creare grandi infrastrutture di dati per la valutazione post marketing dell'efficacia e della sicurezza dei farmaci, ma anche per aumentare la potenza degli studi sulle malattie rare che, vista la scarsa casistica, difficilmente possono essere oggetto di studi clinici controllati e randomizzati (RCT).12 L'uso crescente di network di banche dati sanitarie ha portato allo sviluppo di nuove metodologie analitiche attraverso l'elaborazione di grandi volumi di dati eterogenei, come fatto dall'Observational Health Data Sciences and Informatics (OHDSI), che ha sviluppato metodi e strumenti per la costruzione di infrastrutture per reti di database. Analogamente, l'iniziativa PROTECT (http://www.imi-protect.eu/) ha mostrato come sia possibile condurre analisi su più database, attraverso l'adozione di protocolli comuni piuttosto che attraverso l'analisi centralizzata dei dati. Per favorire la ricerca collaborativa anche tramite la creazione di network di banche dati sanitarie, l'EMA ha coordinato per quasi un decennio una rete di centri di Farmacoepidemiologia e Farmacovigilanza (ENCePP), costituita da circa 200 istituzioni pubbliche e Contract Research Organization (CRO) coinvolte in attività relative alla farmacoepidemiologia e alla farmacovigilanza.13 Nell'ambito delle reti di database utilizzate per la farmacovigilanza, due sono le iniziative di riferimento messe in atto a livello internazionale: Sentinel e EU-ADR.14
Sentinel è un sistema di sorveglianza post marketing avviato nel 2008 dall FDA, che si basa principalmente sull'utilizzo dei dati di assistenza sanitaria di 193 milioni di persone negli Stati Uniti.15 I dati sono stati raccolti e uniformati secondo un modello di dati comune, grazie al quale è stato possibile gestire ed elaborare i dati da parte di un unico centro di coordinamento, garantendo la privacy del paziente.
EU-ADR è invece un'iniziativa finanziata dall'Unione Europea (UE) nel 2008, con l'obiettivo di identificare precocemente eventuali segnali di sicurezza dei farmaci attraverso tecniche di data-mining applicate su otto database sanitari di quattro paesi europei (Danimarca, Italia, Paesi bassi e Regno Unito)16, per un totale di circa 30 milioni di soggetti.
Altri network internazionali sono stati costituiti negli ultimi anni, con l'obiettivo di aumentare la potenza degli studi post marketing sui farmaci e sui vaccini, tra cui ARITMO (http://www.aritmo-project.org), SAFEGUARD (http://www.safeguard-diabetes.org/), ADVANCE (http://www.advance-vaccines.eu/), SOS (https://www.sosnsaids-project.org/), EUROmediCAT in Europa (http://www.euromedicat.eu/), CNODES in Canada (https://www.cnodes.ca/) e Asian Pharmacoepidemiology Network (AsPEN) in Asia e Australia (http://aspennet.asia/index.html).
All'interno delle banche dati, gran parte delle informazioni è generalmente codificata: per esempio, per le diagnosi mediche è spesso usata la classificazione internazionale di codici di malattia (ICD), o la classificazione internazionale di codici di cura primaria (ICPC), mentre per le informazioni sui farmaci è spesso impiegata la classificazione Anatomica Terapeutica e Chimica (ATC). I dati di interesse possono essere selezionati identificando i codici rilevanti, idealmente in accordo a studi di validazione sull'identificazione di patologie disponibili in letteratura per assicurare l'accuratezza e la riproducibilità dei risultati. Tuttavia, informazioni cliniche in queste banche dati possono anche essere raccolte sotto forma di testo libero, come nel caso dei medici specialisti o di medicina generale, che registrano i dettagli della loro pratica clinica con note testuali riportate nelle cartelle cliniche informatizzate. Per analizzare questi dati inseriti in forma di testo libero, si può ricorrere all'uso dell'intelligenza artificiale e, nello specifico, al 'machine learning'. Questa metodologia può essere 'supervised' o 'unsupervised' ed entrambi gli approcci sono stati utilizzati in farmacovigilanza per l'identificazione automatica di segnali di sicurezza.
L'unsupervised machine learning (UML) è un sistema di apprendimento automatico che ha lo scopo di individuare un'associazione tra gli input forniti, senza che questi vengano etichettati in alcun modo come corretti o meno. Questo approccio è stato utilizzato per identificare i segnali di sicurezza dei farmaci e identificarne il pattern d'uso.17,18 Alla supervised machine learning (SML) vengono invece forniti dei possibili input e i rispettivi output desiderati, con l'obiettivo di individuare un pattern che associ l'input all'output. Un esempio di SML è la corretta codifica del testo libero.19 L'identificazione di ADR nei database è effettuata attraverso un particolare tipo di machine learning chiamato natural language processing (NLP). L'NPL non è stato applicato solo ai database sanitari ma anche ai social media, come Twitter, che contengono principalmente stringhe di dati in formato testuale, per identificare potenziali eventi avversi. In particolare, sono stati aggregati dati provenienti dai social network in forma di testo libero, dai forum dove gli utenti condividono informazioni sulla loro esperienza clinica e da case report che descrivevano potenziali eventi avversi.20 In ambito di salute pubblica, l'importanza data ai social media nasce dall'enorme quantità di utenti registrati su social network come Facebook (quasi 2 miliardi di utenti) e Twitter (oltre 300 milioni di utenti).21 Sempre maggiore interesse è stato rivolto alla ricerca in ambito di farmacovigilanza a partire dall'analisi dei dati inclusi nei social media. Sebbene i social media possano avere un ruolo nella valutazione post marketing della sicurezza dei farmaci, a oggi sembra che il ricorso a questi strumenti non migliori specificamente l'identificazione dei segnali di sicurezza dei farmaci.22 In un'era in cui sempre più dispositivi raccolgono dati collegabili tra loro, dati provenienti da app o dispositivi elettronici per il monitoraggio di parametri clinici e quelli relativi allo stile di vita (noti come "wearables"), sarà interessante vedere se e quanto rapidamente queste tecnologie avranno un impatto sulla farmacovigilanza.23-25
Nonostante i vari punti di forza associati all'uso delle banche dati sanitarie, esistono alcuni limiti che devono essere presi in considerazione. Una delle principali criticità nell'utilizzo delle banche dati sanitarie riguarda la qualità dei dati contenuti, che se scarsa (per esempio errata registrazione dei dati, elevata frequenza di dati mancanti) porterà a risultati di valore limitato. Di conseguenza, è indispensabile avere la massima conoscenza dei limiti delle fonti dati impiegate e scegliere il disegno di studio più appropriato all'analisi che si vuole condurre, non adattando il quesito clinico che motiva lo studio alla fonte dati ma viceversa, valutando accuratamente se la fonei dati cui si ha accesso è idonea per valutare il quesito clinico corretto.
In generale, la disponibilità di diverse fonti dati e l'aumento degli strumenti di analisi rappresentano un'opportunità per condurre studi di farmacoutilizzazione e sulla sicurezza dei farmaci, su scala sempre più ampia e con maggiore dettaglio. Tuttavia, è importante ricordare che i risultati ottenuti dall'analisi di dati di grandi dimensioni provenienti da diverse fonti devono essere accompagnati da un'interpretazione clinica robusta e critica. Il processo di identificazione di un segnale di sicurezza dei farmaci non può essere del tutto automatizzato ed è essenziale una valutazione attenta da parte di esperti del settore. Tutti i dati contenuti nei database amministrativi, nei registri delle malattie, negli EMR dei medici di medicina generale e nei sistemi di segnalazione spontanea di eventi avversi non dovrebbero essere valutati separatamente, ma essere considerati come parte di un contesto più ampio. In generale, tali dati hanno un valore molto limitato di per sé, ma se analizzati e interpretati correttamente possono rappresentare un utilissimo strumento che può anche supportare e guidare le decisioni di tipo regolatorio relative ai farmaci.26
- Yearb Med Inform 2014;9:14-20. CDI NS
- Yearb Med Inform 2014;9:97-104. CDI
- J Am Med Inform Assoc 2013;20:117-21. CDI
- J Med Syst 2012;36:3029-49. CDI NS
- JAMA 2011;305:400-1. CDI
- Mann's Pharmacovigil 2014:331-54.
- https://www.fda.gov/Drugs/GuidanceComplianceRegulatoryInformation/Survei... Accessed 30-01-2018
- https://www.who-umc.org/vigibase/vigibase/ Accessed 30-01.2018
- http://www.ema.europa.eu/docs/en_GB/document_library/Report/2017/03/WC50...
- Expert Opin Drug Saf 2016;15(sup2):61-7. CDI
- PLoS One 2013;8(12):e82990. CDI
- Br J Clin Pharmacol 2015;80:304-14. CDI
- Pharmacoepidemiol Drug Saf 2012;21:690-6. CDI
- N Engl J Med 2009;361:645-7. CDI
- https://www.fda.gov/Safety/FDAsSentinelInitiative/ucm149340.htm Accessed 30-01-2018
- Stud Health Technol Inform 2009;148:43-9.
- Clin Pharmacol Ther 2012;91:1010-21.
- BMC Bioinform 2011;12(Suppl 10):S11. CDI
- J Biomed Inform 2015;56:356-68.
- J Biomed Inform 2015;53:196-207. CDI
- https://techcrunch.com/2017/06/27/facebook-2-billion-users/
- Drug Saf 2017;40:317-31. CDI
- PLoS Med 2016;13(2):e1001953. CDI
- Int J Commun Syst 2012;25(9):1101.
- Proc IEEE. 2010;98(11):1947-60.
Janet Sultana1,2, Valentine Ientile3, Gianluca Trifirò1,2
1 Dipartimento di scienze biomediche odontoiatriche e delle immagini morfologiche e funzionali, Università degli Studi di Messina, Messina
2 Dipartimento di informatica medica, Erasmus Medical Centre, Rotterdam, Olanda
3 Unità di farmacologia clinica, AOU 'G.Martino', Messina