Netflix, l’IA i el Big Data: Com funciona l’algoritme de Netflix
Hi ha una pregunta que molta gent es fa sense formularis del tot: per què Netflix sempre sembla saber exactament què vols veure? La resposta curta és que no ho ell sap: ho prediu. I aquesta distinció, que pot semblar subtil, ho canvia tot.
Predir el comportament de 301 milions de persones no és màgia. És el resultat de combinar grans volums de dades amb algorismes d’intel·ligència artificial que aprenen sense parar. Netflix no és, en el fons, una empresa d’entreteniment que utilitza tecnologia. És una empresa tecnològica que produeix entreteniment. Entendre aquesta diferència és la clau per comprendre el món professional que ve.
Què és exactament el Big Data de Netflix?
Quan parlem del Big Data de Netflix, no parlem d’una base de dades gran. Parlem d’un ecosistema de captura, processament i anàlisi de dades que opera a temps real sobre el comportament de centenars de milions de persones alhora.
Cada cop que obris l’app, Netflix ho registra tot: quin dia és, a quina hora et connectes, des de quin dispositiu, què busques encara que no arribis a veure res, quant trigues a triar, on pauses, en quin moment exacte abandones una sèrie i en quin punt decideixes retrocedir. Això multiplica per 301 milions d’usuaris actius, i obtens una quantitat d’informació que cap ésser humà no podria analitzar per si mateix. Per això entra en escena la intel·ligència artificial.
Aquí cal aclarir una confusió molt habitual: Big Data i Intel·ligència Artificial no són el mateix. El Big Data és el conjunt massiu de dades. La IA és el conjunt de tècniques i algorismes que permeten extreure patrons útils d’aquestes dades i convertir-les en decisions automatitzades. A Netflix, el Big Data alimenta la IA, i la IA converteix aquest torrent d’informació en prediccions: què et recomana la plataforma, quina caràtula et mostra, quin tràiler reprodueix i, finalment, què decideix produir.
La dada més reveladora de tot això: el 80% dels continguts que consumeixes a Netflix van arribar a la pantalla elegits per l’algorisme, no per tu. Quan això s’interioritza de debò, obliga a repensar qui pren realment les decisions a l’economia digital.
Quin tipus de IA utilitza Netflix?
Netflix no utilitza un únic tipus d’IA. Usa una combinació de tècniques que treballen en paral·lel i que, en conjunt, formen un dels sistemes de recomanació més sofisticats que existeixen avui al món.
La base del sistema és el filtratge col·laboratiu: un algorisme que cerca similituds entre patrons de comportament de diferents usuaris. Si un milió de persones amb gustos semblants als teus han gaudit d’una sèrie, el sistema te la recomanarà, encara que mai no hagis buscat aquest tipus de contingut. Sobre aquesta base treballa el filtrat basat en contingut, que analitza les característiques de cada títol —gènere, ritme, to emocional, estructura dramàtica— i les creua amb el teu historial. I per sobre de tots dos, Netflix aplica Aprenentatge profund per a tasques més complexes: analitzar imatges per generar miniatures personalitzades, processar cerques en llenguatge natural, o identificar elements visuals dins de cada fotograma.
A més de l’algorisme de recomanacions, Netflix utilitza Machine Learning per predir cancel·lacions de subscripció, optimitzar la qualitat de streaming segons l’amplada de banda disponible en temps real, i prendre decisions de producció. La companyia estima que el sistema d’IA evita pèrdues de fins a 1.000 milions de dòlars anuals només en cancel·lacions. Retenir l’atenció és, al negoci del streaming, literalment una qüestió de supervivència.
L’algorisme de Netflix utilitza IA? La veritat sobre com funciona per dins
Sí, i de diverses maneres. Però hi ha un concepte tècnic que mereix explicació pròpia perquè és al cor de la recomanació moderna i probablement sigui la innovació més subestimada de tot el sistema: les bases de dades vectorials i els incrustacions.
En lloc de cercar coincidències entre paraules clau —”ciència ficció”, “drama polític”—, la IA de Netflix converteix cada element del catàleg, i cada perfil d’usuari, en representacions numèriques anomenades vectors o embeddings. Això us permet cercar per significat en lloc de per etiquetes literals. Si consumeixes habitualment thrillers psicològics, l’algorisme pot recomanar-te un documental de true crime o una sèrie de drama judicial que, encara que no es classifica com a thriller, comparteix la mateixa càrrega emocional i el mateix ritme que activa la teva atenció.
Dit altrament: la IA no veu gèneres. Veu geometria matemàtica. I en aquest espai numèric, la distància entre dos títols diu més que qualsevol etiqueta.
El sistema tampoc no es queda estàtic. Netflix aplica aprenentatge automàtic en línia: els models s’actualitzen en temps real conforme interactues amb la plataforma. L’algorisme d’aquesta tarda no és exactament el mateix que aquest matí. I la companyia fa milers de proves A/B simultànies per detectar quins canvis milloren el temps de visualització, la satisfacció de l’usuari o la taxa de retenció. Han convertit l’experimentació continuada en un procés industrial.
Netflix et rastreja? Com recopila i maneja les dades
Aquesta és potser la pregunta més incòmoda i també la més honesta. La resposta és sí, encara que amb matisos importants.
Netflix recopila dades de forma contínua i massiva: historial complet de visualització, temps exactes de pausa i abandó, dispositius utilitzats, cerques, valoracions, interaccions amb la interfície i fins i tot localització geogràfica aproximada. El que no fa servir, segons la companyia, són variables demogràfiques clàssiques com l’edat o el gènere. Ha comprovat que el comportament real prediu les preferències millor que la identitat declarada.
Tot aquest flux de dades és enorme: Netflix processa internament al voltant de 500.000 milions d’esdeveniments al dia, fet que suposa més d’1,3 petabytes d’informació diària. Per gestionar-ho, la infraestructura tecnològica ha d’estar a l’alçada. I aquí entra en escena una eina que genera força curiositat.
Què és Cassandra? La base de dades darrere del streaming de Netflix
Apache Cassandra és una base de dades NoSQL distribuïda de codi obert, creada originalment per Facebook el 2007. Netflix és un dels usuaris més emblemàtics, i el seu ús il·lustra perfectament per què les bases de dades tradicionals no escalen quan es treballa amb Big Data real.
Una base de dades convencional emmagatzema les dades a taules fixes amb un servidor central que gestiona les consultes. Cassandra funciona de forma radicalment diferent: distribueix la informació entre múltiples nodes en una arquitectura d’anell on cap no és el “cap”. Tots tenen la mateixa funcionalitat, tots es comuniquen entre si, i si un falla, el sistema continua funcionant sense interrupció. Aquesta tolerància a la fallada i aquesta escalabilitat lineal —duplicar nodes duplica el rendiment— és exactament el que necessita una plataforma que no es pot permetre ni un segon caigut.
Netflix utilitza Cassandra per gestionar en temps real l’historial de visualització, les recomanacions personalitzades i els registres d’activitat. El seu equip de gestió d’actius, per exemple, gestiona aproximadament 1.900 milions d’anotacions —uns 2,6 TB de dades— sobre un clúster que ha crescut de 12 a 24 nodes. I per al flux de tots aquests esdeveniments, Netflix combina Cassandra amb Apache Kafka i Apache Chukwa, que connecten els diferents microserveis de la plataforma entre si.
El cas House of Cards: quan les dades prediuen l’èxit abans de rodar una sola escena
A la televisió tradicional, una nova sèrie té entre un 30% i un 35% de probabilitats d’èxit. A Netflix, aquesta xifra puja al 70%. La diferència no és només en el pressupost o el talent creatiu: és que Netflix no aposta per la intuïció d’un executiu, sinó per la certesa matemàtica que emergeix de l’anàlisi massiva de dades.
El cas més citat, i amb raó, és el de House of Cards. Abans d’invertir els 100 milions de dòlars que va costar la producció, abans de rodar una sola escena, Netflix ja sabia que triomfaria. La seva Big Data havia revelat tres segments d’audiència que s’encavalcaven significativament: usuaris que havien vist sencera la sèrie britànica original en què es basava, usuaris que seguien activament la filmografia de Kevin Spacey, i usuaris fidels als projectes del director David Fincher. La intersecció dels tres grups formava una massa crítica suficient per garantir l’èxit. No era intuïció. Era aritmètica aplicada al comportament cultural.
El model s’ha replicat des de llavors a desenes de produccions. Stranger Things va ser dissenyada per capturar la intersecció entre consumidors de terror, nostàlgia vuitanta i ciència ficció juvenil que les dades revelaven com un segment desatès. L’expansió internacional de Netflix s’ha basat a identificar quins mercats locals tenen audiències amb gana per narratives que cap productora local no estava satisfent. L’art de l’entreteniment no ha desaparegut, però ara conviu –i en molts casos queda subordinat– a la ciència de les dades.
Com utilitza Netflix el Big Data per segmentar i fidelitzar els usuaris?
La segmentació a Netflix no funciona com la segmentació tradicional, que agrupa persones per demografia –edat, gènere, ingressos, ubicació–. Netflix treballa amb allò que internament anomenen clústers de gust: grups dinàmics d’usuaris que comparteixen patrons de comportament, independentment de qui siguin com a persones. Aquests clusters no són fixos. Canvien, es fusionen, es divideixen i evolucionen a mesura que evolucionen els hàbits de l’usuari.
La fidelització funciona principalment a través del que podríem anomenar el problema de les primeres setmanes. Les dades internes revelen que si un nou subscriptor no troba una cosa que us enganxi ràpid, la probabilitat que cancel leu es dispara. Per això l’algorisme no només treballa per optimitzar la satisfacció a llarg termini, sinó per resoldre aquest problema d’engagement primerenc amb urgència real. La primera setmana d’un nou usuari és, per a l’algoritme, la més crítica.
I la personalització arriba fins a detalls que molts no perceben. La caràtula de Stranger Things que veus tu no és la mateixa que veu el teu veí. Netflix utilitza xarxes neuronals per generar desenes de variants de cada imatge promocional i mostra la que, segons el teu perfil, té més probabilitat de fer-te clicar. Només canviar una portada pot incrementar entre un 20 i un 30% les visualitzacions d’un títol.
Per a House of Cards, es van crear més de deu versions diferents del tràiler. Els usuaris que consumien sèries amb protagonistes femenines fortes veien una versió centrada en els personatges femenins; els amants de la intriga política en veien una altra completament diferent. Aquest nivell d’hiperpersonalització no és un detall estètic. És una estratègia de negoci construïda a sobre de milions d’experiments de dades.
Què veure a Netflix si t’interessa aquest món?
Si el funcionament tècnic de la IA i el Big Data et genera curiositat més enllà del que és abstracte, Netflix té produccions que aborden aquests temes des d’angles molt diferents.
The Social Dilemma (2020) és probablement el document audiovisual més accessible sobre com els algorismes de recomanació modelen el comportament humà, narrat pels mateixos enginyers que els van dissenyar. Coded Bias (2020) explora els biaixos en els sistemes de reconeixement facial i aprenentatge automàtic. I si prefereixes la ficció, Black Mirror fa anys que anticipa amb força encert les conseqüències socials d’aquestes tecnologies.
Tot i que, pensant-ho bé, el millor cas pràctic disponible és el mateix Netflix. Cada vegada que obris l’aplicació, interactues amb un dels sistemes d’IA més sofisticats del planeta.
La relació entre Big Data i Intel·ligència Artificial: per què són inseparables
Convé deixar-ho clar perquè és una font de confusió freqüent: Big Data i Intel·ligència Artificial no són el mateix, encara que a la pràctica empresarial d’avui siguin inseparables.
El Big Data és la capacitat de capturar, emmagatzemar i gestionar volums de dades que superen el que les eines tradicionals poden manejar, ja sigui per la mida, la velocitat de generació o la varietat de formats. La Intel·ligència Artificial -i més concretament el Machine Learning- és el conjunt de tècniques que permeten que un sistema aprengui patrons a partir d’aquestes dades i prengui decisions sense ser programat explícitament per a cada cas.
La relació entre tots dos és bidireccional: sense Big Data, els models d’IA no tenen prou dades per aprendre amb precisió. Sense IA, el Big Data és simplement un magatzem dinformació inert del qual és impossible extreure valor a escala. A Netflix, les dades de comportament de 301 milions d’usuaris són el combustible. Els algorismes són el motor. Cap dels dos no funciona sense l’altre.
La bretxa que s’està obrint i l’oportunitat que representa
Una dada per posar les coses en perspectiva: a Espanya només el 31% de les empreses aprofita el potencial de l’anàlisi massiva de dades. Gairebé set de cada deu companyies continuen competint en un mercat que es mou a la velocitat de les dades amb eines del segle passat. Aquesta bretxa no es tanca sola. I cada any que passa, l’avantatge dels que dominen aquestes tecnologies sobre els que no les dominen s’amplia.
La demanda d’especialistes a IA, Big Data i Machine Learning creix de forma sostinguda a tots els sectors: salut, finances, logística, retail, indústria, mitjans de comunicació. El perfil de Data Scientist, Data Engineer o Machine Learning Engineer és avui un dels més sol·licitats i més ben remunerats del mercat laboral tecnològic. No pas perquè sigui una moda, sinó perquè representa una capacitat que les organitzacions necessiten amb urgència i que escasseja.
Vols dissenyar els algorismes, no només fer-los servir?
Entendre com funciona Netflix és fascinant. Però hi ha una diferència molt concreta entre consumir aquesta tecnologia i ser capaç de construir-la. Entre ser usuari de l’algorisme i ser el professional que el dissenya, l’entrena i optimitza.
A Stucom hem desenvolupat el Màster d’FP en Intel·ligència Artificial i Big Data per als que volen ser al segon grup. És un programa orientat al mercat laboral real, amb un enfocament pràctic que integra les eines que les empreses estan usant ara mateix: Python, TensorFlow, Scikit-learn, Apache Spark, arquitectures de dades distribuïdes, models de Machine Learning i Deep Learning, i visualització i intel·ligència de negoci aplicada.
No es tracta d´aprendre a parlar d’IA. Es tracta d’aprendre a construir-la: des de la captura i processament de dades a escala fins al disseny de sistemes de recomanació, predicció i classificació que generen valor real en entorns empresarials concrets. El mateix tipus de valor que Netflix ha convertit en un avantatge competitiu de 10.000 milions de dòlars trimestrals.
La tecnologia no espera. Les empreses que necessiten aquests perfils tampoc. I la bretxa entre els que dominen aquestes eines i els que no segueix creixent cada dia.
Descobreix el programa complet del Màster de FP a IA i Big Data →