Un nuovo algoritmo di machine learning rompe i CAPTCHA di testo più facilmente che mai

Mattia PlayBlog.it23/12/2018

Gli accademici del Regno Unito e della Cina hanno sviluppato un nuovo algoritmo di apprendimento automatico che può rompere i sistemi CAPTCHA testuali con meno sforzo, più velocemente e con maggiore accuratezza rispetto a tutti i metodi precedenti.

Questo nuovo algoritmo, sviluppato dagli scienziati della Lancaster University (UK), della Northwest University (Cina) e della Peking University (Cina), si basa sul concetto di GAN, che sta per ” Generative Adversarial Network “.

I GAN sono una classe speciale di algoritmi di intelligenza artificiale utili in scenari in cui l’algoritmo non ha accesso a grandi quantità di dati di allenamento.

Classificare gli algoritmi di apprendimento automatico di solito richiedono milioni di punti dati per addestrare l’algoritmo nell’esecuzione di un’attività con il grado di accuratezza desiderato.

Un algoritmo GAN ha il vantaggio che può funzionare con un lotto molto più piccolo di punti di dati iniziali. Questo perché un GAN utilizza un cosiddetto componente “generativo” per produrre dati simili. Questi punti di dati “generati” vengono quindi inviati a un algoritmo “risolutore” che tenta di indovinare l’output.

Poiché questi due componenti GAN sono disposti l’uno contro l’altro, il risolutore migliora, come se fosse stato addestrato con milioni di punti dati.

Gli accademici britannici e cinesi hanno applicato questo stesso concetto per rompere i CAPTCHA di testo, che, nella stragrande maggioranza dei precedenti studi di ricerca, sono stati testati solo con algoritmi classici di apprendimento automatico formati con grandi quantità di punti di dati iniziali.

I ricercatori hanno sostenuto che in uno scenario reale, un utente malintenzionato non sarebbe in grado di generare milioni di CAPTCHA su un sito Web o un’API live senza essere rilevato e bannato.

Ecco perché, per la loro ricerca, hanno utilizzato solo 500 CAPTCHA testuali da ciascuno dei 11 servizi CAPTCHA testuali trovati in 32 dei 50 siti Web Alexa più importanti.

“Ci vogliono fino a 2 ore (meno di 30 minuti per la maggior parte dello schema) per raccogliere 500 captcha e meno di 2 ore per etichettarli da un solo utente”, hanno affermato i ricercatori. “Ciò significa che lo sforzo e il costo per lanciare il nostro attacco su un particolare schema captcha è basso.”

L’elenco dei dati di allenamento, elencati nella tabella seguente, includeva CAPTCHA di testo da siti come Wikipedia, Microsoft, eBay, Baidu, Google, Alipay, JD, Qihoo360, Sina, Weibo e Sohu.

Seguici su Facebook

articolo precedente

Dark Skies – Oscure presenze su Netflix

prossimo articolo

Fortnite 7.10 – Note sulle patch

Mattia PlayBlog.it

Lascia un commento Cancel Reply