DarkBERT ist ein neues KI-Modell, das speziell mit Daten aus dem Darknet trainiert wurde. Im Gegensatz zu grossen Sprachmodellen wie ChatGPT und Google Bard, die mit Daten aus dem offenen Web trainiert wurden, haben die Entwickler von DarkBERT ausschliesslich Daten aus dem Darknet für das Training verwendet. Genauer gesagt wurde DarkBERT mit Daten von Hackern, Cyberkriminellen und anderen Betrügern trainiert.
DarkBERT basiert auf der RoBERTa-Architektur, einer KI-Methode, die 2019 von Facebook-Forschern entwickelt wurde. RoBERTa ist eine “robust optimierte Methode zur Vorverarbeitung von Natural Language Processing (NLP)-Systemen”, die BERT (Bidirectional Encoder Representations from Transformers) verbessert, das 2018 von Google veröffentlicht wurde. Ein Team von Forschern aus Südkorea hat das Tor-Netzwerk gescannt, um Daten für die Ausbildung dieses umfassenden Sprachmodells zu sammeln, indem sie RoBERTa über einen Zeitraum von fast 16 Tagen mit Daten aus dem Darknet fütterten, konnten die Forscher DarkBERT entwickeln.
Trotz der ungewöhnlichen Herkunft der Trainingsdaten hat DarkBERT bereits andere grosse Sprachmodelle übertroffen. Die Forscher planen derzeit nicht, DarkBERT der Öffentlichkeit zur Verfügung zu stellen, nehmen aber Anfragen für akademische Zwecke entgegen. DarkBERT wird wahrscheinlich Strafverfolgungsbehörden und Forschern ein besseres Verständnis des Darknets insgesamt ermöglichen.
DarkBERT könnte die Zukunft von KI-Modellen sein, die in einem bestimmten Bereich trainiert werden, um sie spezialisierter zu machen. Angesichts der bisherigen Popularität wäre es nicht verwunderlich, wenn wir in Zukunft ähnliche KI-Modelle sehen würden, die auf diese Weise entwickelt wurden.
Warum braucht es überhaupt ein DarkBERT?
Im Kontext von Cybersicherheit und Strafverfolgung stellt DarkBERT ein bemerkenswertes Werkzeug dar. Es hat seine Leistungsfähigkeit in Tests zum Darknet bewiesen, wobei es durch sein Domänenwissen die Leistung gängiger Modelle wie BERT, einem mittlerweile leicht veralteten Modell im Vergleich zu mächtigeren Transformermodellen wie GPT, leicht übertraf. DarkBERT, eine nachtrainierte Version von RoBERTa, wurde über zwei Wochen hinweg mit zwei verschiedenen Datensätzen trainiert: einmal mit gecrawlten Rohdaten und das andere Mal mit aufbereiteten Daten.
Die primäre Zielgruppe von DarkBERT sind jedoch nicht Cyberkriminelle, sondern Strafverfolgungsbehörden und Cybersicherheitsorganisationen, die das Darknet zur Bekämpfung von Internetkriminalität durchsuchen. Die vorherrschenden Themen im Darknet sind laut vorliegender Forschung Betrug und Datendiebstahl, wobei das Darknet auch für anonyme Diskussionen innerhalb der organisierten Kriminalität genutzt wird.
Was ist das Darknet?
Es ist wichtig zu bemerken, dass das Darknet oder Deep Web ein Bereich des Internets ist, den herkömmliche Suchmaschinen wie Google nicht erfassen und der für den Durchschnittsnutzer in der Regel unzugänglich ist, da spezielle Software erforderlich ist.
Während DarkBERT ein effektives Werkzeug zur Bekämpfung von Cyberkriminalität sein kann, sind die Möglichkeiten des anonymen Surfens im Netz auch für viele andere Menschen interessant, insbesondere für diejenigen, die ihre Privatsphäre schätzen und ihre Daten nicht den großen Technologieunternehmen zur Verfügung stellen wollen, die Datensammlung und personalisierte Werbung zu ihrem Geschäftsmodell gemacht haben. Journalisten, Dissidenten und politisch Verfolgte nutzen das Darknet beispielsweise, um auf regional gesperrte und zensierte Inhalte zuzugreifen.
Warum DarkBERT Sinn macht aber nicht zugänglich ist
Insgesamt ist DarkBERT ein vielseitiges und leistungsstarkes Werkzeug, das nicht nur zur Bekämpfung von Internetkriminalität beiträgt, sondern auch dazu beitragen kann, ein besseres Verständnis des Darknets und der dort stattfindenden Aktivitäten zu fördern.
Es gibt einige bemerkenswerte Vorteile von DarkBERT:
- Es verfügt über die Fähigkeit, Websites zu identifizieren, die Ransomware anbieten oder sensible Daten preisgeben.
- Es kann verschiedene Foren im Darknet durchsuchen und auf illegale Informationsaustausche aufmerksam machen.
- Trotz der Tatsache, dass es auf Darknet-Daten trainiert wurde, hat DarkBERT bereits andere große Sprachmodelle in der Leistung übertroffen.
Trotz dieser positiven Aspekte gibt es auch Bedenken hinsichtlich der Anwendung von DarkBERT:
- Da DarkBERT auf Daten aus dem Darknet trainiert wurde, könnten einige Anwendungen und zugrunde liegende Botschaften möglicherweise ethisch oder rechtlich fragwürdig sein.
- Die Datenqualität und Konsistenz im Darknet sind oft unzureichend oder unvollständig, was die Effektivität von DarkBERT beeinträchtigen kann.
DarkBERT stellt ein vielversprechendes Instrument zur Erforschung des Darknets und zur Identifizierung von Cyberkriminellen sowie politisch verfolgten Personen dar. Dennoch müssen Wissenschaftler und Sicherheitsexperten weiterhin an der Verbesserung von DarkBERT arbeiten, um potenzielle Risiken und ethische Bedenken zu berücksichtigen.