Semantische KI-Suche in #RKIFiles, Corona-Protokollen und PEI-Files

10
500
Wie funktioniert die Semantische Suche?

Über eine KI können Texte in Zahlenreihen umgewandelt werden, die die Bedeutung eines jeweiligen Textes abbilden. Man spricht von sogenannten "Text-Embeddings".

Bei jeder Suche wird der Suchtext zunächst in dieses abstrakte Embeddings-Format umgewandelt und so seine Bedeutung abstrakt erfasst.

Die exakte Wortwahl spielt dann keine große Rolle mehr. Sogar die Sprache ist irrelevant. Ob nach "Ausgangssperren" oder nach "curfews" gesucht wird, ist in der Bedeutung egal, so auch in den Embeddings.

Um die Suchtreffer zu ermitteln, werden die Embeddings des Suchtexts mit den Embeddings der zu durchsuchenden Textabschnitte verglichen.

Zu diesem Zweck haben wir vorab alle Textstellen aus dem Leak in Embeddings konvertiert. So kamen insgesamt ca. 580.000 Embedding-Repräsentationen zustande.

Zur Darstellung der Ergebnisse werden zu jedem Treffer schlussendlich noch umliegende Textabschnitte (meist: Zeilen) mit einbezogen, bis die gewünschte Ergebnis-Länge erreicht ist. Die gefundenen Stellen werden dabei gesondert hervorgehoben.