Es kann verwirrend sein, wenn Suchunternehmen erklären, wie Suche und KI funktionieren. Bing hat ChatGPT hinzugefügt, das große Sprachmodelle (LLMs) verwendet, aber bereits zuvor über Deep-Learning-Funktionen verfügte. Google hat kürzlich neue Bildsuchfunktionen und einen eigenen LLM-Dienst angekündigt. Bei Algolia sind wir außerdem dabei, unsere eigene KI-gestützte Technologie einzuführen, die neuronales Hashing nutzt, um die intelligente Suche für jede Anwendung zu skalieren. Alle diese Begriffe können verwirrend sein.
Lassen Sie uns das beheben, indem wir die mit der Suche verbundenen Technologien aufschlüsseln.
Stichwortsuchmaschinen gibt es schon seit Jahrzehnten. Das Apache Lucene-Projekt ist eine der bekanntesten Open-Source-Suchmaschinen, die eine Schlüsselwortsuche bietet. Diese Art von Suchmaschine verwendet statistische Techniken, um Suchanfragen Elementen im Index zuzuordnen. Sie funktionieren ähnlich wie der Index am Ende eines Buches, indem sie auf alle Stellen im Buch verweisen, an denen sich Informationen befinden. Technologien zur Abfrageverarbeitung wie Tippfehlertoleranz, Wortsegmentierung und Wortstammerkennung werden ebenfalls eingesetzt, um Suchmaschinen dabei zu helfen, die Rechtschreibung zu verstehen und die Abfrage zu verstehen.
Die Stichwortsuche ist in der Regel sehr schnell und eignet sich gut für exakte Übereinstimmungen von Suchanfragen und Stichwörtern. Allerdings haben sie häufig Probleme mit Long-Tail-Abfragen, Konzeptsuchen, Suchen im Fragestil, Synonymen und anderen Phrasen, bei denen die Abfrage nicht genau mit dem Inhalt im Index übereinstimmt. Aus diesem Grund haben viele Unternehmen zusätzliche Funktionen wie die Generierung von KI-Synonymen hinzugefügt, um zu helfen.
Bei der semantischen Suche geht es darum, die Bedeutung von Wörtern und Phrasen in einer Suchabfrage zu verstehen und Ergebnisse zurückzugeben, die einen semantischen Zusammenhang mit der Abfrage haben. Semantische Suchmaschinen nutzen Techniken der Verarbeitung natürlicher Sprache (NLP) , um die Bedeutung von Wörtern und Phrasen zu verstehen und verwandte Konzepte, Synonyme und andere verwandte Informationen zu finden, die für die Suchanfrage relevant sein könnten.
KI-Suche ist ein allgemeiner und weiter gefasster Begriff, der die semantische Suche sowie andere Techniken des maschinellen Lernens zur Bereitstellung von Suchergebnissen umfasst. Die KI-Suche umfasst typischerweise mehrere Schritte, einschließlich der Abfrageverarbeitung, des Abrufs und der Rangfolge.
Abfrageverarbeitung : In diesem Schritt wird die Anfrage des Benutzers analysiert, um deren Absicht, Umfang und Einschränkungen zu verstehen. Die Abfrageverarbeitung kann Aufgaben wie das Parsen der Abfrage in ihre Bestandteile, das semantische Verständnis von Schlüsselwörtern und Phrasen, die Normalisierung der Abfrage auf ein Standardformat und mehr umfassen.
Abruf : Sobald die Abfrage verarbeitet wurde, ruft das System eine Reihe von Dokumenten oder Datenelementen ab, die den Abfragekriterien entsprechen. Bei der KI-Suche werden in der Regel maschinelle Lernalgorithmen verwendet, um Ähnlichkeiten zu ermitteln und die Verwandtschaft zwischen Begriffen zu messen , um relevante Ergebnisse zu liefern.
Ranking : Nachdem die Dokumente oder Datenelemente abgerufen wurden, ordnet das System sie basierend auf ihrer Relevanz und Wichtigkeit für die Anfrage des Benutzers. Zur kontinuierlichen Optimierung der Ergebnisse werden Learning-to-Rank-Modelle wie Reinforcement Learning eingesetzt.
ChatGPT von OpenAI, Bard, Midjourney von Google und andere ähnliche KI-Technologien werden als generative KI bezeichnet. Diese Allzwecklösungen versuchen, die Ergebnisse auf der Grundlage von Eingaben vorherzusagen, und generieren tatsächlich eine neue Antwort. Sie nutzen bereits vorhandene Text- und Bildinhalte, um etwas Neues zu generieren.
Andererseits können Suchmaschinen KI nutzen, um Suchergebnisse zu verbessern. Genau wie generative KI kann Such-KI verwendet werden, um Eingaben in natürlicher Sprache zu verstehen. Im Gegensatz zur generativen KI erstellen Suchmaschinen keine neuen, neuartigen Inhalte. Beide Technologien können zusammen oder unabhängig voneinander eingesetzt werden. Generative KI-Technologien können zur Unterstützung der kreativen Ausgabe eingesetzt werden, und die Suche dient zum Filtern und Sortieren der Ergebnisse. Jemand, der nach neuen Modeideen sucht, könnte einen Chatbot nach den neuesten Trends fragen, Ergebnisse erhalten und dann die Suche verwenden, um Ergebnisse zu finden. Sie können auch die Suche verwenden, um Produkte zu finden, und dann den Chat bitten, die Vor- und Nachteile der einzelnen Ergebnisse zu erläutern.
Sowohl generative Chat-KI als auch Such-KI sorgen durch das Verständnis natürlicher Sprache oft für ein besseres Benutzererlebnis.
Große Sprachmodelle (LLMs) gibt es schon seit einiger Zeit, aber GPT hat sie ins Rampenlicht gerückt. LLMs sind Modelle der künstlichen Intelligenz, die darauf trainiert sind, Texte in natürlicher Sprache zu verarbeiten und zu generieren. Diese Modelle werden in der Regel mithilfe von Deep-Learning-Techniken erstellt und erfordern für das Training große Datenmengen und Rechenressourcen. Bei Algolia verwenden wir ebenfalls LLMs, aber um das Maschinenverständnis zu erleichtern. Wir verwenden LLMs, um Vektoren zu erstellen, mit denen wir Abfragen mit Ergebnissen vergleichen können.
Bei der Vektorisierung werden Wörter in Vektoren (Zahlen) umgewandelt, wodurch ihre Bedeutung kodiert und mathematisch verarbeitet werden kann. Sie können sich Vektoren als Gruppen von Zahlen vorstellen, die etwas darstellen. In der Praxis werden Vektoren zum Automatisieren von Synonymen, zum Clustern von Dokumenten, zum Erkennen spezifischer Bedeutungen und Absichten in Abfragen und zum Einordnen von Ergebnissen verwendet. Einbettungen sind sehr vielseitig und es können auch andere Objekte – wie ganze Dokumente, Bilder, Videos, Audiodateien und mehr – eingebettet werden.
Die Vektorsuche ist eine Möglichkeit, Worteinbettungen (oder Bilder, Videos, Dokumente usw.) zu verwenden, um verwandte Objekte mit ähnlichen Eigenschaften zu finden. Dabei werden maschinelle Lernmodelle verwendet, die semantische Beziehungen zwischen Objekten in einem Index erkennen.
Es gibt viele verschiedene Algorithmen für den ungefähren nächsten Nachbarn (ANN) zur Berechnung der Vektorähnlichkeit. Techniken wie HNSW (Hierarchical Navigable Small World), IVF (Inverted File) oder PQ (Product Quantization, eine Technik zur Reduzierung der Anzahl der Dimensionen eines Vektors) gehören zu den beliebtesten ANN-Methoden, um Ähnlichkeiten zwischen Vektoren zu finden. Jede Technik konzentriert sich auf die Verbesserung einer bestimmten Leistungseigenschaft, wie z. B. Speicherreduzierung mit PQ oder schnelle, aber genaue Suchzeiten mit HNSW und IVF. Es ist gängige Praxis, mehrere Komponenten zu mischen, um einen „zusammengesetzten“ Index zu erstellen, um eine optimale Leistung für einen bestimmten Anwendungsfall zu erzielen.
Eine der Herausforderungen bei der Arbeit mit Vektoren ist ihre Größe. Dabei handelt es sich in der Regel um sehr große Zeichenfolgen, die spezielle Datenbanken und GPU-Verwaltung erfordern. Neuronales Hashing ist ein neuer Prozess, der neuronale Netze verwendet, um Vektoren zu komprimieren, sodass sie bis zu 500-mal schneller als Standard-Vektorberechnungen verarbeitet und auf handelsüblicher Hardware ausgeführt werden können.
Hybridsuche ist die Kombination aus Vektorsuche und Stichwortsuche. Die Vektorsuche eignet sich hervorragend für unscharfe oder umfassende Suchen, bei präzisen Suchanfragen ist die Stichwortsuche jedoch nach wie vor die Nummer eins. Wenn Sie beispielsweise in einer Keyword-Engine nach „Adidas“ suchen, wird standardmäßig nur die Marke Adidas angezeigt. Das Standardverhalten einer Vektor-Engine besteht darin, ähnliche Ergebnisse zurückzugeben – Nike, Puma, Adidas usw., da sie sich alle im selben konzeptionellen Raum befinden. Die Stichwortsuche liefert bei kurzen Suchanfragen mit konkreter Absicht immer noch bessere Ergebnisse.
Die Hybridsuche bietet das Beste aus beiden Wörtern und sorgt für Geschwindigkeit und Genauigkeit bei exakten Übereinstimmungen und einfachen Phrasen, während Vektoren Long-Tail-Anfragen verbessern und die Tür zu neuen Suchlösungen öffnen. Bei Algolia ist unsere hybride KI-Lösung – Algolia NeuralSearch – bald verfügbar. Erfahren Sie mehr .
Auch hier veröffentlicht.