Letzten Montag schlug eine Krankenschwester vor, dass wir einen drahtlosen Monitor ausprobieren sollten, um meine Vitalwerte und die meines ungeborenen Babys zu überwachen.
„Wir nennen dieses Gerät „Monica, der Monitor!“ Es ist entweder ein Traum, damit zu arbeiten, oder ein totaler Albtraum“, sagte mir die Krankenschwester.
An diesem Tag schnitt „Monica“ (eigentlich das Novii Wireless Patch System) außergewöhnlich gut ab. Während der Geburt meiner Tochter konnte ich mich frei und ohne störende Kabel bewegen. Diese Technologie nutzt die passive Signalerfassung, um zwischen fötalen und mütterlichen Herzsignalen zu unterscheiden und Uteruskontraktionen zu erkennen. Die Daten werden zur Echtzeitbeobachtung drahtlos an eine Überwachungseinheit übertragen. Dieses System erhöht die Genauigkeit und reduziert Fehlalarme und bietet so die dringend benötigte Mobilität während der Wehen.
Ich dachte: Das Schreiben und Theoretisieren über Technologien ist eine Sache, aber ihre bemerkenswerten Fähigkeiten aus erster Hand zu erleben, ist eine ganz andere, insbesondere wenn ein Gerät einwandfrei funktioniert. Es stellte sich die Frage: Was können Foundation-Modelle zu Wearables hinzufügen? Gleich nach meiner Erfahrung mit „Monica“ erregte ein aktueller Artikel von Google Research und MIT-Forschern meine Aufmerksamkeit. Mit dem Titel „ Health-LLM: Large Language Models for Health Prediction via Wearable Sensor Data “ und verfasst von Kim et al. befasst sich dieser Artikel mit der Anwendung von LLMs im Gesundheitssektor und konzentriert sich auf die Interpretation von Daten von tragbaren Sensoren zur Gesundheitsvorhersage. Interessanterweise werden diese Modelle nicht mit Daten aus Krankenakten oder Arztbriefen versorgt, sondern mit tragbaren Geräten wie Fitbits, die tägliche Schritte, Herzfrequenz, Schlafmuster und mehr aufzeichnen – ähnlich wie „Monica“.
Die Studie bewertete acht hochmoderne LLMs: Med-Alpaca, PMC-Llama, Asclepius, ClinicalCamel, Flan-T5, Palmyra-Med, GPT-3.5 und GPT-4, anhand von sechs Datensätzen zur öffentlichen Gesundheit. Sie führten Experimente zu dreizehn Gesundheitsvorhersageaufgaben im Zusammenhang mit psychischer Gesundheit, Aktivität, Stoffwechsel, Schlaf und Herzuntersuchungen durch.
Das Team experimentierte mit verschiedenen Methoden, einschließlich Zero-Shot- und Few-Shot-Prompting (Lernen des Modells mit minimalen oder keinen Beispielen), instruktiver Feinabstimmung (Anpassen des Modells an bestimmte Aufgaben) und sogar einiger Parameter-effizienter Feinabstimmung für Recheneffizienz.
Besonders faszinierend ist die Wirksamkeit der Kontextverbesserung in Eingabeaufforderungen, bei der Benutzerkontext, Gesundheitswissen und zeitliche Informationen hinzugefügt werden. Dieser Ansatz führte zu einer Leistungsverbesserung von bis zu 23,8 %.
Das Gesundheitswesen ist ein äußerst sensibler Bereich, aber die potenziellen Vorteile der generativen KI für den Menschen sind immens, insbesondere angesichts der Leistungsfähigkeit von Basismodellen. Health-LLM erforscht die Zukunft, in der Wearables nicht nur passive Tracker, sondern proaktive Gesundheitswächter sind.
Ein weiterer aktueller bahnbrechender Artikel im Gesundheitswesen stammt von Stanford- und Stability-AI-Forschern mit dem Titel CheXagent: Towards a Foundation Model for Chest X-Ray Interpretation . Der faszinierendste Aspekt dieser Arbeit ist die Entwicklung von CheXagent, einem fortschrittlichen Basismodell, das speziell für die Interpretation von Röntgenaufnahmen des Brustkorbs entwickelt wurde. Dieses Modell kombiniert auf einzigartige Weise ein klinisches LLM, einen spezialisierten Vision-Encoder und ein Vision-Sprach-Überbrückungsnetzwerk und demonstriert so eine außergewöhnliche Leistung bei der Interpretation komplexer medizinischer Bilder. Seine Fähigkeit, bestehende Modelle bei Genauigkeits- und Fairnessbewertungen zu übertreffen, stellt einen bedeutenden Fortschritt in der KI-Technologie für medizinische Bildgebung dar. Es kann so viel Zeit sparen! Und möglicherweise lebt.
(Das neugeborene Mädchen – Reason Leeloo Joy – sendet ihr Grüße. Wir haben letzte Woche eine Woche frei genommen, sind aber jetzt wieder auf dem richtigen Weg und erkunden die KI-Welt, um zu verstehen, wie sie und ihre vier Brüder darin leben und sich darin zurechtfinden werden.)
Neuigkeiten von den üblichen Verdächtigen ©
Sam Altman und OpenAI
- OpenAI hat zwei neue Einbettungsmodelle (text-embedding-3-small und text-embedding-3-large) sowie aktualisierte Versionen von GPT-4 Turbo, GPT-3.5 Turbo und ein Textmoderationsmodell veröffentlicht . Die neuen Einbettungsmodelle stellen Inhalte als numerische Sequenzen dar und verbessern so maschinelle Lernaufgaben wie Clustering oder Retrieval. Sie sind außerdem effizienter und kostengünstiger.
- Unterdessen führt Sam Altman Gespräche mit Geldgebern aus dem Nahen Osten, darunter wohlhabende Investoren und Chiphersteller wie TSMC, um ein neues Chipunternehmen zu gründen. Dieser Schritt zielt darauf ab, den wachsenden Halbleiterbedarf von OpenAI zu decken und die Abhängigkeit von Nvidia zu verringern. Die Struktur des Unternehmens ist unklar und es könnte sich um eine separate Einheit oder eine Tochtergesellschaft von OpenAI handeln.
Blackstone greift ein
- Ein weiterer großer Player investiert stark in die KI-Revolution. Blackstone baut ein 25-Milliarden-Dollar-Netzwerk aus energieintensiven Rechenzentren in ganz Amerika auf. Nach der 10-Milliarden-Dollar-Übernahme von QTS, einem großen Rechenzentrumsbetreiber, entwickelt Blackstone riesige Anlagen, um den wachsenden digitalen und KI-Anforderungen der Technologiegiganten gerecht zu werden. Diese Projekte verbrauchen so viel Strom wie Millionen Haushalte, verändern Gemeinden und lösen Debatten über Ressourcenverbrauch und lokale Vorteile aus. Trotz Herausforderungen, darunter angespannte Stromversorgungen und öffentliche Gegenreaktionen, betrachtet Blackstone dieses Vorhaben als eine seiner potenziell besten Investitionen und verdeutlicht die zunehmende Bedeutung und Komplexität der Dateninfrastruktur im KI-Zeitalter.
Elon Musk, xAI und Tesla
- Elon Musk sorgte kürzlich für Schlagzeilen, als er von globalen Investoren im Nahen Osten, Hongkong, Japan und Korea eine Investition in Höhe von 6 Milliarden US-Dollar für xAI anstrebte. Im Erfolgsfall könnte die Bewertung von xAI 20 Milliarden US-Dollar erreichen und damit die 18,4 Milliarden US-Dollar von Anthropic übertreffen, aber hinter den 100 Milliarden US-Dollar von OpenAI zurückbleiben. Allerdings hat Musks jüngste Drohung, Tesla-KI-Projekte zu entfernen , sofern er sich nicht 25 % der Kontrolle sichert, Unzufriedenheit bei den aktuellen Investoren hervorgerufen und könnte die Gespräche mit potenziellen neuen Geldgebern beeinträchtigen. Unterdessen plant Tesla eine Investition von 500 Millionen US-Dollar in einen „Dojo“-Supercomputer in seinem Werk in Buffalo, New York, was das Engagement des Unternehmens für die Weiterentwicklung der KI-Technologie unterstreicht.
Google und Hugging Face
- Die kürzlich angekündigte Partnerschaft zwischen Hugging Face und Google Cloud zielt darauf ab, KI zugänglicher zu machen. Der Schwerpunkt liegt auf gemeinsamen Initiativen im Bereich Open Science und Source, wobei sowohl die offenen Modelle von Hugging Face als auch die Technologie von Google Cloud genutzt werden. Ziel ist es, die Entwicklung von KI-Technologien für ein breiteres Spektrum von Benutzern und Anwendungen zu erleichtern.
- Mittlerweile ist Google Bard auf dem Chatbot Arena Leaderboard von HuggingFace auf den zweiten Platz vorgerückt , hat GPT-4 überholt und liegt nun nur noch hinter GPT-4 Turbo in der Community-gesteuerten LLM-Rangliste.
Die aktuellsten Forschungsarbeiten, für Sie kategorisiert
Modellkomprimierung und Effizienz
- SLICEGPT : Eine Technik zur effizienten Komprimierung großer Sprachmodelle durch Entfernen von Parametern bei gleichzeitiger Beibehaltung der Leistung →Lesen Sie den Artikel
- DeepSeek-Coder : Konzentriert sich auf die Entwicklung leistungsstarker, mehrsprachiger Codegenerierungsmodelle mit einem umfangreichen Parameterbereich →Lesen Sie den Artikel
- SPACTOR-T5 : Führt eine effiziente Vortrainingsmethode für T5-Modelle ein, die den Rechenaufwand reduziert →Lesen Sie den Artikel
- MEDUSA : Ein Framework zur Beschleunigung der Inferenz großer Sprachmodelle mithilfe mehrerer Dekodierungsköpfe →Lesen Sie den Artikel
LLM-Fähigkeiten und -Bewertung
- Von GPT-4 bis Gemini und darüber hinaus : Bewertet MLLMs auf Generalisierbarkeit, Vertrauenswürdigkeit und Kausalität über mehrere Modalitäten hinweg →Lesen Sie den Artikel
- MaLA-500 : Entwickelt ein mehrsprachiges LLM, das über 500 Sprachen unterstützt und die Zugänglichkeit von Sprachmodellen verbessert →Lesen Sie den Artikel
- LLMs mit Ferngläsern erkennen : Stellt eine Methode zur Zero-Shot-Erkennung von Text vor, der von großen Sprachmodellen generiert wird →Lesen Sie den Artikel
Multimodale und spezialisierte Modelle
- Überdenken der Patch-Abhängigkeit für maskierte Autoencoder : Untersucht den Dekodierungsmechanismus in maskierten Autoencodern für eine verbesserte Bildverarbeitung →Lesen Sie den Artikel
- MM-LLMs : Eine umfassende Übersicht über die Fortschritte und Fähigkeiten multimodaler großer Sprachmodelle →Lesen Sie den Artikel
- CMMMU : Legt einen Maßstab für die Bewertung großer multimodaler Modelle im chinesischen Kontext fest →Lesen Sie den Artikel
- SpatialVLM : Verbessert Vision-Sprachmodelle mit erweiterten Fähigkeiten zum räumlichen Denken →Lesen Sie den Artikel
KI-Training und Datengenerierungstechniken
- Lernen universeller Prädiktoren : Erforscht das Training neuronaler Netze für universelle Vorhersagestrategien und nähert sich der Solomonoff-Induktion →Lesen Sie den Artikel
- Unitxt : Eine Python-Bibliothek für die flexible und reproduzierbare Datenaufbereitung im generativen NLP →Lesen Sie den Artikel
- GENIE : Eine Methode zur Generierung hochwertiger, inhaltsbasierter synthetischer Daten mithilfe großer Sprachmodelle →Lesen Sie den Artikel
- MambaByte : Untersucht ein tokenfreies Sprachmodell, das direkt aus Rohbytes lernt →Lesen Sie den Artikel
- Meta-Prompting : Verbessert Sprachmodelle mit einer aufgabenunabhängigen Gerüsttechnik für eine bessere Leistung →Lesen Sie den Artikel
- WARM : Ein Ansatz zur Anpassung großer Sprachmodelle an menschliche Vorlieben beim verstärkenden Lernen →Lesen Sie den Artikel
Sprachmodelle und Rollenspiele
- Kleines Sprachmodell trifft auf verstärktes Sehvokabular : Präsentiert ein kompaktes Modell, das erweitertes Sehvokabular für eine effiziente visuelle Informationskodierung integriert →Lesen Sie den Artikel
- Große Sprachmodelle sind Überlagerungen aller Charaktere : Entwickelt eine Methode für Rollenspieldialoge unter Verwendung großer Sprachmodelle →Lesen Sie den Artikel
- Orion-14B : Stellt eine Sammlung mehrsprachiger großer Sprachmodelle für Konversationsanwendungen vor →Lesen Sie den Artikel
In anderen Newslettern
- Toller Einblick in Apples „Update zu in der Europäischen Union vertriebenen Apps“ von Hardcore Software
- Unterhaltsame Lektüre von Interconnects über Model Merging „Wenn etwas, das wie reine schwarze LLM-Magie erscheint, von der Literatur unterstützt wird“
- Ist dies das Jahr, in dem Apple in Sachen KI erwacht? Meinung der Madrona-Investoren.
- Andrew Ng beschreibt seine Erfahrungen in Davos und beim Weltwirtschaftsforum. Es geht um KI, aber in Ngs charakteristischem humanistischen Stil.