Suche
Game-Changer: Gaussian Splats bringen Fotorealismus ins Spiel
Gaussian Splatting ist die neue Wunderwaffe für fotorealistische 3D-Szenen aus Fotos, doch bisher blieben die beeindruckenden Ergebnisse statisch. Jetzt hat PlayCanvas demonstriert, wie man diese „Splats“ in vollwertige, interaktive Videospiel-Umgebungen verwandelt – inklusive Bewegung, Kollision und Game-Logik. Das katapultiert uns vom passiven Betrachter zum aktiven Spieler in gescannten Realwelten und könnte die Content-Erstellung für Gaming und VR/AR revolutionieren.
Apple's ml-sharp im Browser: Gaussian Splats via ONNX Runtime Web
Ein neues GitHub-Projekt präsentiert ein Web-Playground, das Apples ml-sharp Modell im Browser zum Laufen bringt. Ziel ist die Erstellung von Gaussian Splats direkt im Browser, realisiert mithilfe von ONNX Runtime Web. Damit wird eine spezifische 3D-Rekonstruktions-Technologie von Apple clientseitig zugänglich gemacht.
Nie mehr ruckelige 3D-Maps: LingBot-Map bringt den KI-Turbo
Vergesst die ruckeligen 3D-Karten, die ihr kennt: LingBot-Map bringt den KI-Turbo für die Echtzeit-Rekonstruktion. Dieses neue System nutzt einen "Geometric Context Transformer", um aus Kameradaten flüssige und kontextreiche 3D-Modelle zu zaubern. Damit wird die Umgebung nicht nur abgebildet, sondern wirklich verstanden – ein Quantensprung für Robotik und AR/VR.
Flow Maps: Der Integral-Boost für schnelle Diffusion
Diffusion Models sampeln iterativ, indem ein Denoiser die Tangentenrichtung eines Pfades schätzt und kleine Schritte entlang dieses Pfades macht, was effektiv einem Integral entspricht. Sander Dieleman schlägt vor, neuronale Netze zu trainieren, die dieses Integral direkt vorhersagen, was zu sogenannten 'Flow Maps' führt. Diese können jeden Punkt auf einem Pfad von jedem anderen Punkt auf demselben Pfad vorhersagen und ermöglichen schnelleres Sampling sowie effizienteres belohnungsbasiertes Lernen und bessere Sampling-Steuerbarkeit.
3D-Körper aus 8 Fragen: Ohne Foto, ohne GPU zum präzisen Avatar
Ein neues Verfahren generiert mit nur acht Fragen einen präzisen 3D-Körper, ganz ohne Fotos oder leistungsstarke GPUs. Ein kleines MLP verarbeitet die Eingaben in Millisekunden auf einer CPU und gibt 58 Anny-Body-Parameter aus. Dies übertrifft die Genauigkeit von Foto-Pipelines bei Umfängen und löst Datenschutz- sowie Kostenprobleme.
WaveFunctionCollapse: KI-Trick erschafft Welten aus einem Pixel-Schnipsel
WaveFunctionCollapse (WFC) ist ein faszinierendes Verfahren, das aus einem einzigen Beispielbild kohärente, unendliche Welten generieren kann – und das ganz ohne schwerfällige KI-Modelle. Es analysiert die Nachbarschaftsbeziehungen der Pixel im Input und setzt sie dann klug zu neuen Mustern zusammen, die überraschend vielseitig und ästhetisch ansprechend sein können. Ein geniales Konzept für alle, die prozedurale Generierung lieben, denn es zeigt, dass auch simple Algorithmen verblüffende Komplexität erzeugen können.
Kodak-Bilder neu vermessen: PCA enthüllt die DNA visueller Daten
Wer dachte, die alten Kodak PCD0992 Bilder hätten ihre Geheimnisse preisgegeben, irrt sich. Dieses Projekt zerlegt jedes einzelne Bild mit Principal Component Analysis (PCA) und liefert eine statistische Charakterisierung, die aufzeigt, wie visuelle Daten wirklich aufgebaut sind. Es ist ein tiefer Tauchgang in die DNA von Bildern, unerlässlich für jeden, der mit Bild-KI arbeitet und verstehen will, was unter der Haube passiert.
WebGPU-Power: Gemma 4 E2B zeichnet Excalidraw direkt im Browser
Diese neue Demo zeigt, wie Googles Gemma 4 E2B KI direkt im Browser – powered by WebGPU – Text-Prompts in Excalidraw-Zeichnungen verwandelt. Das 3.1 GB große Modell läuft komplett lokal auf dem Desktop (Chrome 134+). Es erzeugt kompakten Code anstelle von umfangreichen JSON-Daten für effiziente Diagramme.
Softmax: Überall im ML. Doch was tut es wirklich – und der Jacobian?
Softmax ist aus modernen ML-Anwendungen nicht wegzudenken und erscheint täuschend simpel. Es wandelt beliebige Zahlen in Werte zwischen 0 und 1, die sich zu 1 addieren, und projiziert Vektoren auf den Wahrscheinlichkeits-Simplex. Der Artikel beleuchtet diese Funktion genau und hinterfragt die Notwendigkeit, ihren komplexen Jacobian zu verstehen, der die Interaktionen zwischen Dimensionen aufzeigt.
Google pusht Gemma 4: Schnelle Inferenz dank Multi-Token-Drafter
Google arbeitet aktiv daran, die Inferenzgeschwindigkeit von Gemma 4 zu erhöhen. Dabei kommt die Technologie der Multi-Token-Prediction zum Einsatz, unterstützt durch sogenannte 'Drafters'. Dies zielt auf eine Leistungssteigerung des KI-Modells ab.
OpenAI entschlüsselt: So wird Sprach-KI jetzt blitzschnell & skaliert
Endlich Schluss mit den peinlichen Pausen in KI-Gesprächen: OpenAI hat verraten, wie sie ihre Sprach-KI für ChatGPT in Echtzeit performen lassen. Durch raffinierte Parallelisierung, Streaming und vor allem "speculative decoding" werden die Modelle nahtlos verzahnt, um die Latenz auf ein Minimum zu drücken. Das ist ein Geniestreich, der Sprach-Interaktionen mit KI nicht nur schneller, sondern endlich auch natürlich und flüssig macht.
Datalog im GPU-Turbomodus: So wird Logik endlich rasend schnell
Datalog, die oft unterschätzte Sprache für komplexe rekursive Queries, bekommt endlich ihren wohlverdienten Performance-Boost. Eine neue Studie zeigt, wie man Datalog-Programme auf GPUs optimieren kann, um selbst anspruchsvolle Logik-Abfragen massiv zu beschleunigen. Das ist ein Game-Changer für Bereiche wie statische Code-Analyse oder Datenbanken, wo Geschwindigkeit entscheidend ist.
KI-Modelle: Parameter und Compute entkoppeln für mehr Performance
Häufig werden Parameterzahl und Rechenaufwand bei KI-Modellen gleichgesetzt. Doch eine Studie von 2021 zeigt, dass beides entkoppelt betrachtet werden sollte. Mittels Hash Layers lassen sich Modelle vergrößern, ohne mehr Rechenleistung zu benötigen, während Staircase Attention mehr Compute ohne neue Parameter ermöglicht. Dies eröffnet neue Wege, um leistungsfähigere Modelle ressourceneffizient zu bauen.
PCA-Erweiterung: Polynom-Autoencoder verbessert Transformer-Embeddings
Ein Blogpost stellt eine Methode vor, die PCA für die Kompression von Transformer-Embeddings verbessert: Ein polynomialer Autoencoder (PAE). Dabei bleibt der Encoder eine einfache PCA, während ein quadratischer Decoder nicht-lineare Anteile der Embeddings erfasst. Diese seit 2017 bekannte, geschlossene Lösung reduziert den Informationsverlust im Vergleich zu reinem PCA und erreicht auf Benchmarks wie BEIR/FiQA eine deutlich höhere Retrieval-Qualität.
KI-Inferenz: 10% schneller dank cleverem GPU-Cache in SGLang
Multimodale KI-Modelle sind vielversprechend, aber ihre Inferenz-Engines noch nicht optimiert. Modal.com demonstriert, wie SGLang’s Performance um über 10% gesteigert wurde, indem aufwendige Buchhaltung für geteilten GPU-Speicher durch einen einfachen Cache-Lookup im Scheduler ersetzt wurde. Dieser sogenannte 'Handle Cache' führte zu signifikanten Verbesserungen bei Durchsatz und Latenz auf multimodalen Workloads.
GLM-5V-Turbo: Ein Schritt zum nativen Fundament für Multimodal-KI
GLM-5V-Turbo wird als ein Schritt hin zu nativen Fundamentmodellen für multimodale Agenten vorgestellt. Das Modell zielt darauf ab, eine grundlegende Basis für KI-Systeme zu schaffen, die von Natur aus für die Verarbeitung und Nutzung verschiedener Modalitäten konzipiert ist.
KI-Design: Show HN offenbart sterile Muster – 'Design Slop' droht
Adrian Krebs analysierte Show HN-Einreichungen und stellte fest, dass viele Projekte durch wiederkehrende 'AI design patterns' ein 'generisch steriles' Gefühl vermitteln. Typische Merkmale sind der Inter-Font, 'VibeCode Purple' und farbige Ränder auf Karten. Der Autor versucht, diese omnipräsenten Muster zu quantifizieren, die das Phänomen des 'Design Slop' beschreiben.
Qwen3.6-27B: 27B-Modell liefert Flagship-Coding-Leistung
Qwen3.6-27B, ein 27-Milliarden-Parameter-Modell, wird als Flagship-Lösung für Coding-Aufgaben positioniert. Das Dense Model soll bemerkenswerte Leistung liefern. Die vollständigen Informationen sind im verlinkten Blogbeitrag zu finden.
Gemini API: Deine Dateien sind jetzt multimedial durchsuchbar. RAG-Power-Up!
Google hat die Gemini API kräftig aufgebohrt: Die „File Search“ Funktion ist jetzt multimodal. Das bedeutet, Entwickler können ihre RAG-Anwendungen nicht mehr nur mit Text, sondern auch mit Bildern und Videos füttern. Stell dir vor, du kannst PDFs, Word-Dokumente, Bilder und sogar Videos direkt in deine AI-Prompts einbinden und Gemini darauf „denken“ lassen – das ist ein großer Schritt, um AI-Anwendungen noch vielseitiger und leistungsfähiger zu machen.
Deep Learning: Theorie-Vakuum und Alchemie vor Lavoisier?
Elon Litman kritisiert den Zustand der Deep-Learning-Theorie: Aktuell gleiche die Disziplin eher 'Alchemie' vor Lavoisier. Die Forschung sei fragmentiert, arbeite mit widersprüchlichen Annahmen und riskiere durch immer mehr Daten und Parameter, wie Borges' Funes, die Fähigkeit zur Abstraktion zu verlieren.