Suche
SIRA: KI presst Suchrunden zu einer intelligenten Aktion
Vergesst endlose Suchrunden! Ein neues Paper stellt den 'SuperIntelligent Retrieval Agent' (SIRA) vor, eine KI, die mehrstufige Informationssuche in eine einzige, zielgerichtete Retrieval-Aktion komprimiert. Anders als herkömmliche RAG-Systeme fragt SIRA nicht nur nach relevanten Begriffen, sondern identifiziert jene, die gewünschte Evidenz präzise von unnötigem Rauschen trennen. Diese 'Superintelligenz' wird durch LLMs ermöglicht, die Dokumente offline anreichern und auf Abfrageseite Evidenz vorhersagen.
DS4 & DeepSeek v4 Flash: Tweet-Quelle nicht verfügbar
Ein vielversprechender Titel über 'DS4, eine spezialisierte Inferenz-Engine für DeepSeek v4 Flash' führte ins Leere. Die verknüpfte Twitter-Quelle war aufgrund eines JavaScript-Fehlers nicht ladbar, wodurch der Inhalt und die genannten Details nicht verifiziert werden konnten. Eine fundierte Bewertung des vermeintlichen Durchbruchs bleibt daher leider aus.
PCA-Erweiterung: Polynom-Autoencoder verbessert Transformer-Embeddings
Ein Blogpost stellt eine Methode vor, die PCA für die Kompression von Transformer-Embeddings verbessert: Ein polynomialer Autoencoder (PAE). Dabei bleibt der Encoder eine einfache PCA, während ein quadratischer Decoder nicht-lineare Anteile der Embeddings erfasst. Diese seit 2017 bekannte, geschlossene Lösung reduziert den Informationsverlust im Vergleich zu reinem PCA und erreicht auf Benchmarks wie BEIR/FiQA eine deutlich höhere Retrieval-Qualität.
DeepSeek v4: OpenAI-kompatible API für neue AI-Modelle verfügbar
DeepSeek hat eine API für seine Modelle deepseek-v4-flash und deepseek-v4-pro vorgestellt. Diese API ist bemerkenswerterweise mit den Formaten von OpenAI und Anthropic kompatibel, was eine nahtlose Integration in bestehende Entwicklungs-Workflows erlaubt. Die detaillierte Dokumentation bietet Code-Beispiele und erleichtert den schnellen Einstieg in die Nutzung.
DeepSeek V4: Fast Frontier-KI, Open-Weights-Riese – unschlagbar günstig
Die neuen DeepSeek V4 Modelle Pro und Flash betreten die Bühne. Mit 1.6T Parametern ist DeepSeek-V4-Pro das größte Open-Weights-Modell. Das Beeindruckende ist der Preis: Das Flash-Modell unterbietet in den Input-Kosten sogar GPT-5.4 Nano und macht High-End-KI so unschlagbar günstig.
Gemini API: Deine Dateien sind jetzt multimedial durchsuchbar. RAG-Power-Up!
Google hat die Gemini API kräftig aufgebohrt: Die „File Search“ Funktion ist jetzt multimodal. Das bedeutet, Entwickler können ihre RAG-Anwendungen nicht mehr nur mit Text, sondern auch mit Bildern und Videos füttern. Stell dir vor, du kannst PDFs, Word-Dokumente, Bilder und sogar Videos direkt in deine AI-Prompts einbinden und Gemini darauf „denken“ lassen – das ist ein großer Schritt, um AI-Anwendungen noch vielseitiger und leistungsfähiger zu machen.
Nginx-Logs: KI-Bots fetchen live – und User klicken nach!
Deine Nginx-Logs zeigen klar: KI-Anbieter wie ChatGPT führen direkte Provider-Fetches durch, wenn sie Informationen benötigen – das sind echte Bot-Requests. Daneben gibt es menschliche Klicks auf Zitat-Links, die als normale Browser-Besuche erscheinen. Diese zwei unterschiedlichen Traffic-Arten zu trennen, ist essenziell für präzise Web-Analysen.
DeepSeek-V4 Day-0: SGLang & Miles für schnelle Inferenz & Verified RL
Das SGLang- und Miles-Team liefert Day-0-Unterstützung für DeepSeek-V4, inklusive Inferenz und RL-Training. Ihr Open-Source-Stack ist der erste, der DeepSeek-V4s hybride Sparse-Attention-Architektur am Launch-Tag bedient und trainiert, mit Performance-Optimierungen wie ShadowRadix und HiSparse. Der Stack unterstützt zudem Verified RL, wobei Miles als Backend-Support für das Reinforcement Learning dient.
Konvergente Evolution: Wie diverse Modelle Zahlen ähnlich repräsentieren
Entgegen der Black-Box-Annahme lernen unterschiedliche Sprachmodelle – darunter Transformer, RNNs und LSTMs – ähnliche periodische Zahlenrepräsentationen. Diese Konvergenz ist jedoch zweistufig: Während alle Modelle Fourier-Peaks zeigen, entwickeln nur manche geometrisch separierbare Features für die Modulo-Klassifikation. Die genaue Ausprägung der Zahlenrepräsentation hängt stark von Daten, Architektur und Trainingsdetails ab.
antirez' ds4: Lokale DeepSeek 4 Flash AI-Inferenz für Metal
GitHub-Nutzer antirez hat das Projekt `ds4` veröffentlicht, eine lokale Inferenz-Engine für DeepSeek 4 Flash. Es wurde für die Ausführung auf Systemen mit Metal-Unterstützung entwickelt. Damit wird DeepSeek 4 Flash direkt auf kompatibler Hardware verfügbar.
LLMs sagen 'Nein': Forscher finden den Master-Schalter
Stell dir vor, du findest den Master-Schalter für das ethische Gewissen deiner KI. Forschern ist genau das gelungen: Sie haben herausgefunden, dass das 'Nein' von LLMs nicht zufällig ist, sondern von einer einzigen, manipulierbaren 'Verweigerungsrichtung' im Modell gesteuert wird. Das ist ein Game-Changer für die Sicherheitssteuerung und ermöglicht präzisere Kontrolle über die Grenzen der KI.
3D-Körper aus 8 Fragen: Ohne Foto, ohne GPU zum präzisen Avatar
Ein neues Verfahren generiert mit nur acht Fragen einen präzisen 3D-Körper, ganz ohne Fotos oder leistungsstarke GPUs. Ein kleines MLP verarbeitet die Eingaben in Millisekunden auf einer CPU und gibt 58 Anny-Body-Parameter aus. Dies übertrifft die Genauigkeit von Foto-Pipelines bei Umfängen und löst Datenschutz- sowie Kostenprobleme.
Softmax: Überall im ML. Doch was tut es wirklich – und der Jacobian?
Softmax ist aus modernen ML-Anwendungen nicht wegzudenken und erscheint täuschend simpel. Es wandelt beliebige Zahlen in Werte zwischen 0 und 1, die sich zu 1 addieren, und projiziert Vektoren auf den Wahrscheinlichkeits-Simplex. Der Artikel beleuchtet diese Funktion genau und hinterfragt die Notwendigkeit, ihren komplexen Jacobian zu verstehen, der die Interaktionen zwischen Dimensionen aufzeigt.
Google pusht Gemma 4: Schnelle Inferenz dank Multi-Token-Drafter
Google arbeitet aktiv daran, die Inferenzgeschwindigkeit von Gemma 4 zu erhöhen. Dabei kommt die Technologie der Multi-Token-Prediction zum Einsatz, unterstützt durch sogenannte 'Drafters'. Dies zielt auf eine Leistungssteigerung des KI-Modells ab.
Mike: Open-Source-KI macht Jura wieder bezahlbar und anpassbar
Mike ist eine neue Open-Source-KI, die sich auf die Analyse juristischer Dokumente stürzt. Das ist ein Frontalangriff auf die oft undurchsichtigen und teuren proprietären Legal-Tech-Lösungen. Endlich eine Chance für Unternehmen, die Kontrolle über ihre Daten zu behalten und KI genau auf ihre Bedürfnisse zuzuschneiden, statt sich von Lizenzmodellen gängeln zu lassen.
Datalog im GPU-Turbomodus: So wird Logik endlich rasend schnell
Datalog, die oft unterschätzte Sprache für komplexe rekursive Queries, bekommt endlich ihren wohlverdienten Performance-Boost. Eine neue Studie zeigt, wie man Datalog-Programme auf GPUs optimieren kann, um selbst anspruchsvolle Logik-Abfragen massiv zu beschleunigen. Das ist ein Game-Changer für Bereiche wie statische Code-Analyse oder Datenbanken, wo Geschwindigkeit entscheidend ist.
Lineare Algebra (2023): Code-First & Praxisnah für AI und ML
Allen Downeys „Think Linear Algebra“ (2023) ist eine code-first und fallbasierte Einführung, die Lineare Algebra durch praktische Anwendung statt abstrakter Theorie greifbar macht. Leser lösen mit Python, NumPy und Jupyter Notebooks reale Probleme wie Traffic-Modellierung, um ein intuitives Verständnis der für ML und wissenschaftliches Rechnen essenziellen Konzepte aufzubauen. Dieses Werk richtet sich an alle, die einen hands-on Ansatz suchen und die Sprache hinter vielen KI-Technologien meistern möchten.
LLMs: Milliarden-Token-Kontext – Das Ende der Denk-Lücken?
Der Milliarden-Token-Kontext ist das nächste Schlachtfeld der LLM-Entwicklung, denn nur so können KIs wirklich komplexe Inhalte über ganze Bücher oder Codebasen hinweg erfassen. Bisher bremste das quadratische Skalierungsproblem der Attention-Mechanismen, aber neue Architekturen wie Mamba und Tricks wie FlashAttention weisen den Weg. Das Ziel? Eine Ära, in der LLMs zu echten kognitiven Partnern werden, die nicht nur Fragen beantworten, sondern den gesamten Kontext verstehen.
Alignment-Whack-a-Mole: Finetuning lässt LLMs Copyright-Bücher spucken
Ein neues Paper zeigt auf: Wenn Large Language Models (LLMs) mit urheberrechtlich geschützten Büchern trainiert werden, können spätere Finetuning-Schritte diese Inhalte reaktivieren. Selbst wenn das Modell zuvor darauf getrimmt wurde, diese Daten zu "vergessen", holt das Finetuning unerwartet die geschützten Texte wieder hervor. Das ist ein echtes "Alignment Whack-a-Mole" – ein Problem gelöst, zwei neue aufgetaucht, und es wirft ernste Fragen bezüglich IP und Datenmanagement auf.
Zindex: Diagramm-Infrastruktur für Agenten – Endlich semantisch!
Zindex stellt eine Infrastruktur bereit, die KI-Agenten befähigt, Diagramme als langlebigen Zustand zu erstellen, zu bearbeiten und zu validieren – und nicht nur als flüchtiges Ergebnis. Über das Diagram Scene Protocol (DSP) beschreiben Agenten rein semantisch, was existiert; das Layout und die Darstellung in verschiedenen Formaten übernehmen die Engines automatisch und deterministisch. Dies ermöglicht Agenten, komplexe Abläufe und Architekturen robust und programmgesteuert zu visualisieren und zu verwalten.