Suche
Lambench: Der Lambda-Kalkül als Härtetest für moderne KI.
Vergessen Sie FLOPs oder bloße Textgenerierung: `lambench` ist ein brandneuer Benchmark, der die wahren Denkfähigkeiten von KI-Modellen auf die Probe stellt. Statt auf statistisches Pattern-Matching setzt dieser auf den Lambda-Kalkül, die Urform der Funktionsprogrammierung, um zu sehen, ob eine KI wirklich logisch schlussfolgern, Programme synthetisieren und komplexe Aufgaben lösen kann. Kurz gesagt: Ein Reality-Check, der zeigt, ob unsere 'intelligenten' Modelle mehr sind als nur veredelte Papageien – eine willkommene Ergänzung im Benchmark-Dschungel.
SOB: Neuer Benchmark für präzise strukturierte LLM-Outputs
Interfaze.ai präsentiert den Structured Output Benchmark (SOB) zur umfassenderen Bewertung von LLMs bei der Erzeugung deterministischer, strukturierter Daten aus vielfältigen Quellen wie OCR oder PDF. Bestehende Benchmarks fokussieren oft nur auf Schema-Konformität, während SOB zeigt, dass Modelle sich insbesondere in der Genauigkeit der extrahierten Werte (`Value Accuracy`) und der `Perfect Response` erheblich unterscheiden. Dies offenbart, dass LLMs bei der fehlerfreien Datenextraktion aus komplexen Quellen noch Mängel aufweisen.
KI ist zu schlau: Warum SWE-bench Verified nicht mehr zählt
OpenAI zieht überraschend die Reißleine bei SWE-bench Verified, einem wichtigen Benchmark für Coding-Fähigkeiten. Der Grund ist weniger ein Scheitern der Modelle, sondern ihr schlagartiger Erfolg: Die KIs sind schlichtweg zu gut geworden, die verbleibenden Fehler liegen oft an der Benchmark-Qualität selbst. Ein klares Signal, dass die Branche dringend neue, anspruchsvollere Messlatten für die Code-Intelligenz von KIs braucht.
ProgramBench: LLMs brauchen ganzheitliches Code-Verständnis
Der neue Benchmark ProgramBench misst die Fähigkeit von Software-KI-Agenten zur ganzheitlichen Softwareentwicklung. Dabei müssen Agenten, ausgehend von einem Programm und seiner Dokumentation, eine neue Codebasis von Grund auf architekturieren und implementieren, die dem Referenzverhalten entspricht. Dies erfordert komplexe Software-Architekturentscheidungen, die von bisherigen Benchmarks nicht abgedeckt werden.
Open-Source-KI: Kimi enthüllt Implementierungsfehler der Anbieter.
Kimi adressiert ein Kernproblem von Open-Source-KI: Die korrekte Implementierung. Der neue, quelloffene "Vendor Verifier" (KVV) prüft, ob die Inferenz-Implementierungen von Open-Source-Modellen präzise sind. Dies ist eine direkte Antwort auf verbreitete Benchmark-Anomalien, die durch fehlerhafte Parameter bei Modellen wie K2 Thinking verursacht wurden.
Dein nächster AI-Dev-Assistent? Dirac dominiert den TerminalBench!
Der Open-Source AI-Agent Dirac hat den renommierten TerminalBench-Benchmark auf Basis von Gemini-3-flash-preview haushoch gewonnen. Das ist kein akademischer Sieg, sondern ein klares Signal: KI-Agenten werden immer effektiver darin, über das Terminal zu interagieren und könnten schon bald unsere Entwicklungsworkflows massiv optimieren. Ein klares Zeichen, dass der "AI-Co-Worker" vom Buzzword zur Realität wird.
KI im Praxistest: 27.000 Anläufe, null Verlässlichkeit bei Kohlenhydraten
Ein Experiment zeigte, dass führende KI-Modelle (OpenAI GPT-5.4, Claude Sonnet 4.6, Google Gemini 2.5 Pro, Google Gemini 3.1 Pro Preview) auch nach 27.000 Versuchen keine konsistenten Kohlenhydrat-Schätzungen für dieselben Lebensmittel lieferten. Die hochgradig variablen Antworten wären für Diabetiker potenziell gefährlich und unterstreichen die Grenzen aktueller Large Vision Models bei präzisen, realitätsnahen Messungen.
KI-Inferenz: 10% schneller dank cleverem GPU-Cache in SGLang
Multimodale KI-Modelle sind vielversprechend, aber ihre Inferenz-Engines noch nicht optimiert. Modal.com demonstriert, wie SGLang’s Performance um über 10% gesteigert wurde, indem aufwendige Buchhaltung für geteilten GPU-Speicher durch einen einfachen Cache-Lookup im Scheduler ersetzt wurde. Dieser sogenannte 'Handle Cache' führte zu signifikanten Verbesserungen bei Durchsatz und Latenz auf multimodalen Workloads.
M4 & lokale KI: Der Kampf um unabhängige Inference – ein Erfahrungsbericht
Lokale KI-Modelle auf einem M4-Chip mit 24GB Speicher zum Laufen zu bringen, ist kein Kinderspiel, aber machbar. Der Autor hat nach intensiven Tests eine stabile Konfiguration gefunden: Qwen 3.5-9B (4b quant) läuft über LM Studio mit respektablen 40 Tokens/Sekunde und 128K Kontextfenster. Damit ist eine spannende Unabhängigkeit von großen Cloud-Anbietern für grundlegende Aufgaben möglich, wenn auch nicht auf SOTA-Niveau.
ZAYA1-8B: Mathe-Meister auf AMD – mit weniger als 1 Mrd. Parametern
Zyphras neues Modell ZAYA1-8B überzeugt auf mathematischen Benchmarks und erreicht die Leistung von DeepSeek-R1. Das Bemerkenswerte daran: Es operiert mit unter einer Milliarde aktiver Parameter, bleibt bei Reasoning mit Claude Sonnet 4.5 wettbewerbsfähig und nähert sich Gemini 2.5 Pro im Coding an. Ein weiterer Durchbruch ist das Training des Modells, welches vollständig auf AMD-Hardware erfolgte und somit eine Abkehr vom de facto NVIDIA-Monopol signalisiert.
Datalog im GPU-Turbomodus: So wird Logik endlich rasend schnell
Datalog, die oft unterschätzte Sprache für komplexe rekursive Queries, bekommt endlich ihren wohlverdienten Performance-Boost. Eine neue Studie zeigt, wie man Datalog-Programme auf GPUs optimieren kann, um selbst anspruchsvolle Logik-Abfragen massiv zu beschleunigen. Das ist ein Game-Changer für Bereiche wie statische Code-Analyse oder Datenbanken, wo Geschwindigkeit entscheidend ist.
Lokal AI siegt: Qwen 3.6 auf dem Laptop schlägt Claude Opus beim Pelikan-Malen
Wer braucht teure Cloud-Giganten, wenn ein lokales AI-Modell wie Qwen 3.6-35B-A3B auf dem eigenen Laptop bessere Arbeit leistet? Simon Willison hat genau das bewiesen, als Qwen seinen Pelikan überzeugender zu Papier brachte als der vermeintlich überlegene Claude Opus 4.7. Das stellt die altbekannte Gleichung 'größer = besser' gehörig auf den Kopf und zeigt das Potenzial von effizienten, dezentralen AI-Lösungen.
Utilyze: Misst, wie nützlich deine GPU-Arbeit wirklich ist
Utilyze ist ein auf GitHub gehostetes Projekt, das laut Titel dazu dient, die Effizienz von GPUs bei der Verrichtung 'nützlicher Arbeit' zu messen. Es zielt darauf ab, Klarheit über die tatsächliche Auslastung und den Output von Grafikkarten zu schaffen.
Lokal-LLMs im Flieger: MacBook M5 Max stemmt 10 Stunden offline
Ein Autor hat auf einem 10-Stunden-Flug getestet, wie leistungsfähig lokale LLMs wie Gemma 4 31B und Qwen 4.6 36B auf einem MacBook Pro M5 Max mit 128GB sind. Über LM Studio generierte er ein komplexes Billing-Tool und verarbeitete Millionen von Tokens, wobei die Qualität für spezifische Aufgaben mit Frontier-Modellen mithalten konnte. Grenzen zeigten sich bei Akkulaufzeit (1% pro Minute), Hitze und Context-Länge (Abbau nach 100k Tokens), was aber die beeindruckende Offline-Performance nicht schmälert.
Bio-IT im Eigenheim: DNA-Sequenzierung mit DGX Spark & Mac Studio
Die Tage, in denen DNA-Sequenzierung ausschließlich Großlaboren vorbehalten war, könnten gezählt sein. Ein Enthusiast demonstriert, wie man mit einer Kombination aus leistungsstarker NVIDIA DGX-Technologie (DGX Spark) und einem Mac Studio komplexe Bio-IT-Aufgaben direkt zu Hause löst. Das unterstreicht eindrucksvoll die zunehmende Demokratisierung von Hochleistungsrechnen für wissenschaftliche Zwecke und das enorme Potenzial für Citizen Science und personalisierte Medizin.
AGI-Benchmark: YC-Startup Arc Prize sucht Engineering-Talent
Die Arc Prize Foundation, ein frisches YC-Startup (W26), sucht einen Platform Engineer, um ihren ambitionierten AGI-Benchmark ARC-AGI-4 voranzutreiben. Hier geht es nicht um Marketing-Buzz, sondern um den ernsthaften Versuch, "General Intelligence" in KI-Modellen messbar zu machen und so den Weg zur AGI zu ebnen. Auch wenn diese Stellenausschreibung (noch) unter dem Radar fliegt, zeigt sie, wie konkret die Jagd nach echter KI-Intelligenz wird.
Swift: Von GFLOP/s zu TFLOP/s für LLM-Training auf Apple Silicon
Ein Entwickler zeigt, wie er die handgeschriebene Matrix-Multiplikation für LLM-Training in Swift auf Apple Silicon von GFLOP/s zu TFLOP/s katapultiert. Dies geschieht explizit ohne Frameworks oder Bibliotheken, um die CPU, SIMD, AMX und GPU direkt zu nutzen. Das Ziel: Swift schneller als die C-Referenzimplementierung llm.c zu optimieren.
Intel Arc Pro B70 im Puget Systems Test: Relevant für KI-Workflows?
Puget Systems hat einen Artikel mit dem Titel „Intel Arc Pro B70 Review“ veröffentlicht. Das Unternehmen bietet auch spezialisierte Systeme und Empfehlungen für „AI Development & Deployment“ sowie „Inference Servers for Scaling AI & LLMs“ an. Dieser Kontext macht den Test der Profi-GPU potenziell relevant für die Bewertung von Hardware im KI-Umfeld.
GoModel: Das Open-Source AI-Gateway, das 44x leichter ist als LiteLLM
GoModel tritt als neues Open-Source AI-Gateway aus Go an und fordert etablierte Lösungen wie LiteLLM heraus – mit einem Paukenschlag: Es soll ganze 44x leichter sein. Das bedeutet für Entwickler nicht nur deutlich weniger Ressourcenverbrauch und somit niedrigere Betriebskosten beim Orchestrieren ihrer AI-Modelle, sondern auch eine schlankere, agilere Infrastruktur. Ein klarer Weckruf und potenzieller Game-Changer für alle, die Effizienz lieben.
Agent-skills-eval: Prüft Wirkung von KI-Fähigkeiten auf Outputs.
Das GitHub-Projekt `agent-skills-eval` bietet einen Test-Runner für KI-Agenten-Fähigkeiten. Sein Ziel ist es, zu evaluieren, ob diese 'agentskills.io-style' Skills die Outputs von KI-Agenten tatsächlich verbessern. Damit liefert es ein Werkzeug zur Messung der Effektivität.