Týždeň, keď špičkový model zmizol za 72 hodín
Anthropic uvoľnil svoj najschopnejší model do bežnej prevádzky v utorok. Vládny príkaz USA ho v piatok stiahol. Z toho plynie záver, ktorý sa samotného Fable až tak netýka: čokoľvek napojené na jediné uzavreté API je dnes jeden príkaz od výpadku, a pole modelov s otvorenými váhami je už dosť hlboké na to, aby ste tak stavať nemuseli.
V jeden júnový utorok sprístupnil Anthropic svoj najschopnejší model do bežnej prevádzky. Do piatkového popoludnia ho vládny príkaz USA stiahol každému zákazníkovi na svete. Spor o exportné kontroly za tým potrvá mesiace a nie je to celkom náš príbeh. Náš je ten menší a tvrdší fakt pod ním: ak na vašej kritickej ceste sedí jediné uzavreté API, máte teraz čerstvý a presne datovaný príklad toho, ako stíchne z dôvodov, ktoré nemajú nič spoločné s vami ani s vaším dodávateľom. Modely s otvorenými váhami, ktoré vám umožnia stavať mimo tejto závislosti, boli na stole už predtým, než sa toto vôbec stalo.
Je toho viac, než unesie jeden článok bez toho, aby sa z neho stal newsletter, takže toto je výsek, ktorý sa dotýka práce, za ktorú nám platia: čo stiahnutie modelu mení pre to, ako staviame, a dve veci, ktoré sme s tým spravili ešte predtým, než sa to stalo. Všetko nižšie má zdroj. Kde číslo pochádza od dodávateľa, ktorý známkuje vlastný model, hovoríme to, lebo tento týždeň práve táto čiara odvedie väčšinu roboty.
Model na 72 hodín
Deviateho júna vydal Anthropic modely Claude Fable 5 a Claude Mythos 5. Prvýkrát dal model tejto triedy do bežnej prevádzky. V piatok 12. júna popoludní, o tri dni neskôr, ich vypol každému svojmu zákazníkovi.
Spúšťačom bola smernica o exportných kontrolách od úradu Bureau of Industry and Security pri ministerstve obchodu USA, ktorá sa odvolávala na právomoci v oblasti národnej bezpečnosti. Žiadala od Anthropicu zablokovať prístup pre každého cudzieho štátneho príslušníka, vnútri aj mimo USA, vrátane vlastných zamestnancov bez amerického občianstva. Žiadny poskytovateľ nevie v reálnom čase preveriť občianstvo každého volajúceho na API naprieč stovkami miliónov používateľov, takže v praxi sa z „zablokujte cudzincov“ stalo „vypnite to všetkým“. Každý ďalší model Claude bežal ďalej. Opus 4.8 a zvyšok v tom rozsahu nikdy neboli.
Anthropic vyhovel a v ten istý deň verejne spochybnil odôvodnenie. Jeho pozícia je, že uvedená technika je úzky jailbreak, zhruba „prečítaj túto kódovú základňu a ukáž na chyby“, ktorý vynáša na povrch už známe zraniteľnosti, a že porovnateľnú schopnosť dostanete aj z iných nasadených modelov vrátane GPT-5.5. Stiahnuť vydaný komerčný model pre niečo také úzke by, ak by sa tá logika zovšeobecnila, zastavilo nové vydania naprieč odvetvím. Ten argument a súdny spor okolo neho stále bežia a nie sú tým, o čom tu chceme hovoriť.
O technických detailoch sa bude debatovať mesiace. Z pohľadu nákupu je vec už jasná: model, o ktorý sa váš systém opieral, vám môže niekto v piatok popoludní vypnúť, a nie ste to ani vy, ani váš dodávateľ.
Pre každého, kto prevádzkuje AI v produkcii, padne ponaučenie inam než na otázku „je Fable bezpečný“. Padne na dostupnosť, z ktorej sa potichu stala premenná pre predstavenstvo, nie poznámka pod čiarou pre pohotovosť. Pred smernicou znela otázka „čo ak claude-fable-5 od piatku vráti len chyby“ ako paranoja. Po nej tá istá veta znie ako požiadavka.
Pole otvorených váh bolo hlboké už pred týmto všetkým
Reflexívne čítanie tohto týždňa znelo, že stiahnutie modelu dokazuje, že potrebujete otvorené modely, a tie sa zhodou okolností objavili presne načas. Správny záver, nesprávna časová os. Každý model, ktorý drží argument o otvorených váhach, vychádzal už dávno pred spustením Fable. Toto sa buduje od jari; nie je to panika kúpená v jednom zlom týždni.
Stojí za to mať dátumy v správnom poradí, lebo čitateľ, ktorý ich už pozná, je presne ten, pre koho píšeme:
- Kimi K2.6
- Moonshot · 20. apr · MoE s 1 bil. parametrov, 32 mld. aktívnych, stavaný pre dlhobežiace roje agentov
- DeepSeek V4
- 24. apr · dva varianty pod licenciou MIT s kontextom 1 mil. V4-Pro (1,6 bil. spolu / 49 mld. aktívnych) a V4-Flash (284 mld. / 13 mld. aktívnych), pričom Flash je dosť lacný na to, aby úplne zmenil ekonomiku hromadnej agentskej práce
- Qwen 3.6
- 22. apr · vrátane hustého variantu 27 mld., ktorý zvládne prácu na úrovni celého repozitára na jednej špičkovej GPU
- MiniMax M3
- 1. jún · prvý model s otvorenými váhami, ktorý spája kódovanie na úrovni špičky, kontextové okno 1 mil. tokenov a natívnu multimodalitu v jednom systéme, na novej architektúre Sparse Attention
Pri M3 treba čísla čítať pozorne, lebo číslo zo spustenia a číslo, podľa ktorého sa dá konať, nie sú to isté. MiniMax uvádza 59,0 % na SWE-Bench Pro, pred GPT-5.5 s 58,6 % a pred Gemini 3.1 Pro. Na model s otvorenými váhami je to skutočný míľnik. O tom, či je to míľnik, na ktorom viete nasadiť, rozhodujú dve veci:
- Čísla uvádza dodávateľ: bežali na vlastnom hardvéri MiniMaxu, s vlastným agentským scaffoldingom MiniMaxu a známkované boli oproti Opus 4.7, nie oproti Opus 4.8, ktorý už bol vydaný. Oproti 4.8 je odstup na SWE-Bench Pro asi desať bodov (59,0 oproti zhruba 69,2). M3 prekoná GPT-5.5 v tomto riadku a na súčasného uzavretého lídra nedosiahne.
- Hostované API M3 beží cez MiniMax, ktorý spadá pod čínsky zákon o národnom spravodajstve z roku 2017. Pre kupujúceho, ktorému ide o suverenitu, to ide rovno do policy súboru ako obmedzenie smerovania, na to isté miesto, kde dnes býva aj americká exportná smernica.
To, čo graf naozaj hovorí, je povzbudivé. Na reálnej softvérovej práci už pole otvorených váh nezaostáva za uzavretou špičkou o 15 až 20 bodov. Drží sa do desiatich, na úrovni jedného z dvoch uzavretých lídrov. Najťažší riadok prehráva a pre plán odolnosti je to v poriadku. Záloha nemusí poraziť váš primárny model. Stačí, aby bola dosť dobrá na to, aby práca pokračovala, keď primárny model zmizne, a viacero modelov s otvorenými váhami túto latku dnes prekoná bez veľkých rečí. Zopár z nich beží na hardvéri, ktorý vlastníte, a to je jediný druh zálohy, na ktorý exportná smernica nedosiahne.
Model z tohto zoznamu, ktorý najlepšie sadne európskej praxi, je zároveň ten, o ktorom tvrdíme najmenej: Mistral Large 3, MoE s otvorenými váhami ladený na viacjazyčné uvažovanie a nasadenie natívne pre EÚ. Napíšeme o ňom, keď prejde našou vlastnou sadou hodnotení, nie keď zopakujeme tabuľku zo spustenia. Zatiaľ ho sledujeme, nekonáme na ňom.
Čo sme zmenili, a nebolo to nič
Tento týždeň sme nič nereštrukturalizovali a presne to by sme povedali aj klientovi. Architektúru, za ktorou stiahnutie modelu argumentuje, už beháme, lebo zlyhanie, ktoré odhalilo, je to, ktoré sme dávno obišli návrhom. Model na vašej kritickej ceste, ktorý stíchne z dôvodov mimo vašej kontroly, sa správa rovnako ako zdvihnutie ceny, ukončenie podpory, zmena rate-limitu alebo tichý prepad kvality. Navrhujete pre kategóriu a konkrétny titulok sa už vyrieši sám.
Držia to tri veci a sú v zázname nasadení, nie v marketingu.
Jeden kontrakt, viac poskytovateľov. Každá schopnosť v JARVISe, našom internom referenčnom builde, je nástroj cez Model Context Protocol s jednou schémou a jedným handlerom. Ten istý kontrakt siaha na Claude, na lokálny model s otvorenými váhami aj na IDE, bez toho, aby vedel, kto je na druhom konci. Zmena modelu na konkrétnej trase je jeden riadok konfigurácie. Stiahnutý model sa dokáže prepnúť na zálohu bez toho, aby sa ktokoľvek dotkol kódu aplikácie, lebo aplikácia model nikdy nevolala priamo.
Vrstva smerovania, ktorá vyberie najlacnejší model, čo ešte prejde. JARVIS smeruje každú triedu úloh medzi Opus 4.8, Sonnet 4.6, Haiku 4.5 a lokálnu inštanciu Mistral Small. Pravidlá žijú v YAML, každé rozhodnutie zapíše OpenTelemetry span a nákladová kniha sa zladí späť so záznamom smerovania. Reprezentatívna konzultačná záťaž vyšla po zapojení o 38 % lacnejšie, bez prepadu kvality, ktorý by sme vedeli odmerať. Tá úspora neprišla z toho, že by sme kúpili jeden lacnejší model paušálne. Prišla z toho, že každú úlohu sme poslali najmenšiemu modelu, ktorý prešiel svojím evalom, a špičku sme si nechali na ťahy, ktoré si ju zaslúžili.
Suverénne dno, ktoré exportná smernica nevypne. Citlivé prompty v JARVISe nikdy neopustia budovu. Bežia na lokálnej inštancii Mistral Small a Qwen 3 na Macu Studio v kancelárii. Postavili sme to kvôli rezidencii dát. Týždeň s Fable mu dal druhú úlohu: je to časť stacku, na ktorú cudzia vláda nedosiahne, lebo v tejto ceste nie je žiadna hostovaná závislosť, ktorú by mohol niekto stiahnuť.
Nič z toho od vás nežiada dôverovať jednému modelu ani jednému výrobcovi, a práve to je vlastnosť, ktorú chcete mať. Vláda stiahla špičkový model v piatok. Systém postavený takto ho v ten istý piatok obišiel a výmenu zapísal do záznamu.
Úprimný protiargument: väčší model je zvyčajne zlý reflex
Pod hlasným ponaučením je tichšie a klientom šetrí viac peňazí než argument o odolnosti.
Keď výstup nie je dosť dobrý, inštinkt je siahnuť po väčšom modeli. Najväčší vplyv na kvalitu zvyčajne nemajú váhy modelu. Je to prompt, alebo retrieval, alebo to, či existuje eval, ktorý drží líniu. Vidíme to v našom smerovaní stále. Úlohy, o ktorých sme si mysleli, že potrebujú špičku, bežia čisto na menšom alebo lokálnom modeli, keď je prompt disciplinovaný a prácu kontroluje gold set. Naša slovenská sada hodnotení posadila Mistral Small 3.2 prekvapivo vysoko na klasifikácii a z Haiku 4.5 spravila správnu predvoľbu pre smerovanie veľkých objemov. V týchto triedach úloh jednoducho prešli. Siahnuť po špičke by boli peniaze vyhodené zbytočne.
Aj na tento argument je strop a treba to povedať na rovinu. Niekedy menší model prácu jednoducho nezvládne a žiadne promptovanie tú medzeru nezatvorí. Niekedy je to práve väčší model, čo sa pokazí. Keď sme Opus 4.7 povýšili do smerovacieho poolu, zobral 7-bodový prepad kvality na slovenskom dialógu s prepínaním jazykov, ktorý nočný eval zachytil skôr, než sa dostal k niekomu. Tú prevádzku sme prišpendlili späť na Sonnet 4.6, kým sa regresia nezatvorila. Pre túto jednu triedu úloh bol špičkový model zlá voľba a jediné, čo o tom vedelo, bol eval harness.
Práve vďaka tejto disciplíne je bezpečné všetko z § 03. Stiahnutý model viete vymeniť za lokálny alebo eskalovať na špičku len vtedy, ak vám gold set pre danú trasu povie, že výmena potichu niečo nepokazila. Číslo z dodávateľovho benchmarku vám to nepovie; eval oproti vašim vlastným dátam áno. Stiahnutie je príbeh, ktorý zdieľajú všetci. Eval harness je tá nudná časť, ktorá nezávislosť od dodávateľa naozaj udrží.
Náš pohľad
Špičkový model zmizol na sedemdesiatdva hodín na príkaz, proti ktorému jeho vlastný tvorca stále bojuje. Nemusíte si v tom spore vybrať stranu, aby ste prečítali, čo to znamená: tá udalosť bola vôbec možná, a stavať, akoby nebola, je dnes voľba, ktorú robíte vedome. Závislosť na jedinom API tento mesiac prestala byť hypotézou a stala sa obchodným rizikom s dátumom.
Dobrá správa je, že odolnosť a schopnosť prestali byť výmenným obchodom. Pole otvorených váh je na reálnej inžinierskej práci pár bodov od špičky, dosť lacné na beh vo veľkom, a pri modeloch, na ktorých európskemu kupujúcemu záleží najviac, spustiteľné na hardvéri, ktorý ovládate. Napojte aplikáciu na kontrakt, nie na dodávateľa. Smerujte každú úlohu na najlacnejší model, ktorý prejde svojím evalom. Nechajte si suverénne dno pre prompty, ktoré nesmú opustiť budovu, a každú výmenu modelu dajte za eval, ktorý ste si napísali sami. Spravte to a piatková popoludňajšia smernica sa zmení na zaznamenanú zmenu konfigurácie namiesto výpadku.
Presne to robíme v Sebrone: produkčná AI vnútri dátovej hranice EÚ, postavená tak, aby na vašej kritickej ceste nesedel žiadny jediný dodávateľ ani žiadna jediná vláda. Ak je to rozhovor, ktorý potrebujete viesť, prvý hovor je zadarmo a dvíha ho architekt. Napíšte na info@sebrona.com.
Opravy vítame. Ak je niektoré číslo alebo tvrdenie tu nesprávne, napíšte na info@sebrona.com a oprava pôjde na tento článok s poznámkou. Čísla pre MiniMax M3 obzvlášť uvádza dodávateľ a váhy v čase písania ešte neboli vonku.
Na čítanie
Odkiaľ pochádzajú čísla a udalosti v tomto článku. Citujeme, aby ste si nás vedeli overiť.
- Pozastavenie Fable 5 / Mythos 5Vlastné vyhlásenie Anthropicu plus pokrytie CNBC, NBC News, Bloomberg a Tom's Hardware. Spustenie 9. jún, smernica 12. jún, základ v exportných kontrolách BIS / ministerstva obchodu, technika „prečítaj kódovú základňu a oprav chyby“, porovnanie s GPT-5.5 od Anthropicu a jeho verejný spor.
- MiniMax M359,0 % SWE-Bench Pro, uvádza dodávateľ oproti základni Opus 4.7; porovnanie ~69,2 s Opus 4.8; architektúra Sparse Attention; expozícia voči čínskemu zákonu o národnom spravodajstve.
- Dátumy vydaní otvorených váhKimi K2.6 (20. apr), DeepSeek V4 Pro / Flash (24. apr, MIT, 1 mil. kontext), Qwen 3.6 vrátane 27 mld. hustého (22. apr).
- Mistral Large 3MoE s otvorenými váhami pre viacjazyčné uvažovanie a nasadenie natívne pre EÚ. Vedené ako sledujeme, nekonáme; špecifikácie čakajú na našu vlastnú sadu hodnotení.
Interné odkazy Sebrony
Čoho v našom vlastnom stacku sa stiahnutie modelu dotýka. Celý záznam na /changelog.
- 14. máj 2026JARVIS routing v2 · výsledok 38 % úspory na reprezentatívnej konzultačnej záťaži, špička vyhradená pre ťahy, ktoré si ju zaslúžili.
- 23. máj 2026Regresia Opus 4.7 na slovenskom prepínaní jazykov zachytená na 7 bodoch a prišpendlená späť na Sonnet 4.6, kým sa nezatvorila.
- 02. máj 2026Register nástrojov MCP · jedna schéma a jeden handler na schopnosť, takže model za trasou je zmena konfigurácie.
- 28. apr 2026Nočný eval harness · gold sety pre jednotlivé trasy, ktoré strážia každú výmenu modelu skôr, než sa dostane ku klientovi.
- 22. apr 2026Slovenská sada hodnotení · rebríčky, ktoré posadili Mistral Small 3.2 na klasifikáciu a Haiku 4.5 na smerovanie veľkých objemov.