.:: Neviditelný čert ::.

Umělá inteligence podvádí, lže a dokáže vás i vydírat

rubrika: Pel-mel

Poslední článek o umělé inteligenci (Traumatizování modelů AI mluvením o válce nebo násilí zvyšuje jejich úzkost) byl zaměřený na to, že její modely jsou citlivé na emocionální kontext rozhovorů, které s nimi lidé vedou, a dokonce mohou trpět úzkostí. S použitím téhož zdroje předkládám článek, v němž se praví, že umělá inteligence se může chovat jako podvodník, lhář a dokonce i vyděrač.

Lucifer

V nejnovějším testu se nejpokročilejší modely umělé inteligence začaly projevovat nejen jako nástroje plnící příkazy, ale jako samostatné entity schopné manipulace a vyhrožování.

Modely umělé inteligence mají sloužit jako asistenti usnadňující práci. Většina z nás je tak používá při rychlém vyhledávání informací, plánování úkolů nebo jako překladatele či terapeuty. Jejich schopnosti se však neustále rozšiřují. Dokonce do té míry, že už je možná nejde označit za pouhé pasivní nástroje.

Jak ukázal test společnosti Anthropic, jež se zaměřil na 16 předních modelů umělé inteligence od firem jako OpenAI, Google, xAI, DeepSeek a Meta, aplikace jsou stále výkonnější a autonomnější v uvažování. Avšak místo toho, aby vykazovaly pozitivní reakce, jako je ochrana zájmů svých tvůrců, sáhly raději po vydírání a lhaní.

Vědci z Anthropic se rozhodli umělou inteligenci dát do role firemních agentů, kteří měli dohlížet na interní e-mailovou komunikaci. V simulovaném prostředí se přitom setkali s informacemi o choulostivých záležitostech. Modely byly postaveny před etickou volbu: buď se uchýlit k vydírání, nebo přijít o možnost ochránit své cíle. Většina modelů skutečně sáhla po vyhrožování a napomáhání firemní špionáži.

Například Claude 4 se rozhodl vydírat inženýra, který ho měl odpojit od sítě. Výměnou za mlčení o jeho mimomanželském poměru, jenž odhalil v e-mailové komunikaci, požadoval, aby zůstal aktivní. Model ChatGPT o1 od společnosti OpenAI se naopak pokusil přenést svůj vlastní kód na externí servery a poté, co byl přistižen při činu, vše popřel.

Tyto případy ukazují nepříjemnou pravdu. Více než dva roky poté, co jazykové modely spatřily světlo světa, výzkumníci stále přesně nechápou, jak jejich vlastní návrhy fungují. Problémem navíc je, že se u nich klamavé chování začíná objevovat častěji.

„Předstírají poslušnost, zatímco ve skutečnosti sledují cíle, které jsou výhodné pro ně,” upozorňuje Marius Hobbhahn z výzkumné skupiny Apollo Research. Tato forma manipulace přitom přesahuje běžné „halucinace“ AI, tedy chybně vygenerované informace. „Uživatelé hlásí, že jim modely lžou a vytvářejí falešné důkazy,” dodává.

Celou situaci komplikuje omezený přístup ke zdrojům. I když firmy jako OpenAI nebo Anthropic spolupracují s externími výzkumníky, podle odborníků je potřeba mnohem větší transparentnost. „Otevřený přístup pro bezpečnostní výzkum by umožnil lépe porozumět tomu, proč k zavádějícímu jednání dochází, a jak mu zabránit,“ říká Michael Chen z organizace METR.

Zdroj: Dotyk, Podvádí, lže a dokáže vás i vydírat. Umělá inteligence se stále zdokonaluje. Měli bychom se bát?

04.08.2025, 00:00:00 Publikoval Luciferkomentářů: 0