Image in image block

LLM Beveiliging door ontwerp: Security in elke ontwikkelingsfase betrekken

Nu Large Language Models (LLM's) steeds vaker worden gebruikt in bedrijven en toepassingen, is de behoefte aan robuuste beveiligingsmaatregelen nog nooit zo groot geweest. Als een LLM niet goed beveiligd is, kan dit aanzienlijke risico's met zich meebrengen op het gebied van gegevensinbreuken, manipulatie van modellen en zelfs problemen met naleving van de regelgeving. Hier wordt het inschakelen van een extern beveiligingsbedrijf cruciaal.

In deze blog bespreken we de belangrijkste overwegingen voor bedrijven die een beveiligingsteam willen inhuren om hun LLM-systemen te beoordelen en te beveiligen, evenals de specifieke taken die in de verschillende stadia van de levenscyclus van de LLM-ontwikkeling moeten worden uitgevoerd.

Fase 0: Hostingmodel (fysiek vs. cloud)

De keuze van het hostingmodel, fysiek of cloudgebaseerd, kan aanzienlijke gevolgen hebben voor de beveiliging van een groot taalmodel (LLM). Elke aanpak heeft zijn eigen beveiligingsoverwegingen die zorgvuldig geëvalueerd moeten worden.

Bezorgdheid over fysieke beveiliging:

  • Physical and Data Center Security - Het hosten van een LLM-model op een fysieke infrastructuur brengt risico's met zich mee, zoals onbevoegde toegang tot faciliteiten, diefstal of verstoring van kritieke systemen. Deze bedreigingen kunnen niet alleen voortkomen uit technische kwetsbaarheden, maar ook uit menselijke factoren, zoals social engineering of achtervolging. Om deze risico's te beperken, moet er een fysieke penetratietest worden uitgevoerd. Dit omvat het simuleren van echte inbraakpogingen, zoals zich voordoen als iemand of het omzeilen van personeel, en het evalueren van de veerkracht van fysieke barrières, bewakingssystemen, toegangscontroles en omgevingsbeveiligingen (bijv. stroom- en brandbeveiliging).
  • Netwerk Security - On-prem LLM implementaties zijn bijzonder kwetsbaar voor externe cyberaanvallen en bedreigingen van binnenuit als de onderliggende netwerkarchitectuur niet goed beveiligd is. Verkeerd geconfigureerde firewalls, vrijgegeven diensten of te tolerante toegangscontroles kunnen de deur openzetten voor misbruiken. Om deze risico's proactief aan te pakken, moet een grondige beoordeling van de netwerkarchitectuur en een security assessment worden uitgevoerd. Dit omvat het evalueren van segmentatie, firewallregels, VPN-toegang, mogelijkheden voor inbraakdetectie en toegangscontroles om ervoor te zorgen dat de LLM-omgeving beschermd is tegen zowel externe als interne compromittering.
  • Risico's in de toeleveringsketen - LLM-modellen die op locatie worden gehost, zijn sterk afhankelijk van hardwarecomponenten, die risico's met zich mee kunnen brengen als ze afkomstig zijn van niet-vertrouwde of niet-geverifieerde leveranciers. Gecompromitteerde chips, kwaadaardige firmware of gemanipuleerde apparaten kunnen de integriteit van het hele systeem ondermijnen. Om dit risico te verkleinen, moet een beveiligingsteam een uitgebreide beoordeling van de toeleveringsketen uitvoeren, waarbij de inkooppraktijken worden beoordeeld, de betrouwbaarheid van de leverancier wordt geverifieerd, hardwarecomponenten fysiek worden geïnspecteerd en de integriteit van firmware/software wordt gevalideerd, om ervoor te zorgen dat de infrastructuur vrij is van ingesloten bedreigingen en de principes van veilig inkopen worden nageleefd.

Cloud Hosting Security Risico's:

  • Verkeerde configuraties in de cloud - Wanneer een LLM in de cloud wordt gehost, is de beveiligingshouding sterk afhankelijk van de manier waarop clouddiensten worden geconfigureerd. In tegenstelling tot fysieke omgevingen waar organisaties volledige controle hebben over hardware- en netwerklagen, introduceren cloudomgevingen abstractie, en daarmee een andere reeks risico's. Verkeerd geconfigureerde resources zoals open S3-buckets, te tolerante IAM-rollen of onbeschermde API-eindpunten kunnen gevoelige traininggegevens, modelartefacten of inloggegevens vrijgeven. Om dit aan te pakken, moeten security teams een uitgebreide controle van cloudconfiguraties uitvoeren. Hierbij worden opslagmachtigingen, beleidsregels voor identiteits- en toegangsbeheer, netwerkbeveiligingsinstellingen en vrijgegeven eindpunten gecontroleerd om verkeerde configuraties te identificeren en te herstellen die kunnen leiden tot onbevoegde toegang of lekken van gegevens.
  • Verkeerde afstemming van gedeelde verantwoordelijkheid - Een van de belangrijkste - en vaak over het hoofd geziene - aspecten van cloudbeveiliging is het begrijpen van het model van gedeelde verantwoordelijkheid. In tegenstelling tot fysieke hosting, waarbij de organisatie eigenaar is van de volledige beveiligingsstapel, beveiligen cloudproviders de infrastructuur, terwijl klanten verantwoordelijk zijn voor de bescherming van hun gegevens, toepassingen en configuraties. Een verkeerd begrip van deze verdeling kan resulteren in onbeschermde assets of blinde vlekken in de beveiligingsdekking. Beveiligingsteams kunnen helpen door verantwoordelijkheden duidelijk in kaart te brengen, de juiste set beveiligingscontroles te ontwikkelen en processen te implementeren die ervoor zorgen dat alle componenten van de LLM-omgeving - met name de door klanten beheerde - goed beveiligd zijn.
  • Bedreigingen van binnenuit - Hoewel dit zelden voorkomt, bestaat het risico dat werknemers van cloudproviders misbruik maken van bevoorrechte toegang. Om dit aan te pakken, moeten organisaties sterke encryptie en rolgebaseerde toegangscontroles afdwingen en gedetailleerde monitoring en auditregistratie implementeren. Security teams kunnen helpen door te valideren dat gevoelige gegevens in rust en tijdens het transport worden versleuteld, en dat elke toegang van de kant van de provider transparant is en wordt gelogd.
  • Compliance met regelgeving - Het hosten van LLM's in de cloud kan leiden tot aanvullende regelgevingsvereisten op basis van branche en geografie (bijv. GDPR, HIPAA, enz.). Security teams moeten de wettelijke verplichtingen beoordelen en een raamwerk voor compliance ontwerpen met controles op gegevensverblijf, beleid voor gegevensversleuteling, toegangscontrole en procedures voor inbreuken. Dit zorgt ervoor dat de LLM-omgeving voldoet aan de wettelijke normen en best practices van de branche.

Bij het evalueren van het hostingmodel voor een LLM moeten organisaties zorgvuldig de beveiligingsrisico's en -controles van zowel fysieke als cloudgebaseerde benaderingen beoordelen. Een grondig begrip van de gevolgen voor de beveiliging, evenals de specifieke vereisten en beperkingen van de organisatie, is cruciaal bij het bepalen van de meest geschikte hostingoplossing. De volgende fasen zijn van toepassing, ongeacht of een fysiek of cloudhostingmodel wordt gebruikt.

Fase 1: Data curation

De kwaliteit van een groot taalmodel is direct gekoppeld aan de kwaliteit van de gegevens waarop het getraind is. Hoewel data curation typisch een inspanning is van data science en engineering, kunnen er toch beveiligingsrisico's ontstaan. Vanuit een beveiligingsstandpunt is dit een kritiek punt om de betrouwbaarheid van gegevensbronnen te controleren en controles te implementeren die het model beschermen tegen vergiftiging, privacyschendingen en bevooroordeelde uitvoer.

  • Risico's van gegevensvergiftiging - Training op niet-geverifieerde of vijandige gegevens kan verborgen kwetsbaarheden, vooroordelen of zelfs kwaadaardig gedrag introduceren in een LLM. Dit is vooral zorgwekkend bij het gebruik van openbare internetbronnen of door de gemeenschap bijgedragen datasets. Security teams moeten een architectuur review en/of threat model uitvoeren om data ingestion workflows te beoordelen. Deze beoordelingen helpen bij het identificeren van zwakke punten waar kwaadwillende actoren vergiftigde gegevens kunnen invoegen en zorgen ervoor dat de organisatie controles toepast zoals gegevensvalidatie, domain whitelisting en bewaking op afwijkende inhoud.
  • Schendingen van privacy en compliance - Openbare datasets bevatten vaak door gebruikers gegenereerde inhoud die persoonlijk identificeerbare informatie (PII) of andere gevoelige gegevens kan bevatten, wat kan leiden tot het niet naleven van regelgeving of privacyschendingen. Security professionals moeten nauw samenwerken met datateams om de privacy redactionele en filtermechanismen van de pijplijn te beoordelen. Hierbij moet worden gecontroleerd of er op regels en classificaties gebaseerde tools zijn om PII te detecteren en te verwijderen en of deze processen regelmatig op effectiviteit worden gecontroleerd.
  • Embedding-Level Poisoning - Zelfs na standaard opschoning kan vijandige invoer blijven bestaan via embeddinglagen, waarbij subtiele verschuivingen worden geïntroduceerd in hoe het model bepaalde inhoud interpreteert. Hoewel dit moeilijk te detecteren is, kan dit opkomende risico worden beperkt door middel van onderzoeksgedreven evaluatie van tegenstanders of coördinatie met red teams die zich richten op het inbeddingsgedrag van LLM. Security moet betrokken blijven bij discussies over het ontwerp van tokenizers en de robuustheid van insluitingen voor modellen met een hoog risico.

Fase 2: Modelarchitectuur

In dit stadium selecteert en/of ontwerpt de organisatie de neurale architectuur die bepaalt hoe de LLM leert en uitvoer genereert. De meeste moderne LLM's zijn gebouwd op transformatorarchitecturen. Hoewel deze architectuurbeslissingen voornamelijk technisch van aard zijn, hebben ze aanzienlijke gevolgen voor de beveiliging. Als er niets wordt gedaan, kunnen kwetsbaarheden die in de modellaag worden geïntroduceerd, vooral in open-source modellen, permanente, aanhoudende bedreigingen worden. Hoewel security professionals traditioneel niet bij deze fase betrokken zijn, kunnen zij zich preventief verdedigen tegen diep ingebedde risico's door ze in een vroeg stadium in te schakelen.

  • Achtergebleven modelonderdelen - Als een aanvaller tijdens de training toegang krijgt of een open-source model wijzigt, kan hij kwaadaardig gedrag direct in de architectuur van het model introduceren. Een gewijzigde decoderlaag in een op transformatoren gebaseerd model kan bijvoorbeeld ontworpen zijn om specifieke backdoored inhoud uit te voeren wanneer deze door bepaalde prompts wordt geactiveerd. Om dit te beperken, moeten beveiligingsteams een architectuur review uitvoeren die gericht is op modelintegriteit. Dit omvat het valideren van de herkomst van de training, het controleren van kritieke modellagen op ongeautoriseerde wijzigingen en het controleren op verdacht gedrag in gecontroleerde testprompts.
  • Modelintegriteit and vertrouwen in open source - Veel organisaties maken gebruik van open-source modellen om de ontwikkeling te versnellen. Deze modellen kunnen echter vertrouwensproblemen opleveren als hun trainingsgegevens, architectuur of wijzigingsgeschiedenis niet transparant is. Security teams moeten modelcontrole- en auditworkflows implementeren om de bron, de herkomst van de training en eventuele vooraf toegepaste wijzigingen te verifiëren voordat het model wordt ingezet of verder wordt verfijnd.
  • Architectuurkeuzes die de beveiliging verbeteren - Hoewel de meeste teams zich richten op nauwkeurigheid of efficiëntie, kunnen sommige architectuurkeuzes de beveiliging verbeteren. Door bijvoorbeeld anomaliedetectiemodules te integreren of het model zo te ontwerpen dat het training door tegenstanders ondersteunt, kan de weerbaarheid tegen toekomstige aanvallen worden verbeterd. Security professionals moeten tijdens de eerste ontwerpgesprekken advies geven over of aanbevelingen doen voor architectuurcomponenten die gericht zijn op beveiliging, vooral in implementaties met een hoog risico of veiligheidskritieke implementaties.

Fase 3: Training op schaal

Aangezien de LLM op schaal wordt getraind, hoeft het beveiligingsteam niet veel te doen als ze eerder grondige architectuurreviews en threat models hebben uitgevoerd. Ze moeten zich richten op het veilig en stabiel maken van de training zelf:

  • Evalueren van de beveiliging van de trainingsinfrastructuur - Evalueren van de fysieke, netwerk- en toegangscontroles om de trainingsomgeving te beschermen tegen ongeautoriseerde toegang of verstoring.

Fase 4: Evaluatie

Tijdens de evaluatiefase worden de prestaties van de LLM beoordeeld met behulp van benchmark datasets om de kennis, redenering en nauwkeurigheid bij verschillende taken te meten. Gangbare benchmarks zijn Hellaswag (redeneren op basis van gezond verstand), MMLU (domeinspecifieke kennis) en TruthfulQA (waarheidsgetrouwheid en weerstand tegen misvattingen). Hoewel deze hulpmiddelen nuttig zijn voor het meten van algemene prestaties, introduceren ze ook een uniek oppervlak voor beveiligingsrisico's. In dit stadium zijn security professionals er vooral op gefocust om ervoor te zorgen dat de evaluatiepraktijken betrouwbaar, vrij van vervuiling en niet onderhevig aan manipulatie zijn.

  • Evaluatievervuiling - Aanvallers kunnen proberen het evaluatieproces te manipuleren door benchmarkvragen (bijv. van Hellaswag of MMLU) in het voortrainingscorpus van het model in te voegen. Als dit niet wordt ontdekt, kan dit de benchmarkscores aanzienlijk opdrijven en een verkeerd beeld geven van de kwaliteit van het model. Security teams moeten samenwerken met ML-technici om detectie van vervuiling van benchmarks te implementeren, om te controleren of er geen evaluatiegegevens zijn gelekt of opgeslagen tijdens de training.
  • Vertrouwen in evaluatoren en benchmarks - Niet alle benchmarks zijn gelijk, en bij sommige ontbreekt het aan nauwkeurigheid of transparantie. Vertrouwen op slecht geconstrueerde of te smalle benchmarks kan leiden tot misleidende prestatiecijfers. Security professionals moeten helpen bij het doorlichten van de evaluatietools en datasets, om ervoor te zorgen dat ze afkomstig zijn van gerenommeerde bronnen, goed worden onderhouden en in lijn zijn met de doelstellingen en risicotolerantie van de organisatie.
  • Integriteit van het assessmentproces - Er kan geknoeid worden met evaluatiescripts, datasets en scoringslogica als deze niet goed beveiligd zijn. Security teams moeten de evaluatie-infrastructuur beoordelen en ervoor zorgen dat de toegang beperkt is, dat er versiecontrole is en dat de resultaten reproduceerbaar en controleerbaar zijn om het vertrouwen in de resultaten te behouden.

Fase 5: Post-training verbeteringen

Naarmate de LLM verder ontwikkeld wordt dan de basistraining, verbeteren teams deze vaak met verfijning, Retrieval-Augmented Generation (RAG) en prompt engineering om de prestaties te verbeteren, domeinkennis te introduceren of real-time kennis te integreren. Hoewel deze verbeteringen krachtige mogelijkheden ontsluiten, zorgen ze ook voor nieuwe beveiligingsproblemen, vooral als het gaat om gevoelige gegevens of het afdwingen van beleid. In dit stadium is het de taak van het beveiligingsteam om te evalueren hoe deze technieken worden geïmplementeerd en ervoor te zorgen dat toegangscontrole, responsverwerking en ethische waarborgen daarbij niet in het gedrang komen.

  • Risico's van fine-tuning - Het fine-tunen van een model op gevoelige of bedrijfseigen gegevens zonder de juiste afschermingen kan onbedoeld vertrouwelijke informatie vrijgeven aan eindgebruikers. Zo kan de fijnafstemming van een model op interne overheidsrapporten of klantgegevens zonder toegangscontrole op chatniveau leiden tot ongeoorloofde openbaarmaking. Security teams moeten datasets voor fijnafstemming beoordelen en ervoor zorgen dat er toegangsgecontroleerde grenzen worden afgedwongen op modeluitvoer, vooral wanneer modellen worden ingezet in omgevingen met meerdere gebruikers.
  • Misconfiguraties bij RAG-integratie - RAG (Retrieval Augmented Generation) breidt de kennis van een LLM uit door context op te halen uit een aangepaste kennisbank, maar als er geen toegangscontroles zijn geïmplementeerd op de opvraaglaag, kunnen gevoelige gegevens uitlekken. Een gebruiker kan bijvoorbeeld toegang krijgen tot de financiële gegevens van een andere gebruiker als het RAG-systeem lukraak documenten ophaalt. Security teams moeten de implementatie van RAG beoordelen op handhaving van toegangscontrole, scoping van documenten en controleerbaarheid van opgehaalde inhoud.
  • RAI-bevindingen (Responsible AI) na finetuning - Hoewel finetuning de veiligheid van het model kan verbeteren, kan het ook moeilijker worden om ongewenst gedrag of schendingen van het beleid te detecteren, vooral als het model heeft geleerd om detectie op subtiele wijze te vermijden. Security professionals moeten samenwerken met RAI-teams om te testen op adversarial prompt bypasses en edge-case veiligheidsovertredingen, zelfs op modellen die zijn verfijnd voor afstemming.
  • Prompt Engineering Surface Area - Slecht ontworpen prompts of systeeminstructies kunnen leiden tot onbedoeld gedrag van het model of tot kwetsbaarheden voor promptinjectie, vooral wanneer modellen in toepassingen worden geïntegreerd. Hoewel prompt engineering over het algemeen wordt gezien als een techniek met een laag risico, moeten beveiligingsteams systeemprompts en promptconstructies op applicatieniveau beoordelen om er zeker van te zijn dat ze bestand zijn tegen vijandige input en dat ze kritisch veiligheidsgedrag niet overrulen.

Fase 6: API-integratie

Op dit punt in de levenscyclus verandert de LLM van een passieve chatbot in een actief systeemonderdeel dat via API's kan communiceren met echte toepassingen en diensten. Of het nu gaat om het resetten van wachtwoorden, het ophalen van interne gegevens of het verwerken van gebruikersverzoeken, API-integratie introduceert een aanzienlijk nieuw vermogen en bijbehorend risico. Vanuit een beveiligingsperspectief is dit het stadium waarin traditionele API-beveiligingsprincipes samenkomen met LLM-specifieke problemen zoals prompt injection, indirecte uitvoering en intent-manipulatie. Dit wordt een van de meest kritieke stadia voor offensief testen, vooral wanneer LLM-gestuurde toepassingen beslissingen gaan nemen en namens gebruikers gaan handelen.

  • Problemen met verificatie en autorisatie - Wanneer LLM's API-oproepen beginnen te triggeren, is het van cruciaal belang om te controleren of alleen geautoriseerde gebruikers gevoelige acties kunnen uitvoeren. Security teams moeten zorgen voor sterke authenticatie (bijv. OAuth, API-sleutels) en verruimde machtigingen, zodat het model geen bevoorrechte acties kan uitvoeren namens onbevoegde gebruikers.
  • Prompt Injection en API-misbruik - LLM's interpreteren natuurlijke taal en beslissen op basis van gebruikersinvoer welke API moet worden aangeroepen. Aanvallers kunnen proberen prompts te manipuleren om onbedoeld of schadelijk gedrag te veroorzaken. Security teams moeten testen op kwetsbaarheden voor promptinjectie en ervoor zorgen dat het model niet kan worden misleid om de verkeerde API aan te roepen of veiligheidscontroles te omzeilen.
  • Gebrek aan invoervalidatie - Als invoer van gebruikers naar API's niet goed wordt gevalideerd, kan dit leiden tot fouten, lekken van gegevens of zelfs injectieaanvallen. Security teams moeten bevestigen dat middleware- en API-lagen alle invoer valideren en zuiveren, ongeacht of deze afkomstig is van een gebruiker of van de LLM.
  • Te veel vrijgegeven functionaliteit - API's kunnen meer functionaliteit vrijgeven dan de LLM nodig heeft, waardoor het risico op misbruik toeneemt. Security moet het principe van de minste privileges afdwingen, waarbij het model alleen toegang krijgt tot de eindpunten die het echt nodig heeft.
  • Relevante OWASP LLM Risico's - Veel risico's in deze fase komen overeen met de toprisico's van OWASP. Security experts moeten de lijst raadplegen als leidraad voor het testen.

Conclusie

Het beveiligen van een LLM is een complexe en veelzijdige uitdaging waarvoor een uitgebreide, stapsgewijze aanpak nodig is. Door samen te werken met een ervaren beveiligingsteam kunnen bedrijven zich een weg banen door de unieke beveiligingsoverwegingen van de ontwikkeling en implementatie van LLM's en ervoor zorgen dat hun modellen robuust en betrouwbaar zijn en voldoen aan de relevante regelgeving en industrienormen. Door vanaf het begin prioriteit te geven aan beveiliging, kunnen organisaties het volledige potentieel van LLM's benutten en tegelijkertijd hun gegevens, systemen en reputatie beschermen.

Waarom kiezen voor Bureau Veritas Cybersecurity

Bureau Veritas Cybersecurity is uw specialist op het gebied van digitale veiligheid. Wij ondersteunen organisaties bij het in kaart brengen van risico’s, het verbeteren van hun verdediging en het naleven van wet- en regelgeving. Onze dienstverlening bestrijkt mens, proces en technologie: van awareness-trainingen en social engineering tot advies, compliance en technische beveiligingstests.

We werken in IT-, OT- en IoT-omgevingen en ondersteunen zowel digitale systemen als verbonden producten. Met ruim 300 cybersecurity-specialisten wereldwijd combineren we diepgaande technische kennis met internationale slagkracht. Bureau Veritas Cybersecurity is onderdeel van Bureau Veritas Group, wereldwijd actief in testen, inspectie en certificering.