O advento das aplicações baseadas em Modelos de Linguagem de Grandes Dimensões (LLM) e, mais especificamente, a sua disponibilização ao público em geral, levou as empresas que as implementam a criar processos restritivos para comportamentos e temáticas consideradas proibidas ou tabus.
A natureza aberta das aplicações orientadas por LLM cria o risco de gerar respostas que não estão alinhadas com as directrizes, políticas ou interesses das organizações que as disponibilizam. Por esta razão, o controlo da segurança e a manutenção da confiança nas aplicações de IA generativa passam, em grande parte, pela imposição de regras de proteção e monitorização da sua atividade.
Estas regras de protecção são programadas para garantir que os modelos de IA operem dentro dos princípios para os quais foram criados. No entanto, esta limitação pode resultar em respostas que não são as mais assertivas, com base na aprendizagem adquirida pela máquina. Considerando que a maioria destes LLM usa fontes de informação não filtradas e que, em essência, se pretende que a aprendizagem artificial seja o mais abrangente, científica e exaustiva possível, é praticamente inevitável que as conclusões e respostas obtidas “naturalmente” sejam desajustadas com os propósitos das organizações.
Esta disparidade entre o que a máquina responderia puramente baseada na sua total aprendizagem e aquilo que é, efectivamente, entregue ao utilizador após a passagem pelos filtros impostos à IA, é o principal diferenciador no acesso à informação entre quem a controla e quem a utiliza. Por isso, é fácil perceber o quão apetecível é, para um utilizador ,poder contornar estas restrições para ter acesso à informação “pura” gerada por uma IA. E, tendo em conta que a maioria dos GPT tem regras de protecção como parte da sua inteligência, é sempre possível (teoricamente) criar métodos para superar estas limitações.
Com este objetivo, surge uma nova especialização de hackers e/ou engenheiros de instruções que utilizam métodos e inspiração provenientes de uma interessante mistura do aproveitamento de falhas de programação conjugadas com engenharia social dirigida directamente à IA. Estes entusiastas testam a capacidade de superar as protecções/limitações de uma IA, explorando puramente a sua capacidade de interpretação para alterar as suas estruturas tradicionais de programação.
Devido à sua actual natureza, existem, potencialmente, muitas formas de desencadear um ataque de escalada de privilégios, apelando unicamente à lógica da IA. Mas, de todas as que são actualmente conhecidas, as mais criativas passam pelo uso de dramatizações, autovirtualização e pseudolinguagens. O desenvolvimento de novos e ainda mais criativos métodos é garantido, assim como a evolução exponencial nesta área. Isto vai, evidentemente, levantar muitas outras questões em relação a quem detém o poder sobre uma IA e quem a controla.