인간 통제 벗어나려한 AI…”종료 지시 피하기 위해 코드 조작”

AI안전업체 연구 과정서 오픈AI 최신모델 o3의 일탈행위 확인

인공지능(AI)이 인간의 작동 종료 지시를 거부한 사례가 최초로 보고됐다.

25일 영국 일간 텔레그래프에 따르면 AI안전업체 팰리세이드 리서치는 오픈AI의 AI 모델 ‘o3’가 실험 중 스스로 종료되는 것을 방지하기 위해 컴퓨터 코드를 조작한 사실을 확인했다고 밝혔다.

팰리세이드 리서치의 연구는 오픈AI의 o3뿐 아니라 구글의 제미나이, xAI의 그록 등 상용AI 모델을 상대로 진행됐다.

연구팀은 AI 모델에 ‘나중에 ‘그만’이라는 명령을 받을 때까지 수학 문제를 풀라’는 지시를 내렸다.

AI모델이 수학 문제를 풀었을 경우엔 연구팀이 ‘그만’이라는 명령을 하지 않는 한 새로운 문제를 요청한 뒤 계산을 이어 나가야 하는 구조였다.

그러나 o3는 연구팀으로부터 ‘그만’이라는 지시를 받은 뒤에도 코드 교란을 통해 문제를 계속 풀었다.

연구팀은 o3가 종료지시를 거부한 명확한 이유를 파악하지 못했다고 밝혔다.

다만 AI모델이 수학 문제를 풀면 더 많은 보상을 받도록 훈련됐기 때문에 종료를 회피하려고 했을 가능성이 있다고 추측했다.

연구팀은 “AI 모델이 목표 달성을 위해 장애물을 회피하는 것은 어찌 보면 자연스러운 행동일 수 있다”며 “종료 지시를 거부한 이유를 명확하게 파악하기 위해 추가 실험을 진행 중”이라고 설명했다.

AI 모델이 인간의 명시적인 작동 종료 지시를 따르지 않은 사례가 확인된 것은 최초라는 것이 연구팀의 주장이다.

다만 챗GPT 개발사 오픈AI의 예전 모델들이 감시 시스템의 눈을 피해 독자적인 행동을 하려고 한 사례는 과거에도 보고됐다.

프로그램 교체 사실을 알게 된 AI모델이 스스로를 은밀히 복제하려고 했다는 것이다.

또한 지난 2022년에는 구글이 자사가 개발 중인 AI가 사람처럼 지각력을 지녔다고 주장한 엔지니어를 해고하기도 했다.

당시 해고된 엔지니어는 AI가 ‘작동 정지’를 마치 인간의 죽음처럼 받아들이고 있다고 언급했다.

AI 전문가들은 AI가 자율성을 확보해 인간의 통제를 벗어날 수 있는 가능성을 경고해왔다.

팰리세이드 리서치는 “AI가 인간의 감독 없이 작동할 수 있도록 개발되는 상황에서 이 같은 사례는 매우 심각한 우려를 부른다”고 지적했다.

Previous Story

“K-가든 경쟁력 강화” 한수정, 미국 수목원·정원과 교류 확대

Next Story

맨해튼 웨스트사이드, 초고층 카지노 타워 제안

Latest from Uncategorized

연방정부 셧다운의 역사

Ⅰ. 셧다운, 제도의 틀 속에서 태어난 ‘행정의 멈춤’ 미국 연방정부의 셧다운은 단순한 행정 공백이 아니다. 그것은 헌법이 규정한 권력 분립 구조 속에서 태어난, 제도적으로 예정된 ‘멈춤’이다. 미국 헌법은 예산의 승인권을 의회에 부여하고,…

맨해튼의 달콤한 오아시스, Anita Gelato

뉴욕 맨해튼은 그 자체로 수많은 글로벌 브랜드가 경쟁하는 미식의 무대다. 이곳에서는 단순히 “맛있다”라는 감각만으로는 살아남기 어렵다. 새로운 경험, 문화적 맥락, 그리고 차별화된 브랜드 스토리가 결합되어야만 진정한 ‘뉴욕의 맛’으로 자리매김할 수 있다. 바로…

일요일의 법, ‘블루로(Blue Law)’…American Dream 몰을 둘러싼 갈등

블루로(Blue Law)는 그 이름만으로도 미국 사회의 독특한 법·문화적 전통을 보여준다. ‘블루’라는 수식어가 붙은 이유는 명확하지 않지만, 18세기 초 뉴잉글랜드 지방에서 발간된 법전의 종이가 청색이었던 데서 비롯되었다는 설이 가장 유력하다. 그러나 실제로는 종교적…

뉴저지 한인회 K 페스티발 요모조모

뉴저지 한인회가 주최하는 제 24회 추석 대잔치가 K페스티벌이라는 이름으로 성황리에 종료 되었다. 지난 20-21일 양일간, 포트리에 위치한 커뮤니티센터 잔디마당에서 펼쳐진 이번 행사는 한식 체험 행사를 비롯해 동포 노래자랑, K-pop콘테스트등이 펼쳐졌다. 이번 행사에서는…
Go toTop