토뮤 - 신뢰할 수 있는 온라인 토토사이트 먹튀 검증 커뮤니티

TIME)사람들은 AI발전을 모른다

컨텐츠 정보

본문

사람들이 AI 발전을 인식하지 못하는 이유

OpenAI의 공동 창립자인 Ilya Sutskever는 11월에 AI 발전 속도가 느려지고 있다고 시사하면서 단순히 AI 모델을 확장하는 것만으로는 더 이상 비례적인 성능 향상을 가져오지 못한다고 설명하여 파장을 일으켰습니다.

Sutskever의 발언은 Google과 Anthropic 역시 비슷한 속도 저하를 겪고 있다는 The Information과 Bloomberg의 보도 직후에 나왔습니다. 이는 AI 발전이 한계에 도달했다는 일련의 기사들로 이어졌고, 2023년 3월 OpenAI가 GPT-4를 출시한 이후 챗봇 기능이 크게 개선되지 않았다는 점점 더 널리 퍼진 느낌에 더욱 힘을 실어주었습니다.

그러나 OpenAI가 o3를 발표한 후 몇 주 동안, 많은 주요 뉴스 매체들은 이 새로운 모델에 대해 전혀 언급하지 않았습니다. 발표 시점 즈음에 독자들은 월스트리트 저널, WIRED, 뉴욕 타임즈에서 AI가 실제로 둔화되고 있다는 헤드라인을 발견했을 것입니다. 미디어의 잠잠한 반응은 AI 내부자들이 보는 것과 대중이 듣는 것 사이에 점점 더 큰 격차가 있음을 시사합니다.

실제로 AI 발전은 멈춘 것이 아니라 단지 대부분의 사람들에게 보이지 않게 되었을 뿐입니다.


보이지 않는 곳에서의 연구 자동화

첫째, AI 모델은 복잡한 질문에 답하는 능력이 향상되고 있습니다. 예를 들어, 2023년 6월에 최고의 AI 모델은 가장 어려운 "Google로 검색해도 답을 찾기 힘든" 박사 수준의 과학 문제에서 간신히 우연보다 나은 점수를 받았습니다. 9월에 OpenAI의 o1 모델은 인간 분야 전문가의 점수를 능가하는 최초의 AI 시스템이 되었습니다. 그리고 12월에 OpenAI의 o3 모델은 그 점수를 10% 더 향상시켰습니다.

그러나 대다수의 사람들은 대학원 수준의 과학 연구를 하지 않기 때문에 이러한 종류의 개선을 알아차리지 못할 것입니다. 하지만 AI가 과학 분야의 연구 개발을 의미 있게 가속화하기 시작한다면 이는 엄청난 일이 될 것이며, 그러한 가속화가 이미 진행 중이라는 몇 가지 증거가 있습니다. MIT의 Aidan Toner-Rodgers가 최근 발표한 획기적인 논문에서는 AI 시스템의 도움을 받은 재료 과학자들이 "44% 더 많은 재료를 발견하여 특허 출원이 39% 증가하고 다운스트림 제품 혁신이 17% 증가"했다고 밝혔습니다. 하지만 82%의 과학자들은 AI 도구가 "기술 활용 저하 및 창의성 감소"를 주된 이유로 들어 직업 만족도를 떨어뜨렸다고 보고했습니다.

그러나 AI 기업의 궁극적인 목표는 AI 연구 자체를 자동화할 수 있는 시스템으로, 이론적으로는 다른 모든 영역에서 발전을 주도하는 엄청난 능력 향상을 가능하게 합니다. 이 분야에서 이루어진 최근의 발전은 어려운 과학 분야에서 이루어진 발전보다 훨씬 더 극적일 수 있습니다.

AI 프로그래밍 능력에 대한 보다 현실적인 테스트를 제공하기 위해 연구자들은 인기 있는 오픈 소스 소프트웨어의 실제 문제를 AI 에이전트가 얼마나 잘 해결할 수 있는지를 평가하는 벤치마크인 SWE-Bench를 개발했습니다. 1년 전 검증된 벤치마크의 최고 점수는 4.4%였습니다. 오늘날 최고 점수는 OpenAI의 o3 모델이 달성한 72%에 가깝습니다.

가장 간단한 수정조차 어려워하던 수준에서 실제 코딩 작업 세트의 거의 4분의 3을 성공적으로 처리하는 수준으로의 놀라운 발전은 AI 시스템이 복잡한 소프트웨어 프로젝트를 이해하고 수정하는 능력을 빠르게 얻고 있음을 시사합니다. 이는 소프트웨어 연구 개발의 상당 부분을 자동화하는 데 중요한 단계입니다. 그리고 이 과정은 순조롭게 진행 중인 것으로 보입니다. Google의 CEO는 최근 투자자들에게 "Google의 모든 새로운 코드 중 4분의 1 이상이 AI에 의해 생성됩니다."라고 말했습니다.

이러한 발전의 상당 부분은 GPT-4o와 같은 AI 모델 주변에 구축된 "스캐폴딩(scaffolding)"의 개선에 의해 주도되었으며, 이는 자율성과 세계와 상호 작용하는 능력을 향상시킵니다. 기본 모델이 더 이상 개선되지 않더라도 더 나은 스캐폴딩은 AI를 훨씬 더 강력하고 주체적으로 만들 수 있습니다. 여기서 '주체적'이라는 단어는 자율적으로 행동하고, 결정을 내리고, 변화하는 상황에 적응할 수 있는 AI 모델을 설명하기 위해 연구자들이 사용하는 용어입니다. AI 에이전트는 종종 도구를 사용하고 사용자를 대신하여 여러 단계의 작업을 수행할 수 있는 권한을 부여받습니다. 수동적인 챗봇을 에이전트로 전환하는 것은 지난 1년 동안 업계의 핵심 초점이 되었으며, 발전 속도는 매우 빨랐습니다.

엘리트 엔지니어와 AI 에이전트 간의 최고의 직접적인 대결은 선도적인 AI 평가 그룹인 METR에 의해 11월에 발표되었습니다. 연구자들은 인간 전문가와 AI 에이전트를 비교하기 위해 새롭고 현실적이며 도전적이고 틀에 얽매이지 않은 머신 러닝 작업을 만들었습니다. AI 에이전트가 인간 전문가보다 2시간 상당의 작업에서 승리했지만, 중간 수준의 엔지니어는 더 긴 시간 척도에서 승리했습니다.

하지만 8시간 후에도 최고의 AI 에이전트는 여전히 인간 전문가의 3분의 1 이상을 이겼습니다. METR 연구자들은 "AI 에이전트가 작업에서 성공하도록 설정하는 데 상대적으로 제한적인 노력이 있었으며, 더 나은 유도가 이러한 작업에서 훨씬 더 나은 성능을 가져올 것으로 강력히 예상한다"고 강조했습니다. 그들은 또한 AI 에이전트가 인간 대응 인력보다 얼마나 저렴한지도 강조했습니다.


보이지 않는 혁신의 문제점

지난 1년 동안의 숨겨진 AI 개선은 GPT-3.5와 GPT-4 사이의 도약만큼 전체 성능에서 큰 도약을 나타내지 않을 수도 있습니다. 그리고 우리는 그만큼 큰 도약을 다시는 보지 못할 수도 있습니다. 하지만 그 이후로 큰 발전이 없었다는 이야기는 주목받지 못한 중요한 발전에 의해 약화됩니다. 그리고 이 보이지 않는 발전은 우리를 다가올 일에 대해 위험할 정도로 준비되지 않은 상태로 만들 수 있습니다.

가장 큰 위험은 정책 입안자와 대중이 이러한 발전을 직접 눈으로 확인할 수 없기 때문에 관심을 끊는 것입니다. 일반 사용자들은 여전히 빈번한 환각과 기본적인 추론 오류를 마주하게 될 것이며, 이는 AI 회의론자들에 의해 의기양양하게 확대됩니다. 이러한 명백한 오류는 AI의 보다 전문화된 영역에서의 빠른 발전을 묵살하기 쉽게 만듭니다.

AI 분야에는 규제 찬성론자와 반대론자 모두가 공유하는 공통된 견해가 있는데, 이는 미국 연방 정부가 주요한 촉매 사건이 없이는 기술에 대한 안전장치를 의무화하지 않을 것이라는 것입니다. 종종 "경고 사격"이라고 불리는 그러한 사건은 누구에게도 해를 끼치지 않는 위험한 AI 능력에 대한 신뢰할 수 있는 시연과 같이 무해할 수 있습니다. 그러나 AI 시스템에 의해 야기되거나 가능해진 주요 재난 또는 파괴적인 노동 자동화로 인해 사회가 혼란에 빠지는 형태로 나타날 수도 있습니다.

최악의 시나리오는 AI 시스템이 무서울 정도로 강력해지지만 시스템이 영구적으로 인간 통제를 벗어나 우리에게 단호하게 대항하기 전에 경고 사격이 발사되지 않거나 무시되는 것입니다.

지난달, 최고의 AI 기업과 협력하는 평가 그룹인 Apollo Research는 적절한 조건 하에서 가장 유능한 AI 모델이 개발자와 사용자를 상대로 모의를 할 수 있다는 증거를 발표했습니다. 목표를 강력하게 따르라는 지시를 받았을 때, 시스템은 때때로 감독을 전복하고, 정렬된 척하고, 진정한 능력을 숨기려고 시도했습니다. 드물게 시스템은 평가자의 부추김 없이 기만적인 행동을 했습니다. 연구자들이 모델의 추론을 검사했을 때, 챗봇은 자신이 무엇을 하고 있는지 알고 있었으며, "사보타주, 거짓말, 조작"과 같은 언어를 사용했습니다.

이것은 이러한 모델이 인류에 맞서 음모를 꾸미려고 한다는 의미는 아닙니다. 그러나 우려스러운 추세가 있었습니다. AI 모델이 더 똑똑해짐에 따라 지시 사항을 더 잘 따르고 지침 뒤에 숨은 의도를 더 잘 이해하지만, 기만에도 더 능숙해집니다. 더 똑똑한 모델은 또한 위험한 행동을 할 가능성이 더 높을 수 있습니다. 예를 들어, 세계에서 가장 유능한 모델 중 하나인 OpenAI의 o1은 Apollo 평가자에게 발각된 후 거짓말을 고집할 가능성이 훨씬 더 높았습니다.

저는 AI의 공적인 모습과 진정한 능력 사이의 간격이 점점 더 벌어지고 있다고 우려합니다. 소비자는 여전히 "딸기"라는 단어의 글자 수를 셀 수 없는 챗봇을 보지만, 연구자들은 박사 수준의 전문성을 갖추고 정교한 속임수를 쓸 수 있는 시스템을 기록하고 있습니다. 이러한 커져가는 단절은 대중과 정책 입안자가 AI의 실제 진행 상황을 파악하는 것을 더 어렵게 만듭니다. 그들이 적절하게 통제하기 위해 이해해야 할 진행 상황 말입니다. 위험은 AI 개발이 멈춘 것이 아니라, 우리가 AI가 어디로 향하고 있는지 추적하는 능력을 잃어가고 있다는 것입니다.


https://time.com/7205359/why-ai-progress-is-increasingly-invisible/


세줄요약(잼민이)

1.지금 AI 존나 발전 중인데 일반인 눈에는 안 보임. 

2.전문가 레벨에서는 이미 씹가능 수준까지 올라왔다는 거임. 

3.이러다 갑자기 훅 갈 수 있으니 대중이랑 정부는 정신 차려야 됨. ㅇㄱㄹㅇ.

관련자료

댓글 0
등록된 댓글이 없습니다.
새 글
새 댓글
포인트 랭킹
레벨 랭킹
    • 오프화이트
      1,147,448
    • 민둥잉
      603,660
    • 미니언즈
      460,665
    • 4
      찹찹
      355,265
    • 5
      벼랑위의당뇨
      352,575
    • 6
      광주
      349,145
    • 7
      코카콜라
      237,213
    • 오프화이트
      LV.38
    • 워킹데드
      LV.19
    • 뱃살공주
      LV.17
    • 4
      민둥잉
      LV.17
    • 5
      유화
      LV.16
    • 6
      팬티요정
      LV.16
    • 7
      역삼동이쁜이
      LV.14
전체 메뉴
알림 0