새로운 방식으로 '비전 트랜스포머' AI 시스템 효율성 향상

ViT(비전 변환기)는 이미지의 개체를 식별하거나 분류할 수 있는 강력한 인공 지능(AI) 기술입니다. 그러나 컴퓨팅 성능 요구 사항 및 의사 결정 투명성과 관련된 중요한 과제가 있습니다. 연구원들은 이제 두 가지 과제를 모두 해결하는 동시에 이미지에서 개체를 식별, 분류 및 분할하는 ViT의 기능을 향상시키는 새로운 방법론을 개발했습니다.

트랜스포머는 현존하는 가장 강력한 AI 모델 중 하나입니다. 예를 들어 ChatGPT는 변환기 아키텍처를 사용하는 AI이지만 이를 훈련하는 데 사용되는 입력은 언어입니다. ViT는 시각적 입력을 사용하여 훈련되는 변환기 기반 AI입니다. 예를 들어, ViT는 이미지의 모든 자동차 또는 모든 보행자를 식별하는 등 이미지의 객체를 감지하고 분류하는 데 사용될 수 있습니다.

그러나 ViT는 두 가지 과제에 직면해 있습니다.

첫째, 변압기 모델은 매우 복잡합니다. AI에 연결되는 데이터의 양에 비해 변환기 모델에는 상당한 양의 계산 능력이 필요하고 많은 양의 메모리를 사용합니다. 이는 이미지에 너무 많은 데이터가 포함되어 있기 때문에 ViT의 경우 특히 문제가 됩니다.

둘째, ViT가 어떻게 결정을 내리는지 사용자가 정확히 이해하기 어렵습니다. 예를 들어 이미지에서 개를 식별하도록 ViT를 훈련했을 수 있습니다. 그러나 ViT가 무엇이 개이고 무엇이 아닌지를 어떻게 결정하는지는 완전히 명확하지 않습니다. 응용 분야에 따라 ViT의 의사 결정 프로세스(모델 해석성이라고도 함)를 이해하는 것이 매우 중요할 수 있습니다.

"Patch-to-Cluster attention"(PaCa)이라는 새로운 ViT 방법론은 두 가지 문제를 모두 해결합니다.

"우리는 변환기 아키텍처가 이미지의 객체를 더 잘 식별하고 집중할 수 있도록 하는 클러스터링 기술을 사용하여 계산 및 메모리 요구와 관련된 문제를 해결합니다."라고 해당 연구의 교신 저자이자 부교수인 Tianfu Wu는 말합니다. 노스캐롤라이나 주립대학교의 전기 및 컴퓨터 공학. "클러스터링은 AI가 이미지 데이터에서 찾은 유사성을 기반으로 이미지의 섹션을 하나로 묶는 것입니다. 이렇게 하면 시스템에 대한 계산 요구가 크게 줄어듭니다. 클러스터링 전에 ViT에 대한 계산 요구는 2차입니다. 예를 들어 시스템이 중단되는 경우 이미지를 100개의 더 작은 단위로 압축하려면 100개의 단위를 모두 서로 비교해야 하며 이는 10,000개의 복잡한 기능이 됩니다.

"클러스터링을 통해 우리는 이것을 선형 프로세스로 만들 수 있습니다. 여기서 각각의 작은 단위는 미리 결정된 수의 클러스터와만 비교하면 됩니다. 시스템에 10개의 클러스터를 설정하라고 지시한다고 가정해 보겠습니다. 이는 단지 1,000개의 복잡한 함수일 뿐입니다. "라고 우씨는 말합니다.

"클러스터링을 사용하면 처음에 클러스터가 어떻게 생성되었는지 확인할 수 있기 때문에 모델 해석 가능성을 해결할 수도 있습니다. 이러한 데이터 섹션을 함께 묶을 때 어떤 기능이 중요하다고 결정했습니까? 그리고 AI는 소수만 생성하기 때문입니다. 클러스터를 꽤 쉽게 볼 수 있습니다."

연구원들은 PaCa를 SWin 및 PVT라는 두 가지 최첨단 ViT와 비교하여 포괄적인 테스트를 수행했습니다.

Wu는 "우리는 PaCa가 모든 면에서 SWin과 PVT를 능가한다는 사실을 발견했습니다."라고 말했습니다. "PaCa는 이미지 속 객체를 더 잘 분류하고, 이미지 속 객체를 더 잘 식별하고, 분할(본질적으로 이미지 속 객체의 경계를 개략적으로 설명하는) 능력이 더 뛰어났습니다. 또한 더 효율적이어서 이러한 작업을 PaCa보다 더 빠르게 수행할 수 있었습니다. 다른 ViT.

"우리의 다음 단계는 더 큰 기본 데이터 세트에 대한 교육을 통해 PaCa를 확장하는 것입니다."

"PaCa-ViT: 비전 트랜스포머에서 패치-클러스터 주의 학습"이라는 논문은 캐나다 밴쿠버에서 6월 18일부터 22일까지 개최되는 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스에서 발표될 예정입니다. 논문의 첫 번째 저자는 Ph.D. Ryan Grainger입니다. NC 주립대 학생입니다. 이 논문은 Ph.D.인 Thomas Paniagua가 공동 집필했습니다. NC 주립대 학생; 독립적인 연구원인 Xi Song; 그리고 BlueHalo의 Naresh Cuntoor와 Mun Wai Lee가 있습니다.