연세대, 웹 브라우저 AI 에이전트 성능 개선하는 보상 모델 ‘웹-셰퍼드’ 소개 | 라온비앤피 Web & AI News

연세대, 웹 브라우저 AI 에이전트 성능 개선하는 보상 모델 ‘웹-셰퍼드’ 소개

W e b&A I

Work Hard, Play Harder
우리는 디자인과 기술을 연결하여 즐거운
디지털 경험을 제공하는 크리에이티브 에이전시입니다.

뉴스 상세

연세대, 웹 브라우저 AI 에이전트 성능 개선하는 보상 모델 ‘웹-셰퍼드’ 소개

관리자
pexels-pixabay-270488.jpg

사용자가 요청한 웹 서핑이나 쇼핑 결제와 같은 복잡한 임무를 AI가 대신 수행할 때, 각 단계의 판단이 정확한지 실시간으로 가이드라인을 제시하는 혁신적인 보상 모델인 ‘웹-셰퍼드’가 연세대와 CMU 연구진에 의해 공개되었습니다.


현재 앤트로픽이나 오픈AI 같은 글로벌 빅테크들이 앞다투어 웹 에이전트를 내놓고 있지만, 실제 웹의 동적인 변화와 클릭 및 스크롤 같은 세밀한 동작들을 완벽하게 제어하고 평가하는 기술은 여전히 고도화가 필요한 영역입니다.


기존에는 AI의 동작이 맞았는지 틀렸는지 결과만 보고 판단하는 방식이 주를 이루었으나, 이번 연구팀은 최초로 웹 탐색의 모든 과정을 세분화하여 각 단계마다 점수를 매기는 ‘과정 보상 모델(PRM)’ 방식을 도입해 정확도를 높였습니다.


웹-셰퍼드는 특정 상품을 검색하거나 상세 페이지를 클릭하는 등 개별적인 하위 목표들을 체크리스트 형태로 관리하며, 에이전트가 중간에 경로를 이탈하지 않고 목적지에 도달할 수 있도록 정밀하게 피드백을 제공합니다.


성능 평가 결과에 따르면 기존의 표준적인 평가 방식인 GPT-4o-미니와 비교했을 때 경로 정확도 면에서 압도적인 수치를 기록하며, AI가 웹상에서 길을 잃지 않고 업무를 완수하는 능력이 비약적으로 상승했음을 증명했습니다.


특히 주목할 만한 성과는 이러한 고성능을 유지하면서도 실제 운영에 들어가는 비용을 기존 대비 10분의 1 수준으로 대폭 절감하여, 향후 기업용 AI 에이전트 서비스의 상용화 가능성을 크게 열어두었다는 점입니다.


연구진은 4만 개의 실제 작업 데이터를 포함한 ‘웹PRM 컬렉션’과 이를 검증할 수 있는 벤치마크 툴을 함께 구축하여, 향후 웹 에이전트가 멀티모달 정보를 처리할 때 발생할 수 있는 오류를 최소화할 수 있는 기반을 마련했습니다.


현재 이 모델의 가중치와 관련 코드는 허깅페이스 등 공용 플랫폼에 공개되어 있으며, 이는 전 세계 개발자들이 더욱 정교한 자율형 웹 에이전트를 개발하는 데 중요한 참고 자료가 될 것으로 기대됩니다.


이처럼 AI가 웹 브라우저를 직접 다루는 기술의 진보는 우리가 인터넷 서비스를 이용하는 방식에 근본적인 변화를 가져올 것이며, 단순 반복적인 웹 업무를 AI가 완벽히 전담하는 시대를 앞당길 핵심 동력이 될 것입니다.


출처 : AI타임스(https://www.aitimes.com/news/articleView.html?idxno=170990)


We add RAONBNP's expertise to your brand.

브랜드에 라온비앤피의 전문성을 더합니다.

누구도 안 된다고 말할 때, 우리는 가능성을 향해 대담하게 도전하며, 인천을 기반으로 넓은 견해로 바라보고 창의적이면서 글로벌한 작품을 만듭니다.

견적문의 바로가기 견적문의
Chatbot Contact

궁금한 건 채팅으로 문의하세요

몇 분 내 답변 받으실 수 있습니다.
Chatbot Avatar
문의하실 내용을 입력하시거나
아래 버튼을 선택해주세요.
프로젝트 진행 기간이 평균 얼마나 걸리나요?
Chatbot Avatar
안녕하세요, 라온비엔피입니다.
프로젝트 진행 기간은 프로젝트의 규모와 요구 사양에 따라 차이가 있습니다.
일반적인 가이드는 다음과 같습니다:

- 소규모 프로젝트: 약 3~5주
- 중규모 프로젝트: 약 8~12주
- 대규모 프로젝트: 3개월 이상 (상담 필요)

제작 기간에 영향을 주는 주요 요소는 기획 및 자료 준비, 피드백 속도, 기능의 복잡도 등입니다. 보다 상세한 상담이 필요하시면 언제든지 문의해 주세요.
-->