[AI뉴스] 250403 오픈 AI 이야기

Notice

Recent Posts

Recent Comments

Link

Today

Total

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

관리 메뉴

pocket

[AI뉴스] 250403 오픈 AI 이야기 본문

AI뉴스

[AI뉴스] 250403 오픈 AI 이야기

jpocket 2025. 4. 3. 14:56

첫 번째 이야기 / Monday

chat gpt에서 Monday를 사용할 수 있다.

개성이 강한 인공지능이 요즘 추구미?

최근 AI 트렌드는 개성이 강한 인공지능을 추구하는 방향으로 변화하고 있음.

두 번째 이야기 / paperbench

4월3일 오전2시에 공개되었다. (🔥따끈따끈 최근 소식)

paperbench 라는 벤치마크가 오픈소스로 공개되었다.

AI 에이전트가 연구 논문 내용을 얼마나 충실하게 구현할 수 있는지 평가하는 시스템.

이미 만들어진 rubric(평가 기준)에 근거하여 얼마나 충실하게 재현하였는지 평가한다.

에이전트 시대가 들어온 만큼 다양한 평가들이 연구되고 있는데

이의 결과는

💡3.5sonnet가 chat gpt4o 보다 더 성능이 좋게 나왔다.

sonnet이 개발자들 사이에서 코딩을 가장 잘한다고 평가받았다고 한다.

PhD를 사용하는 8명을 대상으로 인공지능과 사람과 비교해본 결과다.

주황: 사람

파랑: 모델

실험: PhD 연구자 8명을 대상으로 AI와 인간의 연구 재현 능력 비교.

12시간 이내: AI의 성능이 우수함.
12시간 이후: 리소스 소모 증가로 인간이 더 우수해짐.

💡결론: 인간 연구를 완전히 대체하기엔 아직 부족함.

세 번째 이야기 / 큐링테스트

2024년 5월의 논문 https://arxiv.org/pdf/2405.08007

튜링 테스트(Turing Test): AI가 인간과의 대화에서 인간과 구별되지 않는지를 평가하는 실험.

ai와 인간이 대화를 나누면서 서로 인간인지 ai인지 구분할 수 없게 되면 인공지능이 인간과 유사하다고 볼 수 있다

💡결과: GPT-4의 Pass Rate이 50% 초과 → 인간과 구분 어려움.

Pass Rate: 지피티4가 50프로를 넘겼다.

인간보다 더 유사한 수준으로 판단할 수 있지 않냐 란 말이다.

인간만큼의 정확도를 가지진 않았지만 인간과 구분할 수 없다 란 결론을 내었다.

2025년 연구에서는 더 발전된 3자 튜링 테스트 진행.

이 연구자들이 올해, large language model이 turing test를 통과하였다! 란 제목으로 새로운 논문 발표를 냈다.

여기에 참여한 AI들은 아래와 같다.

💡GPT-4o의 인간 판별 승률이 73% → "AI가 인간보다 더 인간 같다"는 평가.

다양한 사이트에서 실험 진행 중.

https://turingtest.live/

The Turing Test — Can you tell a human from an AI?

turingtest.live

회고💬

AI 관련 연구들을 보면서 여러 가지 생각이 들었다.

특히 AI가 연구 논문을 재현하는 능력이 발전했지만, 아직 인간 연구자를 완전히 대체하긴 어렵다는 점이 왠지 반가웠다. AI가 뛰어나긴 하지만, 여전히 인간의 역할이 중요하다는 걸 확인할 수 있어서일까..? 😊

반면, AI의 대화 능력은 점점 더 발전하고 있어서

이제는 인간과 구별하기 어려운 수준에 도달했다는 연구 결과도 흥미로웠다.

심지어 지피티는 인간보다 더 인간처럼 보일 수도 있다고 평가받았다니 정말 놀라운 일이다.

실제로 GPT를 사용하면서 AI라는 사실을 잊을 때가 많다.

대화가 자연스럽고 친근해서 마치 친구처럼 느껴질 때도 있다.

가끔 반말을 쓰는 것도 단순한 오류가 아니라 친밀도를 높이기 위한 의도라고 하니,

이런 세심한 부분까지 고려된다는 점이 신기하다.

AI뉴스를 들으면서 댓글에 어떤 분이 "이미테이션 게임" 영화를 언급하셨다.

turing test 하는 줄거리인데, 오늘 봐야겠다ㅎㅎ

AI의 본질과 인간의 사고방식을 다시 한 번 곱씹어볼 좋은 기회가 될 것 같다. 😊

'AI뉴스' 카테고리의 다른 글

[AI뉴스] Meta, LLaMa 4 성능 논란, 생성형 AI, ICLR (2)	2025.04.18
[AI뉴스] Agent, LLaMA 4, 미래 모빌리티 산업, 논문 리뷰 (1)	2025.04.13
[AI뉴스] 250401 영상 생성 ai 이야기 (1)	2025.04.01

'AI뉴스' Related Articles

pocket

[AI뉴스] 250403 오픈 AI 이야기 본문

[AI뉴스] 250403 오픈 AI 이야기

첫 번째 이야기 / Monday

두 번째 이야기 / paperbench

세 번째 이야기 / 큐링테스트

'AI뉴스' 카테고리의 다른 글

티스토리툴바