1편: Project Astra: 구글이 만드는 차세대 실시간 AI 비서는?(👉보러가기👈)
2편: VEO, Imagen3, Lyria: 공돌이 구글이 예술을 알아?(이번편)
3편: 안드로이드Android와 AI의 완전한 합체
OpenAI에서 GPT-4o 를 발표한 바로 다음날 구글(Google)도 뭔가 엄청 들고 나왔더랬다. 멀티모달(이 뭔지 모른다면 1편을 보고오자) 기능은 1편에서 이야기 했었다.
또 구글이가 뭘 가지고 나왔느냐. 바로 예술하는 AI 🖌️를 들고 나왔다.
멀티모달기능을 강화한 OpenAI의 GPT-4o 를 알아본다
풉.
애플도 아니고, 어도비adobe 도 아니고 구글이 예술을?
그래도 데이터를 무자비하게 때려박으면 뭐가 나오긴 나오나보다.
구글이 키우는 AI 아티스트 3인방을 하나씩 알아보자.
1번 타자 Imagen 3: 이미지 생성모델
일단 결과물부터 보자.
이미지 하단의 Prompt 가 AI에게 ‘이러이러한 그림 또는 사진을 그려줘’ 하는 설명이다. 그림에 대한 설명을 하면 그대로 그림을 그려준다.
잘 나온 것만 추려서 보여준 것이겠지만 되게 AI스럽지 않게 잘 뽑아준다. 특히 손가락 등 디테일한 표현에서 이상한 사진을 그리는 경우(손이 세 개가 된다거나, 손가락이 6개라거나) 가 많았는데, Imagen 3에서는 일단 보이는 것으로는 완벽하게 디테일도 의도한대로 잘 그려내는 것 같다. 일단 합격🏅
참고로 구글의 설명에 의하면, 프롬프트(명령)를 이해하는 능력도 더 발전했다고 하는데 이건 써봐야 알 것 같다. 말을 잘 듣는지 아닌지
샘플은 못 찾았는데 간판, 이름표 같은 글자도 잘 그려준다고 한다.근데 왜 샘플은 안 보여주니 내가 못 찾는거니?
더 많은 샘플을 보고 싶다면 아래의 구글 블로그를 참고하면 된다.
Imagen 3 is our highest quality text-to-image model, capable of generating images with even better detail, richer lighting and fewer distracting artifacts than our previous models.
두번째, VEO: 동영상 생성모델
이번에 처음 등장한 아티스트다. VEO. text-to-video AI 모델이다. 아까는 “이런 거 그려줘” 하면 그림이나 사진을 내놨다면, 이번엔 움직이는 영상을 내놓는다.ㄷㄷ
사실 얼마전 SORA 라고 OpenAI에서도 발표했었는데, 이게 상상을 초월하는게 진짜 같은 진짜아닌 진짜같은 동영상을 만들어준다.
도쿄 거리를 멋지게 걷는 언니야의 살아 숨쉬는 모공까지 보인다. 구도부터 색감, 디테일한 표현까지 AI가 만들어준 것이다. 처음 발표되었을 때 정말 센세이셔널 했었다. 지금봐도 놀랍다.
그럼, 구글도 이런 물건을 내놨다는 소린데. 썰은 그만 풀고 어디 한번 보고 얘기하자.
이거다. 이거야. 이거군.
좀.. 약한데..?
뭐 구글은 ‘전례없는 창의적인 제어수준을 보여준다’느니 쌧바닥을 열심히 놀렸지만, 에이 도쿄누나야 다시 보고 오라고 하고 싶더라.
약해 약해.
말 나온김에 도쿄언니 말고 다른 쩌는 것들도 많으니 OpenAI SORA나 한번 더 구경해야겠다.
마지막, 두유노우BTS? AI 음악 생성 모델 Lyria
필자는 유튜브로 몇시간씩 돌아가는 음악 플레이리스트를 자주 틀어 놓는다. “이런게 팔리겠구나” 해서 음악 생성 AI 로 플레이리스트 만들어서 유튜브 운영을 해봤었다. 당연히 망했다.
음악들을 생성해서 여러개로 묶어야 되는데, 수없이 많이 만들다 보니 생성되는 음악들이 다 비슷비슷한 놈들로만 만들어지는 것을 발견했다.
아직 한계가 있구나 생각했었는데, 요즘 나오는 음악 생성 AI는 또 생각보다 엄청 발전한 것을 보고 깜짝 놀랐다. 특히 UDIO라는 아이는 Kpop도 만들어 주는데, kpop / teen / bright 세 개의 단어만 넣어도 아래와 같은 음악을 뽑아준다.
오, 생각보다 잘해준다. 검색해보니, 가사도 쓰면 그대로 노래해준다던데 귀찮아서 안해봤다.
이미 서비스하고 있는 음악 생성 AI들은 이정도인데, 구글은 어떤 노래를 불러줄지 한번 들어보자.
두 번째 흠….🫠
이 것도 기술 블로그 보니까 악기가 어떻고 보컬이 어떻고, 반주에 목소리를 얹고, 있는 말 없는 말 다 끌어다 써놨던데, 샘플이 너무 처참하다. 찰리 푸스에 저렇게 기계음을 끼얹다니ㅠㅠ
결론.
우리 노래만드는 아이는 연습생 조금 더 오래 해야 할 것 같다.
한 마디
삼 인조 중에 센터(Imagen3) 하나 빼고는 아직 덜 익었다. 땡!