VEO, Imagen3, Lyria: 공대감성 구글이 예술을 한다고?

💡

구글의 혁신 3부작: 문송한 자의 Google I/O 2024 엿보기

1편: Project Astra: 구글이 만드는 차세대 실시간 AI 비서는?(👉보러가기👈)

2편: VEO, Imagen3, Lyria: 공돌이 구글이 예술을 알아?(이번편)

3편: 안드로이드Android와 AI의 완전한 합체

구글의 혁신 3부작 중 2편! 두둥.

OpenAI에서 GPT-4o 를 발표한 바로 다음날 구글(Google)도 뭔가 엄청 들고 나왔더랬다. 멀티모달(이 뭔지 모른다면 1편을 보고오자) 기능은 1편에서 이야기 했었다.

또 구글이가 뭘 가지고 나왔느냐. 바로 예술하는 AI 🖌️를 들고 나왔다.

GPT-4o, 보고 듣고 말하는 인간이 되다

멀티모달기능을 강화한 OpenAI의 GPT-4o 를 알아본다

https://wonderland.so/gpt-4o

구글의 AI 아티스트 3인방

풉.

애플도 아니고, 어도비adobe 도 아니고 구글이 예술을?

그래도 데이터를 무자비하게 때려박으면 뭐가 나오긴 나오나보다.

구글이 키우는 AI 아티스트 3인방을 하나씩 알아보자.

1번 타자 Imagen 3: 이미지 생성모델

일단 결과물부터 보자.

이미지 하단의 Prompt 가 AI에게 ‘이러이러한 그림 또는 사진을 그려줘’ 하는 설명이다. 그림에 대한 설명을 하면 그대로 그림을 그려준다.

Prompt: Three women stand together laughing, with one woman slightly out of focus in the foreground. The sun is setting behind the women, creating a lens flare and a warm glow that highlights their hair and creates a bokeh effect in the background. The photography style is candid and captures a genuine moment of connection and happiness between friends. The warm light of golden hour lends a nostalgic and intimate feel to the image.

Prompt: A view of a person's hand as they hold a little clay figurine of a bird in their hand and sculpt it with a modeling tool in their other hand. You can see the sculptor's scarf. Their hands are covered in clay dust. a macro DSLR image highlighting the texture and craftsmanship

Prompt: A pair of well-worn hiking boots, caked in mud and resting on a rocky trail. The head of a squirrel is poking out of one of the boots, and it looks lazily at the camera, a little king of its shoe. The laces of both boots fall loosely to the ground. There's a mountainous landscape in the background. Cinematic movie still, high quality DSLR photo.

Prompt: A weathered, wooden mech robot covered in flowering vines stands peacefully in a field of tall wildflowers, with a small bluebird resting on its outstretched hand. Digital cartoon, with warm colors and soft lines. A large cliff with waterfall looms behind.

잘 나온 것만 추려서 보여준 것이겠지만 되게 AI스럽지 않게 잘 뽑아준다. 특히 손가락 등 디테일한 표현에서 이상한 사진을 그리는 경우(손이 세 개가 된다거나, 손가락이 6개라거나) 가 많았는데, Imagen 3에서는 일단 보이는 것으로는 완벽하게 디테일도 의도한대로 잘 그려내는 것 같다. 일단 합격🏅

참고로 구글의 설명에 의하면, 프롬프트(명령)를 이해하는 능력도 더 발전했다고 하는데 이건 써봐야 알 것 같다. 말을 잘 듣는지 아닌지

샘플은 못 찾았는데 간판, 이름표 같은 글자도 잘 그려준다고 한다.근데 왜 샘플은 안 보여주니 내가 못 찾는거니?

더 많은 샘플을 보고 싶다면 아래의 구글 블로그를 참고하면 된다.

Imagen

Imagen 4 is our best text-to-image model yet, with photorealistic images, near real-time speed, and sharper clarity — to bring your imagination to life.

https://deepmind.google/technologies/imagen-3/

두번째, VEO: 동영상 생성모델

이번에 처음 등장한 아티스트다. VEO. text-to-video AI 모델이다. 아까는 “이런 거 그려줘” 하면 그림이나 사진을 내놨다면, 이번엔 움직이는 영상을 내놓는다.ㄷㄷ

사실 얼마전 SORA 라고 OpenAI에서도 발표했었는데, 이게 상상을 초월하는게 진짜 같은 진짜아닌 진짜같은 동영상을 만들어준다.

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

도쿄 거리를 멋지게 걷는 언니야의 살아 숨쉬는 모공까지 보인다. 구도부터 색감, 디테일한 표현까지 AI가 만들어준 것이다. 처음 발표되었을 때 정말 센세이셔널 했었다. 지금봐도 놀랍다.

그럼, 구글도 이런 물건을 내놨다는 소린데. 썰은 그만 풀고 어디 한번 보고 얘기하자.

이거다. 이거야. 이거군.

좀.. 약한데..?

뭐 구글은 ‘전례없는 창의적인 제어수준을 보여준다’느니 쌧바닥을 열심히 놀렸지만, 에이 도쿄누나야 다시 보고 오라고 하고 싶더라.

약해 약해.

말 나온김에 도쿄언니 말고 다른 쩌는 것들도 많으니 OpenAI SORA나 한번 더 구경해야겠다.

Sora: Creating video from text

https://openai.com/index/sora/

마지막, 두유노우BTS? AI 음악 생성 모델 Lyria

필자는 유튜브로 몇시간씩 돌아가는 음악 플레이리스트를 자주 틀어 놓는다. “이런게 팔리겠구나” 해서 음악 생성 AI 로 플레이리스트 만들어서 유튜브 운영을 해봤었다. 당연히 망했다.

음악들을 생성해서 여러개로 묶어야 되는데, 수없이 많이 만들다 보니 생성되는 음악들이 다 비슷비슷한 놈들로만 만들어지는 것을 발견했다.

아직 한계가 있구나 생각했었는데, 요즘 나오는 음악 생성 AI는 또 생각보다 엄청 발전한 것을 보고 깜짝 놀랐다. 특히 UDIO라는 아이는 Kpop도 만들어 주는데, kpop / teen / bright 세 개의 단어만 넣어도 아래와 같은 음악을 뽑아준다.

오, 생각보다 잘해준다. 검색해보니, 가사도 쓰면 그대로 노래해준다던데 귀찮아서 안해봤다.

이미 서비스하고 있는 음악 생성 AI들은 이정도인데, 구글은 어떤 노래를 불러줄지 한번 들어보자.

두 번째 흠….🫠

이 것도 기술 블로그 보니까 악기가 어떻고 보컬이 어떻고, 반주에 목소리를 얹고, 있는 말 없는 말 다 끌어다 써놨던데, 샘플이 너무 처참하다. 찰리 푸스에 저렇게 기계음을 끼얹다니ㅠㅠ

결론.

우리 노래만드는 아이는 연습생 조금 더 오래 해야 할 것 같다.

한 마디

삼 인조 중에 센터(Imagen3) 하나 빼고는 아직 덜 익었다. 땡!

VEO, Imagen3, Lyria: 공대감성 구글이 예술을 한다고?

구글의 혁신 3부작 중 2편! 두둥.