본문 바로가기
하루하루

Google AI 도구는 설명만으로 음악을 만들다

by hop Hedge hop 2023. 2. 3.
반응형

 

 

Google AI 도구는 서면 설명으로 음악을 만듭니다.

이번 주, 구글 연구원들은 음악을 만들기 위해 만들어진 인공지능(AI) 도구의 결과를 설명하는 논문을 발표했습니다.

MusicLM이라고 불리는 그 도구는 최초로 출시된 AI 음악 도구가 아니다. 하지만 구글이 제공하는 예시는 제한된 설명적 단어 세트를 기반으로 한 음악적 창의력을 보여줍니다.

인공지능은 컴퓨터 시스템이 인간과 같은 방식으로 행동하도록 얼마나 복잡한 훈련을 받았는지 보여줍니다.

ChatGPT와 같은 도구는 인간의 작업과 잘 비교되는 문서를 빠르게 생성하거나 생성할 수 있습니다. 채팅 GPT 및 유사한 시스템은 복잡한 기계 학습 모델을 작동하기 위해 강력한 컴퓨터를 필요로 합니다. 샌프란시스코에 본사를 둔 이 회사는 오픈입니다인공지능은 작년 말에 채팅 GPT를 출시했습니다.

개발자들은 다양한 형태의 콘텐츠를 재생성하는 방법을 배우기 위해 이러한 시스템을 방대한 양의 데이터로 훈련시킵니다. 예를 들어, 컴퓨터가 생성한 콘텐츠에는 필기 자료, 디자인 요소, 예술 또는 음악이 포함될 수 있습니다.

채팅 GPT는 최근 자연어로 된 간단한 설명만으로 복잡한 글과 다른 콘텐츠를 생성할 수 있는 능력으로 많은 관심을 받고 있습니다.

구글의 MusicLM

구글 엔지니어들이 음악을 설명합니다. LM 시스템은 다음과 같습니다:

먼저, 사용자는 도구가 만들려는 음악의 종류를 설명하는 단어를 생각해냅니다.

예를 들어, 사용자는 다음과 같은 짧은 문구를 시스템에 입력할 수 있습니다: "부드러운 기타 소리가 뒷받침되는 잔잔한 바이올린입니다." 입력한 설명에는 다양한 음악 스타일, 악기 또는 기타 기존 사운드가 포함될 수 있습니다.

MusicLM에서 제작한 여러 가지 다른 음악 예제가 온라인에 게시되었습니다. 생성된 음악 중 일부는 "재즈", "록" 또는 "테크노"와 같은 한 두 단어의 설명에서 비롯되었습니다 시스템은 전체 문장을 포함하는 더 자세한 설명으로부터 다른 예시들을 만들었습니다.

한 예로, Google 연구원들은 음악에 대한 이러한 지시를 포함합니다LM: "아케이드 게임의 주요 사운드트랙입니다. 그것은 빠르고 경쾌하며, 기억하기 쉬운 일렉트릭 기타 리프가 있습니다. 이 음악은 반복적이고 기억하기 쉽지만, 예상치 못한 소리가 납니다."

결과적으로 녹음된 음악은 설명에 매우 가깝게 유지되는 것 같습니다. 그 팀은 설명이 더 상세할수록, 시스템이 그것을 더 잘 생산하려고 시도할 수 있다고 말했습니다.

MusicLM 모델은 ChatGPT에서 사용하는 기계 학습 시스템과 유사하게 작동합니다. 이러한 도구는 엄청난 양의 데이터에 대해 훈련을 받았기 때문에 인간과 같은 결과를 낼 수 있습니다. 다양한 자료가 시스템에 입력되어 있어 현실적인 작품을 만들기 위한 복잡한 기술을 배울 수 있습니다.

이 팀은 서면으로 된 설명으로부터 새로운 음악을 생성하는 것 외에도, 이 시스템은 또한 사람 자신의 노래, 콧노래, 휘파람 또는 악기 연주에 기초한 예시를 만들 수 있다고 말했습니다.

연구원들은 이 도구가 "고음질의 음악을 생산한다"고 말했습니다...몇 분 동안 텍스트 조절 신호에 충실하면서 말이죠."

현재 Google 팀은 MusicLM 모델을 공개하지 않았습니다. 이것은 사용자들이 11월에 실험할 수 있도록 온라인으로 제공된 ChatGPT와는 다릅니다.

하지만, 구글은 뮤직캡스라고 불리는 전문 음악가들에 의해 준비된 5,500개 이상의 음악-쓰기 쌍의 "고품질 데이터 세트"를 출시한다고 발표했습니다. 연구원들은 다른 AI 음악 생성기의 개발을 돕기 위해 그 단계를 밟았습니다.

MusicLM 연구원들은 그들이 누구나 빠르고 쉽게 고품질의 음악을 선택할 수 있도록 돕는 새로운 도구를 고안했다고 생각한다고 말했습니다. 하지만, 그 팀은 기계 학습 과정과 관련된 몇 가지 위험도 인식하고 있다고 말했습니다.

연구원들이 확인한 가장 큰 문제 중 하나는 "훈련 데이터에 존재하는 편향"이었습니다 편향은 한 쪽은 너무 많이 포함하고 다른 쪽은 충분하지 않을 수 있습니다. 연구원들은 이것이 "훈련 데이터에 표현되지 않은 문화에 대한 음악 생성의 적절성에 대한" 문제를 제기한다고 말했습니다

연구팀은 문화적 유용으로 간주될 수 있는 시스템 결과를 계속 연구할 계획이라고 말했습니다. 목표는 더 많은 개발과 테스트를 통해 편견을 제한하는 것입니다.

게다가, 연구원들은 가사 생성, 텍스트 조절, 그리고 더 나은 음성과 음악 품질을 포함하도록 이 시스템을 계속해서 개선할 계획이라고 말했습니다.

 

 

 

반응형

댓글