나는 몇 가지를 썼다 이 문서에서 나는 과거에 음성 출력을 다루기 위해 주로 텍스트 지향 접근 방식을 뛰어 넘는다.나는 또한 감정 표현의 더 넓은 공간으로 공감을 넘어갑니다. AI와 공감에 관한 Hackernoon에 대한 기사 이 논문은 몇 가지 텍스트-to-언어 엔진 (Eleven Labs, Hume, iCednant Speech, Speechify)의 성능을 감정적으로 충전 된 언어를 생성하는 속도와 품질의 측면에서 조사합니다. 아마존, 구글, 마이크로소프트와 같은 여러 주요 브랜드는 API 복잡성에 액세스하거나 직접적인 감정적 인 뉘앙스를 제공하지 않았기 때문에 평가되지 않았습니다. 예를 들어, SSML은 사용해야했습니다 (아래 참조). 모든 평가된 엔진은 속도와 품질의 관점에서 짧은 형태의 입력 변환에 적합합니다. 즉 감정적 인 뉘앙스를위한 기회가 많지 않은 한 문구입니다. 품질의 관점에서 그들은 모두 감정적 인 뉘앙스가 비 이 기사는 오디오에 초점을 맞추기 때문에 매우 길지 않다; 따라서, 당신은 당신이 읽는 것보다 더 많은 시간을 들을 것입니다.또한, 공개 방법으로, 나는 다루는 플랫폼 중 일부의 성공에 재정적 인 관심이 있으므로 나는 어떤 질적 비교를하지 않을 것입니다. 어떤 시나리오에서 어떤 엔진이 가장 잘 작동하는지 결정할 수 있도록 청취자.나는 속도와 비용과 같은 양적 값으로 비교를 제한할 것입니다. 읽기 A note about SSML … Although SSML appears quite powerful on its face, particularly when used with the contour attribute that allows for changing frequency and volume at specific millisecond offsets, at the end of the day it does not come close to simuating real human emotion. The micro prosody required can only be matched by neural processors. However, some SSML does make for better management of pauses, volume and special pronunciations. 또한, iCendant는 Speechify와 파트너십을 맺어 그들의 기능을 향상시킵니다. Speechify는 편집 공간에서 정말로 빛납니다. 그것은 실시간 API 공간과 상대적으로 새롭고 iCendant는 Speechify 플랫폼에 리프팅을 제공합니다. 詩 詩는 다양한 볼륨, 경도 및 감정과 함께 강조를위한 라인 휴식 및 대체 문법 구조에 대한 의존성과 함께 올바른 도메인입니다. After A Great Pain - 에밀리 디킨슨 큰 고통 후, 형식적 인 느낌이옵니다The Nerves sit ceremonial, like TombsThe stiff Heart questions 'was it He, that bored,'And 'Yesterday, or Centuries before'?The Feet, mechanical, go aroundA Wooden wayOf Ground, or Air, or OughtRegardless grown,A Quartz contentment, like a stoneThis is the Hour of Lead(그것은 돌처럼 쿼츠 만족, 이것은 리드의 시간이다) 큰 고통 후, 형식적 인 느낌이옵니다The Nerves sit ceremonial, like TombsThe stiff Heart questions 'was it He, that bored,'And 'Yesterday, or Centuries before'?The Feet, mechanical, go aroundA Wooden wayOf Ground, or Air, or OughtRegardless grown,A Quartz contentment, like a stoneThis is the Hour of Lead(그것은 돌처럼 쿼츠 만족, 이것은 리드의 시간이다) Platform Time To Generate Audio ElevenLabs 5s 🔊 Hume 13s 🔊 iCendant Speech 5s 🔊 Speechify 3s 🔊 엘리베이터 5S HUME 13S iCendant 연설 5S 연설 3S 코칭 코칭은 잠재적으로 갑작스러운 정서적, 속도 및 볼륨 전환이 필요하므로 공감도 고려하는 어려운 영역입니다. Volleyball Pep Talk - Claude Sonnet에 의해 생성 3.5 그 손은 수천 세트를 제공했다.이 다리는 수많은 블록을 점프했다.이 폐는 당신이 계속할 수 없다고 생각했을 때 다섯 세트 경기를 통해 전력을했다.그러나 볼리볼은 손이나 다리 또는 폐로만 재생되지 않습니다.그것은 심장으로 재생됩니다.오늘, 우리는 우리의 시즌의 가장 어려운 상대를 직면하고 있습니다.그들은 더 높습니다.그들은 상대방의 꿈을 가지고있다. 통계는 당신이 이길 수 없다고 말합니다.그러나 통계는 팀워크를 측정 할 수 없습니다.우리가 누구인지 기억하십시오.당신은 단지 여섯 명의 사람들이다 - 당신은 심장 - 당신이 숨 쉬고, 움직이고, 그리고 싸우는 하나입니다.당신이 경기장에 올 때, 당신은 그 손은 수천 세트를 제공했다.이 다리는 수많은 블록을 점프했다.이 폐는 당신이 계속할 수 없다고 생각했을 때 다섯 세트 경기를 통해 전력을했다.그러나 볼리볼은 손이나 다리 또는 폐로만 재생되지 않습니다.그것은 심장으로 재생됩니다.오늘, 우리는 우리의 시즌의 가장 어려운 상대를 직면하고 있습니다.그들은 더 높습니다.그들은 상대방의 꿈을 가지고있다. 통계는 당신이 이길 수 없다고 말합니다.그러나 통계는 팀워크를 측정 할 수 없습니다.우리가 누구인지 기억하십시오.당신은 단지 여섯 명의 사람들이다 - 당신은 심장 - 당신이 숨 쉬고, 움직이고, 그리고 싸우는 하나입니다.당신이 경기장에 올 때, 당신은 Platform Time To Generate Audio ElevenLabs 5s 🔊 Hume 20s 🔊 iCendant Speech 4s 🔊 Speechify 3s 🔊 엘리베이터 5S HUME 20S iCendant 연설 4S 연설 3S 명상 명상은 경계, 계산 및 부드러운 감정적 인 전환의 필요성을 고려하여 올바르게 얻는 어려운 영역입니다. 나는 명상에 귀를 기울이는 동안 당신이 당신의 뱃속에서 호흡하고 눈을 감는 것에 집중하는 것이 좋습니다. 호흡 명상 - Claude Sonnect v3.5에 의해 생성 우리는 진정 연습을 할 것입니다, 당신의 코를 통해 깊이 숨을 쉬고, 잡아, 그 다음 호흡하는 소리를 만드는.Inhale life 1... 2... 2... 3... Exhale tension 1... 2... 3... 4...Repeat...Inhale... 1... 2... 3... 3...Hold... 1... 2... 3... 4...Exhale... 1... 2... 3... 4... 5...And finally...Inhale... 1... 2... 3... 4...Hold... 1... 2... 3... 4... 5...Exhale... 1... 2... 3... 4... 5... 6...May your life be full of peace.May your tensions be taken by the wind whispering in the trees. 우리는 진정 연습을 할 것입니다, 당신의 코를 통해 깊이 숨을 쉬고, 잡아, 그 다음 호흡하는 소리를 만드는.Inhale life 1... 2... 2... 3... Exhale tension 1... 2... 3... 4...Repeat...Inhale... 1... 2... 3... 3...Hold... 1... 2... 3... 4...Exhale... 1... 2... 3... 4... 5...And finally...Inhale... 1... 2... 3... 4...Hold... 1... 2... 3... 4... 5...Exhale... 1... 2... 3... 4... 5... 6...May your life be full of peace.May your tensions be taken by the wind whispering in the trees. Platform Time To Generate Audio ElevenLabs 5s 🔊 Hume 12- 20s 🔊 iCendant Speech 5s 🔊 Speechify 3s 🔊 엘리베이터 5S HUME 12 - 20s iCendant 연설 5S 연설 3S 🔊 비용 및 기타 정보 Platform Cost (approximately 1,000 char per minute) SSML Available ElevenLabs $0 to $1,300 per month including fixed usage 2,000 to 22,000 minutes (20,000 to 222,000 chars) $0.016 to $0.012 per 1,000 chars No (limited custom XML) Hume $0 to $900 per month including capped usage with overage fees 10,000 to 10,000,00 characters per month $0.20 to $0.10 per 1,000 chars overage No iCendant Speech $0.008 per 1,000 chars + $10 per month No Speechify $0.001 per 1,000 chars Yes (moderate emotion extensions) Google Neural $0.016 per 1,000 chars (not evaluated due to limited emotions in extended SSML) Yes (very limited emotion extensions) 엘리베이터 $0 ~ $1,300 매월 고정 사용을 포함하여 2,000 ~ 22,000 분 (20,000 ~ 222,000 탱크) $0.016 ~ $0.012 1,000 탱크 당 아니오 (제한된 사용자 정의 XML) HUME $ 0 ~ $ 900 매월, 연령대 수수료와 제한된 사용 포함 10,000 ~ 10,000.00 캐릭터 매월 $0.20 to $0.10 per 1,000 탱크 overage 아니오 iCendant 연설 1,000 탱크당 $0.008 + 월당 $10 아니오 연설 $0.001 1,000 탱크 당 예 (중요한 감정 확장) Google 신경 1,000 대의 탱크 당 $0.016 (장장된 SSML에서 감정이 제한되기 때문에 평가되지 않음) 예 (매우 제한된 감정 확장) 결론 Hume은 특히 느린 속도를 감안할 때 다른 옵션에 비해 끔찍하게 비니다. 궁극적으로 플랫폼 중 어느 것도 현재 모든 요구를 처리 할 수있는 것이 분명하지는 않지만 모든 능력의 교차점에서 약속을 볼 수 있습니다. Vested interest disclosure: 저자는 iCendant Speech의 일부 소유자입니다. Vested interest disclosure: 저자는 iCendant Speech의 일부 소유자입니다. Vested interest disclosure: 저자는 iCendant Speech의 일부 소유자입니다.