Watson je počítačový systém IBM pro zpracování přirozeného jazyka. Je poháněn slavným superpočítačem, který odpovídá na otázky, a také řadou podnikových produktů založených na AI, včetně Watson Speech to Text. V naší recenzi na Watson Speech to Text se podíváme na jednu z nejlepších aplikací řeči na text v okolí, ideální pro každého, kdo chce převádět zvuk na text v měřítku.
Platforma pro zpracování řeči Watson je k dispozici na IBM Cloud. Je to všestranný nástroj a lze jej použít v mnoha kontextech, včetně diktátu a přepisu konferenčních hovorů. A co víc, na rozdíl od většiny ostatních aplikací pro převod řeči na text je k dispozici jako API, což vývojářům umožňuje mimo jiné vložit jej do systémů hlasového ovládání.
Watson Speech to Text: Plány a ceny
Watson Speech to Text můžete použít ke zpracování až 500 minut zvuku zdarma za měsíc. Pokud chcete převést více než to, budete muset zaplatit za každou zvukovou minutu a rychlost se mění na základě doby trvání zpracovaného zvuku. Náklady se pohybují od 0,01 do 0,02 USD za minutu a pokud požadujete vlastní jazykový model IBM, účtuje se příplatek 0,03 USD za minutu. K dispozici jsou také prémiové Watsonovy plány pouze s nabídkami, které umožňují přístup k vylepšeným funkcím ochrany osobních údajů a zárukám dostupnosti.
Cena služby Watson pro převod řeči na text je stanovena na základě objemu obsahu, který potřebujete přepsat.K systému Watson Speech to Text můžete přistupovat také prostřednictvím obecného předplatného IBM Cloud. Zpracování přirozeného jazyka je jen jedna aplikace v široké škále služeb AI, které můžete získat prostřednictvím IBM Cloud, takže je to dobrá volba pro každou organizaci, která potřebuje přístup k vysokorychlostním datovým přenosům, chatbotům nebo nástrojům převodu textu na řeč.
Watson Speech to Text: Funkce
Díky flexibilní integraci API a dalším předem připraveným nástrojům IBM jde služba Watson pro rozpoznávání řeči daleko za rámec základního přepisu. Chcete-li jej použít například v kontextu zákaznických služeb, lze nastavit Watson Assistant tak, aby zpracovával otázky v přirozeném jazyce přímo nebo odpovídal na dotazy po telefonu.
Ve Watsonu IBM sestavila platformu pro zpracování přirozeného jazyka bohatou na funkce.Watson pracuje s živým zvukem v 11 jazycích a může importovat zvuky v různých předem nahraných formátech. Při streamování podpora diagnostiky v reálném čase znamená, že Watson může uživatele vyzvat, aby se přiblížili k mikrofonu nebo změnili prostředí. Působivá je také skutečnost, že Watson dokáže rozlišovat mezi různými reproduktory ve sdílené konverzaci díky funkci Speaker Diarization, která stále prochází beta testováním.
Watson Speech to Text: Nastavení
Chcete-li použít Watson, musíte nejprve vytvořit účet IBM Bluemix. Registrace je bezplatná a bezbolestná, vyžaduje pouze e-mailovou adresu a heslo. Po přihlášení musíte na svůj účet přidat ustanovení pro službu Speech to Text. V této fázi obdržíte několik pověření, která byste si měli uložit do svých vlastních záznamů.
Registrace k účtu IBM Bluemix je nezbytná pro získání přístupu k celé sadě funkcí Watson.Poté, co to uděláte, se věci výrazně zkomplikují. Chcete-li získat přístup k Watsonu, musíte tato pověření přidat do dávky kódu klientského jednotného vyhledávače prostředků (cURL) a poté jej spustit na svém počítači. Chcete-li přesně zjistit, jaký příkaz chcete volat, podívejte se na tohoto praktického průvodce. Alternativně, pokud chcete vidět, jak dobře funguje systém Watson, aniž byste museli přeskakovat všechny tyto obruče, můžete to místo toho vyzkoušet na demo stránce IBM.
Watson Speech to Text: Rozhraní
Na rozdíl od aplikací typu Voice-to-Text pro zákazníky jsou služby Watson navrženy tak, aby k nim byl přístup prostřednictvím rozhraní API a kódu zabudovaného v jiných systémech. Z tohoto důvodu neexistuje žádné skutečné „rozhraní“ společnosti Watson. Místo toho lze k Watsonu přistupovat prostřednictvím tří různých internetových protokolů. Jedná se o WebSockets, REST API a Watson Developer Cloud.
Watson Speech to Text lze spravovat prostřednictvím cloudového systému Watson Developer.Chcete-li ovládat Watsona, budete muset použít nástroj příkazového řádku, který se připojí ke cloudu IBM prostřednictvím jedné z těchto tří cest. Rozhraní, které vidí koncový uživatel komunikující s Watsonem, bude muset vytvořit někdo z vašeho vývojového týmu samostatně.
Watson Speech to Text: Výkon
Celkově na nás zapůsobil způsob, jakým tato platforma pro zpracování přirozeného jazyka zpracovávala skutečnou řeč. Pomocí Watsonu jsme přepisovali klipy, které jsme zaznamenali v řadě náročných prostředí, a také zvukové kousky slavných projevů v několika podporovaných jazycích Watsona.
Zjistili jsme, že Watson fungoval dobře s předem nahranou řečí.Přestože u klipů se spoustou šumu na pozadí chyby rostly častěji, Watson obecně přinesl neuvěřitelně přesné výsledky. Z našich testů odhadujeme, že k nevyzpytatelným chybám došlo v průměru pouze jednou za 150 slov. Ukázalo se však, proč funkce Watson's Speaker Diarization zůstává v testování BETA, protože několikrát během našeho hodnocení byl jeden hlas nesprávně označen jako samostatný reproduktor.
Watson Speech to Text: Podpora
Centrum zdrojů IBM nabízí spoustu dokumentace, která vám pomůže lépe pochopit, jak použít Watson na konkrétní případ použití. Také stojí za to využít integraci API a SDK vytvořené komunitou vývojářů Watson a zveřejněné na GitHubu.
Stránka Watson API GitHub je dobrým zdrojem podpory pro službu Watson Speech to Text.Pokud zde nenajdete řešení svého problému, můžete se obrátit přímo na IBM otevřením lístku podpory nebo kontaktováním telefonicky. Pokud jste se rozhodli pro některý z prémiových balíčků Watson, bude vaše použití Watson chráněno dohodou o době provozu na úrovni služby.
Watson Speech to Text: Konečný verdikt
Pokud má vaše organizace know-how a zdroje pro správnou integraci platformy IBM Watson Speech to Text do vašeho systému, budete těžit z pokročilých funkcí, jako je diagnostika zvukového prostředí v reálném čase a průběžné výsledky přepisu. Malé podniky a organizace však budou zápasit s technickou výzvou správného nastavení Watsona.
Konkurence
Služba IBM Watson Speech to Text je přímým konkurentem hromadných přepisových služeb Google Cloud Speech-to-Text a Amazon Transcribe. Oba jsou výrazně levnější než Watson, například s přepisem Google Cloud, který začíná na 0,006 USD za minutu. Všechny tři služby sdílejí podobné funkce, například přizpůsobenou slovní zásobu, ale jednou z funkcí, která IBM Watson velmi chybí, ale je k dispozici u obou konkurentů, je automatické rozpoznávání interpunkce.
Hledáte další řešení typu spoeech-to-text? Podívejte se na naši nejlepší softwarovou příručku pro řeč na text.