Ez az örökös “koktélparti probléma” – állni egy emberekkel teli szobában, itallal a kezünkben, és próbáljuk hallani, hogy mit mondanak a vendégtársak.
Valójában az emberek figyelemre méltóan ügyesek abban, hogy egy emberrel beszélgetést folytassanak, miközben kiszűrik a konkurens hangokat.
Azonban, talán meglepő módon, ez egy olyan képesség, amelyet a technológia egészen a közelmúltig nem tudott megismételni.
És ez nem mindegy, amikor a bírósági ügyekben hangbizonyítékokat kell felhasználni. A háttérben hallható hangok megnehezíthetik annak megállapítását, hogy ki beszél és mit mond, ami a felvételek használhatatlanná válását eredményezheti.
Keith McElveen villamosmérnök, a Wave Sciences alapítója és technológiai igazgatója akkor kezdett el érdeklődni a probléma iránt, amikor az amerikai kormánynak dolgozott egy háborús bűnökkel kapcsolatos ügyön.
“Azt próbáltuk kideríteni, hogy ki rendelte el a civilek lemészárlását. A bizonyítékok között voltak olyan felvételek, amelyeken egy csomó hang egyszerre beszélt – és ekkor tudtam meg, mi a “koktélparti-probléma”” – mondja.
“Sikeresen eltávolítottam a beszédből az olyan zajokat, mint az autóhangok, a légkondicionálók vagy a ventilátorok, de amikor elkezdtem megpróbálni eltávolítani a beszédet a beszédből, kiderült, hogy ez nem csak nagyon nehéz probléma, hanem az akusztika egyik klasszikus nehéz problémája.
“A hangok körbeugrálnak egy szobában, és matematikailag borzasztóan nehéz megoldani”.
A válasz szerinte az volt, hogy a mesterséges intelligencia segítségével megpróbálja meghatározni és kiszűrni az összes konkurens hangot az alapján, hogy eredetileg honnan jöttek a szobában.
Ez nem csak az esetlegesen beszélő többi embert jelenti – jelentős mennyiségű interferencia is keletkezik abból, ahogyan a hangok visszaverődnek a szobában, és a célzott beszélő hangja közvetlenül és közvetve is hallható.
Egy tökéletes visszhangmentes teremben – amely teljesen visszhangmentes – elég lenne egy mikrofon hangszórónként ahhoz, hogy mindenki felvegye, amit mond; de egy valós teremben a probléma miatt minden visszavert hanghoz egy mikrofonra is szükség van.
McElveen úr 2009-ben alapította meg a Wave Sciences-t, abban a reményben, hogy olyan technológiát fejleszthet ki, amely szét tudja választani az egymást átfedő hangokat. Kezdetben a cég nagyszámú mikrofont használt az úgynevezett array beamformingban.
A potenciális kereskedelmi partnerek visszajelzései azonban azt mutatták, hogy a rendszerhez túl sok mikrofonra van szükség ahhoz, hogy a költségekhez képest sok helyzetben jó eredményt adjon – sok más helyzetben pedig egyáltalán nem teljesítene.
“Az volt a gyakori refrén, hogy ha olyan megoldással tudnánk előállni, amely ezeket az aggályokat orvosolja, akkor nagyon érdekelné őket” – mondja McElveen úr.
És hozzáteszi: “Tudtuk, hogy kell lennie megoldásnak, mert két füllel is meg lehet csinálni”.
A vállalat 10 évnyi belső finanszírozású kutatás után végül megoldotta a problémát, és 2019 szeptemberében szabadalmi kérelmet nyújtott be.
Amit kitaláltak, az egy olyan mesterséges intelligencia volt, amely képes elemezni, hogyan pattog a hang a szobában, mielőtt eléri a mikrofont vagy a fület.
“Elkapjuk a hangot, amint az egyes mikrofonokhoz érkezik, visszavezetjük, hogy kitaláljuk, honnan jött, majd lényegében elnyomunk minden olyan hangot, amely nem onnan származhat, ahol az illető ül” – mondja McElveen úr.
A hatás bizonyos szempontból ahhoz hasonlítható, mint amikor egy kamera egy témára fókuszál, és elmosja az előteret és a hátteret.
“Az eredmények nem hangzanak kristálytisztán, ha csak egy nagyon zajos felvételt használhatsz, amiből tanulhatsz, de még így is lenyűgözőek.”
A technológia első valós törvényszéki alkalmazása egy amerikai gyilkossági ügyben történt, ahol az általa szolgáltatott bizonyítékok központi szerepet játszottak az ítélethozatalban.
Miután két bérgyilkost letartóztattak egy férfi megöléséért, az FBI be akarta bizonyítani, hogy egy gyermekelhelyezési vitában álló család bérelte fel őket. Az FBI elintézte, hogy a családot azzal hitegessék, hogy megzsarolták őket a részvételükért – majd hátradőlve figyelte a reakciót.
Míg az sms-ekhez és a telefonhívásokhoz az FBI viszonylag könnyen hozzáférhetett, a személyes a két étteremben tartott találkozók már más tészta voltak. A bíróság azonban engedélyezte a Wave Sciences algoritmusának használatát, ami azt jelenti, hogy a hangfelvételek az elfogadhatatlanságból kulcsfontosságú bizonyítékká váltak.
Azóta más kormányzati laboratóriumok, többek között az Egyesült Királyságban is, tesztek egész sorának vetették alá. A vállalat most az amerikai hadseregnek forgalmazza a technológiát, amely a szonárjelek elemzésére használta.
McElveen úr szerint túsztárgyalásokon és öngyilkossági forgatókönyveknél is alkalmazható lenne, hogy a beszélgetés mindkét oldala hallható legyen – nem csak a megafonnal rendelkező tárgyaló fél.
Tavaly év végén a vállalat kiadott egy szoftveralkalmazást, amely a tanulási algoritmusát használja, és amelyet a kormányzati laboratóriumok használhatnak hangtani törvényszéki és akusztikai elemzéseket végző laboratóriumokban.
Végül a Wave célja, hogy termékének testre szabott változatait vezesse be hangrögzítő készletekben, autók hangfelületeiben, intelligens hangszórókban, kiterjesztett és virtuális valóságban, szonárban és hallókészülékekben való használatra.
Így például, ha beszélünk az autónkhoz vagy az okoshangszórónkhoz, nem számítana, ha nagy zaj van körülöttünk, az eszköz akkor is képes lenne kivenni, amit mondunk.
Terri Armenta, a Törvényszéki Tudományos Akadémia törvényszéki oktatója szerint az AI-t már a törvényszéki orvostudomány más területein is használják.
“ML [machine learning] modellek a hangmintákat elemzik a beszélők személyazonosságának meghatározására, ami különösen hasznos a bűnügyi nyomozásokban, ahol a hangalapú bizonyítékokat hitelesíteni kell” – mondja.
“Emellett az AI-eszközök képesek felismerni a manipulációkat vagy módosításokat a hangfelvételeken, biztosítva a bíróságon bemutatott bizonyítékok integritását.”
A mesterséges intelligencia pedig a hangelemzés más területein is teret hódít.
A Bosch rendelkezik egy SoundSee nevű technológiával, amely hangjelfeldolgozó algoritmusok segítségével elemzi például egy motor hangját, hogy megjósolja a meghibásodást, mielőtt az bekövetkezne.
“A hagyományos audiojel-feldolgozó képességek nem képesek úgy megérteni a hangokat, ahogyan mi, emberek értjük” – mondja Dr. Samarjit Das, a Bosch USA kutatási és technológiai igazgatója.
“Az audio AI minden eddiginél jobban lehetővé teszi a minket körülvevő dolgok hangjának mélyebb megértését és szemantikai értelmezését – például a környezeti hangok vagy a gépekből származó hangjelzések.”
A Wave Sciences algoritmusának újabb tesztjei azt mutatták, hogy a technológia már két mikrofonnal is olyan jól teljesít, mint az emberi fül – még jobban, ha több mikrofont adnak hozzá.
És még valami másra is fény derült.
“A matematika minden tesztünkben figyelemre méltó hasonlóságot mutat az emberi hallással. Vannak apró furcsaságok abban, amit az algoritmusunk meg tud tenni, és hogy milyen pontosan tudja megtenni, amelyek megdöbbentően hasonlítanak az emberi hallás néhány furcsaságához” – mondja McElveen.
“Gyanítjuk, hogy az emberi agy ugyanezt a matematikát használja – hogy a koktélparti probléma megoldása során talán rábukkantunk arra, hogy mi történik valójában az agyban.”
Forrás (BBC) – angol nyelven.