Siri csönd, Siri beszél

2011-okt-05 | 277. nap | Énvezettem?

Olvasom a dotkom.blog oldalán az egyik új posztjukat, és a rájuk érkező kommenteket. Az okot az Apple új iPhone 4S telefonja, és az abban beépített Siri névre hallgató technológia adja. A Siri ugyanis, az Apple sajtótájékoztatója szerint, arra képes, hogy felismerje az átlagos, hétköznapi (angol) nyelven feltett kérdéseket, és azokra választ adjon, vagy találjon.

A kommentelők egy része szerint ez se nem új, se nem jobb, mint ami az Androidos mobilokban már megtalálható.

Pedig szerintem nem látják a fától az erdőt.

Hiszen Siri pont nem a hang- és beszédfelismerésről szól. Vagyis nem arról, hogy ha beszélünk a mobilunkhoz, akkor az képes karakterek sorozatára 'lefordítani' azt, amit mondunk neki.

Hanem arról, hogy hogyan mondunk vagy kérdezünk valamit, és mit is akarunk ezzel mondani vagy kérdezni.

Az eddigi beszédfelismerésen alapuló fejlesztések eredménye nagyjából annyi, hogy bizonyos kulcsszavakat betanulva rávehetjük az "irányításunk alatt álló" technológiai egységet arra, hogy bizonyos dolgokat elvégezzen. Vagyis, egyrészről nekünk kell idomulni a technológiai határokhoz azzal, hogy a szintaxist megtanuljuk, másrészt pedig kódszavak sorozatával próbálunk meg "kommunikálni".

A hétköznapi beszélgetéseink, a kérdés-válasz riposztok nem így működnek. Azzal a kérdéssel, hogy "Vigyek ma esernyőt magammal?" nem csak azt mondom, hogy nincs nálam, és lehet, hogy kedvem sincs a táskába bepakolni, de azt is kérdezem, hogy tudod-e, hogy milyen idő lesz ma, és te vinnél-e magaddal esernyőt. Vagyis a válaszban nem csak csak azt várom, hogy igen vagy nem, hanem azt is, hogy szerinted miért. "Igen, ma esni fog".

Az Apple a Siri-vel pont az próbálja elérni a beszédfelismerés terén, amit a karakter megjelenítéssel (rendering) tett. Vagyis nem olyan betűtípust akar kifejleszteni, amely jól mutat a pixelek alkotta képernyőn, hanem a lehetőségekhez mérten megpróbálja a karakter megjelenítést úgy végrehajtani, hogy a megjelenő kép hű maradjön a betűtípus eredeti jellegéhez. Vagyis nem beleerőlteti a technológiai határokba a formát, hanem a technológiát próbálja meg addig alakítani, amíg az a formát (amennyire csak lehet) követi.

Az Androidos beszédfelismerés ugyan le tudja fordítani azt a kimondott mondatot, hogy "Kell-e ma esernyőt magammal vinnem?", de vagy nem érti meg, az időjárásról szeretnék valamit megtudni, vagy ha igen, akkor valószínűleg nem olyan választ adna, amit értek, hanem egy olyat, amit egy gép ért: "Ma 43.72% esély van esőre".

A Siri-ben nem az a nagy ötlet, hogy felismeri a beszédet. Hanem hogy (bizonyos keretek között) érti majd, hogy mit mondunk.

Facebook Tumblr Tweet Pinterest Tetszik
0

Címkék: mac technika innováció

Ajánlott bejegyzések:

Igazolatlan hiányzást a parlamentbe!

A Fidesz hármas ellenállása

Szavazzunk: alanyi és érdemi alapon

Egy komoly keletre nyitás margójára

Nyílt levél Rogán Antalhoz: a bankok vagy mi?

A bejegyzés trackback címe:

https://envezettem.blog.hu/api/trackback/id/3281179

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

libaháj 2011.10.06. 02:19:49

hi-phone.blog.hu/2011/10/06/keynote_2011_apple_forever

hi-phone.blog.hu/2011/10/05/hova_lett_damon_hill_es_az_iphone_5

Válasz erre

TheRminator 2011.10.06. 12:50:07

Nekem az a fura, hogy epölös marketingvideók után akarja mindenki megmondani, hogy ez mennyiben jobb mint a többi.

Válasz erre

Énvezettem? · http://envezettem.blog.hu 2011.10.06. 13:16:02

@The Rminator: Nekem meg rendszerint az, hogy van egy fícsör, ami rendszerint megvan már ötszáz éve más platformokon, és mégis az Apple kell ahhoz, hogy 1. a világ elkezdjen róla érdemben beszélni és elkezdje érdemben használni azt, 2. rácsodálkozzunk, hogy jé ezt így is lehet, sőt, így van csak igazán értelme...

Válasz erre

TheRminator 2011.10.06. 14:38:35

@Énvezettem?: Én nem hiszem, hogy ennek bármiféle jövője lenne. Már a Windows 3.1-hez is volt hangvezérlés, és kb 10 percnyi játszadozás, és ökörködés után mindenki kikapcsolta. Még specko picipuha mikit is lehetett hozzá venni. Az a helyzet, hogy pár percnyi videón kivül még semmit nem látott senki. Sokan vizionálják azt, hogy értelmezni fogja a mondatot, holott szerintem pár szót értelmez, ami a mondatban van, és ez alapján keres. Ha pl megkérded tőle, hogy: Hideg a leves ma? Akkor erre vajon mit fog válaszolni? Vagy pl azt, hogy vigyek esernyőt? Ha ez a kielemzés komolyan működőképes lenne, akkor a gugli már eleve használná. Gondolj bele, micsoda ficsör lenne, ha azt gugliznád, hogy esni fog holnap? De sajnos ettől még messze van a világ. Az lehet, hogy pár beépitett alap kérdésre tudja a választ. De pár nap mulva ez a láz is elmúlik, mint az ájtunsz.

Válasz erre

Énvezettem?

Macskafogó és a 300 atmoszférás agyvíz...

HTML

Énvezettem?

Keresés

Friss topikok

Linkblog

Blogajánló

Archívum

Feedek

Egyéb

Siri csönd, Siri beszél

2011-okt-05 | 277. nap | Énvezettem?

Facebook Tumblr Tweet Pinterest Tetszik
0

Címkék: mac technika innováció

Ajánlott bejegyzések:

Igazolatlan hiányzást a parlamentbe!

A Fidesz hármas ellenállása

Szavazzunk: alanyi és érdemi alapon

Egy komoly keletre nyitás margójára

Nyílt levél Rogán Antalhoz: a bankok vagy mi?

A bejegyzés trackback címe:

Kommentek:

libaháj 2011.10.06. 02:19:49

TheRminator 2011.10.06. 12:50:07

Énvezettem? · http://envezettem.blog.hu 2011.10.06. 13:16:02

TheRminator 2011.10.06. 14:38:35