Olvasom a dotkom.blog oldalán az egyik új posztjukat, és a rájuk érkező kommenteket. Az okot az Apple új iPhone 4S telefonja, és az abban beépített Siri névre hallgató technológia adja. A Siri ugyanis, az Apple sajtótájékoztatója szerint, arra képes, hogy felismerje az átlagos, hétköznapi (angol) nyelven feltett kérdéseket, és azokra választ adjon, vagy találjon.
A kommentelők egy része szerint ez se nem új, se nem jobb, mint ami az Androidos mobilokban már megtalálható.
Pedig szerintem nem látják a fától az erdőt.
Hiszen Siri pont nem a hang- és beszédfelismerésről szól. Vagyis nem arról, hogy ha beszélünk a mobilunkhoz, akkor az képes karakterek sorozatára 'lefordítani' azt, amit mondunk neki.
Hanem arról, hogy hogyan mondunk vagy kérdezünk valamit, és mit is akarunk ezzel mondani vagy kérdezni.
Az eddigi beszédfelismerésen alapuló fejlesztések eredménye nagyjából annyi, hogy bizonyos kulcsszavakat betanulva rávehetjük az "irányításunk alatt álló" technológiai egységet arra, hogy bizonyos dolgokat elvégezzen. Vagyis, egyrészről nekünk kell idomulni a technológiai határokhoz azzal, hogy a szintaxist megtanuljuk, másrészt pedig kódszavak sorozatával próbálunk meg "kommunikálni".
A hétköznapi beszélgetéseink, a kérdés-válasz riposztok nem így működnek. Azzal a kérdéssel, hogy "Vigyek ma esernyőt magammal?" nem csak azt mondom, hogy nincs nálam, és lehet, hogy kedvem sincs a táskába bepakolni, de azt is kérdezem, hogy tudod-e, hogy milyen idő lesz ma, és te vinnél-e magaddal esernyőt. Vagyis a válaszban nem csak csak azt várom, hogy igen vagy nem, hanem azt is, hogy szerinted miért. "Igen, ma esni fog".
Az Apple a Siri-vel pont az próbálja elérni a beszédfelismerés terén, amit a karakter megjelenítéssel (rendering) tett. Vagyis nem olyan betűtípust akar kifejleszteni, amely jól mutat a pixelek alkotta képernyőn, hanem a lehetőségekhez mérten megpróbálja a karakter megjelenítést úgy végrehajtani, hogy a megjelenő kép hű maradjön a betűtípus eredeti jellegéhez. Vagyis nem beleerőlteti a technológiai határokba a formát, hanem a technológiát próbálja meg addig alakítani, amíg az a formát (amennyire csak lehet) követi.
Az Androidos beszédfelismerés ugyan le tudja fordítani azt a kimondott mondatot, hogy "Kell-e ma esernyőt magammal vinnem?", de vagy nem érti meg, az időjárásról szeretnék valamit megtudni, vagy ha igen, akkor valószínűleg nem olyan választ adna, amit értek, hanem egy olyat, amit egy gép ért: "Ma 43.72% esély van esőre".
A Siri-ben nem az a nagy ötlet, hogy felismeri a beszédet. Hanem hogy (bizonyos keretek között) érti majd, hogy mit mondunk.