HTML

Énvezettem?

Minden amitől két másodperc alatt 300 atmoszférára felmegy az agyvizem a Macskafogó "Én vezettem??" szemszögéből nézve...

Friss topikok

  • nu pagagyí: Ostoba gondolat. A parlament bojkottja is eszköz lehet egy képviselő kezében. Különben is, választ... (2018.12.30. 15:54) Igazolatlan hiányzást a parlamentbe!
  • Online Távmunkás: Nincs kognitív disszonancia, a fideszes nyugdíjasok unokáit elrabolta a gonosz Brüsszel... (2018.03.31. 17:24) Erzsébet utalvány vagy unoka
  • maxval bircaman bácsi szeredőci mélyelemző: A magyar ellentét más. 2 fő tengely van: - nemzeti vagy idegen, - kapitalizmus vagy harmadik út.... (2017.12.18. 14:35) A Fidesz hármas ellenállása
  • É2I: Mondjuk ennyi. Csak ezt ugye nem hangoztatják ebben a fene nagy felbuzdulásban. Se gyártói kapaci... (2017.09.11. 12:40) Megújuló erőforrás, ugyanaz a hiba
  • fehérfarkas: Sem a kereszténység, sem az Iszlám vallás nem másik kírtásáról, legyilkolásáról szólnak, hanem eze... (2014.10.04. 22:51) A vallás vége

Siri csönd, Siri beszél

2011-okt-05 | 277. nap |  Énvezettem?

Olvasom a dotkom.blog oldalán az egyik új posztjukat, és a rájuk érkező kommenteket. Az okot az Apple új iPhone 4S telefonja, és az abban beépített Siri névre hallgató technológia adja. A Siri ugyanis, az Apple sajtótájékoztatója szerint, arra képes, hogy felismerje az átlagos, hétköznapi (angol) nyelven feltett kérdéseket, és azokra választ adjon, vagy találjon.

A kommentelők egy része szerint ez se nem új, se nem jobb, mint ami az Androidos mobilokban már megtalálható.

Pedig szerintem nem látják a fától az erdőt.

Hiszen Siri pont nem a hang- és beszédfelismerésről szól. Vagyis nem arról, hogy ha beszélünk a mobilunkhoz, akkor az képes karakterek sorozatára 'lefordítani' azt, amit mondunk neki. 

Hanem arról, hogy hogyan mondunk vagy kérdezünk valamit, és mit is akarunk ezzel mondani vagy kérdezni.

Az eddigi beszédfelismerésen alapuló fejlesztések eredménye nagyjából annyi, hogy bizonyos kulcsszavakat betanulva rávehetjük az "irányításunk alatt álló" technológiai egységet arra, hogy bizonyos dolgokat elvégezzen. Vagyis, egyrészről nekünk kell idomulni a technológiai határokhoz azzal, hogy a szintaxist megtanuljuk, másrészt pedig kódszavak sorozatával próbálunk meg "kommunikálni".

A hétköznapi beszélgetéseink, a kérdés-válasz riposztok nem így működnek. Azzal a kérdéssel, hogy "Vigyek ma esernyőt magammal?" nem csak azt mondom, hogy nincs nálam, és lehet, hogy kedvem sincs a táskába bepakolni, de azt is kérdezem, hogy tudod-e, hogy milyen idő lesz ma, és te vinnél-e magaddal esernyőt. Vagyis a válaszban nem csak csak azt várom, hogy igen vagy nem, hanem azt is, hogy szerinted miért. "Igen, ma esni fog". 

Az Apple a Siri-vel pont az próbálja elérni a beszédfelismerés terén, amit a karakter megjelenítéssel (rendering) tett. Vagyis nem olyan betűtípust akar kifejleszteni, amely jól mutat a pixelek alkotta képernyőn, hanem a lehetőségekhez mérten megpróbálja a karakter megjelenítést úgy végrehajtani, hogy a megjelenő kép hű maradjön a betűtípus eredeti jellegéhez. Vagyis nem beleerőlteti a technológiai határokba a formát, hanem a technológiát próbálja meg addig alakítani, amíg az a formát (amennyire csak lehet) követi.

Az Androidos beszédfelismerés ugyan le tudja fordítani azt a kimondott mondatot, hogy "Kell-e ma esernyőt magammal vinnem?", de vagy nem érti meg, az időjárásról szeretnék valamit megtudni, vagy ha igen, akkor valószínűleg nem olyan választ adna, amit értek, hanem egy olyat, amit egy gép ért: "Ma 43.72% esély van esőre".

A Siri-ben nem az a nagy ötlet, hogy felismeri a beszédet. Hanem hogy (bizonyos keretek között) érti majd, hogy mit mondunk.

Címkék: mac technika innováció

A bejegyzés trackback címe:

https://envezettem.blog.hu/api/trackback/id/tr383281179

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

TheRminator 2011.10.06. 12:50:07

Nekem az a fura, hogy epölös marketingvideók után akarja mindenki megmondani, hogy ez mennyiben jobb mint a többi.

Énvezettem? · http://envezettem.blog.hu 2011.10.06. 13:16:02

@The Rminator: Nekem meg rendszerint az, hogy van egy fícsör, ami rendszerint megvan már ötszáz éve más platformokon, és mégis az Apple kell ahhoz, hogy 1. a világ elkezdjen róla érdemben beszélni és elkezdje érdemben használni azt, 2. rácsodálkozzunk, hogy jé ezt így is lehet, sőt, így van csak igazán értelme...

TheRminator 2011.10.06. 14:38:35

@Énvezettem?: Én nem hiszem, hogy ennek bármiféle jövője lenne. Már a Windows 3.1-hez is volt hangvezérlés, és kb 10 percnyi játszadozás, és ökörködés után mindenki kikapcsolta. Még specko picipuha mikit is lehetett hozzá venni. Az a helyzet, hogy pár percnyi videón kivül még semmit nem látott senki. Sokan vizionálják azt, hogy értelmezni fogja a mondatot, holott szerintem pár szót értelmez, ami a mondatban van, és ez alapján keres. Ha pl megkérded tőle, hogy: Hideg a leves ma? Akkor erre vajon mit fog válaszolni? Vagy pl azt, hogy vigyek esernyőt? Ha ez a kielemzés komolyan működőképes lenne, akkor a gugli már eleve használná. Gondolj bele, micsoda ficsör lenne, ha azt gugliznád, hogy esni fog holnap? De sajnos ettől még messze van a világ. Az lehet, hogy pár beépitett alap kérdésre tudja a választ. De pár nap mulva ez a láz is elmúlik, mint az ájtunsz.
süti beállítások módosítása