За життя

Я смотрю в глаза, а чувствую взгляд

Черговий раз читаю питання "як розпізнати на малюнку те і те" (програмно, звісно) і черговий раз дивуюсь тупості людської цивілізації.

Після 30 років спроб розпізнавання мови до вчених доперло, що це неможливо зробити без структурного аналізу змісту того, про що йдеться. Скільки разів ми чули, як людина намагається наспівувати пісню іноземною мовою, сприйняту "на слух", і виходить в неї повна нісенітниця? Це як раз тому, що не знаючи змісту, людина не може розбити суцільний звуковий ряд на частки і виділити в ньому окремі фонеми. Звісно, є люди, які як папуги можуть повторити послідовність звуків без помилок, але пересічна людина намагається (інстинктивно) проспівати текст_як_вона_його_чує, а не просто відтворити послідовність звуків. От і виходить що попало.

На жаль в сфері розпізнавання зображення інженери йдуть по тих самих граблях, не усвідомлюючи тривіальну річ: у людини два ока і вона вчиться розпізнавати образи все життя. Що з цього випливає? По-перше, два ока дають ілюзію тривимірності. Чому ілюзію, а не тривимірність, я писав в цій цікавій задачці. А по-друге, масив даних про різноманітні об'єкти дає можливість розібрати зображення на об'єкти і домислити їх, можливо, виділивши незнайомі об'єкти. Певні програми для розпізнавання, наприклад, штрих-кодів або якихось товарів, роблять майже те саме - намагаються виділити в зображенні об'єкти і співставити їх з базою. Саме так працюють програми для пошуку інформації про товари від Гугля і інших виробників. Але вже керування автомобілем за допомогою автомата на базі виключно візуальної інформації стає надзвичайно складним, поки не задіюються радари. А евристичний аналіз зображень (фотографій) без аналізу змісту зображення взагалі неможливий.

Ехолокація - це простий і ефективний спосіб побудови тривимірної картини світу, винайдений природою ще за часів створення риб. Він дозволяє як виміряти відстань до певного об'єкту, так і розділяти об'єкти самі по собі (це те, що людина не може зробити виключно з візуальним апаратом, і тримірні оптичні ілюзії це чітко доводять). Таким чином справжній машинний аналіз вимагає ехолокації.

І тут ми приходимо до цікавого винаходу: щоб отримати тривимірну фотографію і згодом мати можливість її аналізувати, потрібно не тільки фіксувати зображення, але й проводити паралельне сканування місцевості за допомогою ехо- або радіолокації (ультразвук або лазер), і записувати дані (в ідеалі - для кожного піксела, гірше - для пікселів із перепадом кольору). Причому, ми матимемо набагато простішу технологію, ніж зйомка кількома камерами, до того ж з більшою кількістю даних, придатних для машинної обробки.

Таким чином можна передбачити революцію в фотографії і відеоз'омці як тільки хтось дійде до тої ж ідеї, що і я. Можливо вже в цьому десятилітті.

Upd: як підказують, схожим чином працює Microsoft Kinect, хоча вони виділяють і розпізнають виключно вузький перелік відомих об'єктів (обличчя, кінцівки).