Bing

Microsoft Research tworzy system zdolny do automatycznego generowania „inteligentnych” napisów

Spisu treści:

Anonim

Z pewnością spotkałeś się z podpisem, który jest mylący, błędny lub niewiele mówi o obrazie, do którego się odnosi; i jest nawet możliwe, że jeśli poświęcisz się publikowaniu własnych artykułów, wypełnienie tej sekcji okaże się najbardziej nudne. Cóż, ludzie z Redmond stworzyli narzędzie, które ma Ci to ułatwić.

Praca opublikowana przez Microsoft Research, która opisuje się jako „system generowania napisów” zdolny do naśladowania cech narracyjnych ludzkiego języka, czyli technologia, która może opisywać zrzuty ekranu tak, jakby dotyczyły jednego z nas, z odpowiednim kontekstem.Coś, nad czym firmy takie jak Facebook, Microsoft i Google pracują od jakiegoś czasu, ale tym razem przekracza to oczekiwania.

Z czego to się składa

Świetnie się bawił

W ten sposób system ma możliwość nawet opowiedzenia pełnej historii z kilku obrazów, opisywania jej i opowiadania tak, jakby to była książka. Narzędzie, które według ekspertów może stać się funkcją zapewniającą bardziej ludzki wygląd niektórym aplikacjom, aplikacjom do rozpoznawania głosu, automatycznemu generowaniu opisów w innych obszarach i wielu innym.

A faktem jest, że narzędzie nie ogranicza się do krótkiego mówienia, co „widzi”, ale zapewnia szerszy kontekstu sytuacji, który znajduje odzwierciedlenie w obrazie, osiągając „kontekst narracyjny i niepowtarzalny styl narracji” – wyjaśnia Frank Ferraro, jeden z autorów tej pracy.Aby postawić się w sytuacji, podaje nam wyraźny przykład

Jego matka była z niego dumna

Dlatego proponujemy następujący przypadek: „Wyobraźmy sobie, że mamy album ze zdjęciami przyjaciół, którzy obchodzili urodziny w Pub. Niektóre z pierwszych zdjęć przedstawiają ludzi zamawiających piwo i je pijących, a na ostatnich kogoś śpiącego na sofie” – komentuje.

Konwencjonalny system „może po prostu wskazywać na osobę leżącą na sofie, podczas gdy nasz system może wskazywać, że osoba ta prawdopodobnie znajduje się w takiej sytuacji, ponieważ jest pijana po wypiciu kilku drinków” . Dodatek, który zapewnia zrozumienie i pewien ładunek emocjonalny, który jest również odzwierciedlony w obrazach i podpisach zdjęć zawartych w tym artykule.

Przez | Przegląd technologii MIT

W Xataka Windows | Microsoft uruchamia aplikację, która określa rasę Twojego psa

Bing

Wybór redaktorów

Back to top button