2015年12月,谷歌發(fā)布了其云視覺API,來執(zhí)行這些任務(wù),如:識別人臉、標(biāo)志和文字,探測物體并了解其環(huán)境的使用。一些客戶都對這些功用感到十分振奮,在市場上其它企業(yè)也正在尋覓類似的一種服務(wù),為使其習(xí)慣其事務(wù)模式。
機(jī)器為什么需求視覺呢?視覺是主要的感官。機(jī)器要可以了解人類,提供他們所需的支持,那么它們有必要可以在視覺領(lǐng)域進(jìn)行觀察和體現(xiàn)。這可能是一個小攝像頭的方法,可以幫助盲人去“看”和感受盤繞他們周圍的國際。或者是一個家庭監(jiān)控體系,該體系可以正確識別一群漂泊貓之間的差異,或者移動樹枝,和一個防盜的方法。
在曩昔的一年中,圍繞著人工智能的嗡嗡聲,一直在十分微弱的增加。咱們還從來沒有如此接近的觀察到這個技能的好處。2016年,將會看到新式的人工智能的供電設(shè)備,因?yàn)樵蹅儗τ谌斯ぶ悄埽媾R的最困難的挑戰(zhàn)之一,已經(jīng)取得了進(jìn)展:讓咱們的設(shè)備,可以了解它們所看到的。
在咱們的日常生活中,由于設(shè)備逐步成為咱們不可分割的一部分,咱們已經(jīng)看到假如沒有足夠的視覺才能,越來越多的使用程序?qū)⒆呦蚴。渲邪罩袩o人機(jī)碰撞和機(jī)器人吸塵器“吃”了它們本不應(yīng)該吃的東西。
機(jī)器視覺是人工智能正在快速開展的一個分支,旨在賦予機(jī)器可媲美人類的視覺。跟著研究人員使用專門的神經(jīng)網(wǎng)絡(luò)來幫助機(jī)器識別和了解實(shí)際國際的圖畫,機(jī)器視覺在曩昔幾年取得了巨大的前進(jìn)。現(xiàn)在的計(jì)算機(jī)在視覺識別上可以做到各種各樣的工作,從識別網(wǎng)絡(luò)上的貓到在諸多的照片中識別特定的面孔。不過,該類技能還有很長的路要走。今天,咱們看到機(jī)器視覺可以離開數(shù)據(jù)中心,并適用于全部從自主無人機(jī)到機(jī)器人身上,可以收拾咱們的食物。
為了更好的了解機(jī)器視覺,一個常見的類比,機(jī)器人視覺與人類自己的視覺,就好比天空中飛行的鳥類與飛機(jī)。兩者終究都將依賴于基礎(chǔ)物理學(xué)(如伯努利原理),來幫助它們飛入到高空中,可是,這并不意味著飛機(jī)將要搖動它的翅膀進(jìn)行翱翔。僅僅因?yàn)槿伺c機(jī)器可能會看到同樣的東西,并且對這些圖畫進(jìn)行解說的方法,甚至可能有必定的共性,最后的結(jié)果依然可能是具有很大的不同。
雖然基本的圖畫分類已經(jīng)變得愈加簡單,可是,當(dāng)它涉及到從抽象的場景中提取含義和信息時(shí),機(jī)器人就面臨著一系列新的問題。幻覺就是一個很好的例子,機(jī)器人視覺依然還有很長的路要走。
舉例來說,當(dāng)人看到兩張面臨面的臉的輪廓圖畫時(shí),他們看到的不僅僅是抽象的形狀。他們的大腦會進(jìn)行進(jìn)一步的解讀,讓他們可以識別圖畫的多個部分,看到兩張臉,又或者看到一個花瓶。但對于機(jī)器來說,這樣的圖畫是十分難以了解的。基本的分類器分辯不了兩張臉和花瓶,它看到的會是諸如短柄斧、吊鉤、避彈衣甚至吉他的物體。該體系并不能斷定那些物體是在該圖畫傍邊,這說明這類圖畫的識別對于機(jī)器而言極具挑戰(zhàn)性。
假如咱們看到一些更復(fù)雜的東西,這個問題甚至?xí)兊糜永щy,比如BeverlyDoolittle(富康杜利特爾)的一幅畫,雖然看到這個圖的每個人,可能不可以發(fā)現(xiàn),其實(shí)每個人的臉都在這塊畫布上,他們幾乎立即看到,比映入他們眼皮更多的圖片。另外,正如復(fù)雜的圖畫,實(shí)際國際也十分凌亂。在傍邊正常飛行可不是光開發(fā)算法分析數(shù)據(jù)就可以實(shí)現(xiàn)的,它需求對真實(shí)場景有清楚的了解,進(jìn)而可以相應(yīng)作出行動。