機器視覺與AI的機會
近年來,傳統(tǒng)科技公司和新創(chuàng)公司競相將機器視覺與人工智能/機器學(xué)習(xí)結(jié)合,使其能夠超越傳感器像素數(shù)據(jù),從而在各種應(yīng)用中開創(chuàng)新的機會。這一結(jié)合的潛力巨大,相關(guān)的新創(chuàng)公司在交通運輸、制造業(yè)、醫(yī)療保健和零售等各個市場中籌集了數(shù)十億美元的資金。然而,要充分實現(xiàn)其潛力,這項技術(shù)需要應(yīng)對許多挑戰(zhàn),包括提高性能和安全性,以及設(shè)計靈活性。
從根本上講,機器視覺系統(tǒng)是軟件和硬件的結(jié)合,可以以數(shù)字像素的形式捕捉和處理信息。這些系統(tǒng)可以分析圖像,并根據(jù)其編程和訓(xùn)練來采取相應(yīng)的行動。典型的視覺系統(tǒng)包括圖像傳感器(攝像頭和鏡頭)、圖像和視覺處理組件(視覺算法)以及SoCs(片上系統(tǒng))和網(wǎng)絡(luò)/通信組件。
無論是靜態(tài)圖像還是視頻數(shù)字相機,都包含圖像傳感器。汽車感測器(如激光雷達(dá)、雷達(dá)、超聲波)也能以數(shù)字像素形式提供圖像,盡管分辨率可能不同。盡管大多數(shù)人對這些類型的圖像都很熟悉,但機器也能夠“看見”熱和音頻信號數(shù)據(jù),并分析這些數(shù)據(jù)以創(chuàng)建多維圖像。
Synopsys公司的戰(zhàn)略市場經(jīng)理Ron Lowman表示:“在過去幾年中,CMOS圖像傳感器取得了顯著的改進(jìn)。傳感器的帶寬不再優(yōu)化用于人類視覺,而是用于提供人工智能的價值。例如,主導(dǎo)視覺傳感器接口的MIPI CSI不僅提高了帶寬,還增加了智能ROI(Region of Interest)和更高的顏色深度等人工智能功能。雖然這些顏色深度增加對人眼來說無法察覺,但對于機器視覺來說,它可以大大提高服務(wù)的價值。”
機器視覺系統(tǒng)由軟件和硬件組成,其中關(guān)鍵的組件是圖像傳感器。在過去幾年中,CMOS圖像傳感器取得了顯著的改進(jìn),這使得傳感器的帶寬不再僅僅優(yōu)化于人類視覺,而是為了提供人工智能的價值。MIPI CSI作為主要的視覺傳感器接口,不僅增加了帶寬,還增加了智能ROI(Smart Region of Interest)和更高的顏色深度等人工智能功能。雖然這些顏色深度的增加對人眼而言無法察覺,但對于機器視覺來說,它可以大大提高服務(wù)的價值。
除了圖像傳感器外,機器視覺系統(tǒng)還包括圖像和視覺處理組件以及片上系統(tǒng)和網(wǎng)絡(luò)/通信組件。這些組件協(xié)同工作,使機器能夠理解和解釋圖像數(shù)據(jù)。圖像和視覺處理組件包括視覺算法,它們能夠分析圖像并根據(jù)其訓(xùn)練和編程進(jìn)行相應(yīng)的處理。此外,片上系統(tǒng)和網(wǎng)絡(luò)/通信組件則負(fù)責(zé)數(shù)據(jù)處理和傳輸,以實現(xiàn)機器視覺系統(tǒng)的功能。
圖 1:機器視覺系統(tǒng)包括用于執(zhí)行圖像處理和分析的硬件、軟件和芯片。 AI 通常是解決方案的一部分,并且 MV 通常連接到云。 來源:Arcturus 網(wǎng)絡(luò)
機器視覺是計算機視覺的一個子集,兩者在很大程度上依賴于對圖像數(shù)據(jù)的觀察來推斷信息。然而,機器視覺更加強調(diào)在工業(yè)或工廠環(huán)境中的“檢測類型”應(yīng)用。Cadence公司的Tensilica Vision and AI DSPs的產(chǎn)品管理、市場營銷和業(yè)務(wù)拓展總監(jiān)Amol Borkar指出,機器視覺在感測方面高度依賴攝像頭。然而,“攝像頭”這個詞是個負(fù)面詞,因為我們通常熟悉的是一個能夠產(chǎn)生RGB圖像并在可見光譜范圍內(nèi)運作的圖像傳感器。不過,根據(jù)應(yīng)用的不同,這些傳感器可以在紅外線下運作,包括短波、中波、長波紅外線或熱成像等多種變體。最近還引入了對運動非常敏感的事件相機。在裝配線上,線掃描相機是與典型的快門相機略有不同的一種變體。當(dāng)前的汽車、監(jiān)控和醫(yī)療等大多數(shù)應(yīng)用都依賴于這些傳感器中的一個或多個,通常結(jié)合使用以實現(xiàn)比單個攝像頭或傳感器更好的感測融合結(jié)果。
機器視覺相較于人類有著更出色的視覺能力,這使得機器視覺在制造業(yè)中能夠提高生產(chǎn)力和品質(zhì),降低生產(chǎn)成本。與自動駕駛輔助系統(tǒng)(ADAS)結(jié)合使用時,機器視覺能夠接管部分駕駛功能。此外,搭配人工智能,機器視覺能夠協(xié)助分析醫(yī)學(xué)影像。
應(yīng)用機器視覺的好處包括更高的可靠性和一致性,以及更大的精確度和準(zhǔn)確度(取決于攝像頭的分辨率)。而且,與人類不同,機器在獲得例行維護(hù)的前提下不會感到疲勞。視覺系統(tǒng)的數(shù)據(jù)可以在本地或云端存儲,需要時進(jìn)行實時分析。
此外,機器視覺通過檢測和篩選出有缺陷的零件,降低生產(chǎn)成本。同時,通過OCR(光學(xué)字符識別)和條碼掃描讀取,提高了庫存控制的效率,從而降低整體制造成本。
如今,機器視覺通常與人工智能結(jié)合使用,大大增強了數(shù)據(jù)分析的能力。在現(xiàn)代工廠中,自動化設(shè)備,包括機器人,與機器視覺和人工智能結(jié)合,以提高生產(chǎn)力。
機器視覺(MV)和人工智能(AI)是密切相關(guān)的領(lǐng)域,它們通常以各種方式進(jìn)行交互。機器視覺利用攝像頭、傳感器和其他設(shè)備捕捉圖像或其他附加數(shù)據(jù),然后將其進(jìn)行處理和分析,以提取有用的信息,而人工智能則使用算法和統(tǒng)計模型來識別模式并基于大量數(shù)據(jù)進(jìn)行預(yù)測。
這還可以包括深度學(xué)習(xí)技術(shù)。Arteris IP公司的產(chǎn)品市場副總裁Andy Nightingale表示:“深度學(xué)習(xí)是人工智能的一個子集,它涉及使用大量數(shù)據(jù)對復(fù)雜的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以識別模式并進(jìn)行預(yù)測。”機器視覺系統(tǒng)可以使用深度學(xué)習(xí)算法來提高其在圖像或視頻中檢測和分類對象的能力。機器視覺和人工智能之間的另一種交互方式是通過使用計算機視覺算法。計算機視覺是機器視覺的一個超集,它使用算法和技術(shù)從圖像和視頻中提取信息。人工智能算法可以分析這些信息并預(yù)測場景中正在發(fā)生的事情。例如,計算機視覺系統(tǒng)可以使用人工智能算法分析交通模式并預(yù)測何時某個十字路口可能會擁堵。機器視覺和人工智能還可以在自主系統(tǒng)(如自動駕駛汽車或無人機)中進(jìn)行交互。在這些應(yīng)用中,機器視覺系統(tǒng)用于捕捉和處理來自傳感器的數(shù)據(jù),而人工智能算法則解釋這些數(shù)據(jù)并對環(huán)境進(jìn)行導(dǎo)航等決策。
人工智能在現(xiàn)代車輛中扮演著越來越多的角色,但其中兩個主要的角色是感知和決策制定。
Siemens Digital Industries Software公司的混合和虛擬系統(tǒng)副總裁David Fritz表示:“感知是通過車輛內(nèi)部和外部的感測器陣列來理解周圍環(huán)境的過程。決策制定首先需要理解周圍環(huán)境的狀態(tài)和目標(biāo),例如向目的地移動。然后,人工智能根據(jù)控制方向盤、制動、加速等車輛內(nèi)部致動器的方式來決定安全、有效的路線。”這兩個關(guān)鍵角色涉及到非常不同的問題。從攝像頭或其他感測器獲得的原始數(shù)據(jù),AI算法將使用這些數(shù)據(jù)進(jìn)行目標(biāo)檢測。一旦檢測到目標(biāo),感知系統(tǒng)將對目標(biāo)進(jìn)行分類,例如該目標(biāo)是否是汽車、人或動物。訓(xùn)練過程非常冗長,需要大量的訓(xùn)練集來展示不同角度的目標(biāo)。在訓(xùn)練完成后,AI網(wǎng)絡(luò)可以加載到數(shù)字孿生體或?qū)嶓w車輛中。一旦檢測到并分類了目標(biāo),另一個訓(xùn)練有素的AI網(wǎng)絡(luò)可以進(jìn)行決策,控制方向盤、制動和加速等。使用高保真度的數(shù)字孿生體來虛擬驗證這個過程已被證明比純粹使用實地測試更安全、更有效。
開發(fā)人員經(jīng)常問到需要多少AI/ML。在現(xiàn)代工廠的情況下,機器視覺可以僅用于在裝配線上檢測和篩選出有缺陷的零件,或者用于組裝汽車等工序。后者需要更高級的智能和更復(fù)雜的設(shè)計,以確保裝配過程中的時機、精確度、運動和距離的計算等。
Flex Logix公司的執(zhí)行官Geoff Tate觀察到:“機器視覺和機器人在現(xiàn)代工廠中提高了生產(chǎn)力,許多應(yīng)用中使用了人工智能。一個簡單的
應(yīng)用,例如檢測標(biāo)簽是否正確貼上,不需要太多智能。另一方面,進(jìn)行復(fù)雜、精密的三維運動的機器人手臂需要更多的GPU算力。在第一個應(yīng)用中,一個AI IP的核心將足夠,而在第二個應(yīng)用中可能需要多個核心。擁有靈活且可擴展的AI IP將使機器視覺和機器人的設(shè)計更加容易。
機器視覺的應(yīng)用幾乎沒有限制,只受想象力的限制。只要需要視覺和圖像處理的工業(yè)和商業(yè)領(lǐng)域,機器視覺都可以應(yīng)用其中。以下是部分應(yīng)用領(lǐng)域的例子:
交通領(lǐng)域(自動駕駛、車內(nèi)監(jiān)控、交通流量分析、違規(guī)行為和事故檢測);
制造和自動化領(lǐng)域(生產(chǎn)力分析、質(zhì)量管理);
監(jiān)控領(lǐng)域(運動和入侵檢測);
醫(yī)療領(lǐng)域(影像學(xué)、癌癥和腫瘤檢測、細(xì)胞分類);
農(nóng)業(yè)領(lǐng)域(農(nóng)場自動化、植物病害和昆蟲檢測);
零售領(lǐng)域(顧客追蹤、貨架缺貨檢測、盜竊檢測);
保險領(lǐng)域(通過圖像進(jìn)行事故現(xiàn)場分析)。
還有許多其他應(yīng)用。以飲用水或軟飲料瓶裝為例。機器視覺系統(tǒng)可以用于檢查填充水平,這通常由高效的機器人完成。但是機器人偶爾會犯錯。機器視覺可以確保填充水平一致,并確保標(biāo)簽正確貼上。
檢測任何偏離測量規(guī)范限制的機器零部件也是機器視覺的一項工作。一旦機器視覺根據(jù)規(guī)范進(jìn)行了訓(xùn)練,它可以檢測出超出規(guī)范限制的零部件。
機器視覺可以檢測均勻的形狀,如正方形或圓形,以及奇形怪狀的零部件,因此它可以用于識別、檢測、測量、計數(shù),并與機器人一起進(jìn)行抓取和放置。
最后,通過結(jié)合人工智能,機器視覺可以實現(xiàn)輪胎組裝的精確和高效。如今,原始設(shè)備制造商(OEM)使用機器人自動化車輛組裝的過程之一是安裝四個輪胎。利用機器視覺,機器人手臂可以檢測正確的距離,并施加適當(dāng)?shù)膲毫?,以防止任何損壞的發(fā)生。
機器視覺技術(shù)根據(jù)處理的圖像維度可以分為一維(1D)、二維(2D)和三維(3D)。這些不同的類型在應(yīng)用中具有各自的特點和優(yōu)勢。
一維機器視覺系統(tǒng)主要用于條形碼和二維碼的識別和讀取。它們通常使用掃描設(shè)備,按行掃描產(chǎn)品上的條形碼或二維碼,并從中提取信息。這種技術(shù)被廣泛應(yīng)用于零售行業(yè)、物流和運輸領(lǐng)域,以實現(xiàn)快速且準(zhǔn)確的產(chǎn)品識別和追蹤。
二維機器視覺系統(tǒng)可以用于更復(fù)雜的圖像處理任務(wù)。它們使用攝像頭逐行掃描物體,形成一個區(qū)域或二維圖像。這種技術(shù)可以應(yīng)用于圖像分類、目標(biāo)檢測、人臉識別等各種任務(wù)。在工業(yè)自動化中,二維機器視覺系統(tǒng)可以用于檢測和驗證產(chǎn)品的外觀特征,確保產(chǎn)品符合設(shè)計和質(zhì)量要求。
三維機器視覺系統(tǒng)通常使用多個攝像頭或激光傳感器來捕捉物體的三維形狀和結(jié)構(gòu)。這種技術(shù)可以實現(xiàn)對物體的精確定位和測量,對于需要進(jìn)行三維分析和處理的應(yīng)用非常重要。例如,在機器人導(dǎo)航和自動化領(lǐng)域,三維機器視覺系統(tǒng)可以用于對環(huán)境進(jìn)行三維建模和障礙物檢測,實現(xiàn)更精確和安全的運動控制。
除了以上提到的類型,還有其他形式的機器視覺技術(shù),如超光譜影像和熱像儀等。超光譜影像可以捕捉物體的不同光譜特征,擁有更豐富的信息,廣泛應(yīng)用于農(nóng)業(yè)、食品安全和醫(yī)療診斷等領(lǐng)域。熱像儀則可以檢測物體的熱能分布,用于溫度監(jiān)測、火災(zāi)檢測等應(yīng)用。
每種機器視覺類型都有其特定的應(yīng)用場景和優(yōu)勢。根據(jù)不同的需求,選擇適合的機器視覺類型可以提高系統(tǒng)的性能和效果,實現(xiàn)更準(zhǔn)確、高效和可靠的圖像處理和分析。
訓(xùn)練機器視覺系統(tǒng)仍然存在一些挑戰(zhàn)。MV的準(zhǔn)確性和性能取決于其訓(xùn)練程度,因此需要大量的標(biāo)注數(shù)據(jù)和強大的計算能力。MV設(shè)計所面臨的挑戰(zhàn)包括:
首先,檢測的范圍可能涵蓋方位、表面變化、污染程度以及直徑、厚度和間隙等精度容限。當(dāng)檢測到化妝品和服務(wù)變化效應(yīng)時,3D系統(tǒng)通常比1D或2D系統(tǒng)表現(xiàn)更好。然而,在遇到不尋常的情況時,人類可以借助其他領(lǐng)域的知識,而機器視覺和人工智能可能無法具備這種能力。
其次,數(shù)據(jù)流管理和控制是當(dāng)今的關(guān)鍵挑戰(zhàn)之一,特別是在具有實時延遲要求(例如汽車應(yīng)用)的情況下,同時需要保持帶寬的最小化。在基于攝像頭的系統(tǒng)中,圖像質(zhì)量(IQ)至關(guān)重要。這要求硬件設(shè)計支持超寬動態(tài)范圍和局部色調(diào)映射,同時還需要進(jìn)行IQ調(diào)整,傳統(tǒng)上需要由人類專家進(jìn)行主觀評估,使得開發(fā)過程冗長且成本高昂。然而,對于機器視覺而言,這種專業(yè)知識可能不一定能獲得良好系統(tǒng)性能,因為感知引擎可能會根據(jù)任務(wù)的不同而更喜歡以不同于人類和其他機器之間的方式看待圖像。
此外,確保機器視覺的安全性也是一個重要問題。隨著網(wǎng)絡(luò)攻擊不斷增加,確保產(chǎn)能不受干擾或遭受來自威脅行為者的干擾至關(guān)重要。尤其在關(guān)鍵應(yīng)用中,如自動駕駛等,保證機器視覺的安全性至關(guān)重要。
"安全對于確保機器視覺技術(shù)的輸出不受破壞至關(guān)重要," Arm的Zyazin表示。"汽車應(yīng)用是展示硬件和軟件安全性重要性的一個很好的例子。例如,從機器中處理和提取的信息會影響到制動或車道保持輔助等決策,如果處理不當(dāng),可能對車輛內(nèi)部的乘客構(gòu)成風(fēng)險。"
總結(jié)來說,訓(xùn)練機器視覺系統(tǒng)的過程面臨著一些挑戰(zhàn)。為了提高準(zhǔn)確性和性能,需要豐富的標(biāo)注數(shù)據(jù)和強大的計算能力。同時,確保機器視覺的安全性也是一個重要問題,特別是在關(guān)鍵應(yīng)用如自動駕駛中。這些挑戰(zhàn)需要在系統(tǒng)設(shè)計和實施中得到充分考慮,以實現(xiàn)可靠和高效的機器視覺應(yīng)用。
新興的機器視覺(MV)創(chuàng)業(yè)公司和創(chuàng)新技術(shù)正推動著機器視覺的應(yīng)用和發(fā)展。像是Airobotics、Arcturus Networks、Deep Vision AI、Hawk-Eye Innovations、Instrumental、lending AI、kinara、Mech-Mind、Megvii、NAUTO、SenseTime、Tractable、ViSenze、Viso等公司,正在開發(fā)新的機器視覺解決方案,其中一些已成功籌集了超過10億美元的資金。
在運輸領(lǐng)域,保險公司可以利用機器視覺來分析事故場景的照片和視頻,進(jìn)行財務(wù)損害評估。基于人工智能的機器視覺還可以用于安全平臺,分析駕駛行為,提升道路安全性。
在軟件領(lǐng)域,創(chuàng)業(yè)公司正在開發(fā)無需編程知識的計算機視覺平臺,使更多人能夠使用機器視覺技術(shù)。機器視覺身份驗證軟件也是市場上的一個創(chuàng)新解決方案。
體育產(chǎn)業(yè)也在探索人工智能、視覺和數(shù)據(jù)分析的潛力,以向教練提供有關(guān)選手在比賽中的決策過程的洞察。此外,有一家創(chuàng)業(yè)公司通過將人工智能和機器視覺結(jié)合到無人機設(shè)計中,提出了一種節(jié)省成本的監(jiān)視方案。
機器視覺和人工智能都在快速發(fā)展,其性能,包括準(zhǔn)確度和精確度,不斷提高。高性能GPU和機器學(xué)習(xí)能力的成本也有望降低,推動新的機器視覺應(yīng)用的應(yīng)用。
Arteris公司的Nightingale表示,隨著硬件(如傳感器、攝像頭和處理器)的進(jìn)步以及算法和機器學(xué)習(xí)模型的改進(jìn),機器視覺系統(tǒng)的準(zhǔn)確性和速度將得到進(jìn)一步提高。深度學(xué)習(xí)算法尤其在近年來推動機器視覺技術(shù)的進(jìn)步方面發(fā)揮了重要作用,并有望在未來扮演更重要的角色。這些算法能夠自動學(xué)習(xí)數(shù)據(jù)的特征和模式,從而提高準(zhǔn)確性和性能。機器視覺系統(tǒng)將具有更強大的能力,能夠快速而準(zhǔn)確地處理和分析大量的數(shù)據(jù),從而開展更為復(fù)雜和
智能的應(yīng)用。
此外,預(yù)計機器視覺和人工智能將與其他技術(shù)相結(jié)合,提供更多高性能、實時的應(yīng)用。
Nightingale指出,機器視覺技術(shù)已經(jīng)與機器人技術(shù)和自動化等其他技術(shù)整合,這一趨勢有望持續(xù)發(fā)展,我們可能會看到更多機器視覺在醫(yī)療保健、交通和安全等領(lǐng)域的應(yīng)用。此外,對于需要實時處理的應(yīng)用,機器視覺技術(shù)已經(jīng)被廣泛應(yīng)用,例如人臉識別和物體追蹤。未來,我們可能會看到更多需要實時處理的應(yīng)用,例如自動駕駛汽車和無人機。
機器視覺(MV)的設(shè)計涉及芯片(處理器、存儲器、安全芯片)、IP核、模塊、固件、硬件和軟件的結(jié)合。芯片組件和多芯片封裝的推出將使這些系統(tǒng)能夠更容易、更快速地進(jìn)行組合,添加新功能,提高系統(tǒng)的整體效率和能力。
Winbond的DRAM經(jīng)理Tetsu Ho表示:“已知良好晶片(KGD)解決方案可以提供成本和空間效率高于有限接觸點和線材的封裝產(chǎn)品的替代方案。”這有助于提高設(shè)計效率,提供增強的硬件安全性能,特別是產(chǎn)品上市的時間。這些晶片經(jīng)過熱激測試,測試程度與離散部件相同。 需要KGD 2.0來確保2.5D/3D組件和2.5D/3D多芯片設(shè)備的末端良率,以實現(xiàn)帶寬性能、功耗效率和面積等PPA的改進(jìn),這是由邊緣計算和人工智能等技術(shù)爆炸所推動的迷你化趨勢。
這將為機器視覺在新舊市場中開拓新的選擇。它將用于在自動駕駛中協(xié)助人類,幫助機器在制造業(yè)中實現(xiàn)精確高效,并通過無人機進(jìn)行監(jiān)控。 此外,機器視覺將能夠探索對人類而言危險的地方,并為保險、體育、交通、國防、醫(yī)療等眾多領(lǐng)域提供數(shù)據(jù)輸入和分析。
隨著技術(shù)的不斷發(fā)展和應(yīng)用的擴大,機器視覺將繼續(xù)成為推動自動化、智能化和數(shù)字化革新的關(guān)鍵技術(shù)之一。機器視覺系統(tǒng)的進(jìn)一步提升和創(chuàng)新將為我們的生活和工作帶來更多的便利和效益。無論是在工業(yè)生產(chǎn)、醫(yī)療保健、交通運輸還是其他領(lǐng)域,機器視覺的應(yīng)用都將繼續(xù)拓展,為未來的科技發(fā)展帶來更多的可能性。