计算机视觉 - 人工智能与信息技术研究中心

计算机视觉（Computer Vision）是人工智能领域的一个重要分支。它的目的是：看懂图片里的内容。

本文将介绍计算机视觉的基本概念、实现原理、8 个任务和 4 个生活中常见的应用场景。

计算机视觉为什么重要？

人的大脑皮层，有差不多 70% 都是在处理视觉信息。是人类获取信息最主要的渠道，没有之一。

在网络世界，照片和视频（图像的集合）也正在发生爆炸式的增长！

下图是网络上新增数据的占比趋势图。灰色是结构化数据，蓝色是非结构化数据（大部分都是图像和视频）。可以很明显的发现，图片和视频正在以指数级的速度在增长。

而在计算机视觉出现之前，图像对于计算机来说是黑盒的状态。

一张图片对于机器只是一个文件。机器并不知道图片里的内容到底是什么，只知道这张图片是什么尺寸，多少MB，什么格式的。

如果计算机、人工智能想要在现实世界发挥重要作用，就必须看懂图片！这就是计算机视觉要解决的问题。

什么是计算机视觉 – CV？

计算机视觉是人工智能的一个重要分支，它要解决的问题就是：看懂图像里的内容。

比如：

图片里的宠物是猫还是狗？
图片里的人是老张还是老王？
这张照片里，桌子上放了哪些物品？

计算机视觉的原理是什么？

目前主流的基于深度学习的机器视觉方法，其原理跟人类大脑工作的原理比较相似。

人类的视觉原理如下：从原始信号摄入开始（瞳孔摄入像素 Pixels），接着做初步处理（大脑皮层某些细胞发现边缘和方向），然后抽象（大脑判定，眼前的物体的形状，是圆形的），然后进一步抽象（大脑进一步判定该物体是只气球）。

https://googleads.g.doubleclick.net/pagead/ads?client=ca-pub-5719288141555693&output=html&h=280&adk=1415798375&adf=4166720225&pi=t.aa~a.487087031~i.45~rp.4&w=732&fwrn=4&fwrnh=100&lmt=1689199040&num_ads=1&rafmt=1&armr=3&sem=mc&pwprc=6509900997&ad_type=text_image&format=732×280&url=https%3A%2F%2Feasyai.tech%2Fai-definition%2Fcomputer-vision%2F&host=ca-host-pub-2644536267352236&fwr=0&pra=3&rh=183&rw=731&rpe=1&resp_fmts=3&wgl=1&fa=27&uach=WyJXaW5kb3dzIiwiMTAuMC4wIiwieDg2IiwiIiwiMTE0LjAuMTgyMy42NyIsW10sMCxudWxsLCI2NCIsW1siTm90LkEvQnJhbmQiLCI4LjAuMC4wIl0sWyJDaHJvbWl1bSIsIjExNC4wLjU3MzUuMjAxIl0sWyJNaWNyb3NvZnQgRWRnZSIsIjExNC4wLjE4MjMuNjciXV0sMF0.&dt=1689210507326&bpp=2&bdt=1940&idt=2&shv=r20230711&mjsv=m202307060101&ptt=9&saldr=aa&abxe=1&cookie=ID%3D1424df0895b62856-22e66da7a7e200c8%3AT%3D1689210506%3ART%3D1689210506%3AS%3DALNI_MajvuCwvLvD_0Yp9m54gtCSNLNgvw&gpic=UID%3D00000c20487607f7%3AT%3D1689210506%3ART%3D1689210506%3AS%3DALNI_Mb_8UcDi5veM4lEhO79CkZ8XrbdNQ&prev_fmts=0x0&nras=2&correlator=6079564842092&frm=20&pv=1&ga_vid=1137281576.1689210506&ga_sid=1689210507&ga_hid=1785100283&ga_fc=1&u_tz=480&u_his=1&u_h=1080&u_w=1920&u_ah=1040&u_aw=1920&u_cd=24&u_sd=1&dmc=8&adx=768&ady=4529&biw=1850&bih=969&scr_x=0&scr_y=727&eid=44759926%2C44759842%2C44759875%2C31075757%2C44788441%2C21065725&oid=2&pvsid=3784554358923216&tmod=2054673499&wsm=1&uas=0&nvt=1&ref=https%3A%2F%2Fcn.bing.com%2F&fc=1408&brdim=0%2C0%2C0%2C0%2C1920%2C0%2C1920%2C1040%2C1865%2C969&vis=1&rsz=%7C%7Cs%7C&abl=NS&fu=128&bc=31&ifi=2&uci=a!2&btvi=1&fsb=1&xpc=G5YNc3qojC&p=https%3A//easyai.tech&dtd=13

机器的方法也是类似：构造多层的神经网络，较低层的识别初级的图像特征，若干底层特征组成更上一层特征，最终通过多个层级的组合，最终在顶层做出分类。