Business School
商学院
手机:13521943680
电话:010-62904558
康奈尔大学博士后课题:基于人类感知的算法
Kavita Bala 通过采用基于物理的方法来研究人类如何感知世界,创造了新一代的 AI。
当您想到计算机时,您可能不会考虑人类感知的现象。毕竟,我们的感觉能力和大脑过程与计算机的逻辑有什么关系?很多,计算机科学的 Kavita Bala 说。对她来说,人类感知的奥秘激发了十多年来在计算机图形学和计算机视觉领域的开创性工作。
Bala 通过专注于基于物理的建模和渲染开始了她的研究。她的工作帮助开创了一种计算机图形学的新方法,该方法从人类视觉感知世界的方式中获得灵感。“在现实世界中,我们到处都有光子弹跳,但我们并没有完全感知到每一个光子,”她说。“我们得到了一种场景的格式塔。我们所感知的是实际复杂性的相当简化的形式。”
结构:准确渲染的关键
Bala 与合作者一起研究和创建模型,以在计算机生成的图像中准确地渲染织物。 Bala 解释说,当研究人员开始他们的工作时,渲染算法只能生成材料在特定场景中可能看起来的近似值——例如,丝绸连衣裙或天鹅绒衬衫的外观。 “他们从来没有完全按照他们应该的样子看,”她说。
Bala 和她的同事问我们如何从天鹅绒中得知丝绸。 “丝绸是闪亮的,天鹅绒是模糊的,具有反射光线的独特方式,”巴拉说。 “这就是我们区分它们的方式。它们看起来那样的原因是因为材料的结构。”
有了这个想法,研究人员对材料进行了微型计算机断层扫描 (micro-CT) 扫描,以获得其结构的微米分辨率细节。“结构是几何信息,而不是光学信息,”巴拉说。“这不仅仅是关于反思;这是关于光与材料形状的相互作用。这是我们的主要贡献,即如果你能很好地捕捉结构,你就可以创建自动生成逼真的材料外观的算法。多年来,我们提出了越来越好的算法来渲染材料,直到最终我们拥有这些材料的华丽模型,看起来就像它们在现实世界中一样。”
GrokStyle:获取图片
基于她对感知的兴趣,Bala 还开始探索计算机视觉——计算机算法知道他们在看什么的能力。她再次将人类感知作为她研究的基础,询问我们如何识别图像中的内容,以及我们如何使用这种识别来理解世界。
Bala 与现在在 Meta(前身为 Facebook Inc.)的 Sean Bell 博士 '16 计算机科学合作,研究了通过发布到 Flickr 和在线设计网站等网站的照片在线展示家具的方式。研究人员很快发现了这些网站上的一个未满足的需求:用户会询问照片中展示了哪些类型的家具。他们想知道自己在哪里可以买到这些作品,但这些信息并不容易获得。
“有人需要超越说'那是一把椅子',”巴拉说。“真正的专业知识是说,'那是一把 Eames 椅子。那是宜家的椅子。这正是我们认为人工智能可以发挥积极作用的地方。”
Bala 和 Bell 开发了神经网络,这些算法的灵感来自大脑中的神经元网络。他们拍摄了数以万计的在线图像——从产品目录照片到在公共社交网站上共享的图像——并将它们展示给他们正在开发的神经网络。
“如果你有足够多的图像,你就能认出它是什么,”巴拉说。“我们训练这些网络进行细粒度识别,它们可以准确识别图像中家具的类型和品牌。”
最终,Bala 和 Bell 将他们网络的专业知识扩展到了时尚领域。最终的结果是由一组算法组成的人工智能 (AI),其性能优于当时最先进的 AI。“我们的准确度至少是次优的两倍,”巴拉说。
Bala 于 2016 年从康奈尔大学休假,并与 Bell 共同创办了一家公司,以销售一种名为 GrokStyle 的家具和时尚人工智能识别产品(来自“grok”,这是罗伯特•海因莱因在 1961 年的小说《陌生土地上的陌生人》中创造的一个词)。他们的成功导致 GrokStyle 被 Meta 收购。今天,基于 GrokStyle 的新一代人工智能——称为 GrokNet——为 Facebook 的电子商务功能 Facebook Marketplace 运行视觉识别。
精确定位时尚模式
尽管 AI 视觉识别在所有条件下仍有一段路要走,但 Bala 和她的团队目前正在开展另一个项目,假设它是万无一失的。他们正在探索这样一个前提的后果,即一个好的识别算法,提供世界上所有的图像,将能够查明数据中的模式。作为第一个测试,他们创建了一种称为 StreetStyle 的算法,该算法可以梳理图像并识别特定地点或一年中特定时间的时尚独特方面。
“我们基本上是在挖掘世界上所有的图像来理解文化现象,这非常令人兴奋。”
“即使你从未去过世界的某个地方,通过分析那里的照片,你也可以了解人们在那个地方的穿着,”巴拉解释道。“我们运行我们的识别算法来寻找来自世界不同地区的标志性服装,我们找到了各种各样的匹配。在开罗,头巾突然出现了。在拉各斯,女性佩戴的传统头饰 gele 非常独特。”
研究人员继续发表了一篇关于称为 GeoStyle 的更高级算法形式的论文。在其中,他们还寻找尖峰、特定物品的突然出现或衣服的颜色。“3 月 17 日突然出现,”巴拉说。“那天美国很多人都穿绿色衣服,因为那天是圣帕特里克节。我们还看到了文化或体育赛事:斯坦利杯、世界杯。这些时候,球迷们要么发布他们的体育英雄的照片,要么像他们一样穿着。我们基本上是在挖掘世界上所有的图像来理解文化现象,这非常令人兴奋。”
检测全球气候和农业趋势
Bala 与康奈尔数字农业研究所的研究人员合作,将最新的算法迭代应用于卫星图像,以检测全球气候变化和作物健康趋势等信息。
“预测是我们的目标之一,”她说。“如果我们在一个地方看到时移的趋势,并且我们开始在另一个地方看到相同趋势的开始,我们也许能够预测这种现象将走向何方。网上发布了大量关于我们的星球和我们生活的视觉数据。通过分析,我们可以了解很多关于我们是谁以及我们星球的状况。”