编程技术网

关注微信公众号,定时推送前沿、专业、深度的编程技术资料。

 找回密码
 立即注册

QQ登录

只需一步,快速开始

极客时间

吴恩达采访 Pieter Abbeel(五)

王智和 人工智能 2021-12-9 22:39 131人围观

腾讯云服务器

吴恩达采访 Pieter Abbeel

吴恩达:谢谢你,Pieter,能够来到这(字幕来源:网易云课堂),很多人都认为你是一位有名的机器学习,深度学习,机器人技术的研究者,我想让更多人知道你的故事,你是怎么开始的呢。

Pieter Abbeel:这是个好问题,要是你问14岁的我,我的志向在什么,可能就不会是现在的答案,那时候我想当职业篮球运动员,我不认为我能做到。

吴恩达:机器学习侥幸做成了,篮球应该没戏。

Pieter Abbeel:是的,没戏,打篮球很好玩,但是变成职业不太行,在学校我最喜欢物理和数学,所以之后学工程就比较自然,也就是实际应用物理和数学,之后,我本科毕业于电子工程后,我不太确定做啥,因为工程相关的一切都太有趣了,去懂得一个东西如何运作很有趣,建一个东西也是某种意义上,AI赢了,因为看起来它在某种程度能帮助所有学科,并且它看起来是一切东西的核心,你会思考一个机器怎么思考的,那可能是一切的核心,也就不用选某个特定的学科。

吴恩达:我一直在说AI是新的电力,听起来14岁时的你,已经有很超前的意识,过去几年你在深度增强学习中贡献很大,现在情况如何,为什么深度增强学习突然变得重要。

Pieter Abbeel:在我研究它之前,我研究了很多增强学习,与你和Durant在斯坦福的时候, 当然了,我们做了自主直升机飞行,后来去伯克利和我的学生们,做了个会叠衣服的机器人。可以说是用组合的学习方式来描述,做成一些不学习就无法做成的事,也结合了领域知识才能完成,这很有趣,因为你需要领域知识,想办法学到很好玩,但同时每次想做成新的应用都会很耗时,需要领域知识和机器学习知识,在2012年,通过Geoff Hinton多伦多小组对ImageNet的研究结果突破AlexNet证明监督学习,突然之间大大减少了工程量,AlexNet中所用的工程量非常之小,让我开始思考,我们该用类似观点回顾增强学习,看我们能否用增强学习做与监督学习同样有趣的事。

吴恩达:听起来你早于,大多数人前,发现深度监督学习的潜力,展望未来,你看到下一件事是什么,你对下一阶段有什么样的预测在深度增强学习中。

Pieter Abbeel:我认为深度增强学习有趣在于,某种程度上比监督学习有更多的问题,在监督学习中问题在于输入,输出,映射;在增强学习中是数据是从何而来的,就是探索问题本身,当你有数据之后,你怎么做信用赋值,你怎样理解早期做什么,才能之后受益以及安全问题,当你有自主收集数据的系统后,在很多情况下其实很危险,想象一家自驾车公司说,我们只会用深度增强学习来运行车辆,听着就像会有很多事故,在真正起作用之前。

吴恩达:你需要反面例子,对吧。

Pieter Abbeel:是需要反面例子,希望也有正面的,我觉得深度增强学习还有很多挑战,

在解决特定问题时及如何做成功,深邃的部分在于表达,增强学习本身还有很多问题,我个人觉得是深度学习的进步,一部分增强学习的谜团能被解开,就是表达的部分,如果有模式,我们可能表达为一个深度网络,并抓取模式,怎么分解模式仍然是增强学习中很大的挑战,我认为大挑战在于,如何让系统在长时间线上保持推理能力,现今很多深度增强学习,都是短时间线上的。还有很多问题是,如果对五秒的反应不错,对整个问题的反应都会不错。五秒和一天的规模相差很大,或是让机器人或软件主体保持一辈子的功能。我认为这里面有很多挑战,安全方面的挑战是如何安全持续地学习,当效果已经很不错时。所以,再举个例子,很多人对自主驾驶车很熟悉,让它们比人开车更好,假设人在每三百万英里,碰到一次很糟的事故,会需要很长时间才会有负面数据,如果和人一样好的话,但你想要更好,那么数据的收集就变得很难,很难得到让系统表现更好的数据,探索其中有许多牵连的挑战,我最兴奋看到的是,我们能不能往后一步,还是能学增强学习的算法,增强是很复杂,信用赋值也是,探索更是,就像对于深度学习中的监督学习,可以做到替代领域知识,可能也能有程序--增强学习的程序也能做到所有,取代我们亲自设计细节。

吴恩达:比如整个程序的回报函数。

Pieter Abbeel:这就需要学习整个增强学习程序,可能是,想象一下,你有这么个程序,不管是什么,你给它一个问题,看多久才能学会,然后发现,嗯,花了挺久,让另一个程序来修正原本这个,加完这一步,试试看,要是学的快多了,修正的就很好,然后从此想办法继续进步。

吴恩达:我明白了,奠定基础。

Pieter Abbeel:这可能和可用的计算量有关,就像在内环中运行增强学习,现在,运行增强学习是最后一步,越多计算量越有可能运行的了,就像在内环的增强学习是更宏观算法的一部分。

吴恩达:从14岁起,你在AI工作有二十多年了,你怎么理解AI这段时间的进化。

Pieter Abbeel:我试着理解AI的时候很有趣,因为其实与我在斯坦福的硕士学位相符,其中有很多领袖我亲自交流过的,比如John McCarthy,但用的方法与众不同,相比较2000年时,大多数人在做的事,然后和Daphne Koller的交谈,形成了我对AI最初的想法,她的AI课程,她的概率图模型课,让我真正产生兴趣,随机的变量如何应用于简单的分布,再被分成子集变量,然后其他的结论,都会让你知道好多,要是能让它计算起来也容易,那就很具挑战了,从那之后,我开始攻读博士,你到斯坦福后,是个很棒的现实提醒,也就是,不该去检验你研究里的度量是否正确,而是去看一种关联,你在做的事情和影响你的东西之间有何关联,你的研究实际改变了什么,而不是具体里面出现的数学。

吴恩达:对,很棒,我没发现之前遗忘了这点。

Pieter Abbeel:是的,这是其中一件,除了大多数人在问的,哪一个Andrew给的意见,一直在影响你,是确保你能看到这种关联性。

吴恩达:你已经并且会继续在AI领域有很棒的职业前途,对一些在看视频的人,要是他们想入门AI,你有什么意见。

Pieter Abbeel:我想现在是进入AI的大好时机,需求量是如此之高,工作机会如此之多,有大量研究课题,也有大量创业机会等等,所以我很肯定决定入行是很机智的决定,你们中的大多数都能够自学,不管是不是在学校里,有好多好多网课,比如andrew的机器学习课,也有,比如说,Andrej Karpathy的深度学习课,也有线上视频,作为开始很棒,Berkeley也有增强学习的课程,所有课都在网上,都是很棒的入门方式,很重要的是,你自己要真正着手去做,不是只看看视频,要亲自试,可以用TensorFlow,Chainer Theano,PyTorch等等,随便你喜欢哪个,开始是很容易的,进展也会很快。

吴恩达:只要不断练习,对不,实际操作并关注什么成功了,什么没成功。

Pieter Abbeel:Mashable上周有篇文章,讲一个英国16岁,Kaggle比赛中的领导,里面提到他跑去学习,在网上找到东西,自学了一切,从未上过任何正统课程,一个16岁的少年能在Kaggle上有这么强的竞争力,说明是真的可能。

吴恩达:我们生在好时代,对人们学习的好时代。

Pieter Abbeel:完全正确。

吴恩达:还有个应该常被问到的问题是,要是有人想进入AI机器学习,深度学习的领域,他们该读博还是去大公司工作。

Pieter Abbeel: 很大程度上取决于你能得到的指导,在博士学位里,基本肯定的,是教授的本职工作,也是你的导师,会来主动找你,竭尽他们所能去成就你,帮助你在任何领域,比如AI,得到成功,有很多用功的人,有时会有两个导师,那是他们的本职工作,也是为什么他们当了教授,大多数教授都能帮助学生做更多事情,但不是说在公司里不是这样,很多公司有很棒的导师并且很爱帮助教育和推进其他人等等。只不过是,可能不会有那样的保障,不会像攻读博士一样,而博士的一大优点,就是你肯定能学到好多并且总有人能帮助你学习。

吴恩达:取决于公司和博士项目本身。

Pieter Abbeel:完全正确,但是我想,主要还是得自己能学很多东西,要是自学的很快,再加上一个更有经验的人,能加速过程,因为他们的职责就是帮助推进你的进步。

吴恩达:你是深度增强学习中很有名的领袖之一,那么是什么样的东西,在深度增强学习中已经很成功了。

Pieter Abbeel:关注深度增强学习中的成功例子,非常非常引人入胜,比如说,通过像素学习玩Atari,处理像素也就是被处理的数字,被变成一个游戏中的行动,然后,举个例子,我们在Berkeley做过的一些研究,造了会走路也有回馈的模仿型机器人,只是简单的告诉它越往北走越好,对地面影响越小越好,它突然会选择,走路或跑步,即使并没有人告诉它什么是走和跑,或让机器人学讲给儿童的故事,并想法子组在一起,创造更多开放结局等等。

我认为有趣的是,它们能学习,从原始的感觉输入到控制,比如发动机中的扭矩,但是是同时完成的,有趣在于你能用一个单一算法,比如,推力是一瞬间的,你可以学习,可以让机器人学会跑,学会站立,可以有两条腿的机器人,再换成四条腿的,只要用同样的算法,它都会跑,所以增强算法不用改变,非常宏观,Atari游戏也是如此,每个游戏里DQN都是同一个DQN,当它开始进入,还未曾实现的边界后,它能为每一个任务从头一点点学起,但要是能重复利用,之前学过的东西,更好了,那样学下一个任务就更快了,这是目前未能实现的事情,本质上,它总是从头学起。

吴恩达:你觉得多快,就能看到使用深度增强学习的机器人,出现在我们身边,被广泛应用在全世界。

Pieter Abbeel:我认为真实情况是,从监督学习开始,行为克隆人类的工作,我觉得会有很多业务会建立起来,但总是有人类在幕后指挥工作,比如Facebook的信息助手,像这样的助手能被建起,但背后一定有人,做大量工作,机器学习能做人所做的事,并开始为人们提建议,人类会被提供,有限的几个选择,过一阵子,就能变得更好,可以给增强学习,一些实际目的,而不是让人在幕后工作,是实际给它们目标去完成,比如,两者中哪个能更快计划好会议,或多快能定好机票,或是花了多长时间,满意程度如何,不过可能会需要大量克隆人类行为的引导程序,去告诉它们怎么做。

吴恩达:听起来行为克隆就是监督学习,去模仿人在做的事,之后逐渐增强学习会能思考的更长远,这样总结合适吗?

Pieter Abbeel:我觉得是,单因为观察增强学习,从头开始,就很有意思,超级有趣,很少有比观察增强学习机器人从啥都不会到发明创造更好玩的事了,不过非常耗时,而且不总是那么安全。

吴恩达:太谢谢你了,这个采访太棒了,我很荣幸我们有这次聊天机会。

Pieter Abbeel:谢谢你邀请我,我非常感谢。

腾讯云服务器

相关推荐

阿里云服务器
关注微信
^