AI概论 第一周笔记 - What is AI ?

前言
年纪轻轻的,学 AI 不怕掉头发吗?以下是本喵整理的笔记,禁止转载
另外个人觉得现阶段 AI 和 NN 没有什么区别,所以下面的 AI 和 NN 是互相对等的。

Week 1 Introduction
总结来讲,AI 实际上是两个独立的概念:
  • 弱人工智能:几乎所有我们可以看到的人工智能中的进展都是弱人工智能,这些的AI只会做一件事情,比如智能音箱或者自动驾驶等。这类的AI只有单方面的成果。
  • 强人工智能:他们可以做人类可以做的事情,甚至可能能够做人类都不能够做的事情。
不过现阶段来说弱人工智能在进步,几乎没有强人工智能的方面。两个方面都有价值,但很不幸的是由于弱人工智能的快速发展,导致人们认为整体的人工智能有很大的进步,但也会导致一些非理性的恐惧,让人以为 AI 会取代人类。

现阶段强人工智能的确是一个很厉害的目标,但还要更多的科研,他需要多方面的技术才可以实现,这意味着未来十几年或者几百年甚至几千年的探索才可以突破。正因为强人工智能离我们太远,所以也没有必要太过于担心这件事。

Machine Learning
最常用的机器学习模型实际上就是学习 A --> B 的过程,这个叫监督学习。

为什么AI现在才开始崛起呢?其实原因很简单,以前的计算机有很大的限制,比如硬盘太小等等,随着时间变化,计算机和网络大量的普及,时间越久收集到的数据就越多。AI则是使用这些数据来训练,数据越多AI就越准。当 NN 越大的时候,结果就越精准,但需要的数据也就越多,这就是为什么经常听到大数据

What is data?
到底什么是数据?简单来说就是放进去NN的那堆数据。

数据从哪来?
  • 手动标记:假设你拿到了一堆猫猫狗狗的图片,你想要让 NN 区分猫猫狗狗,你就可以对这些图片进行描述,然后喂入 NN 。
  • 从采集器那边获取:比如做一个 APP 当用户点 Yes or No 的时候采集器就可以开始收集数据啦。
另外,一些软件团队会经常错误的收集错误,这个时候就要和 AI团队 去沟通,要使用AI做什么,有没有价值等等,但也不要错误的认为把数据交给 AI团队 就一定挖掘到价值。

其次是数据是非常乱的,如果你提供的数据质量非常差,AI也会学不到好的结果。数据有问题也会经常发生:喂入NN错误的数据,丢了一堆数据等等。

数据也分很多类型,处理结构化的类型相对来说比较简单,处理非结构化的类型需要麻烦一点点,但无论哪一种 AI 都会表现出色。

The terminology of AI
什么是机器学习和数据科学?你可以看到这两个词语定义都挺含糊的,没有准确的边界。如果更加系统的区分这两者的关系的话,机器学习通常是 把 A 放入 NN 得到 B ,其工作原理和算法是无法通过计算机来编程的。而数据挖掘就是从一堆数据中发现规律,然后得到结论。

所以,深度学习是什么?其实 深度学习 和 NN 是一样的,只不过有时候叫 深度学习 会更好听,所以就给他换了个名。

那么,NN 与大脑有什么关系呢? 事实证明没有关系,神经网络的结构设计最初也是受到大脑的启发, 但是它工作原理几乎完全与生物大脑的工作方式无关,所以经常拿来比喻。因为生物大脑是非常复杂的。

人工智能是一个庞大的知识点,它包括机器学习和数据科学,NN,还有一些网络上经常说的无监督学习。如果硬要划分的话,AI > ML > NN > DS

What makes an AI company?
什么能使一个公司擅长人工智能呢? 也许更重要的问题上是怎样才能让你的公司擅长使用人工智能呢?

在互联网领域:
实体门店 + 网站 ≠ 一个网站公司:真正的互联网公司会让事情做得更好,比如 A/B testing小的周期循环在公司内的每个人都可以决定一个策略

在AI领域:
所有的公司 + 深度学习 ≠ AI公司:真正的AI公司是有策略性的数据采集,统一数据仓库,还有无处不在的自动化,人工智能公司也有很多新的岗位 比如说MLE, 即机器学习工程师 和很多新的方式给团队成员分配任务

简单概况又五步公司转型到 AI 的流程:
  • 启动一点项目来获得小势头:只需要几个小的项目 让你大概对人工智能可以做什么,和不可以做什么。让你有更好的了解 AI 并且让你体验一下做人工智能项目是什么感觉,当然这个你可以在公司内部做或者外包给一个团队去做。
  • 建立一个内部的人工智能团队:就是在公司内部建立一个人工智能团队,并且提供广泛的人工智能培训。
  • 建立培训课程:这些培训不仅仅要提供给工程师,也要提供给经理部门领导和高级管理人员 ,同时还需要培训他们如何思考人工智能。做完这个之后, 或是正在做这个的同时,你将会对人工智能更加深刻的理解。
  • 制定人工智能的策略:考虑需要用人工智能做什么。
  • 保证内外沟通一致:保证每个人的意见是一样的。
What machine learning can and cannot do
通常会在某个AI项目开始前有进行足够的技术调研,确保项目在技术上可行。这意味着看看数据,看看输入A和输出B 然后直观思考这些数据是否能用上AI。尽管是这样,还是有人会对AI有不合理的期待,要求工程师做一些 AI技术还达不到的事情。

造成这样的困扰其实也有很多,是因为媒体和有些学术文献只报道有关 使用AI成功的案例,我们会看的一系列成功的故事,但却没有失败的案例。 人们就会认为AI什么都能做但事实并不是这样。那么,什么是AI可以做的呢?

Anything you can do with 1 second of thought, we can probably now or soon automate.

几乎所有可以一瞬间完成的事都可以用AI来做,我们在现在或者将来都可以用监督学习来完成。例如:判断周围车的位置那这件事你可以在一瞬间完成, 又如,你想知道手机上是否有划痕,你只要看一眼就可以瞬间得出判断 。这不会需要超过几秒的时间,这些是AI可以办到的。相反的,有些事情现今AI技术还无法达到: 比如分析市场并写一份50页的报告,因为人类还不能在一瞬间写完一份50页的分析报告这很难,至少我不能。

现在看一个例子:
某天收到了这样的一封电子邮件:"我订购的玩具比预计晚到了2天, 这导致我我不能及时地把它作为生日礼物送给我侄女 我能退货吗?"
如果你想要一个AI看这封邮件,然后判断出这是一个退货申请 并且能将这封邮件直接转到退货部门,那我认为这个问题 用一个AI系统来解决是可行的。(因为只要把这封信当作 A 输入到 NN 然后 B 是可以的。)

如果你想要AI根据一封电子邮件的内容,然后自动生成 这样的回复:"哦,非常抱歉,我希望您侄女的生日过的很好。 是的,我们可以帮您(退货),等等" 如果想让AI系统输出 类似这样一段复杂的文字这对当下的AI系统来说,还是很难的。

那有没有可能使用一种机器学习工具,比如深度学习算法来尝试完成这件事?
假设你给一个AI系统,输入这个顾客的电子邮件,然后让它输出两到三句话,来表达同身感受并作出适当的回应。假设您有一个中等大小的数据集,比如1000个用户电子邮件示例和适当的回应,如果你只给AI训练这些数据集,比如1000个示例,这可能是你能得到的结果:

比如,一位用户发电子邮件说:
  • (顾客说)"我的箱子坏了",  (AI回答)"感谢您发来电子邮件"
  • (顾客问)"我在哪里写评论",(AI回答)"感谢您发来电子邮件" 
  • (顾客问)"退货政策是什么",(AI回答)"感谢您发来电子邮件" 
出现这种问题的原因是,仅用1000个数据,来搭建一个AI系统去学习如何撰写两道三句话,并且做出感同身受的回应的话,这种数据量是远远不够的。所以结果就只能是 不管顾客发送什么内容的邮件,这个AI只能生成简单且相似的回应 "感谢您发来的电子邮件"。还有一种错误的情况,(另一种AI系统失败的案例)就是它自动生成错乱的内容,比如: (顾客问)"我的快递什么时候到?",(AI回答)"谢谢,是的,现在,你的",这是在瞎说话。 这其实是一个很难的问题,就算有1万个甚至10万个电子邮件示例,我也不知道这个数据量 是不是足够多,以此确保AI系统可以实现这些功能,判断什么功能AI能和不能达到其实是一个漫长且艰难的过程。

回过头来看,如何快速的判断什么是AI可以做的呢?
  • 只用NN学习简单的概念,一瞬间做的事情,如开头的例子。
  • 已经存在大量喂入NN的数据。
虽然AI是很强大,但是他不是魔法。

More examples of what machine learning can and cannot do
另外一个例子是如果你要训练一个AI,比如自动驾驶,这当然没有问题。但是如果让AI来通过一张图片感知人类想表达什么的时候,理论上暂时是不可能的,因为没有太多的数据,也因为人表达的方式太多了。

AI 还有一个缺陷,如果换一个角度去拍照片的话,AI可能很难识别到。

Non-technical explanation of deep learning (Part 2, optional)

一般来讲,当你给它一个图片时神经网络前期的神经元会学会探测出图片的边缘,然后后期一点的会一点点辨认出物体的各个部分,它们会学着辨认出鼻子、眼睛、脸颊和嘴巴的形状,然后再晚期一点的神经元,像右边这样的, 会学习辨认出不同的脸型,并且最终将学会将这些元素融合在一起来分辨出图片中的人是谁。

参考:

Comments