7月份,在经历了长达几个月外界对苹果AI技术落后的质疑后,苹果又有了一些新动作,首先是在7月20日上线了苹果机器学习官方博客(Apple Machine Learning Journal),并发表了第一篇博文;其次提交的论文被CVPR 2017收录,获最佳论文。
苹果CEO库克面对外界对苹果AI技术落后的质疑,曾向媒体回应说,苹果精神是“just work ”(实干精神),之所以外界看不到苹果AI技术的进展,是因为苹果只喜欢谈论即将上线的产品功能。这么来看,公众最多只能通过公开的博客和学术论文中了解到苹果在AI领域研究的大方向,而关于这些研究的应用以及进度,只能靠猜测了。
不过笔者编辑在网上找到了一些PPT。这些PPT是在去年的12月6日,一个仅面向受邀者参加的行业AI大会的午餐会上,苹果公司机器学习负责人罗斯·萨拉克丁诺夫(Russ Salakhutdinov)和其他苹果员工进行的议题讨论,详细介绍了苹果公司在AI领域的一些进展。
无人驾驶领域
根据参会者的描绘:
会上一张幻灯片上有两张非常有特色的汽车图片,该幻灯片汇总了苹果公司的研究,说明了“LiDAR的体积检测”和“结构化输出预测”。
对于现如今的无人驾驶技术而言,LiDAR或光感测距(和雷达类似,但借助激光)以及物理事件预测都是非常重要的组成部分。不过,鉴于所介绍的内容比较敏感,两名不愿透露姓名的参会者强调,苹果公司并没有提及他们的造车理想。
今年6月份,库克首次公开谈论了正在开发的代号为Project Titan 无人驾驶项目。但只是声称在做无人驾驶技术的研发,对是否会自主制造汽车,库克并没有给出答案。
而英国《每日邮报》7月21日有文爆料,苹果正与一家中国公司合作研发汽车电池, 这家公司名字叫时代新能源科技有限公司(CATL)。CATL曾经隶属新能源技术有限公司,为苹果产品供应电池,但后来脱离后者成为一个独立实体。CATL目前为电动巴士、电动客车、电动卡车和固定能量储存供应电池组。
由此可见,苹果的野心并不只是研发自动驾驶系统那么简单。
AI专用芯片
对于算法在图形处理单元或GPU(常用于服务器端加速深度学习的处理速度)上的运行效率,苹果还是非常自豪的。一张幻灯片指出,苹果的图像识别算法每秒钟处理的照片是谷歌的两倍,谷歌每秒处理1500张,而他们每秒可以处理3000张,而且大体上只需要1/3的GPU。这种比较是基于在Amazon Web Services(一个云计算的标准)上运行算法做出的。
虽然其他公司正开始基于专用芯片来加速AI工作,如谷歌的TPU(张量处理单元)和微软的FPGA(现场可编程逻辑闸阵列),值得注意的是,苹果是基于标准的GPU。不过,苹果是否为了匹配其客制化客户硬件而构建了自己的客制化GPU,还是从像英伟达这样的大型制造商购买,并没有详细介绍。
另外,苹果用来训练其神经网络识别图像的图片库似乎是专有的,其规模几乎是标准ImageNet数据库的两倍。
神经网络工具Core ML
神经网络工具Core ML, 它构建的神经网络比原始神经网络小4.5倍,精度却没有损失,速度比原先快两倍。在AI研究领域,这项技术使用更强大的神经网络训练另一个网络,使其知道在各种情况下做什么决策。然后,这位“学生”(student)网络就会具备“老师”(teacher)网络知识的精简版本。本质上,对于给定的照片或音频样本,它能做出更大网络的预测。通过精简神经网络,iPhone和iPad可以识别照片中的人脸和位置,或者了解用户的心率变化,并且不需要依赖远程服务器。将这些处理过程封装在手机里可以让这项功能随处可用,而且,这还使得数据无需加密,也无需通过无线网络传输。
Core ML
对于希望将AI构建到自己的iOS应用的开发人员而言,苹果构建的这一套机器学习模型和应用程序协议接口(API),即Core ML,非常有帮助。开发人员可以使用这些工具将图像识别构建到照片应用中,或者引入自然语言处理技术到一个聊天机器人中,可以理解用户所说的内容。
苹果首先发布了其中四个图像识别模型以及一个面向计算机视觉和自然语言处理的API。这些工具在用户设备本地运行,也就是说,数据仍然是私有的,永远不需要在云上进行处理。
此外,苹果还让AI开发人员可以很容易地将他们自己喜欢的AI引入苹果设备。某些种类的深度神经网络可以直接转换为Core ML。
苹果现在提供了Caffe和Keras支持,前者是由加州大学伯克利分校开发的一款用于构建和训练神经网络的开源软件,后者是一个可以简化那个过程的工具。值得注意的是,它不支持谷歌的开源AI框架TensorFlow。不过,创建者可以构建自己的转换器。
在苹果提供的预训练模型中,有一部分是开源的谷歌代码,主要面向图像识别。
需要说明的是:苹果并不是第一个发布可在移动设备运行的深度学习工具的公司。
在WWDC之前的谷歌I/O大会上,谷歌发布了“为移动而生”的TensorFlow Lite,它将允许开发人员在用户的移动设备上实时地运行人工智能应用,有多款在移动设备上使用 TensorFlow 做翻译、风格化等工作;TensorFlow 在移动设备 CPU(高通 820)上,能够达到更高的性能和更低的功耗。
而早在 2016 年 11 月,Facebook 就已经发布了一个称为 Caffe2Go 的架构。Caffe2Go 用于实时风格转移(Style Transfer),即在用户的移动设备添加了类艺术(Art-like)过滤器。在今年的 F8 大会上, Facebook 进一步发布了 Caffe2,正式支持移动平台。而除此之外,MxNet 深度学习框架也支持多个平台,包括移动设备。
和Tensorflow、Caffe等深度学习框架不同,Core ML是完全聚集于在设备端本地进行深度学习推理的框架,而其它框架除了支持本地设备端同时也支持云端,能够推理也支持训练。苹果宣传Inception v3速度是Tensorflow的6倍,这是通过MetalAPI对于GPU能力充分利用的结果。
相较于其他移动端深度学习框架,Core ML看起来更方便使用。苹果很聪明的定义了一个标准的模型格式(.mlmodel),提供了流行的框架模型到该格式的转换工具,比如你可以将你的Caffe模型转换成Core ML的模型格式。这样就可以利用各个模型的训练阶段,而不像TensorflowLite只能使用Tensorflow模型。模型训练好了之后,只要拖放到XCode中就可以使用,苹果甚至把接口的Swift代码都生成好了,非常方便。
从目前的情况看来,Core ML似乎在移动端上的表现更胜一筹,但是将来是否真的可以保持稳定发挥,还得靠时间来检验。
苹果系统中AI应用
苹果在之前的开发者大会上的主题演讲中清楚地向大家表明,发生在手机上的每个动作都会被记录,然后由操作系统的一系列机器学习算法进行分析,判断是否预示着用户希望要做一个日历预约、拨打一个电话,或者制作更好的动态照片。像Apple music的听歌推荐,通过对用户听歌记录的学习来调整作出相应的推荐;iphone的电池续航,手机的电池管理系统使用了机器学习,了解了用户的使用习惯并作出相应的调整,使续航更持久。
另外从Siri的声音也可以看出苹果用到了机器学习。他们不再使用预先录制好的标准答案,现在,Siri的声音完全是由AI生成的。这样更灵活(苹果在大会上示范了四种不同的音调),随着技术的发展,它听上去会越来越像真人(苹果的竞争对手离这个目标已经不远了)。
学术研究
苹果只发表了一篇论文,并且获得了CVPR 2017最佳论文。苹果AI研究负责人Ruslan Salakhutdinov一直在做巡回演讲(很大程度上是为了招聘到AI顶尖人才)。举例来说,他在Nvidia的GPU技术大会上了发表了演讲,之后他还会在纽约发表演讲。此外,去年年底,在Salakhutdinov上任后不久,苹果在一个重大的AI会议上和他们的竞争对手举行了一场闭门会议。但是,就目前竞争激烈的AI市场来讲,论文和演讲的威慑力似乎远不如实在的研究成果来的强大。苹果公司如果想成为全球AI领跑者,未来的路似乎并不好走。
参考资料:
1.https://qz.com/856546/inside-the-secret-meeting-where-apple-aapl-revealed-the-state-of-its-ai-research/
2.https://qz.com/999235/apple-is-finally-serious-about-artificial-intelligence/