声明:本网站文章和图片来自互联网,如有侵权,概不负责,请联系站长删除
当前位置: 澳门壹号 > 黑科技 > 正文

想了解“云+AI”究竟怎么“玩儿”,还要看这里、看这里!

2019-07-05 93

 
      

如果说AI系统建设是第一步的话,那确保AI“踏实”落地究竟有哪些高效地解决思路呢?

他认为,从UCloud自身出发,首先会涉及到一个数据共享的平台。

再高深的算法都需要大量数据的支持,怎样获取数据实在是个问题。如今是否有一种模式可以最大能力整合数据用于训练呢?安全屋或许会起到一定作用。谈及数据安全性,“安全屋底层都是基于公有云平台,更重要的一点,我们采用的加密技术是基于区块链的不可篡改性,并同时增加了审计机制来保障安全。”进一步补充道。

此外,在环境分离、底层资源共享以及后期扩展性等方面,他强调,安全屋就是在保证数据所有权不变的情况下完成最大可能性的数据流通。

例如环境分离,可以带来本地与云上环境体验一致的情况。“具体来说,首先我们会对Docker进行分装,随后选择自己的框架再打包,然后777娱乐上传到AI系统中,上传之后就可以直接调用。整个框架的中间部分是计算资源的共享,底层是数据的存储,包括本地以及接入层的数据来源等。”徐强表示。

另外,十分重要的一个技术点就是容器

容器的设计可以保证在云上运用整体算法的过程中不会与软件产生冲突,更不会造成数据泄露;提供比较多的基础镜像可以降低开发者的研发时间,在调用上也会更加便捷;更自由的是,用户可以在系统中分装出自己想要的算法、软件等,自由“定制”后上传即可使用。

提及可扩展性,他总结道,所谓纵向扩展可以被提供升降级的选择,不会影响整体系统的在线升级;如果选择分布式的横向扩展大众娱乐官网,包括存储资源在内,可以叠加,分布式的可用性不会受到影响。

目前该领域UCloud推出了两大产品,第一个就是分布式AI训练平台。

在训练平台的作用下,将代码通过Docker方式上传,可以做到直接在控制台种选择相应的算力资源,还可以依托系统去实践。

徐强提出,在这个过程中,无论是状态还是误差情况都可以清晰明了很直观,此外还可以通过API的方式直接上传,这对自建AI 系统的成本和压力都降低很多。

具体来说,自建“版本”可能会造成资源利用不充分、采购时间较长、运维方面压力山大等诸多问题。

另外一个就是分布式AI 在线服务平台。“我们会在平台后端提供APP接口,CPU、GPU方面会提供上万台计算的节点,所有的业务监控都是可视化的,高可用性很强大,例如不同的可用区、不同的集群推广等。”他说。

说到代表性的案例,徐强提及了2017年大众娱乐AI Challenger大赛。

赛事规模自不用多说,就连科研数据也是最大数量级的,据了解有1000万的中英文翻译数据,30万的图像数据。所以由于数据量庞大,主办方选择UCloud作为GPU提供方,对此提供了有关AI 的整体解决方案。

“在底层提供了强大的算力资源、中间布置了AI在线服务以及AI训练服务、然后就是安全屋。将庞大的数据放入安全屋中,然后根据需要分发给不同的选手;选手同时将自己的算法上传到安全屋中,基于分发的数据做训练,只要计算出模型就可以将数据导入,十分安全。”徐强描述道。

总结来说,UCloud一方面提供了底层的计算方法以及环境的自动部署,方便直接上传到AI 系统;另一方面在收费方面也表现的更加人性化,按需收费只在执行过程中,其他时间不涉及费用问题。

精彩分享仍在继续,关于底层资源搭建的探讨暂时告一段落后,达观数据联合创始人张健又为与会开发者带来了主题为“文本智能处理的深度学习技术”的演讲。

文本智能处理的深度学习技术

在有关NLP的知识以及实践的分享中,他提到,其实电脑理解的文本与人理解的文本会有一些共同之处,通常也是从三个等级来体会。但NLP实践中最重要的还是解决如何将机器学习或者深度学习高效应用在文本处理中。

对此张健表示,深度学习的基础结构其实就是一个基本的神经网络,可以理解为是最基本神经源结构,会接受S1、S2输出,实现很简单分类的功能,只是需要满足一个很复杂合乐娱乐的场景需求罢了。

此外深度学习无法规避基本结构的问题,也就是RNN和LSTM。“我们在理解语言的时候,其实是一个信息流,也是一个序列信息,会像S0、S1、S2。如果讲一个字,当前时刻就可以把之前时刻的这种字词信息收纳进来并作为前项的输入,再与当前的字词结合后输出;但是LSTM除了具备这样一个结构,还增加了一个优点,就是人们在讲话的过程中,不可避免的是上下文环境中有些字词重要,而有些则不那么重要,LSTM会对之前的信息进行有选择通过或者丢弃。”他强调。

关于CNN,也就是最早运用于图像处理领域,简单来说就是识别“猫”或者“狗”,而不是会分析出猫身下的草坪有多绿。在处理文本时也会参考使用类似技术对图片进行切片来保存重要信息,最后完成全连接实现分类。

总结来看,深度学习用于文本挖掘的确显示了很多优点,例如可以使用大量无监督的数据提高能力;端到端的过程让文本输入、任务训练再到输出的环节并不需要做很多处理,更重要的是能够克服传统模型的缺点。

但这种方式并不是完全没有缺点的,例如在小数据量的前提下效果不一定好,需要根据场景严格挑选适合的模型;另外调参工作量有时不亚于特征工程,甚至会限制部分应用。

此外,在现场分享时,张健还为与会开发者们提供了实践经验的小贴士来参考。首先在业务场景层面,用户需要尽可能理解数据,分析问题本质并选择合适的模型;在使用的初始阶段,可以选择传统机器学习模型作为尝试,通过不断深化针对数据的理解来解决相关问题;最后就是还需要在不断的实践中迭代经验解决问题。

AutoML人工智能自动化模型设计与进化算法实现

当前,AutoML是人工智能发展的一个重要方向,受到Google,Facebook等诸多公司的重视。据了解,AutoML主要可以帮助解决的问题在于数据特征提取和扩增、机器学习和深度学习模型生成以及模型超参调优等,通过序贯模型优化、迁移学习、强化学习、元学习、进化算法、基于连续假设的梯度求导方法等来实现。

在“AutoML人工智能自动化模型设计与进化算法实现”的分享中,钱广锐表示,在当前的实际场景中的确存在很多情况是单一模型并不能完全适应的,复合型模型在一些场景中特别需要。人工智能模型的设计是一个复杂的工作,要设计的小、准、快更是复杂。

“所有的框架以及算法是我们从大概年初刚刚开始实践的,这样一个人工智能模型自动设计平台被称为达尔文ML。真正的希望就是能够实践产品化的工作,用户只要数据输入,不需要做任何之前的预设假定就可以完成模型建设。”他说。

此外探智立方从数据准备、模型设计、生产对接为达尔文系统提供了整套“配置”,例如在工业制造方面,整个实践过程中有5万张照片,采取200200的分类,钱广锐将其放到新平台中去,准确率可以达到75%左右,其中并没有做复杂建模处理的工作,这个案例可以发现,达尔文设计出来的模型特别小,准确率特别高。

无论是人工智能发展还是现有的一些场景中,很多场景模型的设计不只是在云端,由于达尔文设计出的模型比较小,钱广锐也希望未来可以在手机端快速识别票据等。除了帮助企业应用落地,如何能在各个场景,例如智能制造、摄象头等统统实现也是很重要的目标。

云计算、人工智能,从技术角度看涉及计算、存储、网络等范围甚广、学习难度大,但却可以发挥重要作用。“云+AI”从产业角度看可以显著提升传统企业的运营效率,助力数字化升级;引领全新的商业模式,为各类企业赢得快速发展的机遇……

一直以来关于云的话题都是层出不穷,但对于大多数专注云计算本身的IT技术人员来说,或许对分布式文件系统和分布式块存储未必有很深入的了解,恰好机会来啦!UCloud将携手CSDN特别推出UCan下午茶武汉站活动,届时会邀请多位技术专家与现场的开发者们共同聊聊分布式存储的那些事儿,敬请关注哈!

点击“阅读原文”,了解更多详情!