获取更多信息请下载APP

开放大数据引擎能否再造互联网

来源:    发布日期:2014-07-03 14:13:46   阅读量:0
  4月24日,百度公司在其技术开放日宣布开放大数据引擎,成为全球首家。不少人预测,此举将会让百度成为传统行业转型和模式创新的引擎,覆盖的范围包括政府、NGO、制造、医疗。李彦宏说:“接下来发生的事是技术改变互联网。”对此,有人认为,开放的大数据引擎,将会给网民的信息安全带来更大的隐忧。更有人“冷眼旁观”,这是百度的不得已而为之。究竟一个开放的大数据引擎会带给我们什么呢?


  
  大数据引擎模拟人脑
  
  大数据引擎指的是对大规模的数据进行收集、存储、计算、挖掘和管理的一套系统。这一套系统已经被百度成熟利用,并在今年春季被人们所熟知。除了被网友津津乐道的“东莞逃离图”外,今年春运期间,央视推出的“据说春运”特别节目,也首次采用了百度提供的大数据,播报国内春节人口迁徙情况,这也是大数据首次以普通用户能看懂的方式,可视化展现在电视屏幕上。
  
  记者在参观北京西二旗的百度大厦时也发现,大厅内的一幅电子地图,显示着我国各个地区的新闻热点。例如,当时北京地区的热度第一的新闻是某明星的出轨,而上海地区的第一位是马航失联。这不禁让人感叹,如果这一数据展示给地方新闻媒体,大家就会有的放矢的进行相关报道。而这背后,就是百度利用大量的位置数据和自身的搜索引擎相结合的效果。当用户手机定位在北京,搜索某明星出轨的新闻时,就形成了上述新闻地图的数据。
  
  当然搜索行为只能显示关注度,用户的实际行动更为重要。例如百度会对人们在网上对某个旅游景点进行搜索的行为和实际旅游人数的数据进行比对分析,依此绘制出某个景点在两个星期内的热力图,以显示这个景点的拥挤程度。现在,百度的旅游预测模型已经可以精准到两个星期。
  
  百度自身对于大数据引擎的应用不只是地图那么简单。比如“以图搜图”功能,当我们看到一张陌生建筑的照片时,将它上传到百度。它就会告诉你这张照片的建筑是“赫氏古堡”。不要以为这一过程,跟我们输入“赫氏古堡”,搜出照片一样简单。因为图片是不带有文字信息的。我们上传的图片会与百度服务器上数亿计图片进行比对,找出相似,再来反馈信息。
  
  李彦宏将百度大数据引擎分为三个层次:开放云、数据工厂和百度大脑。这三个层次说白了就是记忆、检索和决策,恰恰是我们人脑的工作过程。我们大脑的第一项工作就是记忆,开放云的功能就是存储。开放云指的是这套引擎的基础架构——分布式的低能耗数据中心,其中包括数据中心的服务器设计、数据中心规划和设计、分布式系统、超大规模集群自动化运维、大规模GPU并行化平台等。
  
  当我们想要要调取某部分的记忆,就会很自然的联想到某个词,某个画面,某个音乐,从而汹涌的记忆都会被调出来,这就是一个人脑的检索过程。而电脑并没有这样的功能,它们的“记忆”是杂乱没有头绪的。数据工厂就是管理这些杂乱的“记忆”,形成检索,也就是调用硬件,来完成数据的挖掘和分析。
  
  人脑有了记忆和检索之后就会进行决策,比如火苗烫到了手下次就不会碰,就是因为我们记忆中的疼痛和火苗,被检索在一起,然后决定远离。而百度大脑就是在模仿这些行为,让机器模拟人类大脑多层神经元的思维模式做出预测模型。据了解,百度大脑采用计算机加上人工智能,模拟人脑思维,拥有200亿个参数,现在已经达到大约相当于两到三岁孩子的智力水平。
  
  深度影响人的生活
  
  如此看来,百度开放大数据引擎的工作方式也就显而易见。它对自己以及各行各业的数据进行挖掘,利用“数据工厂”和“百度大脑”分析它们、预测趋势,给出结果,为自己和合作伙伴提供解决方案。
  
  率先用于医疗、交通
  
  百度的这一套大数据引擎开放之后,将会用在哪些领域呢?政府、NGO、制造、金融、零售、娱乐、教育......方方面面。而百度深度学习研究院常务副院长余凯在发布会上声称,医疗将会是首个被大数据技术改变的行业。
  
  如今,随着可穿戴计算设备的兴起,人们可以记录下大量的生活方式,比如每天的运动量和运动时间、睡眠量、久坐时间、身高、血压等,这些被量化的数据涵盖了我们身体状况的方方面面,将会成为病情分析的重要依据。而对于医院来说,这些数据无时无刻不在产生、零散分布在各个平台上,已经超出了医院IT系统的数据存储和分析能力。所以,余凯认为“大数据引擎”将可以帮医院解决这样的问题。
  
  中国疾病预防控制中心副主任高福就向媒体表示,将结合疾控大数据以及借助大数据技术,建成中国首个流感预测系统。例如,在大数据的利用方面,全球每年有几百万人患流感,如果大数据中心有很好的计算能力,能从患病人群里找到共性,就可提前一两天给出预警,并采取预防措施。从健康的角度而言,提前预防将极大地提高人们对抗疾病的能力。
  
  另一个例子是交通拥堵的治理。基于百度地图,百度已经可以实时地收集整个城市的交通状况,通过分析之后得出结果,可以帮助政府进行决策。例如对城市中某些区域的红绿灯的时间进行微调,用不同的策略实现整个城市交通状况的提升。
  
  据了解,百度大数据引擎将经历逐步开放的过程,目前采取邀请制和免费模式,与政府、非政府组织、制造、医疗、金融、零售和教育等传统领域率先展开合作。目前,国家交通运输管理部门的部分应用计划迁移至开放云平台,利用大数据引擎对行业监测数据进行挖掘分析。交通运输部科技司司长赵冲久认为,交通运输发展的大数据时代已经开启,今年计划和百度等互联网企业合作,重点推动综合交通运输出行信息服务系统应用的政企合作模式示范。


  
  开放解决应用难点
  
  大数据已经被“神话”了很多年,而用户真正能感知到的无非是:地图迁徙、推荐好友和商品广告。我们还远远感受不到大数据带来的变化。在中国工程院院士邬贺铨看来,“大数据,很多人只认为它是互联网行业的事情,实际上它关乎各个行业。特别是一些传统行业如何看待它、利用它,都关乎大数据真正的发展。”
  
  “例如北京公交一卡通,每年产生4000万条刷卡纪录,分析这些数据可优化设计城市公交路线。这就是公交行业对于大数据的应用。”但是到目前为止,我们也没有看到对于一卡通数据的应用。这有可能是传统行业的反映过慢,也有可能是技术能力不足。如果有一家公司来为北京公交提供大数据解决方案,就会解决这一问题,这就是大数据开放的意义所在。
  
  中科院计算机所研究员张云泉认为,大数据引擎的开放可以提供大数据处理能力给普通用户,程序员也可以基于大数据平台进行应用创新。
  
  日本一家公司的经济指标预测系统,就从互联网新闻中搜索影响制造业的480项经济数据,计算出了采购经理人指数(PMI)的预测值。硅谷的一家保险公司,从美国气象局等数据库中获得几十年的天气数据,将各地的降雨、气温、土壤状况、农作物产量做成精密图表,从而预测各个农场的来年产量,向农户出售个性化保险。
  
  无论是美国总统的选举还是奥斯卡的预测甚至《纸牌屋》的拍摄,大数据已经进入了各行各业,并都产生了积极作用。相信有很多行业都想走近大数据时代,但苦于无从下手。
  
  许多企业也拥有海量大数据——通信、金融、物流、制造、农业等行业。不过,它们几乎都没有大数据能力,坐拥海量数据却一筹莫展。这时候如果能够应用百度大数据引擎,则可以对海量数据进行可靠低成本的存储,进行智能化的由浅入深的价值挖掘。在百度技术开放日上,中国平安便介绍了如何利用百度的大数据能力加强消费者理解和预测,细分客户群制定个性化产品和营销方案。
  
  可以看出,大数据引擎的输入实际上是百度拥有的大数据以及行业已有的大数据,而输出则是各种行业应用成果,也就是大数据的价值。
  
  百度的“背水一战”?
  
  全球首个开放大数据引擎,为什么会是百度?相信有不少人认为,因为百度的数据足够庞大,有着天然优势。不错,基于搜索引擎起家的百度,拥有我们日常输入的海量数据。但在邬贺铨看来,这恰恰是百度大数据的劣势。
  
  “百度的数据虽然多,但是杂,很多数据都无法使用。相比之下,腾讯、阿里巴巴都要强很多。”阿里巴巴因为其主业电子商务,掌握了用户购买、交易的数据,根据这些数据可以适时的推送商铺、广告;而腾讯因为其强大的社交网络,无论是广告推送、用户推送都会有的放矢。相比之下,百度是最弱的,“我们目前看到的百度大数据应用,都是迁徙图和景点预测,都是基于地图的,这是腾讯的搜搜地图、阿里的高德地图也能做的。而且这个东西更多的是社会价值,还没有商业价值,百度也不会因为迁徙图而盈利。”
  
  百度要想让自己的大数据有商业价值,必须开放,让各行各业在搜索引擎的大海中找想要的数据,再由百度来提供解决方案。
  
  其实大数据的奠基者谷歌有与百度相同的思路,它们也在向外部提供大数据分析智能应用,包括客户情绪分析、交易风险、产品推荐、消息路由、诊断、客户流失预测、法律文案分类、电子邮件内容过滤、政治倾向预测、物种鉴定等多个方面。只不过谷歌还没有将它的大数据能力“打包”以引擎的方式共享。相信不久之后就会发声。
  
  数据开放让用户“全裸”
  
  当我们将个人信息提供给互联网公司,互联网公司又能将这些数据提供给各个厂商的时候,用户的个人信息就会“全裸”。我们会赤条条的站在互联网中间,任凭众人浏览我们的性别、年龄、喜好......
  
  张云泉认为,大数据引擎的开放必然会带来用户信息的安全隐忧,关键在于如何防护和解决。安全问题不解决,一方面会让用户不再信任。例如运动手环将个人的心跳、血糖都被记录下来,一些保健品公司获得这些数据不断打骚扰电话的时候,很多人会毅然决然的抛弃运动手环。另一方面,就是用户无知无觉,那就会出现大问题。例如直到你网银的钱被盗,才去关心互联网的安全。
  
  360公司董事长周鸿祎就在演讲中指出,在互联网这几年的迅速发展中,安全问题不但没有减少,反而越来越严重,这是云计算和大数据发展到今天必然的代价,在未来两三年里,会有各种移动智能设备接入,安全问题也会变得越来越严重。
  
  当前,如果说厂商完全拿不到用户的数据和信息,这是不可能的。例如,用户使用微信的时候,为了匹配朋友通讯录自然是要上传的,为了使用聊天的功能,用户与朋友所有聊天的记录自然会保存在对方的服务器上。
  
  在这样一个时代,我们每一个用户变得信息透明几乎是不可避免的,除非我们回归原始,不在这个社会生活。面对这样的境地,我们除了要加强自身的保护意识之外,就是期待互联网公司们的“业界良心”。这就需要用户个人信息和厂商服务之间的平等互换,当某厂商拿走我们的信息去做大数据分析的时候,用户要有知情权和选择权。
  
  我们自然欢迎开放大数据对我们生活的改变,但我们也同样担忧赤身裸体的走在互联网世界。