新闻动态
    技术中心
    技术中心
    当前位置:ag8亚游集团自控 >> 服务支持 >> 技术中心 >> 浏览文章
    什么是数据科学?
    作者:研发部小赵 日期:2018年03月17日 来源:本站原创 浏览:

    内容导读:    互联网上充斥着“数据驱动的应用”。几乎任何的电子商务应用都是数据驱动的应用。这里面前端的页面靠背后的数据库来支持,它们两者之间靠中间件来连接其他的数据库和数据服务(信用卡公司、银行等等)。但是仅仅使用

        互联网上充斥着“数据驱动的应用”。几乎任何的电子商务应用都是数据驱动的应用。这里面前端的页面靠背后的数据库来支持,它们两者之间靠中间件来连接其他的数据库和数据服务(信用卡公司、银行等等)。但是仅仅使用数据并不是我们所说的真正的“数据科学”。一个数据应用从数据里获取价值,同时创造更多的数据作为产出。它不只是带有数据的一个应用,它就是一个数据产品。而数据科学则是能创建这样的数据产品。

        互联网上早期的数据产品之一就是CDDB数据库。CDDB数据库的开发者意识到基于CD(音频光盘)里面的每首歌曲的确切长度,任何CD都有一个唯一的数字签名。Gracenote公司创建了一个数据库,记录着歌曲的长度,并和专辑的元数据(歌曲名称、歌手和专辑名称)数据库关联。如果你曾经使用iTunes来找CD,你就是在使用这个数据库服务。iTunes会先获取每首歌的长度,然后发给CDDB,从而得到歌曲的名称。如果你有一些CD(比如你自制的CD)在数据库里没有记录,你也可以在CDDB里创造一个无名专辑的题目。尽管看起来很简单,但这是革命性的。CDDB把音乐看成是数据,而不仅仅是声音,并从中创造了新的价值。他们的商业模式和传统的销售音乐、共享音乐或者分析音乐口味等业务的模式截然不同,尽管这些业务也可以是“数据产品”。CDDB完全是视音乐的问题为数据的问题。

    谷歌是创造数据产品的专家,这里列几个例子。
     
        谷歌的创新是在于其意识到搜索引擎可以使用入链接而不是网页上的文字。谷歌的PageRank算法是最早一批使用网页以外的数据的算法之一,特别是网页的入链接数,即其他网页指向某网页的数量。记录链接让谷歌的搜索引擎比其他的引擎更好,而PageRank则是谷歌的成功因素中非常关键的一条。
     
        拼写检查不是一个非常难的任务,但是通过在用户输入搜索关键词时,向错误拼写推荐正确的用法并查看用户是如何回应推荐,谷歌让拼写检查的准确率大幅提高。他们还建立起了常见错误拼写的字典,其中还包括对应的正确拼写以及错误拼写常见的上下文。
     
        语音识别也是一个非常艰难的任务,而且也还没有完全被解决。但谷歌通过使用自己收集的语音数据,已经开始了针对这个难题的一个宏大的尝试。并已把语音搜索集成到了核心搜索引擎里。
     
        在2009年猪流感的传播期,谷歌能够通过跟踪与流感相关的搜索来跟踪这次猪流感的爆发和传播过程。 
     
        通过分析搜索跟流感相关的用户在不同地区的情况,谷歌能够比美国国家疾病控制中心提前两周发现猪流感的爆发和传播趋势。

        谷歌并不是唯一一家知道如何使用数据的公司。脸书和领英都是用朋友关系来建议用户他们可能认识或应该认识的其他人。亚马逊会保存你的搜素关键词,并使用别人的搜索词来关联你的搜索,从而能令人惊讶地做出恰当的商品推荐。这些推荐就是数据产品,能帮助推进亚马逊的传统的零售业务。所有这些都是因为亚马逊明白书不仅仅是书,而相机也不仅仅是相机,用户也不仅仅就是一个用户。用户会产生一连串“数据排气”,挖据它并使用它,那么相机就变成了一堆数据可以用来和用户的行为进行关联。每次用户访问他们的网站就会留下数据。

        把所有这些应用联系到一起的纽带就是从用户那里采集的数据来提供附加价值。无论这个数据是搜索关键词、语音样本或者产品评价,现在用户已经成为他们所使用的产品的反馈环中重要的一环。这就是数据科学的开端。

        在过去的几年里,可用的数据量呈爆炸性的增长。不管是网页日志数据、推特流、在线交易数据、“公民科学”、传感器数据、政府数据或其他什么数据,现在找到数据已经不再是问题,如何使用这些数据才是关键。不仅仅是企业在使用它自己的数据或者用户贡献的数据。越来越常见的是把来自多个数据源的数据进行“聚合”。《在R里进行数据聚合》分析了费城郡的房屋抵押赎回权的情况。它从郡长办公室获得了房屋抵押赎回权的公开记录,抽取了其中的地址信息,再使用雅虎把地址信息转换成了经纬度。然后使用这些地理位置信息把房屋抵押赎回权的情况绘制在地图上(另外一个数据源)。再把它们按社区、房屋估值、社区人均收入和其他社会—-经济因素进行分组。

        现在每个企业、创业公司、非营利组织或项目网站,当他们想吸引某个社群的时候所面临的问题是,如何有效的使用数据。不仅仅是他们自己的数据,还包括所有可用的和相关的数据。有效的使用数据需要与传统的统计不同的技能。传统的穿职业西装的精算师们进行着神秘但其实是早已明确定义的分析。而数据科学与统计的不同是数据科学是一种全盘考虑的方法。我们越来越多的在非正规的渠道里找到数据,数据科学正随着数据的不断收集、把数据转换为可处理的形式、让数据自己讲故事以及把故事展现给别人不断演进。

     

    上一篇文章:Arduino的原理 下一篇文章:没有了
    相关链接
    发表评论
    用户评论
    版权所有 山西ag8亚游集团自控股份有限公司 晋ICP备09004627号     
    官方微信
    新浪官方微博
    腾讯官方微博