大数据是这样计算的:XLab实例入门

大数据是这样计算的:XLab实例入门

  内容提要

  随着大数据分析方法的发展、分析工具的改进,大数据分析的门槛降低了。基于大数据算法平台,数据分析师们已经不再被数据的大所困扰,他们可以轻松地探索大数据,挖掘大数据的价值。

  《大数据是这样计算的:XLab实例入门》侧重介绍大数据分析方法和算法的应用,选取了10个不同领域的真实数据集,针对每个数据的特点,选择适合的方法和算法,和读者一起体验数据探索、数据分析、建模预测的过程;通过实例计算的结果,读者会更加了解各种方法和算法的长处和局限。《大数据是这样计算的:XLab实例入门》的实例都运行在大数据算法平台XLab上。

  《大数据是这样计算的:XLab实例入门》适合对大数据分析感兴趣的读者阅读,也可供数据分析师、算法工程师等专业人员参考使用。

   目录

  第1章 入门 1

  1.1 打开大数据之门 1

  1.2 接触大数据 2

  1.3 数据初探索 4

  1.4 进一步分析 10

  1.5 训练和预测 17

  第2章 简介 23

  2.1 主界面介绍 23

  2.1.1 工具栏 24

  2.1.2 数据列表 26

  2.1.3 窗口管理器 28

  2.1.4 工作界面 28

  2.2 数据查看、运行 29

  2.2.1 文本显示 31

  2.2.2 复制部分数据 31

  2.2.3 显示/隐藏列 32

  2.3 脚本编辑、运行 33

  2.4 如何获得帮助信息 37

  2.4.1 查看帮助手册 37

  2.4.2 界面上的帮助信息 38

  2.4.3 脚本函数的帮助信息 40

  2.5 执行SQL语句 44

  第3章 全球机场信息 46

  3.1 数据可视化 47

  3.2 统计分析 58

  3.3 大中型机场的分析 62

  3.4 海拔高度排行 64

  3.5 数据的关联关系 68

  第4章 股票价格 73

  4.1 数据处理 74

  4.2 数据探索 78

  4.3 数据 81

  4.3.1 组合使用基本函数进行变换 83

  4.3.2 利用专门函数一步到位 84

  4.4 各股趋势比较 85

  4.5 总体趋势 87

  第5章 标准普尔500指数 91

  5.1 数据类型转换 92

  5.2 各指标间的线性关系 93

  5.3 按时间变化趋势 96

  5.4 数据对比 100

  第6章 鸢尾花数据集 107

  6.1 属性间的关系 108

  6.2 聚类 110

  6.2.1 K-Means聚类 111

  6.2.2 EM聚类 120

  6.3 二分类数据子集 124

  6.3.1 使用训练、预测窗体 125

  6.3.2 调用训练、预测脚本 131

  第7章 MovieLens数据集 136

  7.1 数据变换 137

  7.2 统计 138

  7.3 排行榜 145

  7.4 分类排行榜 147

  7.5 影片关联分析 149

  7.6 属性扩展 157

  第8章 汽车评价数据集 161

  8.1 数据图示化 162

  8.2 对比分析 165

  8.3 决策树 169

  第9章 Twitter数据 174

  9.1 用户信息分析 175

  9.2 用户粉丝数量的情况 184

  9.3 粉丝的情况 192

  9.4 粉与被粉 197

  9.5 信息速度 204

  9.6 哪些用户更重要 208

  9.6.1 粉丝最多的用户 209

  9.6.2 用户排名 211

  第10章 随机数据 215

  10.1 数据生成 215

  10.2 计算π值 217

  10.3 中心极限 222

  第11章 新浪网页数据 230

  11.1 分词 232

  11.2 有区分度的单词 234

  11.3 选择特征 235

  11.3.1 卡方检验 236

  11.3.2 信息增益 238

  11.4 主题模型 242

  11.4.1 潜在语义分析 242

  11.4.2 概率潜在语义分析 253

  11.4.3 LDA模型 272

  11.5 单词映射为向量 289

  第12章 2014年阿里巴巴大数据竞赛 294

  12.1 试题介绍 294

  12.2 数据 296

  12.3 思 298

  12.3.1 用户和品牌的各种特征 298

  12.3.2 二分类模型训练 300

  12.3.3 比赛考核目标 301

  12.4 计算训练数据集 302

  12.4.1 原始数据划分 303

  12.4.2 计算特征 304

  12.4.3 数据预处理标识 304

  12.4.4 用户-品牌联合特征 308

  12.4.5 用户特征 313

  12.4.6 品牌特征 317

  12.4.7 整合训练数据的特征 322

  12.4.8 计算标签 323

  12.5 二分类模型训练 324

  12.5.1 正负样本配比 324

  12.5.2 朴素贝叶斯算法 325

  12.5.3 逻辑回归算法 326

  12.5.4 随机森林算法 327

  12.6 提交预测结果 328

   精彩节摘 推荐序一

  阿里云副总裁

  周靖人

  阿里巴巴的大数据算法平台作为支持天猫、淘宝和支付宝等各种业务的基石,每天有数千名的阿里工程师在平台上处理各式各样的海量数据。作者多年来一直从事阿里巴巴的大数据算法平台的研发,致力于帮助工程师更快捷、更高效地挖掘大数据,进行复杂多样的数据分析。作者根据自己在阿里大数据计算方面的所见所闻,结合多个具体的案例分析,将大数据分析计算的脉络直观、清晰地展现给读者。

  本书集中在大数据分析实战上,精选了不同行业和领域的数据集,重点大数据的分析方法和算法。本书的每一个章节都围绕一个实际数据集,从数据探索入手,根据数据自身的特点选取相应的分析方法,并对相关算法和方法进行简要介绍,便于读者理解掌握。同时,本书注重计算结果的分析,使读者对算法的效果有具体的印象,加强对算法的理解。它是大数据领域一本难得的实用好书!

   推荐序二

  蚂蚁金服副总裁、首席数据科学家

  漆远

  本书立足于阿里巴巴成熟的大数据算法平台,读者在分析实例时,可以直接关注思和算法,省去了如何编写复杂的分布式代码实现一个常用算法的困扰。本书的学习门槛低,读者如果用过MATLAB、SAS、R或Excel等任何一款数据分析软件,就可以轻松读懂本书。

  作者是阿里巴巴一个核心MPI大数据算法平台的主要建设者和领头人,其开发的算法平台在阿里巴巴和蚂蚁金服集团都广泛使用,很好地支持了数据分析师和工程师的工作。作者结合自身的丰富经验,通过具体案例全面地解析数据探索过程,思、具体算法的使用及技巧,实战性强:面对具体的数据,引入适合的算法,有简明的算法原理介绍;通过算法应用到数据后的效果展示,读者能感性地了解该算法的作用。

  本书可以帮助对大数据分析感兴趣的初学者了解该领域,提高自己在该领域的知识积累。本书所讨论的十多个数据集,涉及不同的场景,用到了各种统计分析和机器学习的算法,可以帮助正在从事该领域的专业人士扩宽知识面,增强大数据实战能力。

  看完这本书,也许你会揭下大数据神秘的面纱,然后发现它很有意思、很有用!

   作者简介

  杨旭,人,2004年获南开大学数学博士学位;随后在南开大学信息学院从事博士后研究工作;2006年加入微软亚洲研究院,进行符号计算、大规模矩阵计算及机器学习算法研究;2010年加入阿里巴巴,从事大数据相关的统计和机器学习算法研发。著有《重构大数据统计》。

   前言

  随着大数据分析方法的发展、分析工具的改进,大数据分析的门槛降低了。基于大数据算法平台,数据分析师们已经不再被数据的大所困扰,他们可以轻松地探索大数据,挖掘大数据的价值。

  本书希望将最新的、常用的大数据分析方法和算法介绍给读者。在内容的组织上,选取了10个不同领域的真实数据集,针对每个数据的特点,选择适合的方法和算法,和读者一起体验数据探索、数据分析、建模预测的过程;通过实例计算的结果,我们会更加了解各种方法和算法的长处和局限。本书的实例都运行在大数据算法平台XLab上。

  XLab是阿里巴巴集团内部xxx的大数据算法平台,集统计、机器学习、数据分析、挖据和处理于一体,致力于帮助用户享受最新的算法研究,使其无须关注算法的底层实现和性能调优,专注数据探索和算法尝试,从而快速地进行业务调整,搭建线上业务。在阿里集团外,大家也有机会接触到XLab,参加2014年阿里巴巴大数据竞赛的几百支高校学生队伍,正是使用XLab来进行大数据分析预测的;面对淘宝商家的数据开发平台,御膳房便使用了XLab的分布式算法库XLib。

  本书每章一个实例,每个实例各有特点,每章所用的方法也各有侧重,我简单归纳如下,希望能帮助读者把握本书脉络,选择阅读重点。

  第1章

  围绕着人口普查数据,演示了一些常用的方法,譬如:对数据进行可视化,计算常用统计量,进行对应分析,根据数据建立模型判断年收入水平等,希望读者能体会到:大数据分析还是很简单、自然的。

  第2章

  概略介绍XLab的功能,希望大家能对大数据算法平台有个总体了解。

  第3章

  分析全球机场信息数据,亮点是地理信息(经度、纬度、海拔高度)可视化。

  第4章

  围绕纽约证券交易所的25家上市公司的股票价格,进行数据预处理、趋势显示和主成分分析。

  第5章

  分析标准普尔500指数,展示如何通过图矩阵,快速发现各数据列间的线性关系;如何将扩展直方图与方差、变异系数等统计量相结合,探寻规律;本章还会将标准普尔500指数与前一章的主成分分析结果进行对比。

  第6章

  针对鸢尾花数据集,聚类分析中常用的两种方法:K-Means聚类和EM聚类,通过在鸢尾花数据上的实验效果,读者能了解这两种方法擅长处理的情况;在本章后半部分,实验、对比了各种分类算法在该数据集上的效果。

  第7章

  MovieLens数据集记录了电影信息和观众对电影的打分记录。首先,计算得到各种排行榜,进一步对影片进行关联分析,即如果知道某个观众看了影片A和B,我们可以推测该观众可能还看过哪部其他影片?

  第8章

  关于汽车评价数据集,重点关注:使用对应分析的方法,将各个属性值间的关系图示化;如何将数据所描述的规则,转换为更为形象和易用的树形决策过程。

  第9章

  关于Twitter数据,首先尝试不同的统计方法,一起发现些有意思的现象;还可以针对Twitter的关注关系构成的网络,实验信息的速度;最后,使用PageRank等方法,我们可以排出这个网络中最重要的人物。

  第10章

  展示如何生成大规模的随机数据,并演示了两个神奇的例子。

  第11章

  为新浪网页数据,本章的重点是处理自然语言数据,介绍常用的算法:归一化、分词、TF-IDF值、选择特征等;主题模型是本章的重点,发掘众多文档后面的主题,找出相似的文档;最后介绍奇妙的Word2Vec算法。

  第12章

  针对2014年阿里巴巴大数据竞赛的赛题数据,展示了完整的大数据问题分析、数据预处理、特征构造、数据集划分、模型训练、预测评估过程。

  另外,如果读者对XLab底层算法的实现感兴趣,参考我的另一本书《重构大数据统计》。面对海量数据,即使是基本的统计计算,考虑到计算时间和资源消耗,也不能简单地将教科书上的算法并行化,而是要在计算理论和计算方法上进行创新。

  因作者水平有限,书中难免有不妥或疏漏之处,敬请广大专家和读者、!

  最后,感谢一起做XLab的各位阿里同事!感谢家人的理解和支持!

  杨旭

  2016年3月


大数据是这样计算的:XLab实例入门

相关推荐

预防足部疾患机能鞋及脚骨矫正器

目录 ▪ 预防足部疾患机能鞋及脚骨矫正器定位 ▪ 一 矫正器产品品核心竞争力 ▪ 二预防足部疾患机能鞋  ▪ 预防足部疾患机能鞋及脚骨矫正器定位简介预防足部疾患机能鞋及脚骨矫正器定位一 矫正器产品品核心竞争力 本项目关键技术完全由公司自主研发,目前已经获得8项专利,拥有三项核心技术  1.纵弓长短调节 ... (继续浏览)

KakaoPay

时间2017年2月21日,阿里巴巴旗下蚂蚁金服与韩国移动社交巨头Kakao Corp旗下移动支付平台Kakao Pay周二发表联合声明,蚂蚁金服将向Kakao Pay注资2亿美元。此次注资是蚂蚁金服全球扩张计划的一部分,该公司上月宣布以8.8亿美元收购美国转账服务提供商MoneyGram International,周一还宣布向菲律宾移动支付公司Mynt注资... (继续浏览)

钱包易行信息科技

  湖南钱包易行信息科技有限公司是钱包金服集团在湖南成立的合资子公司,基于总公司成熟的运营模式,开展场景金融科技服务业务,实现各板块业务的快速发展。目标是打造中部地区消费金融业务运营服务中心总部, 同时设立新业务拓展总部。  信息技术咨询服务;信息系统集成服务;软件开发;软件技术转让;软件技术服务;数据处理和存储服务;电子商务平台的开发建设;计算机网络平台的... (继续浏览)

证券公司合规管理试行

  xxx条 为了促进证券公司加强内部合规管理,增强约束能力,实现持续规范发展,根据《证券法》和《证券公司监督管理条例》,制定本。   发布施行  [2008]30号  现公布《证券公司合规管理试行》,自 2008年8月1日起施行。   二○○八年七月十四日   试行  第二条 在中华人民国境内设立的证券公司应当按照本实施合规管理。   ... (继续浏览)

中国证券业年鉴

  简介 《中国证券业年鉴》创刊于1993年,是由上海、深圳证券交易所和中国证券业年鉴编辑委员会共同主办的一部全面反映。主要反映上一年度中国证券、金融、期货、基金等市场方面的情况和发展动态。证券历史的践行者  创刊二十年来,《中国证券业年鉴》已经逐渐成长为一个展示公司业绩、总结市场成就、记录证券业历史、向人士展现和推介我国证券市场形象的权威窗口。《中国... (继续浏览)

同望科技发展

  企业文化  同望科技以为企业提供企业级信息化管理及电子商务解决方案为己任;  企业核心价值观:诚信,负责,专  业。   业务支撑同望科技吸收国际化的供应链和分销链管理思,,结合中国的实际,打造出信息化管理与电子商务平台。公司拥有博士、硕士等近百人的研发团队和丰富的大型企业营销系统、电子商务实施与运营经验,为您提供贴身超值服务,同时阿里巴巴下属淘宝平台、... (继续浏览)

国际证券

  国际证券  主要有国际股票和国际债券两大类:   ​国际股票国际股票是指大公司尤其是跨国公司在国外发行和流通的股票。可以分为普通股和优先股两种:普通股的股东按其所持股票的份额,参加公司的管理,分享公司的利润,或分担公司的亏损,但其所承担的责任仅限于所持股份的份额;而持有优先股的股东一般都按固定的股息率较之普通股股东优先取得股息,不以公司利润有无或... (继续浏览)

大象贵金属

  简介 大象贵金属手机端APP产品,经广东贵金属交易中心授权,正式粤贵银系列现货白银投资。提供一站式贵金属投资服务,行情、交易、直播等等,只要您手握大象贵金属APP,您想要的一切都在这里。   三大特色(1)分析师计划 策略直达 分析师一做单 您就会知道(2)24小时直播室各精英分析师轮番坐阵 (3)客服MM全天候服务有问题,找客服MM,... (继续浏览)

中国经济报刊协会新委员会

  新常态、新、新经济主题沙龙4月22日下午,中国经济报刊协会新委员会揭牌仪式暨新常态、新、新经济主题沙龙在师范大学京师报告厅举行。中国记协党组翟惠生、中央网信办网络新闻信息局副局长孙凯出席揭牌仪式并讲话,副总编辑谢国明、新华网党委齐绍南等领导为新委员会揭牌。  北师大新闻与学院执行院长喻国明、界面网络科技有限公司联合创始人兼总裁何力在主题沙龙上进行了专题,... (继续浏览)

农村互联网金融

  背景2014年11月21日,中国人民银行宣布,自11月22日起下调金融机构人民币贷款和存款利率,金融机构一年期贷款基准利率下调0.4个百分点,一年存款基准利率下调0.25个百分点。其中,存款基准利率上浮1.2倍还是3.3%,成本不变;贷款基准利率减少0.4%,售价下降。不对称降息的目的,起的是泄洪的作用,把现金流放到市场上,通过降低售价降低中小企业融资难... (继续浏览)

孔文国

  人物任职上海九沛金融信息服务有限公司(简称九沛金服)董事长合并图册  鼎信品牌创始人  上海商会常务理事  全网营销实战方法先行者  中国著名企业家  中国电子商务团队整合策划专家   人物发展经历上海九沛金融信息服务有限公司立志为客户和小微商户企业打造真正有实用价值的电商及支付工具,并在产公司图册品的基础上,为客户实现真正的自主创业的机会。这些年,支付... (继续浏览)

大象直播

  简介  ;该平台汇聚广泛权威的分析师资源,通过对海量市场信息的高效处理,向投资者提供全方位、多层次、个性化的专业的互动直播、课程点播以及实时投资在线咨询服务,帮助投资者xxx时间把握交易机会。大象金服成立于2015年7月,专注于投资咨询和投资者教育。大象金服以强大的金融研究团队为支撑,依托互联网+的创新思维和技术,打造投资者与专家、投资者与投资者的双向互... (继续浏览)

五矿证券经纪

  中国五矿中国五矿集团公司成立于1950年,是以金属、矿产品的开发、生产、贸易和综合服务为主,兼营金融、房地产、物流业务,进行全球化经营的大型企业集团,现由国务院国有资产监督管理委员会直接监管。  1992年,中国五矿集团公司被国务院确定为全国首批55家企业集团试点和7家国有资产授权经营单位之一。1999年,中国五矿集团公司被列入由中央管理的44家国有重要... (继续浏览)

证券经纪人执业规范

  xxx章 xxx条为适应对证券经纪人实行自律管理的需要,规范证券经纪人的执业行为,促进证券经纪人提高执业水准,根据《证券法》、《证券公司监督管理条例》、《证券经纪人管理暂行》(以下称《暂行》)等,制定本规范。   第二条  证券经纪人在执业时应当遵守本规范。    第  证券公司委托、管理证券经纪人时应当遵守本规范。   第二章 第四条 ... (继续浏览)

中国证券场结构

  证券市场结构  证券市场的结构主要可分为:   层次结构  通常指证券进入市场的顺序而形成的结构关系。按这种顺序结构划分为:发行市场和交易市场。证券发行市场又称一级市场或初级市场,是发行人以筹集资金为目的,按照一定的法律和发行程序,向投资者出售新证券所形成的市场。证券交易市场又称二级市场或次级市场,是已发行的证券通过买卖交易实现流通转让的市场。 ... (继续浏览)

金融科技百强榜

  榜单介绍 该榜单旨在关注全球范围内那些通过技术革新传统金融行业的优秀企业和机构。榜单每年挑选100家公司进行排名,其中有50家成熟金融科技公司,以及另外50家新兴金融科技公司。   2015年榜单2015年12月15日,《全球金融科技100强》报布。据统计,此次全球金融科技100强评选覆盖了全球19个国家的重要新兴金融科技公司,涉及保险、交易、借贷... (继续浏览)

钱罐子

  钱罐子简介钱罐子是一款互联网金融平台,用户可通过手机APP、PC网站和WAP端、微信端跨屏完成产品购买、收益查询、资金xxx、参与活动等操作。钱罐子由从业于金融、互联网行业多年的精英团队创建,管理团队来自阿里巴巴、腾讯以及国有上市集团,项目及风控高管来自于花旗银行、平安银行及民生银行等金融机构。钱罐子2015年度亚洲金融机构竞争力颁典礼在举行,钱罐子荣获... (继续浏览)

深入React技术栈

  内容简介  全面讲述React技术栈的xxx本原创图书,pure render专栏主创倾力打造  覆盖React、Flux、Redux及可视化,帮助开发者在实践中深入理解技术和源码  前端组件化主流解决方案,一本书玩转React全家桶   本书了非常多的内容,不仅介绍了面向普通用户的API、应用架构和周边工具,还深入介绍了底层实现。此外,本... (继续浏览)

VRPay

VR Pay,蚂蚁金服方面将推出 VR 支付技术,加入 VR Pay 功能后,用户在下单时眼前会出现一个 3D 形态的支付宝收银台,用户根据所戴 VR 头显的操作特点,通过凝视、点头、手势等控制方法登陆支付宝账户,并输入密码并完成交易。蚂蚁金服内部的 F 工作室完成,该工作室成立于今年年初,是一个 7 人团队,团队目标就是解决 VR 下的实时支付问题... (继续浏览)

小波中医助手

目录 ▪ 小波中医助手简介小波中医助手简介小波是一个将传统中医诊断数字化、智能化的工具; 利用现代数字化技术将中医的主观特征数字化、客观化、具实化,实现中医诊断智能化。小波中医助手... (继续浏览)