当前: 首页 - 图书专区 - Web与网络数据科学: 建模技术在预测分析中的应用
Web与网络数据科学: 建模技术在预测分析中的应用


  在线购买
(美) 托马斯 W. 米勒(Thomas W. Miller )著
978-7-111-55844-6
79.00
265
2017年02月16日
何泾沙 等译
计算机 > 软件工程及软件方法学 > 综合
Pearson Education Asia
558
简体中文
16
Web and Network Data Science: Modeling Techniques in Predictive Analytics
教材
数据科学与工程技术丛书








本书基于作者的实践项目经验,介绍了用于预测分析的web和网络建模的商业和学术元素。
要想解决实际问题,就必须从两个方面去学习和掌握预测分析建模:商业应用及核心原理。该领域中的某些书籍或者只关注商业应用方面的问题(如Google分析学与SEO),或者太偏向于学术研究(涵盖的领域包括社会学、复杂理论、社会生态学、应用物理、经济学),现在,通过阅读这本书,你将掌握这两个方面的知识。
在本书中,首次将面向预测分析学的Web与网络建模中所涉及的商业应用与技术要点进行有效融合,作为一个整体呈现给广大读者,从而为管理者和高校学生提供了进行预测分析所需要的知识,即利用面向现实社会中的实际应用场景对基本概念、原理和理论进行综合性介绍。
本书基于作者Thomas W. Miller教授在美国西北大学开设的Web与网络数据科学的前沿课程为基础撰写而成。在本书中介绍了可用性测试、网站性能、使用分析、社交媒介平台、搜索引擎优化(SEO)等方面的知识。同时,Miller教授在涵盖实际应用与介绍社交网分析和网络科学领域中现有的最新知识之间做了很好的平衡,清楚地展示出如何将所涉及的理论知识应用于解决实际的商业问题。

内容简介
如果要在竞争中取得优势,首先必须掌握知识。如果要掌握知识,那么就从Web开始吧,因为它是人类历史上创建的一个最大的数据仓库。然而,单从数据并不能直接获得知识与认知。要想获得知识与认知,还必须有效地应用Web与网络数据科学方面的技术。
本书会教你如何去做。这是一本将学术理论和基本概念与现实社会中的实际应用相结合的书籍,书中还包含使用当今国际上最流行的软件工具构建的应用实例:Python应用于数据预处理,R语言应用于建模与可视化。
以作者在美国西北大学开设的前沿性课程作为基础,Thomas Miller教授在本书中介绍了从网站可用性和性能测试到面向关键人物和影响力识别的社交网络分析方面的最新知识。
通过使用实际的数据,Miller教授介绍了有效预测个人或团体在购买和选举过程中的行为的方法,有效收集高价值竞争性信息的方法,有效回答某种的大范围内一般性和特定领域问题的方法。
研究人员和分析师可以将本书作为在线研究和建模项目的资源和参考资料。本书还为编程人员编写程序解决实际问题提供了完整的核心代码,并通过详细的代码注释及专家指南将编程人员所做的分析提升到一个更高水平。
Web与网络建模可以应用于以下领域:
评估网站性能
自动采集数据
了解竞争对手的更多情况
展示复杂网络
理解网络社区以及内在的动态规律
度量对用户对产品或问题的喜好
识别观点中具有的共性
给出高价值的商务建议
模拟现实社会中的复杂现象


作者简介

Thomas W. Miller 美国西北大学预测分析学专业的负责人,为该专业制定了包括市场分析学、高级建模技术、数据可视化、Web与网络数据科学在内的多门课程。Miller教授拥有该专业多年的授课经验,并与其他40多名教师合作开展预测分析学和数据科学方面的实训。
Miller教授是ToutBay公司的共同创始人,目前担任产品研发主管,该公司主要从事数据科学应用软件的开发与销售。Miller教授在零售地点选择领域和高度竞争市场中的产品定位、市场分割及定价领域积累了丰富的咨询经验,在预测模型领域拥有30多年的研究经验。Miller教授撰写并出版了多部利用大数据进行预测分析的专著,此外Miller教授还出版了一部面向体育运动的预测模型专业书籍《假如没有Tout:如何判断出一个会获胜的运动团队》。
在进入学术界之前,Miller教授在计算机及交通行业工作了近15年,专业领域是商业IT技术。他还领导过A. C. Nielsen市场研究中心的研究工作、在威斯康星大学麦迪逊分校讲授过市场分析与商业策略方面的课程。
Miller教授拥有美国明尼苏达大学心理测验学博士学位和统计学硕士学位,并拥有美国俄勒冈大学MBA和经济学硕士学位。
读者可以从http://www.ftpress.com/miller获得更多相关内容以及软件工具。
“斯考特,把我弹射出去。”
Captain Kirk(William Shatner饰)
电影《星际旅行4:抢救未来》(1986年)

Web是一个由众多网页相连接而形成的网络,是一个通信媒介,是一个覆盖全球的信息来源。人们花费大量的时间在Web上进行搜索,获取有用的数据与信息,并对它们进行分析。有效使用Web给人们的生活带来了很多的便利。本书将告诉你以上这一切是如何实现的。
本书是根据我在西北大学(Northwestern University)讲授的一门课程的内容撰写而成的。此课程从介绍Web网站分析学入手,主要关注在Web搜索中使用数据的统计与性能。之后,我又在此课程中增加了来自网络科学和社交媒体的概念。在讲授此课程两年后,我认识到从Web上收集信息可以成为一个独立的话题,有太多关于Web与网络数据科学方面的知识可以学习。本书就像我讲授的课程那样,是关于以上这些知识的指南。
Web与网络数据科学是数据科学和网络科学相结合而形成的,关注的是将Web看成一个提供信息的来源。因而,最好的学习方法就是通过实例进行讲解。因此,本书中包含大量的实例,通过提供建模技术方面的资料和参考指南给研究人员与分析师提供帮助。我们也会向编程人员展示如何基于基础代码编写能够正确运行并用于解决真实商业问题的软件。
我们想要做的事情都会通过所编写的代码体现出来。本书中包含的这些代码将作为参考资料提供给每一位读者,当然会有部分读者对这些代码进行进一步调试。为了鼓励学生学习,每一段程序代码都包含详细的注释以及如何进一步分析的建议。所有的数据集以及计算机程序代码都可以直接从本书的网站http://www.ftpress.com/miller/下载。
Python这个名字来源于Monty Python。大家会看到有些软件包的名称比较奇特,如Twisted或Scrapy。R语言拥有自己的lubridate与zoo软件开发包。好的结果来源于辛勤工作并热爱工作的人们。那些追求快乐而不是名利的人们为开源软件做出了贡献,而我很高兴自己能够成为开源软件Python和R语言社区中的一员。那就让我们一起开始这段快乐的旅程吧!
对于Web和网络中存在的问题,使用Python可以有效便捷地解决某些问题,而使用R语言可以有效便捷地解决其他一些问题。常常还会出现两种语言都适用的情况,这时就需要进行权衡。总体来说,Python和R语言能够用于对Web及网络数据进行有效的收集与分析。
在本书中,我们还会提到编程时会使用到的很多工具。对网站的正常运行负有责任的Web专业技术人员还会使用很多其他语言和技术,如JavaScript、Apache、.Net Web服务,以及数据库系统。本书的讨论将会涉及这些技术,但不会提供任何编程代码。
本书中大多数数据来源于公共域数据源。用于支持案例的数据来源于加利福尼亚大学尔湾分校的机器学习信息库(Machine Learning Repository)和斯坦福大学的大型网络数据集(Large Network Dataset Collection)。所获取的影视方面的数据得益于互联网影视数据库(Internet Movie Database)所给予的使用许可。IMDb影视评价数据由斯坦福大学的Andrew L. Mass及同事整理完成。安然(Enron)案例数据由卡耐基-梅隆大学的William W. Cohen维护。Quake Talk(地震谈话)案例数据由Maksim Tsvetovat维护。我们对以上这些学者为我们的研究提供了丰富的数据表示深切的感谢。
很多人对我这些年来的知识积累都产生过重大的影响。他们中有出色的思考者,有善良的同仁,还有我会永远感激的老师以及导师。不幸的是,尤西纽斯学院(Ursinus College)哲学系的Gerald Hahn Hinkle和语言系的Allan Lake Rice以及明尼苏达大学(University of Minnesota)哲学系的Herbert Feigl已经永远离开了我们。在此,我还要感谢明尼苏达大学心理测验学系的David J. Weiss以及曾经在俄勒冈大学(University of Oregon)经济系任教的Kelly Eakin。好的老师(没错,他们都是伟大的园丁)终身都将得到人们的尊重。
感谢Stan Narusiewcz给了我职业生涯中的第一份工作,那是一个网络工程师的岗位。感谢Tom Obinger指导我成为一个成功的计算机系统和网络销售人员。还有Bill JoBush和Brian Hill,在我作为信息系统专业人员整个职业生涯的各个阶段,他们曾经是我的直接上司或同事。
感谢Michael L. Rothschild、Neal M. Ford、Peter R. Dickson和Janet Christopher在威斯康星大学麦迪逊分校(University of Wisconsin–Madison)伴我一起度过几年美好的时光并给予我无私的帮助。特别感谢A. C. Nielsen Center for Marketing Research的学生和顾问委员会的专家以及Jeff Walkowski和Neli Esipova,后两位在我组织在线调查与专题讨论小组期间曾经同我一起工作,我们所使用的方法那时才开始在重要的研究中得到应用。
我很有幸参与了西北大学成人教育学院开展的研究生远程教育的课程教学活动。感谢Glen Fogerty给我提供了讲授课程的机会,并让我负责西北大学预测分析学项目。感谢所有参与这个很有特色的研究生项目的同事和管理人员。最后,感谢帮助过我的众多学生们和老师们,你们令我受益匪浅。
ToutBay是数据科学领域中一个快速成长的公司。与公司的共同创始人Greg Blence一样,我对公司的未来发展抱有很大的信心。感谢Greg让我有这样一个参与创业以及面对商业活动中的现实而能够更加脚踏实地的机会。学术以及数据科学模型毕竟有其局限性,为了能够真正产生影响,我们必须实现我们的想法和模型,并且与他人进行共享。
我的家在加利福尼亚州,道奇体育馆(Dodger Stadium)以北四英里,但是我在位于伊利诺伊州埃文斯顿市(Evanston, Illinois)的西北大学任教,同时在位于佛罗里达州坦帕市(Tampa, Florida)的一个名叫ToutBay的数据科学公司指导产品研发。这样的工作和生活方式充分体现出了互联网带给我们的巨大便利。
nology公司的Amy Hendrickson使本书的编排、文字、图表看上去都是那么出色和完美,这是开源软件的又一个成功实例。感谢Donald Knuth以及整个社区对这个出色的系统在编排和出版方面做出的贡献。
本书中包含的内容主要源于在西北大学讲授的Web与网络数据科学这门课程。参与课程学习的学生提出了很多想法和启示。Lorena Martin对本书进行了评阅,提供了许多宝贵意见。Candice Bradley不但评阅了本书,还是本书的文字编辑。我对他们给予的帮助和鼓励表示衷心感谢。最后还要感谢我的编辑Jeanne Glasser Levine以及本书的出版商Pearson/FT Press,是他们使本书的成功出版成为可能。在此特别声明,我个人对所有写作方面的事宜、存在的错误与问题以及不足负全部责任。
我的好朋友Brittney和她的女儿Janiya总是抽空陪伴我。我的儿子Daniel总能与我同甘共苦,是我一辈子的朋友。我对于他们给予的信任致以崇高的敬意。

Thomas W. Miller
美国加利福尼亚州格伦代尔市
译者序
前言
第1章 相关技术概述1
第2章 在线传递消息9
第3章 Web爬行与抓取18
第4章 测试链接、外观与体验31
第5章 关注竞争对手39
第6章 网络可视化49
第7章 了解社区67
第8章 度量情感83
第9章 发现共同主题123
第10章 推荐146
第11章 网络博弈161
第12章 Web的未来167
附录A 数据科学方法170
附录B 在线初步研究184
附录C 案例分析196
附录D 代码与共享程序207
附录E 术语表218
参考文献226
索引252
当今社会是一个快速发展的社会,科技发达、信息流通,人们之间的交流越来越密切,居民的生活越来越方便,大数据就是这个高科技时代的最新产物,近年来迅速成为全球IT行业中的热门词汇。大数据中所隐含的理念以及潜在的发展前景与价值已经得到越来越广泛的认可,影响着政治和经济社会中的各个方面,被认为是各类组织和机构乃至国家层面的重要战略资源,成为提高核心竞争力的有力武器,也理应得到我们每一个用户、每一个消费者的高度重视。大数据具有数据量大、种类繁杂、实时性强、蕴藏的潜在价值大等特征,公开与分享已经成为大势所趋。然而,如何鉴别数据的真伪?如何从价值密度稀疏的大数据中获取隐藏在其中的真正价值?这些疑问给人们提出了技术上的巨大挑战。Web是大数据的一个重要来源,我们每一个人通过个人电脑、手机或各类移动终端敲击的每一个字、选择的每一条词语、录制的每一段语音留言、浏览的每一个网页,都成为大数据的组成部分,进入巨大的数据海洋中,成为被提取、分析、使用的基本元素,成为形成各种商业决策的依据以及通过分析对未来可能发生的事件进行预测的基础支撑。社会信用体系中政务诚信、商务诚信、社会诚信的构建也将建立在大数据的基础之上。近年来日渐流行的社交网站在给广大用户提供即时沟通交流工具以及形成在线社区平台的同时,更是成为大数据的一个重要来源。在当今社会的线上线下,数据无处不在、持续产生,然而,众多的数据纷繁杂乱,数据之间存在的关系复杂而不明朗,我们需要去搜索、处理、分析和归纳,以挖掘出数据的深层次规律以及数据之间存在的相互关系。
大数据的价值不仅仅在于数量巨大,通过建立新的模型、提出新的方法、构建新的系统、开发新的工具对大量、动态、持续产生的结构化、半结构化和非结构化数据进行分类、融合、分析与挖掘,以获得具有实际应用价值以及能够预测未来事件与行为的结果,这才是大数据的真正价值所在。虽然数据的迅速膨胀将决定企业、机构的未来发展,然而很多企业和机构并没有意识到数据爆炸性增长所带来的机遇以及潜在的隐患。但是随着时间的推移,随着大数据分析技术的进一步成熟与完善,大数据将得到越来越多的应用,实现越来越大的价值,人们也将越来越多地意识到大数据在企业和机构运作中所起的重要作用。在未来的商业、经济及其他领域中,关键的决策将越来越多地基于大数据与数据分析而做出,而越来越少地基于经验和直觉。
大数据将在观念上给我们带来一些颠覆性的转变。首先,我们面对的将是全部数据,而不再是随机抽取的样本;其次,大数据提供给我们的是混杂性,而不再是精确性;再次,大数据之间存在的是相关关系,而不再只是因果关系。因此,对大数据的分析需要我们提出和构建新的模型、方法和工具。本书就是为了满足这些新的需求和新的要求而撰写的,是将数据科学与网络科学相结合形成的“Web与网络数据科学”。本书不但包含了大数据分析与应用所需的理论知识与建模技术,还提供了大量的应用实例,并通过提供建模技术方面的资料和参考指南对研究人员及分析师的工作提供进一步的帮助,同时面向实际应用向编程人员展示如何使用目前在数据分析与应用领域中得到广泛应用的Python和R语言编写能够正确运行并解决实际商业问题的计算机软件,还提供了大量的Python和R语言代码实例。全书涵盖了Web与网络数据科学领域中的若干主要问题,如网站设计与用户行为、网络路径与通信、社区与影响、个体与群体行为、信息与网络等,具体分12章,在对开展Web与网络数据科学方面的研究所需的相关技术进行概述后,分别对Web在线消息传递技术、Web爬行与抓取技术、Web链接测试以及体验与外观改进技术、在线竞争性情报搜集与分析技术、网络可视化技术、社区发现与分析技术、情感度量技术、基于文本的共同主题发现技术、推荐技术、网络博弈行为的建模技术进行了深入浅出的介绍,最后对未来Web的发展进行了展望。此外,本书使用较大篇幅,以附录的方式对目前数据建模与分析中常用的技术进行了简要介绍,包括数据库与数据准备、数据统计学、回归与分类、机器学习、数据可视化以及文本分析学,对开展在线研究的流程与方法进行了系统的归纳,最后通过提供若干实用案例为本书中介绍的理论知识和应用技术画上了一个完美的句号。本书还向读者提供了在应用预测分析学的建模技术中常用的代码与共享程序、常用术语以及丰富的参考文献,为读者进一步学习提供专业帮助与技术指南。因此,本书对于从事基于Web的数据搜集、分析和应用的技术人员以及在相关领域中从事科学探索和技术研发的科研人员具有较重要的参考价值。
本书由三峡大学“楚天学者计划”主讲教授、北京市特聘教授何泾沙博士负责翻译,三峡大学贺鹏教授、中国科学院软件研究所朱娜斐博士协助了全程的翻译工作,中国航天科技集团公司第九研究院第十三研究所张玉强博士、清华大学徐晶博士、中国科学院信息工程研究所徐菲博士、北京工业大学博士生赵斌、研究生朱星烨、方静、刘畅、黄辉祥参与了部分章节的翻译工作。何泾沙博士对全书进行了最终统稿及全文校验。由于译者的水平有限,再加上时间方面的限制,译文中难免存在不够准确之处,敬请广大读者批评指正,译者在此深表谢意。

何泾沙
2016年12月于北京
计算机课程/大数据
读者书评
发表评论



高级搜索
云系统管理:大规模分布式系统设计与运营
工程信息检索教程(第2版)
实用IT项目管理(原书第3版)


版权所有© 2017  北京华章图文信息有限公司 京ICP备08102525号 京公网安备110102004606号
通信地址:北京市百万庄南街1号 邮编:100037
电话:(010)68318309, 88378998 传真:(010)68311602, 68995260
高校教师服务
华章教育微信
诚聘英才
诚聘英才