2016年05月的内容

如何快速读取数据文件若干行

用Python进行数据分析的童鞋们，经常遇到的问题就是遇到一个数据文件，大概几百兆，而只需要其中若干行数据。那么我们怎么办？最笨的办法，就是一次性将所有的文件数据加载到内存中再做索引或切片处理，可能一次性加载就需要耗费一点时间。如果重复性地做这种事情，你都会觉得不好意思跟自己交...

fireling 10年前 (2016-05-28) 8028℃ 4喜欢

搭建Spark运行环境：可以自搭建Hadoop的standalone版，主要配置在于JDK和Hadooop的环境变量设置。在此基础上搭建Spark的standalone版，下载“Hadoop Free”版本，主要配置在于Scala和Spark的环境变量设置。如果使用到之...

fireling 10年前 (2016-05-24) 12087℃ 9喜欢

Pandas Spark 工作方式单机single machine tool，没有并行机制parallelism 不支持Hadoop，处理大量数据有瓶颈分布式并行计算框架，内建并行机制parallelism，所有的数据和操作自动并行分布在各个集群结点上。以处理in...

fireling 10年前 (2016-05-24) 32225℃ 99喜欢

此文为宁哥翻译文章，原文章请看这里。关于DataFrame 上一篇博客我讲到了《基于Python的数据科学技术栈的综述》。这一篇让我们关注一个非常重要的概念：DataFrame。 DataFrame非常适合处理结构化数据和半结构化数据，它们基本上是一些行的集合，而每一列都有自...

fireling 10年前 (2016-05-24) 14837℃ 10喜欢

Apache Spark是一种新型的快速通用的集群计算系统，可以和Hadoop交互。 Spark的主要抽象是分布式的条目集合(distributed collection of items)，称为RDD(Resilient Distributed Dataset，弹性分布式数据...

fireling 10年前 (2016-05-20) 7552℃ 1喜欢

文本挖掘系统 Research of Text Mining System 系统说明集成了文本过滤、去重及邮件实时通知的功能集成了文本关键词提取的功能集成了文本分类即打标签的功能集成了文本推荐即热点评价的功能支持中英文系统架构图关于分词英文分词，采用nl...

fireling 10年前 (2016-05-20) 8416℃ 7喜欢