精选课程

Python编程语言
Python是一门跨平台、开源、免费的解释型高级动态编程语言,支持命令式编程、函数式编程、面向对象程序设计,语法简介清晰,并且拥有大量的几乎支持所有领域应用开发的成熟扩展库,比如机器学习领域的scikit-learn;深度学习领域tensorflow;数据分析领域Pandas、Numpy以及绘图Matplotlib、seaborn等,这些扩展库让Python语言变得强大,也成为实现数据分析和机器学习、人工智能的首选语言。
Java编程语言
Java 是由Sun Microsystems公司于1995年5月推出的面向对象的高级计算机程序设计语言,常用于桌面应用程序、Web应用程序、分布式系统和嵌入式系统、游戏开发、大数据处理等领域,Java语言提供类、接口和封装、继承、多态等面向对象的特性,支持类之间的单继承,接口之间的多实现;Java的强类型机制、异常处理、垃圾的自动收集等是Java程序健壮性的重要保证。
分布式大数据框架Hadoop
“大数据”顾名思义,指大量的数据,互联网技术和应用的发展,促使互联网用户数激增,技术升级促使个体产生的数据量不断增长,各行各业因为大幅爆发的数据而变得蒸蒸日上,如何高效处理、存储这些数据呢?Hadoop应运而生,它是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等,都支持Hadoop。 本课程我们为您精心安排的学习内容带您从零基础开始上手,让您全面掌握大数据处理框架Hadoop的两大核心:分布式存储和分布式计算。
数据仓库Hive
Hive是基于Hadoop的一个数据仓库工具,通过Hive可以实现将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,同时将sql语句转换为MapReduce任务进行运行,所以其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计。Hive具有sql数据库的外表,但应用场景完全不同,Hive 并不能够在大规模数据集上实现低延迟快速的查询,Hive 的最佳使用场合是大数据集的批处理作业,例如,网络日志分析。
共个学习任务