《大数据基础编程、实验和教程案例》学习日志 第一章、第二章

编程入门 行业动态 更新时间:2024-10-28 10:28:34

目录

第一章  大数据技术概论

1.1  大数据时代

1.2  大数据关键技术

1.3  大数据软件

1.3.1  Hadoop

1.3.2  Spark

1.3.3  NoSQL数据库

1.4  内容

1.5  小结

第二章  Linux系统的安装和使用

2.1  Linux系统简介

2.2  Linux系统安装

2.2.1  下载安装文件

2.2.2  Linux系统的安装方式

2.2.3  安装Linux虚拟机

2.2.3a  利用FTP软件向Ubuntu传输文件

2.3  Linux 系统及相关软件基本使用方法

2.3.1  Shell

2.3.2  root用户 

2.3.3  创建普通用户

2.3.4  sudo命令

 2.3.6  文件解压缩

2.3.7  常用的目录

2.3.8  目录的权限

2.3.9  更新APT

 2.3.10  切换中英输入法

2.3.10a  设置中文

2.3.11  vim 编辑器使用方法

2.3.12  过

 第三章  Hadoop的安装和使用



第一章  大数据技术概论

1.1  大数据时代

很nb

1.2  大数据关键技术

大数据技术的不同层面以及其功能

大数据两大核心技术

大数据计算模式及其代表产品

批处理计算主要解决针对大规模数据的批量处理,也是我们日常数据分析工作中常见的一类数据处理需求。例如爬虫......

1.3  大数据软件

 本文章所涉及的大数据软件

日志中会详细介绍软件安装和下载

1.3.1  Hadoop

        ​ Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS(Hadoop Distributed File System)。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算 。

1.3.2  Spark

        spark是一个用来实现快速,通用的集群计算平台。spark适用于各种各样原先需要多种不同的分布式平台的场景,包括批处理,迭代算法,交互式查询,流处理。通过在一个统一的框架下支持这些不同的计算,spark使我们可以简单而低耗地把各种处理流程整合在一起。

1.3.3  NoSQL数据库

       ​ NoSQL,泛指非关系型的数据库。随着互联网web2.0网站的兴起,传统的关系数据库在处理web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,出现了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,特别是大数据应用难题。NoSQL 数据库是一种不同于关系数据库的数据库管理系统,是对一大类非关系型数据库的统称,它所采用的数据模型并非传统关系数据库的关系模型,而是类似键 / 值、列族、文档等非关系模型。
        NoSQL 数据库没有固定的表结构,通常也不存在连接操作,也没有严格遵守 ACID 约束,因此,与关系数据库相比, NoSQL 具有灵活的水平可扩展性,可以支持海量数据存储。
        此外, NoSQL 数据库支持 MapReduce 风格的编程,可以较好地应用于大数据时代的各种数据管理。 NoSQL 数据库的出现,一方面弥补了关系数据库在当前商业应用中存在的各种缺陷,另一方面也撼动了关系数据库的传统垄断地位。
        NoSQL 数据库虽然数量众多,但是,归结起来,典型的 NoSQL 数据库通常包括键值数据库、列族数据库、文档数据库和图数据库。本教程将介绍两种流行的 NoSQL 数据库产品的安装和使用方法,即键值数据库 Redis 和文档数据库 MongoDB 。

1.4  内容

本文大数据软件之间的相互关系

1.5  小结

        大数据技术是一个庞杂的知识体系,包含了大量相关技术和软件。在具体学习相关技术及其软件之前,非常有必要建立对大数据技术体系的整体性认识。因此,本章首先从总体上介绍了大数据关键技术和各类大数据软件。鉴于不同的大数据学习者有着不同的学习需求,为了方便读者迅速找到对应的学习章节,本章给出了本教程的整体内容安排。此外,与教程配套的相关资源的建设,是帮助读者更加有效、高效学习本教程的重要方面,因此,本章最后详细列出了与本教程配套的各种丰富的在线资源,全部可以通过网络自由免费访问。

第二章  Linux系统的安装和使用

2.1  Linux系统简介

        Linux是一种自由和开放源代码的类Unix操作系统,可以在各种计算机硬件设备上运行,包括个人计算机、服务器、移动设备和嵌入式设备等。Linux基于Unix的设计理念和技术,但是与传统Unix有很大区别。

        Linux系统的核心是Linux内核,它是一个功能全面、高效、稳定的操作系统核心,负责硬件管理、内存管理、进程管理、文件系统管理等任务。Linux内核通常被打包为Linux发行版,如Ubuntu、Red Hat、Debian、CentOS等。

Linux系统有以下特点:

1. 自由和开放源代码:Linux系统可以免费获取和使用,并且源代码是公开的,任何人可以修改和分发。

2. 可定制性:用户可以根据自己的需求进行定制和配置,使Linux系统更符合自己的使用需求。

3. 高效性:Linux系统可以在资源有限的情况下运行良好,因此非常适合在服务器等高性能场景中使用。

4. 安全性:由于Linux系统开放源代码,安全漏洞可以尽早发现和修复,使得Linux系统在安全性方面更加可靠。

5. 多用户多任务:Linux系统是多用户、多任务的操作系统,允许多个用户同时使用计算机,并可以同时运行多个应用程序。

        总之,Linux系统提供了一个功能强大、稳定可靠、灵活可定制的开放平台,被广泛应用于各种领域,如服务器、移动设备、嵌入式设备、超级计算机等。

2.2  Linux系统安装

2.2.1  下载安装文件

        下载Ubuntu:http://t.csdn/oUzso

2.2.2  Linux系统的安装方式

        下载VMware(以后再填坑)

2.2.3  安装Linux虚拟机

        创建虚拟机:http://t.csdn/lmFUR

2.2.3a  利用FTP软件向Ubuntu传输文件

        下载安装XFTP软件(以后再填坑)

1.在虚拟机中安装SSH(为了能够将主机和虚拟机连通传输文件)

sudo apt-get install openssh-server

 2.查看虚拟机ip

ipconfig

 3.连接Xftp:http://t.csdn/lEGm4

2.3  Linux 系统及相关软件基本使用方法

2.3.1  Shell

       Shell 是 Linux 系统的用户界面,提供了用户与 Linux 系统内核进行交互操作的一种接口,它接收用户输入的命令并把它送入内核去执行。当我们在Linux 系统中打开一个终端(可以采用快捷键 Ctrl+Alt+T打开终端 )时,就进入了Shell 命令提示符状态,在里面输入的用户命令,都会被送入 Linux 内核去执行。每个 Linux 系统的用户可以拥有自己的 Shell ,用以满足他们自己专门的Shell 需要。
        Shell 也有多种不同的版本,主要有下列版本的 Shell :

Bourne Shell由贝尔实验室开发
BASH是 GNU 的 Bourne Again Shell ,是 GNU 操作系统上默认的Shell
Korn Shell是对 Bourne Shell 的发展,在大部分内容上与 Bourne Shell兼容
C Shell是 SUN 公司 Shell 的 BSD 版本
Z ShellZ 是最后一个字母,也就是终极 Shell ,集成了 BASH 、 ksh的重要特性,同时又增加了自己独有的特性


2.3.2  root用户 

         对于 Linux 系统而言,超级用户一般命名为 root ,相当于 Windows 系统中的 Administrator 用户。root 是系统中唯一的超级用户,具有系统中所有的权限,如启动或停止一个进程、删除或增加用户、增加或者禁用硬件等等。Linux 中的 root 用户比 Windows 的 Administrator 用户的能力更大,足以把整个系统的大部分文件删掉,导致系统完全毁坏,不能再次使用。所以,用 root 进行不当的操作是相当危险的,轻微的可以造成死机,严重的甚至不能开机。因此,在实际使用中,除非确实需要,一般情况下都不推荐使用 root 用户登录 Linux 系统进行日常的操作。建议单独建立一个普通的用户,来学习大数据软件安装和开展编程实践。比如,本文全部采用单独建立hadoop1 用户来开展实验。

2.3.3  创建普通用户

打开一个终端(可以使用快捷键 Ctrl+Alt+T ),使用如下命令创建一个用户 hadoop1 :

sudo useradd -m hadoop1 -s /bin/bash

使用如下命令为 hadoop1 用户设置密码:

sudo passwd hadoop1

//密码是 hadoop

 为 hadoop1 用户增加管理员权限:

sudo adduser hadoop1 sudo

单击屏幕右上角齿轮切换hadoop1用户

2.3.4  sudo命令

命令含义
cd /home/hadoop1把 /home/hadoop1 设置为当前目录
cd ..返回上一级目录
cd ~进入到当前 Linux 系统登录用户的主目录(或主文件夹)。在 Linux 系统中, ~ 代表的是“用户的主文件夹,即 /home/ ”用户名 这个目录,如果当前登录用户名为 hadoop1 ,则 ~ 就“代表 /home/hadoop1/” 这个目录
ls 查看当前目录中的文件
ls -l 查看文件和目录的权限信息
cat /proc/version 查看 Linux 系统内核版本信息
cat /home/hadoop1/word.txt把 /home/hadoop1/word.txt 这个文件全部内容显示到屏幕上
cat file1 file2 > file3把当前目录下的 file1 和 file2 两个文件进行合并生成文件 file3
head -5 word.txt把当前目录下的 word.txt 文件中的前 5 行内容显示到屏幕上
cp /home/hadoop1/word.txt /usr/local/把 /home/hadoop1/word.txt 文件复制
“到 /usr/local” 目录下
rm ./word.txt删除当前目录下的 word.txt 文件
rm –r ./test 删除当前目录下的 test 目录及其下
面的所有文件
rm –r test*删除当面目录下所有以 test 开头的
目录和文件
ifconfig查看本机 IP 地址信息
exit 退出并关闭 Linux 终端

 2.3.6  文件解压缩

在 Linux 系统中,可以使用 tar 命令对后缀名为 .tar.gz (或 .tgz )的压缩文件进行解压。通常可以采用如下形式的命令:

tar -zxf /home/hadoop1/ 下载 /文件名 –C /usr/local

z表示tar包是被gzip压缩过的,所以需要gunzip解压
x表示从tar包中把文件提取出来
f表示后面跟的是文件
C表示文件解压后转到指定的目录下

2.3.7  常用的目录

         Linux 系统的根目录“ /” 下,存在很多个目录,其中有两个目录,是本教程学习过程中经常用到的,一个是“ /home” 目录,一个是“ /usr” 目录。“ /home” 目录包含了各个用户的用户目录,每当在 Linux 系统中新建一个普通用户时,系统就会自动为这个用户创建用户主目录(主文件夹)“/usr” 目录是“ Unix Software Resource” 的简写,表示这里是各种软件安装的目录。对于“ /usr” 目录而言,只需要关注它下面的子目录“ /usr/local” ,一般由用户安装的软件都建议安装到该目录下

2.3.8  目录的权限

Linux 系统对文件权限有着严格的规定,如果一个用户不具备权限,将无法访问目录及其下面的文件。比如,使用 hadoop1 用户登录 Linux 系统以后,从网络上下载了 HBase 安装包文件,把文件解压缩到“ /usr/local/”目录下,会得到一个类似“ /usr/local/hbase” 这样的目录,这
时,hadoop1用户并不是“ /usr/local/hbase” 这个目录的所有者,无法对该目录进行相关操作,从而无法正常使用 HBase 。这时,就必须采用chown 命令进行授权,让 hadoop 1用户拥有对该目录的权限,具体命令如下:

sudo chown -R hadoop1 /usr/local/hbase //这里虚拟机里还没有创建hbase

2.3.9  更新APT

APT 是一个非常优秀的软件管理工具, Linux 系统采用 APT 来安装和管理各种软件。安装成功 Linux 系统以后,需要及时更新 APT 软件,否则,后续一些软件可能无法正常安装。请登录 Linux 系统,打开一个终端(可以使用快捷键 Ctrl+Alt+T ),进入 Shell 命令提示符状态,然后输入下面命令:

sudo apt-get update

 2.3.10  切换中英输入法

安装搜狗输入法:http://t.csdn/UuMqh

2.3.10a  设置中文

1.点击右上角齿轮

2.进入设置

 3.点击语言选项

4.操作下面的步骤重启虚拟机就好了

2.3.11  vim 编辑器使用方法

执行下面命令完成 vim 编辑器的安装:

sudo apt-get install vim

2.3.12  过

2.3.13  在Linux系统中安装Eclipse

Eclipse安装包:链接:https://pan.baidu/s/1zSPnLz94-vQQQK8Zw80R7g 
                          提取码:sxt6

1.下载安装包:eclipse-4.7.0-linux.gtk.x86_64.tar.gz

2.用Xftp将安装包发送到虚拟机中的下载文件夹里去

3.进入终端进行安装程序

cd ~/下载
sudo tar -zxvf ./eclipse-4.7.0-linux.gtk.x86_64.tar.gz -C /usr/local

4.启动Eclipse

cd /usr/local/eclipse

./eclipse

这里因为没有装jdk的缘故,导致打不开 

后续第三章会安装

 第三章  Hadoop的安装和使用

更多推荐

《大数据基础编程、实验和教程案例》学习日志 第一章、第二章

本文发布于:2023-06-14 00:44:00,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1418823.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:第二章   案例   基础   教程   数据

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!