欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

hadoop、yarn常用命令

程序员文章站 2022-07-04 12:02:46
...
1、hadoop
官网:https://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/FileSystemShell.html
hadoop fs 下的命令都比较常用,去官网看一遍吧

查看.gz 的文件内容:
引用

无需解压整个文件: hadoop fs -cat /hdfs_location/part-00000.gz | zcat | head -n 20
  或者 hadoop fs -cat /hdfs_location/part-00000.gz | zmore
需要解压整个文件:hadoop fs -text /myfolder/part-r-00024.gz | tail

参见:https://*.com/questions/31968384/view-gzipped-file-content-in-hadoop

查看.bz2 的文件内容:
类似查看.gz的方法,只需将zcat换为bzcat, 或者将zmore换为bzmore即可

2、yarn
官网:https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/YarnCommands.html
  • kill任务: yarn application -kill application_1491058351375_633399
  • 查看日志: yarn logs -applicationId application_1491058351375_633399 | less


3、spark启动命令
参见:https://spark.apache.org/docs/1.6.1/running-on-yarn.html
注意一个参数 : JVM本身的内存:spark.yarn.executor.memoryOverhead

4、spark本地调试
1、maven工程的pom.xml中将所有的包设置为 compile 而非 provided, 从而将spark打包进jar中
2、IntelliJIDEA中的Run->Edit Configuration中新增如下配置,并设置JVM参数为:
-Dspark.master=local[2]   -Dspark.driver.memory=2g -Dspark.app.name=SparkPi
spark配置请参见:https://spark.apache.org/docs/latest/configuration.html#application-properties
hadoop、yarn常用命令
            
    
    博客分类: spark spark 
3、需要保证本地安装的scala版本与spark所需版本一致
  对于spark1.6, 应安装scala2.10.x
  对于spark2.x,应安装scala2.11.x

5、spark本地调试-方法2
1、到https://spark.apache.org/downloads.html下载spark-2.2.1-bin-hadoop2.7.tgz  (或其他Pre-build版本)
2、解压到任意文件夹, IDEA中新建scala工程
3、IDEA中File -> Project Structure -> Modules ->Dependencies 中添加刚才解压的路径中的 jars文件夹 (已经包含的hadoop、spark等程序)
完成以上3步后即可运行
4、(可选)解决找不到winutils.exe的问题
根据错误提示,下载和hadoop版本一致的winutils.exe
我是在https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1/bin 下载的,
下载后放到了spark_home/jars/bin/文件夹中, 并设置HADOOP_HOME环境变量指向spark_home/jars文件夹

6、文件查看


gz文件,文本文件:hadoop fs -text file_name_or_dir_name | head

parquet文件: hadoop jar parquet-tools-1.9.0.jar head -n10 file_name_or_dir_name
parquet-tools-1.9.0.jar 下载:https://mvnrepository.com/artifact/org.apache.parquet/parquet-tools/1.9.0
  • hadoop、yarn常用命令
            
    
    博客分类: spark spark 
  • 大小: 47.5 KB
相关标签: spark