79 Star 1 Fork 2

lx/tit-bd-2023

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
4 2.30 KB
一键复制 编辑 原始数据 按行查看 历史
罗涛 提交于 2024-08-29 10:03 . add 4.
package com;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URI;
import java.util.ArrayList;
import java.util.List;
public class ReadFileUtil {
// HDFS中读取文件内容,并将每行的前两个逗号分隔的字段添加到列表中。
public static List<String> ReadFromHDFS(String file) throws IOException {
//System.setProperty("hadoop.home.dir", "H:\\文件\\hadoop\\hadoop-2.6.4");
List<String> list = new ArrayList();
int i = 0;
Configuration conf = new Configuration();
StringBuffer buffer = new StringBuffer();
FSDataInputStream fsr = null;
BufferedReader bufferedReader = null;
String lineTxt = null;
try {
FileSystem fs = FileSystem.get(URI.create(file), conf);
fsr = fs.open(new Path(file));
bufferedReader = new BufferedReader(new InputStreamReader(fsr));
while ((lineTxt = bufferedReader.readLine()) != null) {
// 假设每行数据都被双引号包围,这里去除了首尾的双引号
// 注意:这里假设每行数据都至少有两个逗号分隔的字段
lineTxt=lineTxt.substring(1,lineTxt.length()-1);
//System.out.println(lineTxt);
String[] arg = lineTxt.split(",");
list.add(arg[0]);
list.add(arg[1]);
}
} catch (Exception e) {
e.printStackTrace();
} finally {
if (bufferedReader != null) {
try {
bufferedReader.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
return list;
}
// 主函数,用于测试ReadFromHDFS方法
public static void main(String[] args) throws IOException {
List<String> ll = new ReadFileUtil().ReadFromHDFS("hdfs://master:9000/out/view1/part-00000");
for (int i = 0; i < ll.size(); i++) {
System.out.println(ll.get(i));
}
}
}
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
Python
1
https://gitee.com/376473984/tit-bd-2023.git
git@gitee.com:376473984/tit-bd-2023.git
376473984
tit-bd-2023
tit-bd-2023
master

搜索帮助

0d507c66 1850385 C8b1a773 1850385