Hadoop 썸네일형 리스트형 [Spark] 하둡 hdfs 파일 하나로 합쳐 local에 내려받기 (getmerge, *.gz파일) 1. 압축파일이 아닐 경우 hdfs에 나누어 저장되어 있는 파일들을 합쳐서 로컬로 받고 싶은 경우에는 -getmerge 명령어를 사용하고, 파티션들이 저장되어 있는 상위 디렉토리를 hdfs 경로로 준다. $ hdfs dfs -getmerge [hdfs 경로] [내려받을 local위치] Ex) 위의 경우에는 20211204_161503_442837 디렉토리 내에 파일들이 나누어져 저장되어있기 때문에 해당경로까지를 첫 번째 인자로 넣어준다. $ hdfs dfs -getmerge /user/nauts/warehouse/anchor_set/wiki/all/20211204_161503_442837 [local위치] 2. 압축 파일일 경우 하지만 나누어져있는 파일이 다음과 같이 .gz와 같은 압축 파일인 경우에는 .. 더보기 [WIL] 2021년 9월 넷째 주/ 10월 첫째 주 WIL 9월 넷째 주의 절반은 추석과 함께 실종되어버렸다. 그리하여.. 9월 넷째 주 WIL은 아래 세 게시글로 스무스하게 대체하려고 한다. [Python] Beutiful Soup4 - decompose() 와 extract() [Spark] SQL - explode()를 사용하여 list 형태의 Row 분리하기 [Spark] SQL - 두 컬럼을 병합하여 새로운 Dataframe 만들기 📝 10월 5일 (화) ▪️NLP - Word2Vec 모델 Load 시 UnicodeDecodeError UnicodeDecodeError: 'utf8' codec can't decode byte 0x80 in position 0: invalid start byte 해결 KeyedVectors.load_word2vec_for.. 더보기 이전 1 다음