Board logo

标题: windows下修改因为编码导致的乱码的文件名,wget下载整站 [打印本页]

作者: linda    时间: 2018-5-28 21:22     标题: windows下修改因为编码导致的乱码的文件名,wget下载整站

telepro 整站下载时,保存的文件名可能是乱码。用HTTrack Website Copier可以自动utf-8文件名、目录名解码改名。

用convmv -f utf-8 -t gbk * 批量改名

整个目录改名:
find . -type d -exec convmv -f utf8 -t gbk {} \;
find . -type d -exec convmv -f utf8 -t gbk --notest {} \;

windows下的convmv文件:但是下载后提示有毒
http://batch-cn.qiniudn.com/tool/convmv.exe

https://www-uxsup.csx.cam.ac.uk/pub/windows/cygwin/x86_64/release/convmv/
https://iweb.dl.sourceforge.net/project/umlaute/Umlaute_V1.0.zip
https://www.j3e.de/linux/convmv/convmv-2.05.tar.gz

菲菲更名宝贝 8.0 (1.5 MiB, 87,870 点击, 最后更新:2011年02月20日)
http://www.ffhome.com/works/ffrenamepro/1.html
http://www.ffhome.com.img.800cdn.com/download/RenamePro8.rar
部分文件、目录解码不成功


1)选择 3. 高级文件变更
  A1.(忽略)
  A2.扩展功能更名:保持不变
  A3.(忽略)
  A4.文件名编码与解码
  URL解码:UTF-8编码URL字符串转为文字

2)添加目录
3)F9:预览所有
4)F10:执行改名所有

另外一种办法:
Windows10安装Linux子系统Ubuntu
http://www.trustcomputing.com.cn/bbs/viewthread.php?tid=1383
Windows 10 Ubuntu安装其它存储器
http://www.trustcomputing.com.cn/bbs/viewthread.php?tid=1384

sudo passwd
su
apt-get update
apt-get install convmv

mkdir /mnt/f
mount -t drvfs F: /mnt/f
用convmv -f utf-8 -t gbk * 批量改名
效果比linux下差


参考:
解决w.get下载中文乱码的方法
http://www.aizhuanji.com/a/7w2zzGwz.html

https://morphyhu.szitcare.com/wordpress/?p=748
w.get -c -r -np -k -L -p --restrict-file-names=nocontrol http://157.7.135.42/books/

w.get -c -r -np --restrict-file-names=nocontrol  "https://www.cdma.im/%E8%A6%81%E5%AD%A6%E4%B9%A0/2018%E6%B7%B1%E4%BF%A1%E6%9C%8D%E7%BD%91%E7%BB%9C%E6%8A%80%E6%9C%AF%E5%A4%A7%E8%B5%9B%E5%A4%8D%E8%B5%9B%E8%B5%84%E6%96%99/%E5%AE%89%E5%85%A8%E8%B5%84%E6%96%99/"

-c 断点续传
-r 递归下载,下载指定网页某一目录下(包括子目录)的所有文件
-nd 递归下载时不创建一层一层的目录,把所有的文件下载到当前目录
-np 递归下载时不搜索上层目录,没有加参数-np,就会同时下载path的上一级目录pub下的其它文件
-k 将绝对链接转为相对链接,下载整个站点后脱机浏览网页,最好加上这个参数
-L 递归时不进入其它主机
-p 下载网页所需的所有文件,如图片等

-nH, --no-host-directories       don't create host directories
-H,  --span-hosts                go to foreign hosts when recursive

下载网站网页链接的内容
wget -np -nH -r --span-hosts http://xxx.com


Cyotek WebCopy 扒站神器:https://cyotek-webcopy.en.softonic.com/

[ 本帖最后由 linda 于 2021-1-24 17:47 编辑 ]




欢迎光临 中神通公司技术论坛 (http://trustcomputing.com.cn/bbs/) Powered by Discuz! 6.0.0