全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
楼主: wenguonideshou

手撕包菜(DHT磁力链源码) 2015.7月版 安装教程

  [复制链接]
发表于 2015-8-3 21:29:40 | 显示全部楼层
UnicodeEncodeError
 楼主| 发表于 2015-8-4 08:49:44 | 显示全部楼层
本帖最后由 wenguonideshou 于 2015-8-7 12:51 编辑
孩子他爹 发表于 2015-8-3 15:42
'ascii' codec can't encode characters in position 42-43: ordinal not in range(128)


解决办法 http://blog.sina.com.cn/s/blog_64a3795a01018vyp.html  

vi   search/timermiddleware.py
在开头加上
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

800w数据的应该是搜片大师的数据库
发表于 2015-8-4 10:12:22 | 显示全部楼层
在管理后台看,爬了6000多文件就不爬了,怎么回事

ssh看运行也正常呀
[root@vultr ~]# ps -ef|grep python
root       385     1  0 Aug03 ?        00:00:06 /usr/bin/python -Es /usr/sbin/tu                                      ned -l -P
root      6201  6165  0 02:11 pts/0    00:00:00 grep --color=auto python
root      9183     1  0 Aug03 ?        00:00:00 python manage.py runserver 0.0.0                                      .0:80
root      9189  9183  0 Aug03 ?        00:08:50 /usr/bin/python manage.py runser                                      ver 0.0.0.0:80
root      9595     1 20 Aug03 ?        03:45:41 python simdht_worker.py
root     11392     1  0 Aug03 ?        00:00:02 python index_worker.py
[root@vultr ~]#

发表于 2015-8-4 10:26:13 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
 楼主| 发表于 2015-8-4 10:29:41 | 显示全部楼层
p1985 发表于 2015-8-4 10:12
在管理后台看,爬了6000多文件就不爬了,怎么回事

ssh看运行也正常呀

进入workser目录下单独运行python simdht_worker.py
这样就能可视化的看到爬虫采集进度


如果爬不到,基本上就是你的VPS的网络问题

其实这款放出来的源码 他的爬虫代码有不少bug  只算得上beta版,我敢肯定不是他自用的爬虫
 楼主| 发表于 2015-8-4 10:31:20 | 显示全部楼层
sotan 发表于 2015-8-3 13:27
浏览器输入地址,网站能打开

这一步为什么打开的是阿帕奇的测试123页面啊... ...

yum -y remove httpd
apache会占用80端口,是必须坚决卸载的
发表于 2015-8-4 10:35:24 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2015-8-4 10:36:31 | 显示全部楼层
进入workser目录下单独运行python simdht_worker.py

Traceback (most recent call last):
  File "simdht_worker.py", line 474, in <module>
    dht = DHTServer(master, "0.0.0.0", 6881, max_node_qsize=200)
  File "simdht_worker.py", line 171, in __init__
    self.ufd.bind((self.bind_ip, self.bind_port))
  File "/usr/lib64/python2.7/socket.py", line 224, in meth
    return getattr(self._sock,name)(*args)
socket.error: [Errno 98] Address already in use

这是什么情况
 楼主| 发表于 2015-8-4 10:41:23 | 显示全部楼层
p1985 发表于 2015-8-4 10:36
进入workser目录下单独运行python simdht_worker.py

Traceback (most recent call last):

kill -9 9595  //需要先杀掉爬虫再运行爬虫
python simdht_worker.py
发表于 2015-8-5 19:37:41 | 显示全部楼层
[root@kassc workers]# python index_worker.py
Traceback (most recent call last):
  File "index_worker.py", line 24, in <module>
    dst_conn = mdb.connect(DST_HOST, DST_USER, DST_PASS, 'rt_main', port=9306, charset='utf8')
  File "/usr/lib/python2.7/site-packages/MySQLdb/__init__.py", line 81, in Connect
    return Connection(*args, **kwargs)
  File "/usr/lib/python2.7/site-packages/MySQLdb/connections.py", line 193, in __init__
    super(Connection, self).__init__(*args, **kwargs2)
_mysql_exceptions.OperationalError: (2003, "Can't connect to MySQL server on '127.0.0.1' (111)")
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-4-29 20:28 , Processed in 0.064052 second(s), 8 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表