网站数据抓取
这个是网络公司要我笔试的题目,把指定商业贸易网站上公司的信息包括公司名,地址等抓取出来,写进数据库,最重要的E-mail地址,我是个应届毕业生,查了很多资料,请教了很多人都没找到合适的办法,还请各位高手帮忙啊!不胜感激.
这个是网络公司要我笔试的题目,把指定商业贸易网站上公司的信息包括公司名,地址等抓取出来,写进数据库,最重要的E-mail地址,我是个应届毕业生,查了很多资料,请教了很多人都没找到合适的办法,还请各位高手帮忙啊!不胜感激.
不想贴代码了,搜索一下XMLHTTP吧
有些商贸网是不能抓的。
有的站点限制XMLHTTP抓取
你用的是.net?
你用什么服务端语言?
一般用正则+xmlhttp就差不多了
网上很多教程啊,怎么会没有合适的,当然你得会改一改,直接用不太可能,
除了抓新闻的cms
我觉得你可能会被别人利用来做事情,但是就是不一定会雇佣你
同意javaoaout(javaoaout)
不给他写,他们要的是程序,不是人,真他*妈的卑鄙
你还是别做了。浪费你的时间和精力。给人家当牛使唤
没想那么多,而且过公司给的期限很久了,做一下对自己也是个锻炼吗,我代码完成的差不多了,就是不知道如何让程序在一个限定的范围去寻找合适的http-host,请大家帮个忙把!
url=Request.ServerVariables("remote_host")
response.write url
start=Newstring(url,".")+1
behindurl=mid(wstr,start,13)
if (behindurl="21trader.com/") then
for circle=1 to 40000
程序实现了,不过还是有些问题不能解决,谢谢各位了