博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫真的可以接单吗?爬虫实践(一)
阅读量:4164 次
发布时间:2019-05-26

本文共 879 字,大约阅读时间需要 2 分钟。

前言

项目来源:4天前的码市上的一个小项目

在这里插入图片描述
网站解析:
在这里插入图片描述

一、用xpath解析网页获取标题

import requestsimport parselurl = 'http://epaper.qjrb.cn/html/2021-06/09/node_2.htm'r = requests.get(url)r.encoding = 'utf-8'html_data = r.textselector = parsel.Selector(html_data)#抓取标题,在类class="default1"中的

抓取标题,在类class="default1"中的<a标签里面。

在这里插入图片描述

二、正则表达式获取相应新闻的URL

import requestsimport rer = requests.get('http://epaper.qjrb.cn/html/2021-06/09/node_2.htm')txt = r.textpattern = re.compile(r'content[^\s]*.htm')urllist = re.findall(pattern, txt)print(urllist)

在这里插入图片描述

在这里插入图片描述
如上图所示,单个新闻的URL实际上就是把主网页的URL的node_2换成content_189543(对应的内容url)

#主页面的URLurl = 'http://epaper.qjrb.cn/html/2021-06/09/node_2.htm'
#单个新闻的URLurl = http://epaper.qjrb.cn/html/2021-06/09/content_189543.htm

总结

这是一个小项目,对方要求其实也是比较简单,给刚接触爬虫的人来说,是个不错的练习机会。但是实际上,找个靠谱的接单外包的平台是非常不容易的;当你学习的时候,还是先重点是打好基础,如果真的想做爬虫可以找个公司,去实际的应用自己的知识,也锻炼一下自己的能力。这样锻炼的同时也是在积累自己的资源,这样才能去找到外包的资源。

同时维护自己的渠道也是在这个过程中值得注意的。

转载地址:http://yqoxi.baihongyu.com/

你可能感兴趣的文章
双重指针自己使用心得
查看>>
如何解决消息队列传递数据出现stack smashing detected的问题
查看>>
Linux里设置环境变量的方法(export PATH)
查看>>
c语言中strlen所输出的字符长度到底要不要再加1 (指'\0')?
查看>>
C语言双指针的常见用法
查看>>
UBUntu解决fatal error: sqlite3.h: No such file or directory,//原因是系统没有安装函数库
查看>>
String 类 的c_str()函数
查看>>
sysconf()系统函数详解
查看>>
调整内核printk的打印级别(启动脚本中运行 echo 0 4 0 7 > /proc/sys/kernel/printk 关闭所有内核打印)
查看>>
临时关闭打开console办法
查看>>
printf()函数中\t,水平制表符,空格的个数,对齐打印
查看>>
结构体测试用例struct(指针用例)结构体里面含有指向自己的指针怎么用
查看>>
Linux中gmtime和localtime的区别(time_t格式转换为tm格式)
查看>>
如果函数传递的是结构体,小心在调用的参数中给指针重新赋值(拿tm结构体举例)
查看>>
extern用法
查看>>
extern"C"的使用
查看>>
使用nm命令获取linux的可执行文件里或动态库中的所有函数名称
查看>>
关于free命令 内存的详细介绍以及如何手动释放内存
查看>>
Linux使用free命令buff/cache过高
查看>>
如何定义结构体变量及如何使用
查看>>