博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
网络爬虫作业
阅读量:4355 次
发布时间:2019-06-07

本文共 806 字,大约阅读时间需要 2 分钟。

请分析作业页面,爬取已提交作业信息,并生成已提交作业名单,保存为英文逗号分隔的csv文件。文件名为:
hwlist.csv 。
 
文件内容范例如下形式:
 
学号,姓名,作业标题,作业提交时间,作业URL
20194010101,张三,羊车门作业,2018-11-13 23:47:36.8,
20194010102,李四,羊车门,2018-11-14 9:38:27.03,
 
*注1:如制作定期爬去作业爬虫,请注意爬取频次不易太过密集;
*注2:本部分作业用到部分库如下所示:
(1)requests —— 第3方库
(2)json    —— 内置库
 
 
代码如下:
import requestsimport jsonr=requests.get("https://edu.cnblogs.com/Homework/GetAnswers?homeworkId=2420&_=1543751642230")datas=json.loads(r.text)['data'] crawling='' for data in datas:   crawling+=str(data['StudentNo'])+'\t'+','+data['RealName']+','+data['Title']+','+data['DateAdded'].replace('T',' ')+'\t'+','+data['Url']+'\n'with open ('hwlist.csv','w')as f:    line=('学号'+','+'姓名'+','+'作业标题'+','+'作业提交时间'+','+'作业URL'+'\n')    f.writelines(line)    f.write(crawling)

 

部分运行结果如下:

转载于:https://www.cnblogs.com/hbu123/p/10056365.html

你可能感兴趣的文章
RPC-Thrift(二)
查看>>
MSSQL for Linux 安装指南
查看>>
【Golang 接口自动化08】使用标准库httptest完成HTTP请求的Mock测试
查看>>
洛谷 P1036 选数
查看>>
女性社区TOP10
查看>>
BP神经网络算法推导及代码实现笔记zz
查看>>
前端必读:浏览器内部工作原理
查看>>
每天一个Linux命令(16)--which命令
查看>>
Logstash安装和设置(图文详解)(多节点的ELK集群安装在一个节点就好)
查看>>
STM32 keil printf的使用
查看>>
C++类相关
查看>>
Sql分隔字符串方法--split
查看>>
通过meta设置防止浏览器缓存
查看>>
angularJS 中的two-way data binding.
查看>>
MediaPlayer简易应用
查看>>
Ubuntu上完美视频播放软件XBMC
查看>>
idea创建maven项目的一点关键
查看>>
python函数:递归
查看>>
nodejs
查看>>
DIV+CSS 斜线效果
查看>>