[Done]界面爬虫

uuspider 2020-1-4 200

加到timeline里,替换中新网
最新回复 (7)
  • uuspider 2020-1-4
    引用 2
    POST  天下+热文+国内+宏观+文化+数据+商业
  • uuspider 2020-1-4
    引用 3
    天下和热文 排在最前
    其余按原顺序排列

    把所有条目保存到list
    提取天下和热文,生成临时hot_list,逐项检测,有未在list的,添加
  • uuspider 2020-1-4
    引用 4
    排序策略,用文章编号作为基础分,每次抓取条目前,将list所有条目分值-1,抓取条目后进行对比,重复出现一次+1,当条目分值到0时不再减分,按分值进行排序生成out文件
  • uuspider 2020-1-4
    引用 5
    分值,链接,标题
  • uuspider 2020-1-4
    引用 6
    grep -v ^0, x. list | sort 
  • uuspider 2020-1-4
    引用 7
    sed s/n(, link, title) /n-1\1/
  • uuspider 2020-1-5
    引用 8
    done
返回
发新帖