中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
Python爬取新浪微博評(píng)論

  • 環(huán)境: Python3 + windows。

  • 開(kāi)發(fā)工具:Anaconda + Jupyter / VS Code。

  • 學(xué)習(xí)效果:

    1. 認(rèn)識(shí)爬蟲(chóng) / Robots協(xié)議

    2. 了解瀏覽器開(kāi)發(fā)者工具

    3. 動(dòng)態(tài)加載頁(yè)面的處理

    4. 手機(jī)客戶(hù)端頁(yè)面的數(shù)據(jù)采集

Robots.txt 協(xié)議

Robots協(xié)議,也稱(chēng)為爬蟲(chóng)協(xié)議

網(wǎng)站通過(guò)Robots協(xié)議告訴搜索引擎哪些頁(yè)面可以抓取,哪些頁(yè)面不能抓取。Robots是一個(gè)協(xié)議,而不是一個(gè)命令。Robots.txt文件是一個(gè)文本文件,是放置在網(wǎng)站根目錄下,使用任何一個(gè)常見(jiàn)的文本編輯器,就可以創(chuàng)建和編輯它。Robots.txt是搜索引擎中訪問(wèn)網(wǎng)站的時(shí)候要查看的第一個(gè)文件,其主要的作用就是告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。

Robots協(xié)議是國(guó)際互聯(lián)網(wǎng)界通行的道德規(guī)范。約定俗成。

Python代碼

  • 導(dǎo)入模塊
1 import requests2 import pandas3 import json4 import time
  • 反爬
1 head = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0'}2 Cookie = {'Cookie':'_T_WM=f6d406d777aafb7ed7671865d1f83799; SUB=_2A2504yPYDeRhGeNO6VMY9SvEyTuIHXVULE2QrDV6PUJbkdAKLW_YkW0b_QKWV_mSPrmPv7aZsGtGMxBDlQ..; SUHB=079ja78HU_LZCb; SCF=AmqC1lSo0254S3K0WtBQVQwXfOSQ7ivbLAOSCObPteJy5JckO3l0ZH7pSTuid_JRXlWylgjTetdZzQcModbM4A4.; H5:PWA:UID=1; M_WEIBOCN_PARAMS=featurecode%3D20000320%26oid%3D4160547165300149%26luicode%3D20000061%26lfid%3D4160547165300149; H5_INDEX=0_all; H5_INDEX_TITLE=%E6%8C%96%E6%8E%98%E6%9C%BA%E5%A4%A7%E7%8E%8B%E5%AD%90'}
 1 url = 'https://m.weibo.cn/api/comments/show?id=4160547165300149&page=2' 2 html = requests.get(url,headers = head, cookies = Cookie) 3 ii = 1 4 while html.status_code==200: 5     ii = ii+1 6     url_next='https://m.weibo.cn/api/comments/show?id=4160547165300149&page='+str(ii)                    7      8     try: 9         for jj in range(1,len(html.json()['data'])):10             data1 = [(html.json()['data'][0]['id'],11              html.json()['data'][jj]['user']['screen_name'],12              html.json()['data'][jj]['created_at'],13              html.json()['data'][jj]['source'],14             html.json()['data'][jj]['user']['id'],15             html.json()['data'][jj]['user']['profile_url'],16             html.json()['data'][jj]['user']['profile_image_url'],17              html.json()['data'][jj]['text'])]18             data2 = pandas.DataFrame(data1,columns=['莫名id','評(píng)論者昵稱(chēng)','評(píng)論時(shí)間','手機(jī)版本','用戶(hù)id','評(píng)論者主頁(yè)','評(píng)論者頭像','評(píng)論內(nèi)容'])19             data2.to_csv('D:/Windows 7 Documents/Desktop/My/weibo2.csv', header=False,index=False,mode='a+') #寫(xiě)入csv文件,'a+'是追加模式20     21     except:22         23         None24     25     time.sleep( 2 )26                         27     html=requests.get(url_next,cookies=Cookie,headers=head)

Python發(fā)展方向

  • 數(shù)據(jù)分析/數(shù)據(jù)挖掘

    關(guān)聯(lián)分析【啤酒與尿布】,聚類(lèi)分析 ,判別分析 ,隨機(jī)森林 .

  • 人工智能

    一種能以人類(lèi)智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語(yǔ)言識(shí)別、圖像識(shí)別、自然語(yǔ)言處理等。例如AlphaGo , AlphaGo Zero.

  • Python運(yùn)維

    不會(huì)開(kāi)發(fā)的運(yùn)維終將被淘汰?。。?/p>

  • WEB開(kāi)發(fā)

    開(kāi)發(fā)網(wǎng)站,例如豆瓣網(wǎng)。側(cè)重于實(shí)戰(zhàn)?。?!

  • Python爬蟲(chóng)

    采集網(wǎng)絡(luò)數(shù)據(jù),為數(shù)據(jù)分析或大數(shù)據(jù)等提供支持,大型的比如Google,百度等。側(cè)重于實(shí)戰(zhàn)?。?!

 

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶(hù)發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
從零開(kāi)始教你學(xué)爬蟲(chóng)!python爬蟲(chóng)的基本流程!
【雜談】爬蟲(chóng)基礎(chǔ)與快速入門(mén)指南
Python爬蟲(chóng)從入門(mén)到精通(二)爬蟲(chóng)的基本常識(shí)
Python 爬蟲(chóng)實(shí)戰(zhàn):駕馭數(shù)據(jù)洪流,揭秘網(wǎng)頁(yè)深處
使用python抓取新浪微博數(shù)據(jù)
python爬蟲(chóng)入門(mén),10分鐘就夠了,這可能是我見(jiàn)過(guò)最簡(jiǎn)單的基礎(chǔ)教學(xué)
更多類(lèi)似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服