国产欧美日韩第一页|日本一二三不卡视频|在线精品小视频,亚洲第一免费播放区,metcn人体亚洲一区,亚洲精品午夜视频

相關(guān)文章

云南公布第二批免費(fèi)向社會(huì)提供信息技術(shù)服務(wù)企業(yè)名單中國(guó)互聯(lián)網(wǎng)企業(yè)赴美上市規(guī)模預(yù)計(jì)今年或減半【滇企復(fù)工進(jìn)行時(shí)】藍(lán)隊(duì)云：未雨綢繆，危機(jī)之下必有機(jī)遇搜狐、騰訊、迅雷等一批互聯(lián)網(wǎng)公司涉黃被罰5萬(wàn) 他們失敗的辛酸血淚史：億唐網(wǎng)、博客中國(guó)、酷6網(wǎng)、飯否

幫助中心 > 技術(shù)知識(shí)庫(kù) > 數(shù)據(jù)庫(kù) > 相關(guān)技術(shù)支持 > Python HTMLParser模塊解析html獲取url實(shí)例

Python HTMLParser模塊解析html獲取url實(shí)例

2017-08-21 21:08:15 7069

HTMLParser是python用來解析html的模塊。它可以分析出html里面的標(biāo)簽、數(shù)據(jù)等等，是一種處理html的簡(jiǎn)便途徑。HTMLParser采用的是一種事件驅(qū)動(dòng)的模式，當(dāng)HTMLParser找到一個(gè)特定的標(biāo)記時(shí)，它會(huì)去調(diào)用一個(gè)用戶定義的函數(shù)，以此來通知程序處理。它主要的用戶回調(diào)函數(shù)的命名都是以handler_開頭的，都是HTMLParser的成員函數(shù)。當(dāng)我們使用時(shí)，就從HTMLParser派生出新的類，然后重新定義這幾個(gè)以handler_開頭的函數(shù)即可。這幾個(gè)函數(shù)包括：

handle_startendtag 處理開始標(biāo)簽和結(jié)束標(biāo)簽
handle_starttag     處理開始標(biāo)簽，比如<xx>
handle_endtag       處理結(jié)束標(biāo)簽，比如</xx>
handle_charref      處理特殊字符串，就是以&#開頭的，一般是內(nèi)碼表示的字符
handle_entityref    處理一些特殊字符，以&開頭的，比如
handle_data         處理數(shù)據(jù)，就是<xx>data</xx>中間的那些數(shù)據(jù)
handle_comment      處理注釋
handle_decl         處理<!開頭的，比如<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
handle_pi           處理形如<?instruction>的東西

這里我以從網(wǎng)頁(yè)中獲取到url為例，介紹一下。要想獲取到url，肯定是要分析<a>標(biāo)簽，然后取到它的href屬性的值。下面是代碼：

#-*- encoding: gb2312 -*-
import HTMLParser
 
class MyParser(HTMLParser.HTMLParser):
  def __init__(self):
    HTMLParser.HTMLParser.__init__(self)   
     
  def handle_starttag(self, tag, attrs):
    # 這里重新定義了處理開始標(biāo)簽的函數(shù)
    if tag == 'a':
      # 判斷標(biāo)簽<a>的屬性
      for name,value in attrs:
        if name == 'href':
          print value
     
 
if __name__ == '__main__':
  a = '<html><head><title>test</title><body><a href="http://www.tjdsmy.cn">鏈接到163</a></body></html>'
   
  my = MyParser()
  # 傳入要分析的數(shù)據(jù)，是html的。
  my.feed(a)

上一篇：CentOS下使用yum安裝python-pip失敗的完美解決方法
下一篇：href和src、link和@import的區(qū)別詳解

服務(wù)熱線：
4006-75-4006(7*24小時(shí)在線)

總機(jī)直撥：
0871-63886388（工作日9:00-18:00）

Copyright ? 2012 - 2025 LanDui.com. All RightsReserved.　藍(lán)隊(duì)云版權(quán)所有

全國(guó)域名注冊(cè) 航帆網(wǎng) IDC公司大全九機(jī)網(wǎng)

工信部備案號(hào) 滇ICP備05000110號(hào)-1
滇公安備案滇53010302000111
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證 B1.B2-20181647、滇B1.B2-20190004

云南互聯(lián)網(wǎng)協(xié)會(huì)理事單位
安全聯(lián)盟認(rèn)證網(wǎng)站身份V標(biāo)記
域名注冊(cè)服務(wù)機(jī)構(gòu)許可：滇D3-20230001
代理域名注冊(cè)服務(wù)機(jī)構(gòu)：新網(wǎng)數(shù)碼

售前咨詢

售前咨詢服務(wù)時(shí)間：09:00-23:30

售前值班
4006-75-4006

咨詢熱線：

4006-75-4006（09:00-23:30）
0871-6388 6388 （總機(jī)）（工作日 09:00-18:00）

您可能遇到了下面的問題：
云服務(wù)器問題對(duì)象存儲(chǔ)計(jì)費(fèi) 域名注冊(cè)指南
售后咨詢

售后咨詢服務(wù)時(shí)間：00:00-24:00

24H值班技術(shù)
4006-75-4006

投訴與建議 最快響應(yīng)10分鐘

您可能遇到了下面的問題：
云服務(wù)器教程遠(yuǎn)程登陸問題 FTP上傳問題其他問題查詢
備案咨詢

備案咨詢服務(wù)時(shí)間：09:00-18:00（工作日）

備案專業(yè)客服
0871-6388 6388

您可能遇到了下面的問題：
備案所需材料提交備案流程關(guān)于幕布申請(qǐng) 備案服務(wù)指引
電話

0871-6388 6388 （總機(jī)）
工單
二維碼
TOP