其中有三個辦法,
- 第一個是,使用Regular Expression,但如要從HTML碼中以String方式去找的話,效能可能會很慢.
- 第二個是,用HTML Agility把HTML轉成XML,看當成XMLDocument去讀取,但編譯後的HTML,未必有一定的格式化,談不談得上是標準的DOM都成問題.
- 第三個是使用SGML Reader,但我對這個不太熟悉.
所有唯有考慮1和2的方案.
使用Regular Expression配合StringBuilder用都不會太慢,但不同的Tag需要不同的Regular Expression,這方面就要下點功夫了.
第二的是,用CodePlex的Html Agility Pack
把HTML文件轉成XML,以XPATH方法去取得Value.使用方法就自行看Readme.
始終我都覺得用 Regular Expression 自由度好像比較大一些.
其實還有很多技巧,不過不在這裡大費周張,有什麼問題可以留言給我.
沒有留言:
發佈留言