精品軟體與實用教程
WP-AutoPostPro 教你如何在WordPress自動採集發佈內容
WP-AutoPostPro 是目前最好用的WordPress自動採集發布插件,最大的特點是可以採集來自於任何網站的內容並自動發佈到你的WordPress網站。
WordPress自動擷取 WordPress自動擷取外掛程式WP-AutoPostPro 就沒有上面這些劣勢,真正做到可以採集任何網站的內容並自動發布,採集過程完全自動進行無需人工幹預,並提供內容過濾、HTML標籤過濾、關鍵字替換、自動連結、自動標籤、自動下載遠端圖片到本機伺服器、自動加入文章前綴後綴、並且可以使用微軟來擷取的文章自動
WP-AutoPost WordPress自動擷取中文免費下載位址:https://www.lanzouw.com/iLaIOxcfdzi
一、安裝WP-AutoPost
和安裝其他WordPress外掛一樣,直接上傳到外掛目錄,啟用即可使用,無需再進行額外設定或修改程式碼。
二、創建採集任務
點選「新任務」後,輸入任務名稱,即可建立新任務,建立好新任務後可以在任務清單中查看到該任務,就可對該任務進行更多設定。
三、基本設定功能
在基本設定標籤下,可以進行以下設定:
任務名稱:可以修改任務名稱
分類目錄:此任務採集文章發佈到的分類目錄
作者:此任務採集文章的發布作者,必須是WordPress裡的註冊用戶
更新時間間隔:間隔多久偵測一次該採集任務下是否有新文章可以更新
字符集:採集目標網站的字符集編碼,預設為UTF8,如果目標網頁字元集編碼不是UTF8,抓取的網頁會出現亂碼,設定正確的字元集即可解決該問題(如何正確設定字元集)
下載遠端圖片:如果該任務下採集的文章包含圖片,可以選擇是否下載遠端圖片到本機伺服器,選擇下載遠端圖片,可進一步選擇是否將下載的圖片資訊儲存到WordPress媒體庫中
自動標籤:選擇是否使用自動標籤
標籤清單:使用自動標籤後如果文章包含清單裡的關鍵字,將自動新增標籤
配對完整的單字:此設定對英文文章有效,中文文章請勿啟用該設置
四、文章來源設定
在這個選項卡下我們需要設定文章來源的文章清單網址及具體文章的比對規則
我們以收集「新浪互聯網新聞」為例,文章列表網址為http://roll.tech.sina.com.cn/internet_worldlist/index.shtml 因此在手動指定文章列表網址中輸入該網址即可,如下所示:
之後需要設定該文章列表網址下具體文章網址的符合規則
五、文章網址比對規則
文章網址匹配規則的設置非常簡單,無需複雜設置,提供兩種匹配模式,可以使用URL通配符匹配,也可以使用CSS選擇器進行匹配,通常使用URL通配符匹配較為簡單。
1. 使用URL通配符匹配
透過點選列表網址 http://roll.tech.sina.com.cn/internet_worldlist/index.shtml 上的文章,我們可以發現每篇文章的URL都是如下結構
http://tech.sina.com.cn/i/2013-06-27/16328485884.shtml
因此將URL中變化的數字或字母替換為通配符(*) 即可,如:http://tech.sina.com.cn/i/(*)/(*).shtml
2. 使用CSS選擇器進行匹配
使用CSS選擇器進行匹配,我們只需要設定文章網址的CSS選擇器即可(不知道CSS選擇器為何,一分鐘學會如何設定CSS選擇器),透過查看清單網址 http://roll.tech.sina.com.cn/internet_worldlist/index.shtml 的原始碼即可輕鬆設置,找到該列表網址下具體文章的超連結的程式碼,如下所示:
設定完成之後,不知道設定是否正確,可以點選上圖中的測試按鈕,如果設定正確,將會列出該清單網址下所有文章名稱和對應的網頁位址,如下所示:
六、文章抓取設定
在該選項卡下,我們需要設定文章標題和文章內容的匹配規則,提供兩種方式進行設置,建議使用CSS選擇器方式,使用該方式更為簡單,精確。 (不知道CSS選擇器為何物,一分鐘學會如何設定CSS選擇器)
我們只需要設定文章標題CSS選擇器和文章內容CSS選擇器,即可精確抓取文章標題和文章內容。
在文章來源設定裡,我們以收集」新浪互聯網新聞「為例,這裡還是以此範例講解,透過查看清單網址 http://roll.tech.sina.com.cn/internet_worldlist/index.shtml 下某一篇文章的源代碼即可輕鬆設置,例如,我們透過查看某篇具體文章 http://tech.sina.com.cn/n/i/2013-06-10/06308430630.shtml 的原始碼,如下所示:
可以看到,文章標題在id為「artibodyTitle」的標籤內部,因此文章標題CSS選擇器只需要設定為#artibodyTitle 即可;
同樣的,找到文章內容的相關程式碼:
可以看到,文章內容在id為「artibody」的標籤內部,因此文章內容CSS選擇器只需要設定為#artibody 即可;如下所示:
設定完成之後,不知道設定是否正確,可點選測試按鈕,輸入測試地址,如果設定正確,將顯示文章標題和文章內容,方便檢查設定
1.抓取文章分頁內容
如果文章內容過長,有多個分頁同樣可以抓取全部內容,這時需要設定文章分頁連結CSS選擇器,透過查看具體文章網址原始碼,找到分頁連結的地方,例如某篇文章分頁連結程式碼如下:
可以看到,分頁連結A標籤在class為「page-link」的標籤內部
因此,文章分頁連結CSS選擇器設定為.page-link a 即可,如下所示:
如果勾選當發佈時也分頁時,發表文章也會同樣被分頁,如果你的WordPress主題不支持
標籤,請勿勾選。
2.文章內容過濾功能
文章內容過濾功能,可過濾掉正文中不希望發布的內容(如廣告代碼,版權信息等),可設定兩個關鍵字,刪除掉兩個關鍵字之間的內容,關鍵字2可以為空,表示刪除掉關鍵字1之後的所有內容。
如下所示,我們透過測試抓取文章後發現文章裡有不希望發布的內容,切換到HTML顯示,找到該內容的HTML程式碼,分別設定兩個關鍵字即可過濾掉該內容。
3.HTML標籤過濾功能
HTML標籤過濾功能,可過濾掉擷取文章中的超連結(a標籤),和
等标签下不必要的代码。
如果需要过滤掉文章中的超链接,只需输入 a 即可,是否删除标签内容 选择否;
如果要过滤掉文章中包含的或
不必要的代码,只需输入对应标签名称,是否删除标签内容选择是。