成人综合网亚洲伊人,精品一区二区成人精品,加勒比久久综合久久鬼色88,亚洲国产精品一区二区制服 ,18禁男女无遮挡啪啪网站

logo

新手速成!如何利用ChatGPT撰寫正則表達式輔助數(shù)據(jù)采集?

先做一個小調(diào)研:爪子們在日常采集中會經(jīng)常用到正則表達式嗎?比如調(diào)整網(wǎng)頁既定格式;剔除多余符號等…..

某新聞網(wǎng)站上特殊的時間排版樣式

正則表達式的強大毋庸置疑,但使用門檻也確實存在。

即便是采集熟手,想要通過正則匹配準確拿到想要的信息,有時也要經(jīng)過多次嘗試,更不用說剛剛接觸八爪魚采集器的小白了。

正則匹配前

正則匹配后

正則表達式是什么?

正則表達式是一種字符串匹配的模式,用于描述一類字符串的集合。它可以用來匹配、搜索、替換、驗證等操作,廣泛應用于文本處理、編程語言、數(shù)據(jù)庫等領域。

具體來說,正則表達式可以用特定的符號和字符組合來匹配不同的字符串模式。如:

– \d 表示任意一個數(shù)字字符
– * 表示重復零次或多次
– + 表示重復一次或多次
– ? 表示重復零次或一次
– \w 表示任意一個字母、數(shù)字或下劃線字符- . 表示任意一個字符
– [] 表示一個字符集,例如 [abc] 匹配任意一個字符 a、b 或 c
– () 表示一個分組,可以對其中的內(nèi)容進行引用或者重復

當然以上這些只是正則表達式最基礎的使用方式,通過這些符號和字符的組合,我們可以靈活構建各種各樣的正則表達式來匹配不同的字符串模式,最終實現(xiàn)采集數(shù)據(jù)的調(diào)整。如:

表達式?\\s*(?=:\\s)?用于字段中刪除冒號后的空格。
在這個表達式中,`\\s`表示任何空白字符,`*`表示零個或多個,`(?=…)`表示一個正向預查,它匹配括號中的表達式,但不將其包含在匹配結(jié)果中。
這個表達式用于匹配在冒號和空格之間的任何空格,意味著它不會刪除字段值中的任意空格,只有在冒號后面有一個空格的情況下才會刪除空格。

看到這里你是不是已經(jīng)開始想放棄?

撰寫正則表達式規(guī)則對新手來說確實會有較高的門檻,雖然八爪魚也提供了正則工具輔助編寫,但有時也需要多次嘗試才能拿到最準確的信息。

但是??!現(xiàn)在有了ChatGPT,一切問題迎刃而解!

無須再自己編寫,我們可以直接通過提問對話的方式獲取所需規(guī)則!

如何用ChatGPT輔助采集?

本文小八將以豆瓣讀書為例,講解如何利用ChatGPT輔助八爪魚實現(xiàn)數(shù)據(jù)采集。

舉個栗子:
在采集過程中,我們只想要定價這個單獨的數(shù)據(jù),但選擇元素時發(fā)現(xiàn)無法單獨提取,只能和作者、出版社等數(shù)據(jù)合并選中,這種情況要如何用正則表達式實現(xiàn)?

Step 1 : 選中要格式化的文本

整個字段提取完成以后,鼠標移動到目標字段上,然后點擊 【…】按鈕,選擇【格式化數(shù)據(jù)】,就會進入【格式化數(shù)據(jù)】配置頁面。點擊【添加步驟】,選擇【正則匹配】。

Step 2 : 用ChatGPT獲取正則表達式

我們可以直接向ChatGPT提問:如何利用正則表達式提取出其中的部分信息?

在添加步驟中直接輸入表達式,但匹配結(jié)果顯示為空,效果不佳。

沒關系,我們可以再次提問ChatGPT,此刻你就是硬氣的甲方爸爸

再次嘗試新公式,成功提取出想要的結(jié)果:

Step 3 : 利用正則表達式修改數(shù)據(jù)格式

按這個流程,我們可以依次提取出出版年份,裝幀方式等文本內(nèi)容,成功拿到我們想要的數(shù)據(jù)啦~

動圖封面

除了正則匹配,ChatGPT也可以應用至正則替換等功能來剔除不符合規(guī)范的數(shù)據(jù)。

相比簡單的【替換】,【正則表達式替換】更為強大

當然,這個只是ChatGPT在八爪魚采集器中的一個場景,小八也正在探索把ChatGPT功能集成進八爪魚采集器來輔助大家做好正則表達式,xpath等功能。

文末點贊讓PM們看看大家對新功能期待程度,點贊越多,上線越快哦~