【科技日?qǐng)?bào)】你的低價(jià)機(jī)票 被“蟲(chóng)子”吃了
發(fā)布日期:2017-12-27 供稿:來(lái)源:科技日?qǐng)?bào) 編輯:薛喬丹 審核:王征 閱讀次數(shù):
原文標(biāo)題:你的低價(jià)機(jī)票 被“蟲(chóng)子”吃了
原文鏈接:http://digitalpaper.stdaily.com/http_www.kjrb.com/kjrb/html/2017-12/27/content_384867.htm?div=-1
不到兩個(gè)月,,2018年春節(jié)要來(lái)了,。
“今年我得早下手,,搶張回家的低價(jià)機(jī)票?!痹诒本┐蚬さ男⊥鯇?duì)科技日?qǐng)?bào)記者說(shuō),由于老家在云南,,春節(jié)機(jī)票太貴,,他都選擇坐兩天兩夜的火車回去,長(zhǎng)途跋涉,苦不堪言,。
然而,,就在小王摩拳擦掌,準(zhǔn)備使出“洪荒之力”搶張便宜機(jī)票時(shí),,看到網(wǎng)上曝出這樣一則消息:航空公司放出的低價(jià)機(jī)票,,80%以上被票務(wù)公司的“爬蟲(chóng)”搶走,普通用戶很少能買到,。
小王傻眼了,,“爬蟲(chóng)”究竟是什么鬼?它又是怎么搶機(jī)票的,?難道就沒(méi)有辦法治理嗎,?
借助超鏈接信息抓取網(wǎng)頁(yè)
“‘爬蟲(chóng)’技術(shù)是實(shí)現(xiàn)網(wǎng)頁(yè)信息采集的關(guān)鍵技術(shù)之一,通俗來(lái)說(shuō),,‘爬蟲(chóng)’就是一段用來(lái)批量,、自動(dòng)化采集網(wǎng)站數(shù)據(jù)的程序,幾乎不需要人工干預(yù),?!北本├砉ご髮W(xué)網(wǎng)絡(luò)科學(xué)與技術(shù)研究院副教授閆懷志告訴科技日?qǐng)?bào)記者。
閆懷志介紹,,“爬蟲(chóng)”又稱網(wǎng)頁(yè)“蜘蛛”,、網(wǎng)絡(luò)機(jī)器人,它是一種按照一定規(guī)則自動(dòng)抓取網(wǎng)頁(yè)信息的程序或者腳本,,通常駐留在服務(wù)器上,。在Web網(wǎng)頁(yè)中,既包含可供用戶閱讀的文字,、圖片等信息,,還包含一些超鏈接信息。網(wǎng)絡(luò)“爬蟲(chóng)”正是借助這些超鏈接信息來(lái)不斷抓取網(wǎng)絡(luò)上的其他網(wǎng)頁(yè),。
“這種信息采集過(guò)程很像一個(gè)爬蟲(chóng)或蜘蛛在網(wǎng)絡(luò)上漫游,,網(wǎng)絡(luò)‘爬蟲(chóng)’或網(wǎng)頁(yè)‘蜘蛛’因此得名?!遍Z懷志說(shuō),,“爬蟲(chóng)”最早應(yīng)用在搜索引擎領(lǐng)域,比如谷歌,、百度,、搜狗等搜索引擎工具每天需要抓取互聯(lián)網(wǎng)上數(shù)百億的網(wǎng)頁(yè),它們需要借助龐大的“爬蟲(chóng)”集群來(lái)實(shí)現(xiàn)搜索功能,。
當(dāng)前,,“爬蟲(chóng)”已被廣泛用于電子商務(wù),、互聯(lián)網(wǎng)金融等諸多領(lǐng)域。比如,,“爬蟲(chóng)”可以抓取航空公司官網(wǎng)的機(jī)票價(jià)格,,發(fā)現(xiàn)低價(jià)或緊俏機(jī)票后,“爬蟲(chóng)”可以利用虛假客源的真實(shí)身份信息實(shí)現(xiàn)搶先預(yù)訂,。再有,,很多互聯(lián)網(wǎng)瀏覽器都推出了自己的搶票插件,以高訂票成功率來(lái)推廣瀏覽器,。
根據(jù)抓取任務(wù)和目標(biāo)的不同,,網(wǎng)絡(luò)“爬蟲(chóng)”可大致分為批量型、增量型和垂直型,。批量型“爬蟲(chóng)”的抓取范圍和目標(biāo)較為明確,,可以是網(wǎng)頁(yè)的設(shè)定數(shù)量,也可以是消耗時(shí)間的設(shè)定,。增量型“爬蟲(chóng)”主要用于持續(xù)抓取更新的網(wǎng)頁(yè),,以適應(yīng)網(wǎng)頁(yè)的不斷變化。垂直型“爬蟲(chóng)”主要是用于特定主題內(nèi)容或特定行業(yè)的網(wǎng)頁(yè),。
“爬蟲(chóng)”究竟是如何搶票的
此前,,在線票務(wù)服務(wù)公司攜程的“反爬蟲(chóng)”專家在技術(shù)分享中透露,某網(wǎng)站的一個(gè)頁(yè)面,,每分鐘的瀏覽量是1.2萬(wàn),,真實(shí)用戶只有500個(gè),“爬蟲(chóng)”流量占比為95.8%,。
采訪中,,很多業(yè)內(nèi)人士也表示,即使在“爬蟲(chóng)”活動(dòng)的淡季,,虛假流量也占到訂票網(wǎng)站總流量的50%,,高峰期更是在90%以上。
那么,,“爬蟲(chóng)”究竟是如何實(shí)現(xiàn)搶票的呢,?對(duì)此,閆懷志解釋,,主要是機(jī)票代理公司利用“爬蟲(chóng)”技術(shù),,不斷抓取航空公司售票官網(wǎng)網(wǎng)頁(yè)信息,,如果發(fā)現(xiàn)該航空公司有低價(jià)票放出,,“爬蟲(chóng)”即刻利用虛假客源身份進(jìn)行批量預(yù)定但不實(shí)際支付,以達(dá)到搶占低價(jià)票源的目的,。由于“爬蟲(chóng)”的效率遠(yuǎn)遠(yuǎn)超過(guò)正常的手動(dòng)操作,,導(dǎo)致通過(guò)正常操作幾乎無(wú)法搶到票,。
隨后,機(jī)票代理公司會(huì)通過(guò)其自身銷售渠道(包括公司網(wǎng)站,、在線旅行社,、客戶電話訂購(gòu)等)找到真正的客源,在航空公司允許的賬期內(nèi),,退訂此前使用虛假客源身份預(yù)定的低價(jià)票,,然后使用真實(shí)身份信息進(jìn)行訂購(gòu),最后實(shí)現(xiàn)該低價(jià)票的加價(jià)轉(zhuǎn)售,。
如果未在航空公司規(guī)定的賬期內(nèi)找到真正客源,,機(jī)票代理公司會(huì)在訂單失效前再追加虛假身份訂單,繼續(xù)“霸占”該低價(jià)票,,如此反復(fù),,直至找到真正客源售出為止。
“上面的操作流程就構(gòu)成了完整的機(jī)票銷售鏈條,。在這個(gè)過(guò)程中,,航空公司售票系統(tǒng)允許在賬期內(nèi)反復(fù)訂、退票的規(guī)定為機(jī)票代理公司利用‘爬蟲(chóng)’搶票并加價(jià)獲利提供便利,。這種搶票方式,,被稱為技術(shù)‘黃牛’,?!遍Z懷志強(qiáng)調(diào)。
的確,,有業(yè)內(nèi)人士表示,,這些“爬蟲(chóng)”流量消耗了大量的機(jī)器資源,卻不產(chǎn)生任何消費(fèi),,這是每個(gè)公司最痛恨的東西,。但是,因?yàn)榕抡`傷真實(shí)用戶,,各家公司的“反爬蟲(chóng)”策略做得非常謹(jǐn)慎,。
采用一定手段 “爬蟲(chóng)”可防可控
任何事情都有兩面,“爬蟲(chóng)”技術(shù)也不例外,。
在閆懷志看來(lái),,“爬蟲(chóng)”既可為正常的數(shù)據(jù)批量獲取提供有效的技術(shù)手段,也可被惡意使用以獲取不當(dāng)利益,。如果“爬蟲(chóng)”技術(shù)被不正當(dāng)利用,,就會(huì)帶來(lái)一定的危害。
首先,,威脅數(shù)據(jù)安全,。航空公司售票網(wǎng)站數(shù)據(jù)被惡意爬取,,數(shù)據(jù)可能會(huì)被機(jī)票代理公司惡意利用,而且還存在被同業(yè)競(jìng)爭(zhēng)對(duì)手獲取的風(fēng)險(xiǎn),。
其次,,導(dǎo)致系統(tǒng)性能下降,影響用戶體驗(yàn),?!芭老x(chóng)”大量的抓取請(qǐng)求會(huì)導(dǎo)致航空公司售票網(wǎng)站服務(wù)器資源負(fù)載上升、性能下降,,網(wǎng)站響應(yīng)變慢甚至無(wú)法提供服務(wù),,對(duì)用戶搜索和交易體驗(yàn)造成負(fù)面影響。但由于存在巨大的灰色利益空間,,同時(shí)“反爬蟲(chóng)”技術(shù)在與“爬蟲(chóng)”對(duì)抗中作用有限,,使得這種顯失公平的“作弊”方式成為擾亂機(jī)票市場(chǎng)秩序的技術(shù)“頑疾”。
“從技術(shù)角度來(lái)看,,阻擊‘爬蟲(chóng)’可以通過(guò)網(wǎng)站流量統(tǒng)計(jì)系統(tǒng)和服務(wù)器訪問(wèn)日志分析系統(tǒng),。”閆懷志說(shuō),,通過(guò)流量統(tǒng)計(jì)和日志分析,,如果發(fā)現(xiàn)單個(gè)IP訪問(wèn)、單個(gè)session訪問(wèn),、User-Agent信息超出設(shè)定的正常頻度閾值,,則判定該訪問(wèn)為惡意“爬蟲(chóng)”所為,將該“爬蟲(chóng)”的IP列入黑名單以拒絕其后續(xù)訪問(wèn),。
再就是設(shè)置各種訪問(wèn)驗(yàn)證環(huán)節(jié),。比如,在可疑IP訪問(wèn)時(shí),,返回驗(yàn)證頁(yè)面,,要求訪問(wèn)者通過(guò)填寫驗(yàn)證碼、選取驗(yàn)證圖片或者字符等方式實(shí)現(xiàn)驗(yàn)證,。如果是惡意“爬蟲(chóng)”爬取,,顯然很難完成上述驗(yàn)證操作,進(jìn)而可以封鎖該“爬蟲(chóng)”的訪問(wèn),,防止其惡意爬取信息,。
互聯(lián)網(wǎng)空間不能有“灰色地帶”
當(dāng)前,云計(jì)算,、大數(shù)據(jù)等為代表的新一代信息技術(shù)處在高速發(fā)展階段,。
“上述新技術(shù)如果被非法或者不當(dāng)應(yīng)用,則會(huì)產(chǎn)生嚴(yán)重的危害,?;ヂ?lián)網(wǎng)空間安全需要建立健全完善的保護(hù)體系,絕不能‘裸奔’,?!遍Z懷志說(shuō)。
2017年6月1日,,我國(guó)《網(wǎng)絡(luò)安全法》正式實(shí)施,,明確了各方在網(wǎng)絡(luò)安全保障中的權(quán)利與責(zé)任。這是中國(guó)網(wǎng)絡(luò)空間治理和法制建設(shè)從量變到質(zhì)變的重要里程碑,,這部法律作為依法治網(wǎng),、化解網(wǎng)絡(luò)風(fēng)險(xiǎn)的法律重器,成為我國(guó)互聯(lián)網(wǎng)在法治軌道上健康運(yùn)行的重要保障,。
然而,,目前對(duì)于高科技“黃牛”倒票行為,,尚未有明確規(guī)定,,使得惡意爬取信息并不當(dāng)獲利行為處在法律法規(guī)監(jiān)管的“灰色地帶”。
閆懷志介紹,,國(guó)際上,,針對(duì)“爬蟲(chóng)”應(yīng)用,專門制訂了Robots協(xié)議(即“爬蟲(chóng)”協(xié)議,、網(wǎng)絡(luò)機(jī)器人協(xié)議等),。該協(xié)議全稱為“網(wǎng)絡(luò)爬蟲(chóng)排除標(biāo)準(zhǔn)”,網(wǎng)站可通過(guò)該協(xié)議告知“爬蟲(chóng)”可以爬取哪些頁(yè)面及其信息,,不能爬取哪些頁(yè)面及其信息,。該協(xié)議作為網(wǎng)站和“爬蟲(chóng)”的溝通方式,用來(lái)規(guī)范“爬蟲(chóng)”行為,,限制不正當(dāng)競(jìng)爭(zhēng),。
作為國(guó)際互聯(lián)網(wǎng)界通行的道德規(guī)范,該協(xié)議的原則是:“爬蟲(chóng)”及搜索技術(shù)應(yīng)服務(wù)于人類,,同時(shí)尊重信息提供者的意愿,,并維護(hù)其隱私權(quán);網(wǎng)站有義務(wù)保護(hù)其使用者的個(gè)人信息和隱私不被侵犯,。這就規(guī)定了爬取者和被爬取者雙方的權(quán)利和義務(wù),。
一位不愿具名的法律專家也表示,“反爬蟲(chóng)”不僅要依靠技術(shù)防范和業(yè)界自律,,還應(yīng)該通過(guò)完善管理和法律法規(guī)手段來(lái)約束這種行為,,尤其是法律手段才能彰顯懲治力和震懾力。航空公司也要完善賬期管理,,不給“爬蟲(chóng)”搶票提供機(jī)會(huì),。
(來(lái)源:《科技日?qǐng)?bào)》 2017年12月27日 08版)
分享到: