驗證圖根本不是在辨識機器人 每點一次其實是「幫Google訓練AI」

2019-01-03

我們在網站上經常會看到一些奇怪扭曲的字母和數字驗證碼，雖然大家都知道這是為了防止機器人腳本的方式，可是相信沒有人會喜歡這樣的東西吧！不過其實你又是否知道，如今這些驗證碼如：填寫方塊中的文字、挑出路牌、門牌等等任務，除了證明自己是個真人之外，還有著其他的功能，能夠在不知不覺中會構成強大的計算能力！

▼相信許多時候人在使用Google服務時都會遇到類似的驗證題目，其實這些驗證方式還有另一種功能：幫忙訓練AI！其實這樣的說法並不是異想天開，其實早在多年前我們還在使用文字驗證碼時，這種「義務勞動」早就在不知不覺中進行了。

如今應用層面最廣泛的驗證碼系統是 reCAPTCHA （Completely Automated Public Turing Test To Tell Computers and Humans Apart，區分人機的全自動圖靈測試系統），如今這家公司已經被Google所收購，也承擔了世界上大部分網站的驗證工作。

▼在2007年時有一個急需解決的問題，那就是將人類所有紙本典籍都數位化。可是如果使用手工方式來輸入，不僅耗時耗力，還容易出現錯誤；使用掃描和光學文字辨識系統的話，有些年代較為久遠或者印刷品質比較差的作品就無法完全辨識，於是發明 reCAPTCHA 驗證碼的卡內基梅隆大學教授路易斯·馮·安（Luis von Ahn）在當時突然有了一個想法：「能不能利用驗證碼系統，讓人類和機器共同解決問題呢？」

為了解決這個問題，路易斯在2007年推出了驗證碼系統 reCAPTCHA ，剛開始是由兩個部分組成，第一部分是自動生成並且經過變形處理的文字，第二部分則是從無法辨識的文本中截取出來的詞。如果使用者正確輸入了第一部分，系統會假設使用者第二部分的輸入也是正確的，把輸入結果返回至 reCAPTCHA 的專案主機，之後還會把這個結果再派發給多個用戶進行交叉驗證，以確保沒有不小心或故意輸錯單字的情況。

▼使用了這個方式後，透過掃描無法辨識的字體有了解決方法，在2007年reCAPTCHA 每天都能幫助輸入3000 萬個字元，到了2008年後字元數目提高到了6000萬個，根據粗略的猜想，如今reCAPTCHA每天都能夠登錄2億個字元，相當於一個人類15萬小時的工作量，一個人要不吃不喝不睡兩年半才能完成 reCAPTCHA 一天的工作量。

2009年，Google將 reCAPTCHA 收購，並利用其功能來幫忙標註數據。到了2012年，Google開始將Google街景當中難以辨識的路牌、門牌、車牌等圖片加入驗證碼當中，讓用戶來幫忙標註。在經過全球用戶的無償幫助下，如今Google AI 已經能精確辨認路牌上的文字和數字，準確度幾乎和人眼不相上下。

▼如果有一天Google真的開發出了自己的自動駕駛技術，其AI用來辨識路牌、門牌的方式就是靠著我們這些用戶訓練出來的。而Google 也並不避諱這個目的，在reCAPTCHA 的官網上Google也已經公開說明這是一種集眾人之力標註數據、訓練 AI 的「群眾外包」模式。