易生鏽之探 @essentialquest - Tumblr Blog

知識的蒐集癖和自我感覺良好的「不」學習

有本書叫「菊花與劍」(也有譯作「菊與刀」) ,內容主要是在講日本文化和民族性。

裡面有個段落講日本文化很懂得「收藏」，但相較於旁邊的中國文化，在編目索引方面就沒有做得很好。

相對地，中國文化很會做各種編目和索引，但是被編入目錄的那本書究竟在哪裡？這就不是中國人在意的問題了。

所以有許多在中國只存在於某書目裡，真本已經亡迭的古籍名著，往往會在日本的某個古寺或是神社裡意外找到保存良好的擅本。

•18+ Adults Only

Watch Anya Live on Cam

Anya is live and ready to show you everything. Watch her strip, dance, and perform exclusive shows just for you. Interact in real-time and make your fantasies come true.

✓ Live Streaming✓ Interactive Chat✓ Private Shows✓ HD Quality✓ Free Actions

Free to watch • No registration required • HD streaming

禪修營回想之三

前言：禪修是一種很特殊的體驗。因為需要時時清楚專注當下，所以現在回想禪修的過程…其實是沒有特別記得什麼東西。

但是這三個晚上的記憶倒是很清楚…

第三夜是最慘烈的一晚！

當你以為 5 個人打呼，不過是像室內銅管五重奏的音量時，別忘了，打呼的人同時還可以放屁！

剎時間，像是有 2 倍的銅管五重奏室內樂團的 battle 一樣，音符和氣味迷漫在空氣中。

#禪修 #失眠

禪修營回想之二

前言：禪修是一種很特殊的體驗。因為需要時時清楚專注當下，所以現在回想禪修的過程…其實是沒有特別記得什麼東西。

但是這三個晚上的記憶倒是很清楚…

早齋後，有約一小時的休息時間供大家刷牙洗臉後休息或提早到禪堂用功。我刷完牙後，就在鋪位上睡著了。猛地一驚醒，第一個念頭就是…

「誰是哪裡？這是誰？」然後發現昨晚打呼得最大聲的那位早已精神飽滿地去禪堂打坐用功了。剩下的都像我一樣早就不支倒床…

#禪修 #失眠

禪修營回想之一

前言：禪修是一種很特殊的體驗。因為需要時時清楚專注當下，所以現在回想禪修的過程…其實是沒有特別記得什麼東西。

但是這三個晚上的記憶倒是很清楚…

禪修期間禁語，即便是同寢室的修行同學之間也無交談或互動。但這似乎並不妨礙晚上就寢後大家用鼾聲組成室內銅管五重奏的默契。

幸好，我有備而來，早早就翻出耳塞並戴上了。Easy peasy, sleep like a baby...

等等！如果我戴了耳塞，為什麼我聽得出他們合奏的默契？我不是戴著耳塞我…我的右耳塞咧？

遍尋不著後，我以掩耳盜鈴的心態重新躺下，心想「只要我裝作沒聽到，那是不是就能繼續安眠了呢？」

10 分鐘後…

#禪修 #失眠

AI 是湧現了智慧，還是你又在腦補？

從 ChatGPT 以來，很多人在談「湧現」，但沒有人從本質上去談類神經網路究竟在幹嘛。反而只從表面上看到「只要訓練的參數夠大，就會自然產生智慧。我們就叫它湧現！」。

我不這麼認為。

#LLM

•18+ Adults Only

Watch Anya Live on Cam

Anya is live and ready to show you everything. Watch her strip, dance, and perform exclusive shows just for you. Interact in real-time and make your fantasies come true.

✓ Live Streaming✓ Interactive Chat✓ Private Shows✓ HD Quality✓ Free Actions

Free to watch • No registration required • HD streaming

AI 時代下的語言學家

幾天前， OpenAI 的老闆 Sam Altman 發了一篇推文說「想要有所建樹，做個經驗主義者；想要看起來很聰明，當個理性主義者」

我接受的是理論語言學的訓練，所以我對自己的理解是一位「理性主義者」，而帶領人類文明走出中世紀黑暗時代的理性主義，怎麼會如此不堪地被形容成只是「sounding smart」呢？。對 Skinner 學派的經驗主義大戰，大家都很熟了，這裡就先壓下不表。結論是：經驗主義永遠不會消失，但也永遠無法解決問題。(它們會把理性的累積當成經驗的功勞)

在台大讀博的那幾年，學的是統計模型和資料模型，有一位學長的專長就是統計模型/機器學習的 NLP。我們兩邊經過兩三年的深入討論後，學長最後的結論是「做研究的話，統計模型/資料模型這個方法可以做。因為永遠有論文可以寫，有實驗可以做，有研究經費可以申請。但是要走向業界的實用的話，語言學的方法才是實際的做法。因為你們要更動任何東西，可以很輕易地更動。」

我以「怎麼」為例，psudocode 原理大概像這樣… (這部份我已經拿到專利了，歡迎教學時使用。提醒一下同學可以不要再重造輪子就好了。我們不像資工系有那麼多人，實在沒有那樣有餘裕可以重造一次。)

#Linguistics NLP #AI

我們必需去，但不一定回來

Netflix 最近上架了 HBO 的「諾曼第大空降」和「太平洋戰爭」。雖然太平洋戰爭受到的注意和追捧遠遠不及諾曼地大空降，但如果在台灣發生戰事的話，其實後者的戰場刻畫會更有參考價值。除了像國際橋牌社一樣的各種軍中狗屁倒灶的事情都拍出來以外，在太平洋戰場裡還有熱得要死，後勤供水卻跟不上的戰場上戰鬥；雨下得全身濕透，濕到有人受不了，直接自盡；菜兵搞不清楚重點，用自己破掉的防雨布，換下彈藥箱的防雨布，結果弄得彈藥泡水無法擊發；身先士卒的長官，啪地一聲被狙擊手幹掉；本來像戰神一樣在槍林彈雨中來去自如的老士官長，在戰場上終於心態崩潰… 在這麼惡劣的環境裡，士兵還是一直前進。最近有一位中研院的學者在節目裡說「打完就沒有人是贏的了，因為就像現在死掉的俄國人或烏克蘭人，他們已經輸了，打了就是輸了。」戰爭不是靠投降打贏的。每一個在戰場上死掉的士兵，不是為了自己的輸贏，而是有更遠大的目標要他們獻身。那個目標叫做「國人的未來」。這可能和讀書求學以來一直都只考慮「自己的未來」的某些大學者的思維習慣不太一樣，所以他們也無法理解吧。

#我死則國生

「現在 AI 沒意識，不代表以後沒有！」就像在說現在人類沒有時光機，不代表以後沒有一樣。

在網路媒體上讀到這一篇報導：

人工智慧會發展出意識嗎？今年初 ChatGPT 熱潮席捲全球時，一度是許多人關心的問題（另一個問題則是 AI 會不會讓自己失業）。這種恐懼和危機感，很快就被各種眼花繚亂的大模型產品取代了，絕大多數人在焦慮未來和關注眼前之間選擇了後者。不過59歲的Yoshua Bengio依然在

而我覺得這論文實在是濫用了一般民眾對「科學家」專業的信任。

但要說整篇都沒有可取之處嗎？也不是。

首先，我覺得這段講得滿誠實的：

研究者同時寫道，「我們研究的證據表明，如果心智計算主義是正確的，有意識的AI系統實際上可以在近期內建立起來。」

我是不知道為什麼這些資訊專家如 Bengio 們都喜歡拿 1960 年代以後就不太更新的心理學或是認知科學理論來論證 2023 年甚至以後的認知科技發展。好像從 1960 ~ 2023 的這六十年間，只有資訊科學家在做研究，其它認知科學家都在地上躺平裝死似的。簡單地說，「心智計算主義」假設「認知就是輸入與輸出的關係」。如文中所述的：

心智計算主義認為，精神世界是基於一個使用諸如資訊、計算（思考）、記憶（儲存）和反饋等概念的物理系統

就像是「某人按下標記著 7 的按鈕，他心裡想著 7 樓，而電梯就剛好帶他到 7 樓。於是他就認為『這個電梯有了認知能力。因為它的輸入 (數字 7 的按鈕)，和計算這個按鈕背後觸發的電路、載入的齒輪轉動圈數與方向 (記憶) 和反饋能力 (車廂移動到 7 樓並打開車廂門) 剛好符合了教科書級的「心智計算理論」所描述的意識行為。

但我們絕對不會認為「電梯有意識」的！

即便我們把 ChatGPT 裝在電梯上，而且要用特別的 Prompt Engineering 來提示這個電梯究竟要到幾樓，我們也不會覺得這個電梯是「有意識」的。

換言之，前述的：「…如果心智計算主義是正確的…」條件就是不成立的，因此其後的「…有意識的AI系統實際上可以在近期內建立起來…」也不是正確的。

人類的意識最特別之處並不是在輸入與輸出，而是在「覺察到自身正在處理輸入與輸出」。其重點不在後半句的「輸入與輸出」，而是前半句的「覺察能力」。

貓、狗甚至鯨豚或是大象都有很高的智力，牠們也能感受到許多人類特有的情緒，如想念、悲傷…等。但人類除了「感受」以外，還能「覺察到自己正在感受，甚至主動跳脫出這些感受」。

就像在思考數學問題時，在思考詩詞排列時，在思考抽象的概念時，我們不只是思考，我們還「知道自己在思考」。這才是意識。

ps. 用 htop 指令或是打開工作管理員看到 CPU loading 很高，那不是「電腦知道自己在思考」，電腦只知道「CPU loading 很高」，至於它是真的在計算某個有終點的問題，還是困在某個無限迴圈裡面出不來，它不會知道，因為它不知道自己在思考。

#AI #Bengio #consciousness

商業化的必要性做為一個社會實驗

大半的中秋連假裡，我都在打字，連個月亮的影子都沒看到。打什麼字呢？把白話字的拼音和字符之間的對應關係打成檔案，以便做後續的拼音轉譯時查詢和反查的功能。

為什麼要用人工打？哦…因為要遵守「授權」的緣故。

我知道很多人只要「網路上抓得到」的檔案，都當做是「免費隨我用」的，但我個人乃至卓騰語言科技都是非常嚴格遵守各種授權規定的。

這次遇到的授權裡說的是「如果你要再散佈，那麼只能再散佈編譯後的版本」。那麼我希望我正在寫的這個 Articut_Taigi 是開源的外掛，讓大家都看到究竟裡面都寫了什麼，不要再整天懷疑「你是不是藏了什麼秘密？(報告將軍，這裡沒有秘密，只有智力上的差異，這個我實在沒辦法)」，我勢必得要散佈未編譯的版本。

看來就只剩下自己重新把所有可能的組合拼打一次的方法了 (事實上我算是拼打了兩次。因為除了用數字標記聲調的台羅拼法以外，我另外還做了用調性符號標記聲調的台羅拼法)。

其實要打造台閩語、客語的 NLP 基礎工具，網路上散見許多可以整合的資源。但絕大多數都是「禁止商業使用」的授權模式。看著這麼多前輩花了好幾年的力氣和時間去整理資料，做出種種數位化的資料以後，再宣告「這個不能商用哦！」的授權。

我不能理解的是「商業有什麼不好？」為什麼大家一看到「要出錢的東西」就反射性地覺得「這是缺點」？

歷史上，我們試過用道德、用法律、用社會共識甚至是夢想去驅動「辦成一件事情」，但到目前為止，唯二有效的動力，一是來自奴隸，二是來自商業。只要一件事情有「能夠被商業化的機會」，自然而然就會有許多資源投入，讓它運轉起來。

但是，我們仍然持續看到亞洲 (主要是華人)社會的反商情緒。那麼從我們這個物種的文明發展史來看，亞洲人 (主要還是華人) 建構出一個活得像奴隸的社會，好像就是個不可避免的趨勢。(寫到這裡，突然想到會不會是因為古時代各朝代的帝王都希望保持死老百姓的奴性，所以才會持續倡導反商的價值觀呢？)

總之，我對商業化的看法是「如果你覺得這件事情很重要，付錢啦！把錢投下去表示你『真心』覺得這件事很重要，不然其它的都只是嘴炮而已」。

所以，我不打算用什麼道德、規定、社會共識甚至是夢想來驅動你。我直接跟你說「做 NLP 基礎工具，我有信心我是做得最好的」。你想要看到台語 NLP 基礎工具出現嗎？我想要知道你有多認真 (I want to know how serious you are.)。

為了觀察這個趨勢，做為社會實驗，我去申請了一個個人的抖內連結 (抖內連結：http://paypal.me/donatepeterwolf)，在做這個 project 的過程裡，我會時不時地和大家分享這個社會的奴家本性實驗觀察。

要是…Formalism Linguistics 錯了怎麼辦？

在 Formal Linguistics 的研究和應用 (尤其是應用) 的路上走了十幾年了，偶爾會遇到以前一起讀書的同學、朋友說：「我後來覺得做研究像是做信仰一樣。要是我們的信仰是錯的怎麼辦？」

什麼是信仰？什麼是科學？兩者之間是否有差別呢？我在 2013 年思考過這個問題。信仰的部份，事涉個人經驗和主觀判斷，我沒有太多意見。但什麼是「科學」，這個就有明確的定義了。具有可以被「證偽」(Falsifiability) 的性質，凡事皆值得懷疑、皆可假設、皆可測試、皆可列出證偽條件，是科學的基本要件。(別忘了，聖經上說過「不可試探主，你的神」)

•18+ Adults Only

Watch Anya Live on Cam

Anya is live and ready to show you everything. Watch her strip, dance, and perform exclusive shows just for you. Interact in real-time and make your fantasies come true.

✓ Live Streaming✓ Interactive Chat✓ Private Shows✓ HD Quality✓ Free Actions

Free to watch • No registration required • HD streaming

覆 [標準重要嗎？] 一文

讀到一篇 [人工智慧與自然語言處理想要說什麼？標準重要嗎？] 的 blog 文。文章中提出的議題，基本上沒有什麼大問題，的確有好幾個是重要的 NLP 課題。但是既然其中提到了「語言學」，那麼有些容易導致誤解的小細節就要拿出來說明釐清一下了。

對於現在的 NLP 應用工具，在評估「有沒有用」的時候，的確會有原作者提到的兩個問題：

一是用來比對的句子本身就是錯的…

二是怎麼分才算對的問題…

對於第一點，即便是目前大家最常用的 SIGHAN 2005 資料集的標準答案裡，也有這種「/夜/比/之前/更深/更/靜/」的結果。這就是作者說的「比對的句子本身就是錯的。

#NLP #BERT #Linguistics

中文母語流利者的語言障礙

依 1994 年中國友誼出版社的「中华字海」這本字典的收錄量，中文有 85568 個字 (按：當然這裡指的是「字符」，也就是說「蚯蚓」是兩個字符，但「蚯蚓」依現代語言學的分析方法來看，應該只能算是一個字。)

八萬多個國字符號，和英文只有區區的 26 個字母符號相比，在極端的二字詞、三字詞的長度限制下，應該可以創造出更多詞彙吧？

然而…關於語言 (language)，我們就只有少得可憐的那幾個字符可以用。在現代白話中文裡，大致上就是「字、詞、語、話、講、說、言」，然後…沒有了。

於是乎，我們就用著這個稀哩呼嚕的語言，交換著稀哩呼嚕的概念，覺得只要有沾到上面這幾個辣椒紅的字符的詞彙，都是差不多的意思，然後就能各自回家，彼此安好，一天又這麼平安地過去了。

-- 以上前言背景說明 --

在這樣的前提以及因緣聚會的大宇宙意志干涉下，讓我看到了「活出語言來 - 語言人類學導論」這本書。還有網路上諸多的書評、讀後心得裡都提到這本書在講「語言學」。

#NLP #Linguistics

Chomsky's Forever War？

一場戰爭會打成 "forever"，那麼一定有一方是強者，而另一方是笨蛋！

最近讀到一篇書摘心得 (Chomsky's Forever War)，冒出很多想法，但一方面我沒有讀過這本書，另一方面我也不打算讀。畢竟，從書摘裡看，我覺得那作者好像搞錯了很多事。所以…在把自己的想法寫成 blog 以前，看看別人怎麼說的好了。

結果，就在其它地方，找到某個人想用這篇文章來支持他自己的 "Chomsky 是錯的！自然語言沒有那麼複雜的規則！" 的想法。

這篇文章裡也說 "Chomsky 一干語言學家們假設的語言習得機制非常複雜 (原文 "...learning (language) is impossible without a highly constrained hypothesis space...")

[糟糕…寫到這裡已經太長了，沒人要讀了...]

科技寫作的盲腸

有些大學裡的中/外文系裡尋求「和科技沾上一點邊」的方式是開設「科技寫作*」這樣的課程。其內容著重在「訓練學生撰寫科技產品的操作說明文件」。我覺得這個方向有一點好笑…

好笑的點在於，根本就沒有什麼人在讀文件。不論是視覺上都是文字，顯得較為枯燥 API 操作說明文件，還是圖文並茂的 GUI 操作流程說明…

根．本．沒．人．讀！

再說，既然沒人看，那麼什麼流暢的書寫能力…云云就不是重點了。重點應該是 git 的版本控制、markdown 格式的掌握以及 CAT 軟體 (Computer-Assisted Translation) 的技術掌握才是。

沒有，這些課程的重點還是擺在「寫作」，好像看幾篇 WIRED 然後寫個評論就算科技寫作了，而課程名稱裡的「科技」像條盲腸一樣掛在那裡不知道幹嘛。

我覺得，人文社會學院的同學們想要尋求自己職涯在「愈來愈小的池子以外」的發展的話，思維的模式要從「我目前的能力 (e.g., 我會寫作) 能做什麼 (就…找個東西來寫？)」調整成「這個世界有什麼問題待解決，我目前的能力 (e.g., 我會寫作) 再加一點什麼，就能提供解決方案」。

不去做「加一點什麼」的那件事，那麼仍然是在同一個池子裡晃來晃去的。

註：這個詞彙的指涉內容還滿多變的。最開始是從「紙筆寫作 => 電腦文書系統寫作」叫科技寫作。後來不知道怎麼地，和「英文學術寫作」的內容摻在一起。於是科技寫作的訓練，就變成了英文學術寫作的訓練。但我想講的都不是這兩種，而是最近開始冒出來的「為科技產品撰寫使用說明文件」這件事。

ps. 說明文件沒人讀的事實，並不表示「不讀說明文件」是正確的啊！新手提問時收到 RTFM 做為回覆的時代已經過去了，在這個玻璃紀元，還是要自我要求去讀文件的。

#RTFM

這十三年來，我做了很多事…

他人笑我太瘋癲我笑他人看不穿

我曾想說也許是語言教育的問題。畢竟我們的語言教育系統一直放在「修辭與美學」的養成以及「文以載道」的誦記。但是對於「語言是一個完整運作的系統」卻從來不曾提過。於是我參加了許多語言教學的活動。然，並無卵用。

我也曾想過，是語言學的能見度太低的問題。所以寫了很多 blog，從語言學的角度來探討各種現象和介紹我們用來分析語言的工具，用各種和其它學科之間的類比企圖讓入門門檻低一些，但閱讀人數非常非常的低。

•18+ Adults Only

Watch Anya Live on Cam

Anya is live and ready to show you everything. Watch her strip, dance, and perform exclusive shows just for you. Interact in real-time and make your fantasies come true.

✓ Live Streaming✓ Interactive Chat✓ Private Shows✓ HD Quality✓ Free Actions

Free to watch • No registration required • HD streaming

麵製品夾著肉就一定是漢堡嗎？

「欸你們讀語言學的，是不是學了電腦以後都想當資工系的語言組啊？」今年才過去六天，類似的問題就被問了兩次… -_- (長嘆…) 在語言學的世界裡，有幾個比較有歷史的詞彙，會讓人覺得這個子領域和電腦有關。一是「計算機語言學 (Computational Linguistics)」，另一個是「語料庫語言學 (Corpus Linguistics)」。什麼是計算機？應該不是那個上面佈滿數字符號和運算按鈕的電子設備，所以大家想當然爾地就看到旁邊的 "computation" 裡有個和 "computer" 很像的東西，所以這個應該和「電腦」有關吧？！同理可証，當一般人實在搞不懂什麼是語料庫的時候，最簡單的說法就是「儲存了很多語言資料的資料庫」。哦～資料庫，又一個和電腦有關的東西。

一個魚形，各自表述

我自覺有一個說起來很心理變態的嗜好。我看了很多 Youtube 裡殺魚的影片。三更半夜睡不著的時候，我幾乎都在看殺魚的影片… 📷 殺魚，指的不是「取走魚的性命」的那一段，而是把一條魚從完整的「魚形」切割成一塊一塊的「肉塊」的過程。我相信像我這樣的心理變態應該不少，因為網路上竟然找到得 24 小時不間斷播出殺魚錄影的頻道！看著看著，我竟然看出了一個有點意思的語言和認知問題。我發現不同的文化、民族和地區的漁人和水產廚師，殺魚的手法是不同的。而這個不同，似乎可以看出來在他的認知裡「魚形」這種立體幾何形狀是被歸屬在哪一類裡。是像肉？像菜？還是像水果？如果全人類的認知系統運作是一致的，對立體形狀的認知也是一致的這個假設成立的話，我只能猜…會不會是他的語言裡「魚形」和其它的某些形狀是一致的？也因為如此，所以某些魚可能是因為形狀的關係，而在某些「以禁忌食物的形狀來描述」的文化裡，也連帶地被視為是「不可食用」的魚？(e.g., 猶太人不吃鰻魚。Well...很明顯地，它是蛇的形狀。) 比如說，我發現在南亞某些地方，殺魚時是不先去除內臟的。漁販只是「切頭去尾」後，接著把魚身直拉起來，像個鳳梨一樣擺在砧板。他接下來下刀的方式，也像是切鳳梨一樣，然後把魚的內臟像是「去鳳梨心」的方式處理。直到最後，切成一塊一塊的魚肉，也像是切出鳳梨果塊似的近似三角形。我超級想問，在這個漁販的母語裡，鳳梨和魚的形狀各自是哪一個字？還是根本就同一個字來描述這種立體幾何形？有的地方，切魚是從魚背下第一刀；有的地方是從魚腹下第一刀！有些地方，不去鱗，直接像削果皮一樣把魚皮和魚鱗一起削掉 (想想也挺合理的。反正稍後都要去皮，那為什麼要先去鱗？) 有些地方，不去內臟，而是最後把內臟直接淘出來，切碎後拌在某種醬汁裡，那也是一道菜。(可想而知地，某些內臟味道很糟糕的魚，在這個地方就是『不能吃』的魚。) 有的地方，去鰭的方式是由後往前削；有的地方是把魚放平後，像砍掉多餘枝葉似的由上往下砍。反而，像日本水產師傅那樣仔細地保留魚鰭，從左右分別下刀取肉是很少見的。這些都讓我思考著…會不會語言之間除了描述「顏色」的概念會受語言影響以外，會不會連「幾何形狀」的理解，都會受到語言的影響甚至是限制呢？

Trending Blogs

Last Seen Blogs

易生鏽之探