網(wǎng)上有很多關(guān)于清債pos機(jī), Google 年度頂級(jí)論文機(jī)器學(xué)習(xí)系統(tǒng)的知識(shí),也有很多人為大家解答關(guān)于清債pos機(jī)的問(wèn)題,今天pos機(jī)之家(www.bulldancerbisonranch.com)為大家整理了關(guān)于這方面的知識(shí),讓我們一起來(lái)看下吧!
本文目錄一覽:
清債pos機(jī)
新智元原創(chuàng)1
作者:李維
作者介紹:NetBase Solutions 首席科學(xué)家,自然語(yǔ)言處理領(lǐng)域?qū)<摇?/strong>
作者在看完新智元12月8日文章《【Google 年度頂級(jí)論文】機(jī)器學(xué)習(xí)系統(tǒng),隱藏多少技術(shù)債?》后有感而發(fā),特作此文。如感興趣,可以點(diǎn)擊閱讀原文瀏覽全文。
我: 真的好文。象牙塔里出不來(lái)的經(jīng)驗(yàn)總結(jié)。
楊靜 ? 新智元: @wei 你可以寫一篇點(diǎn)評(píng)!
我: @楊靜 ? 新智元 這里這么多 ML 大牛,哪里輪得到我這個(gè)語(yǔ)言學(xué)家點(diǎn)評(píng)啊。我算是霧里看花,因?yàn)樽龅亩际枪こ滔到y(tǒng),也有強(qiáng)烈共鳴罷了。
很多債務(wù)是所有大型軟件工程共有的,這里試圖強(qiáng)調(diào)ML的額外特有債務(wù)。債務(wù)的結(jié)果就是系統(tǒng)報(bào)廢。歷史上見過(guò)不少開發(fā)了很多年的系統(tǒng),最后死掉了,封存了,無(wú)人問(wèn)津了。當(dāng)然,死系統(tǒng)的原先的開發(fā)者往往帶著教訓(xùn)和經(jīng)驗(yàn),在下一輪重開爐灶的系統(tǒng)中,輕裝上陣,做得更好。
我們此前討論中遇到的兩難,與這個(gè)技術(shù)債務(wù)也有關(guān)。兩難是,軟件工程需要分層和模塊化,而系統(tǒng)需要保留和傳遞 non-deterministic 結(jié)果,如何合理處置,是一個(gè)很大的挑戰(zhàn)。大家的共識(shí)是不要提前給出條件不成熟的確定性結(jié)論。但是拖泥帶水從一個(gè)模塊進(jìn)入另一個(gè)模塊,對(duì)于NLP這樣的系統(tǒng),負(fù)載會(huì)越來(lái)越重,不堪容忍。對(duì)于追求純粹和完美的人,這個(gè)兩難無(wú)解。
而且即便你找到辦法保留了 non-deterministic results,系統(tǒng)越大,層次越多,最后是越加不 tractable。如果一切都保留到語(yǔ)用層面最后定奪,很懷疑任何系統(tǒng)設(shè)計(jì)者會(huì)受得了那樣的千頭萬(wàn)緒。反正我們?cè)趯?shí)踐中是不行的。結(jié)果就是不追求純粹和完美,選擇性地、經(jīng)驗(yàn)性地決定哪些結(jié)果可以中途扔掉(枝枝蔓蔓),哪些 non-deterministic 結(jié)果必須保留。這種選擇肯定會(huì)出現(xiàn)問(wèn)題。會(huì)出現(xiàn)以前的deterministic system 同類的問(wèn)題。就是所謂鐵路警察各管一段的踢皮球的問(wèn)題。但是,出問(wèn)題不可怕,只要系統(tǒng)是掌握在同一個(gè)設(shè)計(jì)師手中,只要一開始考慮架構(gòu)的時(shí)候就給 non-deterministic 的東西留下了空間,這種問(wèn)題的出現(xiàn)恰好可以 data-driven 地幫助設(shè)計(jì)者決定如何調(diào)配帶還是不帶的決策。
誰(shuí)把李航請(qǐng)來(lái)就好了,也想聽聽他的高見。
白: 應(yīng)用不同,平衡點(diǎn)可以有所差異。
我: 平衡點(diǎn)總是可以在實(shí)踐中調(diào)控的。關(guān)鍵是,設(shè)計(jì)者的思維方式的轉(zhuǎn)變。我們以前吃過(guò)很多苦頭。剛開始做系統(tǒng)的時(shí)候,受到 community 的影響,認(rèn)為 POS 是一個(gè) solved problem, 于是做出了一個(gè)錯(cuò)誤的決定,把 Brill 拿來(lái)就用。表面上這是加速了系統(tǒng)的進(jìn)度,后去是擦不完的屁股。這不怪 Brill tagger 的精度不夠,再高的精度(只要不是百分百)也會(huì)出現(xiàn)同類的問(wèn)題。主要怪的是當(dāng)時(shí)沒(méi)有意識(shí)到模塊間的包容,重于模塊的純粹。于是踢皮球就開始了,凡是后面做不好的,往往歸到前面沒(méi)做好支持。很多 parsing 的問(wèn)題,最后被歸結(jié)為 POS 的問(wèn)題。于是回到 POS 層去打補(bǔ)丁。最后做出了一個(gè)畸形的系統(tǒng)出來(lái),給 POS 打補(bǔ)丁的模塊是整個(gè)系統(tǒng)最大的模塊,比所有其他模塊(包括前處理、Brill POS、NE、chunking、SVO、Events)加起來(lái)還大。原因是 parsing 的東西,在 POS 階段幾乎被重復(fù)了一遍,而且是拙劣的重復(fù)。在螺絲殼里做道場(chǎng)。這個(gè)教訓(xùn)很深刻。所以,現(xiàn)在學(xué)聰明一些了。
個(gè)人的教訓(xùn)是,NLP 沒(méi)有免費(fèi)的午餐,在決定拿來(lái)就用的時(shí)候要慎重再慎重。寫過(guò)一篇,自給自足是NLP王道。
其實(shí)后來(lái)我們又做出了一個(gè)錯(cuò)誤的決定,雖然這個(gè)決定在當(dāng)時(shí)是無(wú)可奈何的,但顯然是錯(cuò)誤的。我們?cè)谧龆嗾Z(yǔ)言的時(shí)候,因?yàn)槠扔?deadline,不得不 license 了 Basis 的 多語(yǔ) morphology,結(jié)果不但是擦不完的屁股,交不完的 license fee,更要命的是,他那里一更新,我這里就兩難,升級(jí)還是不升級(jí)?
還有一個(gè)體會(huì),同樣是擦屁股,擦別人的屁股比擦自己的屁股別扭多了。因此,即便自給自足在時(shí)間壓力下開始是做不好底層支持的,也比用他人的“成熟”的模塊是更好的選擇。反正,NLP 終歸是長(zhǎng)線項(xiàng)目,時(shí)間壓力只是要求系統(tǒng)先轉(zhuǎn)起來(lái),iteratively 和 incrementally 地擦屁股和維護(hù)協(xié)調(diào)是系統(tǒng)轉(zhuǎn)起來(lái)以后的必由之路。
底層的東西最好不用他人的,再大誘惑也不用。頂層的沒(méi)有 dependency 的可以用,譬如系統(tǒng)要做 visualization 展示結(jié)果,這個(gè) tool 用 off-shelf 沒(méi)有副作用。
干貨下載
如何下載?
以上就是關(guān)于清債pos機(jī), Google 年度頂級(jí)論文機(jī)器學(xué)習(xí)系統(tǒng)的知識(shí),后面我們會(huì)繼續(xù)為大家整理關(guān)于清債pos機(jī)的知識(shí),希望能夠幫助到大家!









