大家好!
在四月的時候我和我的小伙伴們還在感慨學校暑假有多長,結果一轉眼就到了八月。在這幾個月中我們雖然沒有課程,但是依然過的十分的忙碌,而原因就是本篇文章的重點:Research Assistant (RA)。我們在上一篇文章中有簡單的提到過究竟什么是RA,但是經(jīng)過了一個暑假的RA之后,猹哥發(fā)現(xiàn)依然還是有必要在暑假快要結束的時候思考暑假RA期間的得失與教訓,因為很多問題真的是很難發(fā)現(xiàn)卻又很有必要提出的,同時很多學習或工作期間的優(yōu)勢有可能會變成劣勢。所以這一篇文章我們以點帶面,希望通過一些很小的細節(jié)來引入,來看看初入科研的時候,有哪些東西可能和之前想的不一樣了。
值得一提的是,嚴格來說暑假期間是有兩個短學期的(春季學期和夏季學期),有的同學會在這兩個學期上一些課(當然也得保證有權限,同時需要額外交錢,在生統(tǒng)系幾乎沒有這樣做的人)。但是考慮到內(nèi)容的連貫性,我們會將這一篇文章定位成番外,換句話說下學期的學習體驗我們依然認為是第三學期的,而不是第四或第五學期的。
那么我們開始吧!
就像上班的時候會有個mentor一樣,RA也會需要跟一個導師。這個導師往往經(jīng)過多年的耕耘,已經(jīng)形成了對一個或者一些領域的深度了解。而RA所對應的項目其實也會跟你日后的目的有關。一般來說如果RA項目僅僅只是為了項目本身,而不是為了后續(xù)的博士進度,那么主動權往往都在導師手上,導師與學生的關系就更像是公司里面的上下級關系,當完成了這個項目之后自然這一層師生關系也就解除了。但如果RA項目本身就是為了讀博士做準備,情況就會完全不一樣。一般來說,導師并沒有權利全權把握科研項目的進度。但是反過來說,因為你跟著導師,就意味著導師對你存在約束,所以也并不能說科研項目的進度就完全由我們自己負責。所以不能理解導師和我們的關系就是一個二極管,而且根據(jù)導師和學生的性格不同,其實最后的處事方式也會千變?nèi)f化。
總體來說,我最愿意理解導師是一個具有約束的合作者,且約束會隨著一個人科研進度的推進而慢慢放松。這就意味著在一開始的時候,導師會更希望安排你做一些比較機械化,比較基礎,比較瑣碎的事情,并且這些事情導師往往會在細節(jié)和要求上更加上心,要求更高。而到了后期(比方說博士的第四年,第五年),相比較導師的指導,學生的意見其實更加重要。總體來說隨著科研進度的推進,學生的自由度會越來越大。
但無論自由度是大是小,聽取導師的意見都是很重要的一環(huán),無論前期還是后期。這是因為無論最后的博士論文的課題與導師的內(nèi)容相關與否,導師的選擇都有他自己的考慮。如果相關,那么導師的指導往往會比自己瞎摸索要高效很多。如果不相關,一個好的導師往往也能夠找到一個團隊來輔助學生完成論文,而不僅僅是袖手旁觀。舉個例子,我們這里有很多博士生都會被聯(lián)合培養(yǎng)(即一個學生會被多個導師培養(yǎng),由多個導師共同負責完成課題),這往往是因為某一個課題可能正好落在了兩個導師研究方向的交叉點,因此這個時候兩個導師共同培養(yǎng)往往會比一個導師要好很多。
最后我個人認為對于大部分人來說,主動性固然是很重要的,但是重要性其實不如聽取導師的意見。這是因為主動雖然可以給導師帶來一個signal說學生會非常motivated,非常容易被驅動和對課題感興趣,但是主動如果只是完全照搬自己的經(jīng)驗,實際上工作的效率甚至會還不如被動接受,這一點我們后面還會再提。一個聽起來有點殘酷的現(xiàn)實是,最終博士論文的方向還是會很大程度上受限于導師和他合作者們的研究方向。對于極少數(shù)的天賦異稟的朋友,他們也許可以幾乎不依靠導師的指導,但依然不可能脫離導師的人脈和研究大綱?;谶@個原因,我們雖然依然推薦大家做課題的時候要主動,尤其是博士的后期,但是主動過了火其實很多時候不是好事。當然了,這是基于導師比較夠格的情況下,對于尸位素餐的博士生導師除外。
Mammoth Cave National Park, KY
博士期間一個很重要的點就是要做細節(jié),無論這個idea是否新穎。簡單來說就是所有的理論,實驗和結論都要在一篇文章中形成閉環(huán),并且避開所有可能的confusion。一般來說,導師都會推薦學生在有了一定的實驗成果之后就開始著手paper的書寫,而不會等到實驗和結論完全結束之后再寫。一個原因是達到課題最后發(fā)表期刊/會議的要求其實是相當高的,幾乎不可能是在很短的時間可以完成的。還有一個原因是很多時候,審稿人會以各種理由來論證實驗的不合理,將實驗完全推翻的話基本上就宣告之前的實驗和結論完全沒用了。反過來說如果一個課題本身的支撐點,也就是方法論層面的內(nèi)容足夠完整和形成了閉環(huán),那么實驗更多的像是一個錦上添花的作用。這樣的一個安排下實驗設計會更加有的放矢,同時也會有更多的精力去攻克下一個課題(當然這是對于博士生來說的)。
有的人可能會說這也沒什么大不了,理論我找?guī)妆竞玫臅怀匆黄?,實驗我找別的論文參考參考稍微改改也就行了。先不提說照搬全抄是否會被判抄襲,也不提說一個論文的實驗要支撐自己的idea和理論,光是符號使用是否合理,在各個領域就有各個領域的說法。舉個例子,在做臨床數(shù)據(jù)分析的時候,我們對于每一個人都會提取一些信息,例如每一個人的當時的年齡,在一個時間點提取出來的血壓。一般來說可能就可以代表這么一個向量。但是對于臨床數(shù)據(jù)分析,其實存在兩種可能:拿到的這個信息是原始信息,還是經(jīng)過處理后的信息。因此對于實際的分析,包括理論的推導,我們一般用來表示這個信息向量,這個就既可以表示處理前,也可以表示處理后的信息,包括增加交叉項和高階項這些比較常見的統(tǒng)計處理方法,其實都可以被給表示,之前的就僅僅被用來表示“處理前“的信息了。
當然了,其實你是可以通過增加適當?shù)恼f辭來聲明表示處理后的信息,而不用。但是對于審稿人來說,一個領域有一個領域的習慣和聲明,這種額外的聲明和修改其實會給審稿帶來負面的效應,因為審稿人看得很快的情況下,他們會自然而然的代入自己已有的認知,而不會認真看論文的每一個字。這也是為什么導師經(jīng)常會說一個領域有一個領域的規(guī)則和習慣,統(tǒng)計領域有統(tǒng)計領域的規(guī)則,計算機領域有計算機的玩法。就像臨床數(shù)據(jù)分析其實也是機器學習,深度學習等領域有所應用的地方,但是他們的論文寫法就和統(tǒng)計系完全不同。
說到這里我們提一下交叉學科的情況,也是我目前所涉及的課題的特性。首先交叉學科要保證對于另一個學科的了解在自己的本專業(yè)領域中要達到頂尖,但不代表兩個學科要同等程度的了解。以我目前的課題為例,我需要用深度學習來完成臨床數(shù)據(jù)分析,那么如果我要發(fā)一篇統(tǒng)計系的論文,我所有的論文的寫法都要照顧到統(tǒng)計系,而不是計算機,這就意味著我需要理解清楚對于統(tǒng)計系的人來說,有哪些深度學習層面的東西是他們非常關心的。這很多時候并不是一件容易的事情,包括我自己在這個方面也經(jīng)常與導師意見相左,因為在這個時候,之前在其他領域所學習到的很多核心的知識往往并不是統(tǒng)計系領域所關心的,自己交叉學科的優(yōu)勢在論文書寫中反而變成了劣勢,過于主動往往會演變成無意義的發(fā)散。因此在這個時候,一個比較好的處理方案是,觀察經(jīng)典書籍和論文如何處理交叉學科的寫法,并將所有的深度學習的細節(jié)都擺在目前的paper草稿中,再與導師討論保留哪些,例如對于我們的數(shù)據(jù)集,我們有什么調(diào)參的選擇和建議。雖然這一定程度上有些浪費時間,因為你需要將可能深度學習領域完全不關心的細節(jié)擺在臺面上,要多做很多相關的實驗。但是還是我老板說的那樣,一個領域有一個領域的規(guī)則,如果避開這個規(guī)則,最終往往會浪費更多的時間。
所以從這一點來看,其實也不難看出導師的重要性,因為導師最為熟悉的是所擅長領域的一個全貌,所以自然也會了解這個領域的人更希望看到什么東西。對于交叉學科來說,導師很有可能對于另一個領域是不太了解的,例如對于我目前的課題,導師非常熟悉臨床數(shù)據(jù)那一塊的問題,但是不熟悉深度學習的具體細節(jié),那么我所要做的就是把深度學習的具體細節(jié)里面與臨床數(shù)據(jù)有關的部分找到并且展示在paper中,并且進行討論。
Kentucky航拍
很多人(包括我自己)都會認為做科研就是拼一個idea,然后把這個idea實現(xiàn)出來再寫paper就算大功告成了。但實際上對于一個課題來說,最重要的是要把它的story說的很清楚很有吸引力,而這所看重的其實是表達能力和這個課題本身的完整性。具體來說,可能一個問題的idea用1-2頁紙就能夠表達清楚。但是因為這個idea背后需要一些邏輯和概念,支撐這些邏輯和概念又需要一些實驗,這就自然而然擴充了整篇paper的內(nèi)容量,而且會使得最終新的idea的內(nèi)容可能只占整篇paper的很小一部分。
看重完整性會使得一個課題需要不斷的擴充,最終使得內(nèi)容涵蓋一個領域的方方面面,因此其實每一個課題對應到我們身上就是對一個領域的全面而細致的了解,這也一定程度上解釋了為什么看起來好理解又很小的三個點,其背后對應的是一個博士生4-6年的博士生涯,因為其背后的整個領域相關的內(nèi)容都是支撐一個idea所必需的。所以對于統(tǒng)計系來說,如果是做理論,那么一個課題背后的證明做個一兩年根本就不是事,這其中可能光看懂其他文章的證明就已經(jīng)很費功夫了。如果是做應用,那么最終對于所成型的實驗代碼的要求其實不亞于一個小的開源軟件。
所以對于讀博,我自己感覺相比較關注自己會解決什么問題,其實可以更多關注解決這個問題的過程中需要額外多涉及什么樣的知識。對于應用的課題來說,實驗過程中所遇到的可能的bugs還有編程所遇到的一些速度和空間的分配問題等等,都可以是以后用上,或者放在paper里的東西。而對于理論的課題來說,即使一個證明沒有辦法被直接應用到這一個課題中,了解這個證明和其背后的intuition也會對之后做其他的理論課題有很大的幫助。當然了,因為每一個課題都是非常漫長的旅程,所以還需要很有耐心,所以太主動和不主動都不是好事,太主動的話往往很容易沒有耐心,不主動的話可能導師會很容易沒有耐心(大霧)。
University of Vanderbilt, Nashville, TN
雖然在科研中,快速學習的能力非常重要,但是實際上一個領域背后的基礎知識同樣是不能夠忽略的。一般來說快速學習往往針對的不是特別重要的內(nèi)容,例如我們并不需要知道臨床數(shù)據(jù)中怎么判斷高血壓和低血壓,但我們需要知道某個數(shù)代表血壓。而對于一個大領域的基礎知識,如果不掌握的話其實會間接影響對于一個問題的解決進度,同時會直接影響課題的拓展和延伸。就像如果你根本不知道概率論里的變量代換,你就不可能知道怎么利用變量代換來建立樣本分布,自然也就不可能搞清楚一個實驗的數(shù)據(jù)是如何采樣的。那么這樣的話雖然可能已經(jīng)有了現(xiàn)成的代碼可以復用,卻沒有辦法針對自己的paper需求做出對應的修改,這就相當于被“卡脖子了”。
不過究竟什么叫基礎知識,其實每個人想法都不同,所以還是那句話,問問導師怎么想,看看導師給你推薦了什么書,要你去follow哪些經(jīng)典的論文。就像如果我們要做統(tǒng)計中的優(yōu)化問題(例如LASSO),那么統(tǒng)計推斷和凸優(yōu)化最優(yōu)化自然是需要知道的,雖然不需要知道具體的每一個凸優(yōu)化的方法究竟怎么做,但至少需要知道我們需要看凸優(yōu)化,以及未來可能需要哪些方面的知識。一般來說,當我們把導師所布置的閱讀任務完成,并且通過了他的檢驗,基本上就算是補齊了“基礎知識”了。一般來說一開始需要補的基礎知識不會特別多,因為導師會希望我們盡快開始一個課題。但這是在假設我們已經(jīng)有了一些基礎的情況下。比方說如果你不是數(shù)學系出身,卻需要去看高等概率論,那所需要的時間相比較科班來說,就自然要多很多了。所以很多時候如果一開始的基礎知識補充就感到很有壓力,那么有可能說明研究方向的壁壘很高,那么這個時候就得權衡一下是否自己要多花點時間先看看書,再考慮科研了。
Hattie B's, Nashville, TN
閱讀論文就和公司里面閱讀內(nèi)部的doc一樣,是科研的必修課。有的人讀的快有的人讀的慢,這都很正常。一般來說讀論文一開始都會讀的比較慢,然后隨著經(jīng)驗增多會讀的越來越快。但其實放細一點來說,有了經(jīng)驗之后讀的很快其實不一定是一件好事,因為這個“經(jīng)驗”本身不一定是這個領域所認可的經(jīng)驗。這樣的例子也是數(shù)不勝數(shù),比方說經(jīng)常出現(xiàn)一個同樣的符號在兩篇paper里代表兩種不同的含義的情況,這樣的話如果看完了第一篇,就很容易把第二篇理解成第一篇paper的含義,這樣就會偏離作者所希望表達的意思。
所以一般來說我老板會推薦對經(jīng)典的新paper的內(nèi)容都慢讀,精讀,然后做一些必要的標記,用一個新的notes把論文里的各種細節(jié)都總結好,表達出來,并放上對應的參考文獻。一方面這樣做的話,至少一個領域的奠基性的內(nèi)容我們都能夠清楚明白,另一方面,我們可以從這些paper中了解到一些我們可能可以用到的東西作為拓展延伸(但這一般是課題有了雛形之后),并找到其對應的參考文獻。
寫到這里我想到之前問過系里的老師如何做research的建議,老師給的建議非常直接:精讀100篇論文,主要參考經(jīng)典論文的參考文獻和參考它的文獻。雖然實際上做一個課題不可能真的需要精讀那么多,但是這其實說明了精讀論文在研究初期的重要性。通過這種方式往往一開始會對一個完全沒有概念的內(nèi)容建立一個基本的框架,然后在這個框架下自然就會慢慢知道有哪些東西是已經(jīng)自己了解過的,而有哪些東西是沒有了解的。這也一定程度上凸顯了論文完整性的重要性。如果一篇論文足夠完整,那么其實讀者閱讀這一篇論文就已經(jīng)足夠建立起這樣的框架,那么自然也會被人所欣賞,也會得到更多的引用。
另外其實還有一個很小的建議,也不一定適用于所有人,就是多留心書和論文中所提到的各種新名詞和概念。這主要是為了交流和討論的方便,因為如果某一個領域有一些術語你不知道,導師一方面不清楚你真正想表達的是什么意思,另一方面也很有可能會認為你的基礎知識其實不夠達標。所以說好記性不如爛筆頭,這也是為什么我每一次都會把我認為迷惑的新名詞都記下來,然后去反復看導師之前推薦過的一些書,這樣時間長了之后,對于一個領域的各個名詞和含義都有了很好的了解,也就自然很容易理解到論文所想表達的意思,達到事半功倍的效果。
East Central Illinois Archery Club, Champaign, IL
一般來說和導師都會有一個計劃好的時間的meeting,這個meeting往往會由我們更新自己的東西,由導師來給出建議或者做后續(xù)的安排和延伸。但是實際上,很多導師和學生的交流都是隨時產(chǎn)生的,大到對于整個課題的理解可能有誤,小到一個圖如何scale才更好看。因此確認自己每一周要做的事情,然后去隨時向導師更新自己的進度,一方面可以展現(xiàn)出自己的motivation,另一方面也可以隨時讓導師更新自己的安排。
一個比較殘酷的現(xiàn)實是,無論你和導師合作有多么愉快,導師有多么認可你,課題本身如果不夠格,質量不過關,就只能延長畢業(yè)時間。這一定程度上也說明了時常更新的重要性,因為一方面,很多時候導師可能不一定在很長一段時間內(nèi)都保持相同的想法,另一方面我們自己也不一定真的完全理解了導師的意思。如果我們只是悶頭干活,那么很有可能出現(xiàn)一個問題做了很久,結果發(fā)現(xiàn)做的根本不是導師所關心的問題的情況。這種情況雖然好的導師會認可你的努力,但其實對于最終博士論文的進度是沒有任何增益的。
所以總結下來,我覺得這一點建議的目的和之前差不多,也是為了保證自己所做的每一件事都是正確有效的,而不是費無用功。
Art Institute of Chicago, Chicago, IL
什么才叫博士畢業(yè)其實每個學校有每個學校的要求。在我們這里的話一般來說導師會提供一個大的藍圖,然后根據(jù)藍圖和每一個項目的進度來決定下一個項目。在我們系一般來說是三個大的項目,一個項目對應博士論文中的1-2個章節(jié)??傮w來說這三個大的項目都完成,通過導師的認可,就可以安排博士答辯了。
一般來說三個項目全部做完總共花費的時間大約是3-5年,但是很多人其實不會那么快畢業(yè),在我們系如果考慮碩士的2年,一般平均畢業(yè)時長在5-6年的居多。除去個人原因以外,還有一個可能是碩士期間(或者說是博士的第一,二年)所做的RA工作并不能夠當作博士論文的一部分。這個情況還挺常見,比方說可能做的工作本身就是一些相對不是那么有創(chuàng)新性的內(nèi)容,或者為了拿到博士生所對應的獎學金而需要做一些雜活。但反過來說如果從一而終,每一個課題都能夠被用來作為博士論文的一部分,那么自然畢業(yè)也就更快了。
不過用我老板的話來說,對于希望去學術界發(fā)展的人來說,畢業(yè)時間多長其實并不是一個特別重要的因素,即使一個工作做了非常長的時間,這個過程中學習和了解到的東西,甚至是走的彎路,都會是以后發(fā)展的財富。
Carnegie Mellon Museum, Pittsburgh, PA
我們這一篇文章就到此為止啦。抱歉因為個人原因一直沒有更新有關的內(nèi)容,這一篇文章也是趁著休假期間趕制出來的(甚至懶得排版了)。希望對大家有所幫助!
School of Public Health, Ann Arbor, MI
“整理不易,點贊三連↓
聯(lián)系客服