舉例來(lái)說(shuō),如果文本格式是:用戶名 電話號(hào)碼,文件名name.txt
Tom 23245332Jenny 22231231Heny 22183942Tom 23245332...
那么在shell 編程中,可以這樣用:
awk '{print $1}' name.txt | sort | uniq
如果使用C/C++ 就麻煩了,他需要做以下工作:
當(dāng)然,有了STL,這些處理會(huì)得到很大的簡(jiǎn)化。我們可以使用 fstream來(lái)代替麻煩的fopen fread fclose, 用vector 來(lái)代替數(shù)組。最重要的是用 string來(lái)代替char * 數(shù)組,使用sort排序算法來(lái)排序,用unique 函數(shù)來(lái)去重。聽起來(lái)好像很不錯(cuò)
??纯聪旅娲a(例程1):#include <string>#include <iostream>#include <algorithm>#include <vector>#include <fstream>using namespace std;int main(){ifstream in("name.txt");string strtmp;vector<string> vect;while(getline(in, strtmp, '\n'))vect.push_back(strtmp.substr(0, strtmp.find(' ')));sort(vect.begin(), vect.end());vector<string>::iterator it=unique(vect.begin(), vect.end());copy(vect.begin(), it, ostream_iterator<string>(cout, "\n"));return 0;}
當(dāng)然,在這個(gè)文本格式中,不用vector而使用map會(huì)更有擴(kuò)充性,例如,還可通過(guò)人名找電話號(hào)碼等等,但是使用了map就不那么好用sort了。你可以用map試一試。
這里string的作用不只是可以存儲(chǔ)字符串,還可以提供字符串的比較,查找等。在sort和unique函數(shù)中就默認(rèn)使用了less 總之,有了string 后,C++的字符文本處理功能總算得到了一定補(bǔ)充,加上配合STL其他容器使用,其在文本處理上的功能已經(jīng)與perl, shell, php的距離縮小很多了。 因此掌握string 會(huì)讓你的工作事半功倍。 string 其實(shí)相當(dāng)于一個(gè)保存字符的序列容器,因此除了有字符串的一些常用操作以外,還有包含了所有的序列容器的操作。字符串的常用操作包括:增加、刪除、修改、查找比較、鏈接、輸入、輸出等。詳細(xì)函數(shù)列表參看附錄。不要害怕這么多函數(shù),其實(shí)有許多是序列容器帶有的,平時(shí)不一定用的上。 如果你要想了解所有函數(shù)的詳細(xì)用法,你需要查看basic_string,或者下載STL編程手冊(cè)。這里通過(guò)實(shí)例介紹一些常用函數(shù)。 下面是程序的輸出 有了這些操作符,在STL中仿函數(shù)都可以直接使用string作為參數(shù),例如 less, great, equal_to 等,因此在把string作為參數(shù)傳遞的時(shí)候,它的使用和int 或者float等已經(jīng)沒(méi)有什么區(qū)別了。例如,你可以使用: 有了操作符以后,assign(), append(), compare(), at()等函數(shù),除非有一些特殊的需求時(shí),一般是用不上。當(dāng)然at()函數(shù)還有一個(gè)功能,那就是檢查下標(biāo)是否合法,如果是使用: find 和 rfind 都還比較容易理解,一個(gè)是正向匹配,一個(gè)是逆向匹配,后面的參數(shù)pos都是用來(lái)指定起始查找位置。對(duì)于find_first_of 和find_last_of 就不是那么好理解。 find_first_of 是給定一個(gè)要查找的字符集,找到這個(gè)字符集中任何一個(gè)字符所在字符串中第一個(gè)位置。或許看一個(gè)例子更容易明白。 有這樣一個(gè)需求:過(guò)濾一行開頭和結(jié)尾的所有非英文字符。看看用string 如何實(shí)現(xiàn): string只是提供了按照位置和區(qū)間的replace函數(shù),而不能用一個(gè)string字串來(lái)替換指定string中的另一個(gè)字串。這里寫一個(gè)函數(shù)來(lái)實(shí)現(xiàn)這個(gè)功能:
1 string 使用
其實(shí),string并不是一個(gè)單獨(dú)的容器,只是basic_string 模板類的一個(gè)typedef 而已,相對(duì)應(yīng)的還有wstring, 你在string 頭文件中你會(huì)發(fā)現(xiàn)下面的代碼:extern "C++" {typedef basic_string <char> string;typedef basic_string <wchar_t> wstring;} // extern "C++"
1.1 充分使用string 操作符
string 重載了許多操作符,包括 +, +=, <, =,
, [], <<, >>等,正式這些操作符,對(duì)字符串操作非常方便。先看看下面這個(gè)例子:tt.cpp(例程2)#include <string>#include <iostream>using namespace std;int main(){string strinfo="Please input your name:";cout << strinfo ;cin >> strinfo;if( strinfo == "winter" )cout << "you are winter!"<<endl;else if( strinfo != "wende" )cout << "you are not wende!"<<endl;else if( strinfo < "winter")cout << "your name should be ahead of winter"<<endl;elsecout << "your name should be after of winter"<<endl;strinfo += " , Welcome to China!";cout << strinfo<<endl;cout <<"Your name is :"<<endl;string strtmp = "How are you? " + strinfo;for(int i = 0 ; i < strtmp.size(); i ++)cout<<strtmp[i];return 0;}
-bash-2.05b$ make ttc++ -O -pipe -march=pentiumpro tt.cpp -o tt-bash-2.05b$ ./ttPlease input your name:Heroyou are not wende!Hero , Welcome to China!How are you? Hero , Welcome to China!
map<string, int> mymap;//以上默認(rèn)使用了 less<string>
string strinfo="Winter";string strlast="Hello " + strinfo + "!";//你還可以這樣:string strtest="Hello " + strinfo + " Welcome" + " to China" + " !";
由于這個(gè)等式是由左到右開始檢測(cè)執(zhí)行,如果開始兩項(xiàng)都是const char* ,程序自己并沒(méi)有定義兩個(gè)const char* 的加法,編譯的時(shí)候肯定就有問(wèn)題了。string str="winter";//下面一行有可能會(huì)引起程序中斷錯(cuò)誤str[100]='!';//下面會(huì)拋出異常:throws: out_of_rangecout<<str.at(100)<<endl;
1.2 眼花繚亂的string find 函數(shù)
由于查找是使用最為頻繁的功能之一,string 提供了非常豐富的查找函數(shù)。其列表如下:
以上函數(shù)都是被重載了4次,以下是以find_first_of 函數(shù)為例說(shuō)明他們的參數(shù),其他函數(shù)和其參數(shù)一樣,也就是說(shuō)總共有24個(gè)函數(shù) : 函數(shù)名 描述 find 查找 rfind 反向查找 find_first_of 查找包含子串中的任何字符,返回第一個(gè)位置 find_first_not_of 查找不包含子串中的任何字符,返回第一個(gè)位置 find_last_of 查找包含子串中的任何字符,返回最后一個(gè)位置 find_last_not_of 查找不包含子串中的任何字符,返回最后一個(gè)位置 size_type find_first_of(const basic_string& s, size_type pos = 0)size_type find_first_of(const charT* s, size_type pos, size_type n)size_type find_first_of(const charT* s, size_type pos = 0)size_type find_first_of(charT c, size_type pos = 0)
template <class _CharT, class _Traits, class _Alloc>const basic_string<_CharT,_Traits,_Alloc>::size_typebasic_string<_CharT,_Traits,_Alloc>::npos= basic_string<_CharT,_Traits,_Alloc>::size_type) -1;
#include <string>#include <iostream>using namespace std;int main(){string strinfo=" //*---Hello Word!......------";string strset="ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz";int first = strinfo.find_first_of(strset);if(first == string::npos) {cout<<"not find any characters"<<endl;return -1;}int last = strinfo.find_last_of(strset);if(last == string::npos) {cout<<"not find any characters"<<endl;return -1;}cout << strinfo.substr(first, last - first + 1)<<endl;return 0;}
Hello Word
張三|3456123, 湖南李四,4564234| 湖北王小二, 4433253|北京...
1.3 string insert, replace, erase
了解了string 的操作符,查找函數(shù)和substr,其實(shí)就已經(jīng)了解了string的80%的操作了。insert函數(shù), replace函數(shù)和erase函數(shù)在使用起來(lái)相對(duì)簡(jiǎn)單。下面以一個(gè)例子來(lái)說(shuō)明其應(yīng)用。void string_replace(string & strBig, const string & strsrc, const string &strdst) {string::size_type pos=0;string::size_type srclen=strsrc.size();string::size_type dstlen=strdst.size();while( (pos=strBig.find(strsrc, pos)) != string::npos){strBig.replace(pos, srclen, strdst);pos += dstlen;}}
#include <string>#include <iostream>using namespace std;int main() {string strinfo="This is Winter, Winter is a programmer. Do you know Winter?";cout<<"Orign string is :\n"<<strinfo<<endl;string_replace(strinfo, "Winter", "wende");cout<<"After replace Winter with wende, the string is :\n"<<strinfo<<endl;return 0;}
Orign string is :This is Winter, Winter is a programmer. Do you know Winter?After replace Winter with wende, the string is :This is wende, wende is a programmer. Do you know wende?
void string_replace(string & strBig, const string & strsrc, const string &strdst) {string::size_type pos=0;string::size_type srclen=strsrc.size();string::size_type dstlen=strdst.size();while( (pos=strBig.find(strsrc, pos)) != string::npos){strBig.erase(pos, srclen);strBig.insert(pos, strdst);pos += dstlen;}}
2 string 和 C風(fēng)格字符串
現(xiàn)在看了這么多例子,發(fā)現(xiàn)const char* 可以和string 直接轉(zhuǎn)換,例如我們?cè)谏厦娴睦又?,使?div id="c9ozetgccsir" class="BeautifierPlugin">string_replace(strinfo, "Winter", "wende");
void string_replace(string & strBig, const string & strsrc, const string &strdst)
const charT* c_str() constconst charT* data() constsize_type copy(charT* buf, size_type n, size_type pos = 0) const
const charT* c_str () const{ if (length () == 0) return ""; terminate (); return data (); }
對(duì)于c_str() data()函數(shù),返回的數(shù)組都是由string本身?yè)碛?,千萬(wàn)不可修改其內(nèi)容。其原因是許多string實(shí)現(xiàn)的時(shí)候采用了引用機(jī)制,也就是說(shuō),有可能幾個(gè)string使用同一個(gè)字符存儲(chǔ)空間。而且你不能使用sizeof(string)來(lái)查看其大小。詳細(xì)的解釋和實(shí)現(xiàn)查看Effective STL的條款15:小心string實(shí)現(xiàn)的多樣性。
另外在你的程序中,只在需要時(shí)才使用c_str()或者data()得到字符串,每調(diào)用一次,下次再使用就會(huì)失效,如:
string strinfo("this is Winter");...//最好的方式是:foo(strinfo.c_str());//也可以這么用:const char* pstr=strinfo.c_str();foo(pstr);//不要再使用了pstr了, 下面的操作已經(jīng)使pstr無(wú)效了。strinfo += " Hello!";foo(pstr);//錯(cuò)誤!
template <class charT, class traits = char_traits<charT>,class Allocator = allocator<charT> >class basic_string{//...}
就像Steve Donovan在過(guò)度使用C++模板中提到的,這些確實(shí)有些過(guò)頭了,要不是系統(tǒng)自己定義了相關(guān)的一些屬性,而且用了個(gè)typedef,否則還真不知道如何使用。
但復(fù)雜總有復(fù)雜道理。有了char_traits,你可以定義自己的字符串類型。當(dāng)然,有了char_traits < char > 和char_traits < wchar_t > 你的需求使用已經(jīng)足夠了,為了更好的理解string ,咱們來(lái)看看char_traits都有哪些要求。
如果你希望使用你自己定義的字符,你必須定義包含下列成員的結(jié)構(gòu):
表達(dá)式 | 描述 |
---|---|
char_type | 字符類型 |
int_type | int 類型 |
pos_type | 位置類型 |
off_type | 表示位置之間距離的類型 |
state_type | 表示狀態(tài)的類型 |
assign(c1,c2) | 把字符c2賦值給c1 |
eq(c1,c2) | 判斷c1,c2 是否相等 |
lt(c1,c2) | 判斷c1是否小于c2 |
length(str) | 判斷str的長(zhǎng)度 |
compare(s1,s2,n) | 比較s1和s2的前n個(gè)字符 |
copy(s1,s2, n) | 把s2的前n個(gè)字符拷貝到s1中 |
move(s1,s2, n) | 把s2中的前n個(gè)字符移動(dòng)到s1中 |
assign(s,n,c) | 把s中的前n個(gè)字符賦值為c |
find(s,n,c) | 在s的前n個(gè)字符內(nèi)查找c |
eof() | 返回end-of-file |
to_int_type(c) | 將c轉(zhuǎn)換成int_type |
to_char_type(i) | 將i轉(zhuǎn)換成char_type |
not_eof(i) | 判斷i是否為EOF |
eq_int_type(i1,i2) | 判斷i1和i2是否相等 |
現(xiàn)在默認(rèn)的string版本中,并不支持忽略大小寫的比較函數(shù)和查找函數(shù),如果你想練練手,你可以試試改寫一個(gè)char_traits , 然后生成一個(gè)case_string類, 也可以在string 上做繼承,然后派生一個(gè)新的類,例如:ext_string,提供一些常用的功能,例如:
函數(shù)名 | 描述 |
begin | 得到指向字符串開頭的Iterator |
end | 得到指向字符串結(jié)尾的Iterator |
rbegin | 得到指向反向字符串開頭的Iterator |
rend | 得到指向反向字符串結(jié)尾的Iterator |
size | 得到字符串的大小 |
length | 和size函數(shù)功能相同 |
max_size | 字符串可能的最大大小 |
capacity | 在不重新分配內(nèi)存的情況下,字符串可能的大小 |
empty | 判斷是否為空 |
operator[] | 取第幾個(gè)元素,相當(dāng)于數(shù)組 |
c_str | 取得C風(fēng)格的const char* 字符串 |
data | 取得字符串內(nèi)容地址 |
operator= | 賦值操作符 |
reserve | 預(yù)留空間 |
swap | 交換函數(shù) |
insert | 插入字符 |
append | 追加字符 |
push_back | 追加字符 |
operator+= | += 操作符 |
erase | 刪除字符串 |
clear | 清空字符容器中所有內(nèi)容 |
resize | 重新分配空間 |
assign | 和賦值操作符一樣 |
replace | 替代 |
copy | 字符串到空間 |
find | 查找 |
rfind | 反向查找 |
find_first_of | 查找包含子串中的任何字符,返回第一個(gè)位置 |
find_first_not_of | 查找不包含子串中的任何字符,返回第一個(gè)位置 |
find_last_of | 查找包含子串中的任何字符,返回最后一個(gè)位置 |
find_last_not_of | 查找不包含子串中的任何字符,返回最后一個(gè)位置 |
substr | 得到字串 |
compare | 比較字符串 |
operator+ | 字符串鏈接 |
operator== | 判斷是否相等 |
operator!= | 判斷是否不等于 |
operator< | 判斷是否小于 |
operator>> | 從輸入流中讀入字符串 |
operator<< | 字符串寫入輸出流 |
getline | 從輸入流中讀入一行 |
聯(lián)系客服