【自然言語処理】文字列の分割・結合(Python)
最近、自然言語処理を行う機会が増え、文字を操作する機会が増えました。 Tipsとして文字列の分割と結合をまとめました。
''' 文字列を1文字ずつ分割 →リストに格納 ''' test = '鹿児島県' list(test) #Out[1]: ['鹿', '児', '島', '県'] ''' 文字列を特定の文字ごとに分割 ''' test = '山口県沖縄県徳島県和歌山県' test.split("県") #Out[3]: ['山口', '沖縄', '徳島', '和歌山', ''] test = '北海道,秋田県,石川県,東京都' test.split() #引数に何も指定しないとスペースやタブ等で自動的に区切る #Out[11]: ['北海道,秋田県,石川県,東京都'] ''' 文字列を先頭から〇文字目で分割 スライスで文字を取得できる(2文字目から4文字目までとか ''' test = '山口県沖縄県徳島県和歌山県' test[3:6] #Out[24]: '沖縄県' #マイナスは後ろから〇文字目 test[3:-4] #Out[25]: '沖縄県徳島県' ''' 文字列の結合 ''' a = '滋賀県' b = '佐賀県' c = '奈良県' #単純に足す a + b + c #Out[16]: '滋賀県佐賀県奈良県' #joinを使う s = ''.join([a,b,c]) print(s) #滋賀県佐賀県奈良県 ''' 文字列の結合(ただし、結合する文字列のあいだに文字を入れる) ''' a = '滋賀県' b = '佐賀県' c = '奈良県' #空白を入れる s1 = ' '.join([a,b,c]) print(s1) #滋賀県 佐賀県 奈良県 #,を入れる s2 = ','.join([a,b,c]) print(s2) #滋賀県,佐賀県,奈良県