いっかくのデータサイエンティストをいく

1からプログラミングとデータサイエンスを独習したい

【自然言語処理】文字列の分割・結合(Python)

最近、自然言語処理を行う機会が増え、文字を操作する機会が増えました。 Tipsとして文字列の分割と結合をまとめました。

'''
文字列を1文字ずつ分割
→リストに格納
'''
test = '鹿児島県'
list(test)
#Out[1]: ['鹿', '児', '島', '県']


'''
文字列を特定の文字ごとに分割
'''
test = '山口県沖縄県徳島県和歌山県'
test.split("県")
#Out[3]: ['山口', '沖縄', '徳島', '和歌山', '']

test = '北海道,秋田県,石川県,東京都'
test.split() #引数に何も指定しないとスペースやタブ等で自動的に区切る
#Out[11]: ['北海道,秋田県,石川県,東京都']


'''
文字列を先頭から〇文字目で分割
スライスで文字を取得できる(2文字目から4文字目までとか
'''
test = '山口県沖縄県徳島県和歌山県'
test[3:6]
#Out[24]: '沖縄県'

#マイナスは後ろから〇文字目
test[3:-4]
#Out[25]: '沖縄県徳島県'


'''
文字列の結合
'''
a = '滋賀県'
b = '佐賀県'
c = '奈良県'

#単純に足す
a + b + c
#Out[16]: '滋賀県佐賀県奈良県'

#joinを使う
s = ''.join([a,b,c])
print(s)
#滋賀県佐賀県奈良県


'''
文字列の結合(ただし、結合する文字列のあいだに文字を入れる)
'''
a = '滋賀県'
b = '佐賀県'
c = '奈良県'

#空白を入れる
s1 = ' '.join([a,b,c])
print(s1)
#滋賀県 佐賀県 奈良県

#,を入れる
s2 = ','.join([a,b,c])
print(s2)
#滋賀県,佐賀県,奈良県